طبقه بندی انواع دادگان مورد نیاز و روش های خطایابی و استانداردسازی متنی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

درجه علمی در دسته‌بندی سابق وزارت علوم: علمی-پژوهشی

نویسندگان: ملوک السادات حسینی بهشتی هادی عبدی قویدل

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره 32 تابستان 1396 شماره 4 (پیاپی 90)

کلید واژه ها: تشخیص خطاهای املایی استانداردسازی نویسه ها طبقه بندی روش ها سامانه های تکزبانه فارسی چالش های زبان فارسی

حوزه های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

دریافت مقاله تعداد دانلود : ۵۸۰

آرشیو

چکیده

یکی از پایه ای ترین مراحل پردازش خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه هاست. بدون گذر از این مرحله، ذخیره سازی مستندات متنی با مشکلات متعددی مواجه شده و موجب اختلال در بازیابی ماشینی آن ها می گردد. بدین ترتیب، متخصصان حوزه های پردازش زبان طبیعی و زبان شناسی رایانشی همواره در تلاش ظهستند تا با ارائه روش ها و الگوریتم های مطلوب انواع داده ها را در بوته پردازش قرار داده و به داده ای استاندارد دست یابند. در زبان انگلیسی و برخی زبان های دیگر، تحقیقات متعددی در این زمینه انجام شده و به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاهی در حد پژوهش به قوت خود باقی مانده و گاهی نیز در قالب محصول عرضه شده است. مقاله حاضر به طبقه بندی انواع روش ها و دادگان مورد نیاز در این تحقیقات پرداخته و فرایند هر کدام از آن ها را به طور خاص و نحوه سنجش میزان دقت پردازش آن ها را به طور عام شرح می دهد. در این مقاله همچنین، نحوه عملکرد سامانه های تک زبانه فارسی توصیف شده و به نحوه برخورد آن ها با چالش های زبان فارسی اشاره می گردد.