آرشیو

آرشیو شماره ها:
۱۲

چکیده

این پژوهش تلاش دارد با جمع آوری اطلاعات مربوط به شاخص ها و مراحل ساخت پیکره زبانی، به پژوهشگران در زمینه ساخت انواع پیکره های زبانی کمک کند. در این راستا، در این مقاله، پس از بررسی نظرات پژوهشگرانی که اقدام به ساخت پیکره هایی در زبان های مختلف کرده اند، به شاخص های کلی ساخت پیکره های زبانی پرداخته می شود. این شاخص ها مربوط به ساخت گونه های متنی و گفتاری پیکره است که نمونه گیری، نمایندگی، توازن، اندازه، نوع پیکره و  یک دستی را شامل می شوند. سپس، فرآیند ساخت پیکره متنی ارائه می شود که انتخاب متون، پیش پردازش متون و حاشیه نویسی را در بر می گیرد و در این راستا به تفصیل درباره هر یک از مراحل توضیح داده می شود. در پایان، فرآیند ساخت پیکره گفتاری بیان می شود که جمع آوری داده ها، آوانویسی، نمایش و حاشیه نویسی و دسترسی را در بر می گیرد. درباره هر یک از مراحل مذکور نیز به تفصیل توضیح داده می شود.

Steps to be followed in corpus construction: written and spoken language corpora

The aim of this paper is to take readers through the basic steps involved in building a corpus of language data for different purposes. This is done via gathering information about corpus construction from related sources. After a review of literature (regarding corpus construction and the use of corpus in different fields) , this article offers advice in a non-technical style to help the researchers to make sure that their corpus is well-designed and fit for the intended purpose. Key points to be considered in constructing any corpus (written or spoken language) include: Sampling, Size, Representativeness, Balance, General vs. Specialized corpus and Homogeneity. The steps involved in constructing a text corpus are: text selection, text normalization and different kinds of annotation. The steps to be followed in constructing a spoken language/speech-based corpus are: data gathering, transcription, representation, annotation and access. In this paper all the afore-mentioned steps have been explained with related details.

تبلیغات