پیکره‌های زبان فارسی

پیکره‌های زبان فارسی تألیف دکتر حیات عامری، پیکره یکی از پروژه‌های زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب می‌شود و به حجم عظیمی از داده‌های زبانی گفته می‌شود که براساس معیارهای مشخص برای هدف معینی جمع‌آوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعه‌اند.

پیکره‌های زبان فارسی
پیکره‌های زبان فارسی
پدیدآورانعامری، حیات (نویسنده)
ناشردولت علم
مکان نشرتهران
سال نشر1397
شابک4ـ4ـ98180ـ600ـ978
موضوعزبان‌شناسی پیکره‌ای,Corpora (Linguistics),فارسی,Persian language,پردازش زبان طبیعی,Natural language processing (Computer science),a01,a01,a02,a02,a03,a03
کد کنگره
‏P ۱۲۸/ز۲ع۲ ۱۳۹۷

ساختار

کتاب در هفت فصل تدوین شده است.

گزارش کتاب

پیکره یکی از پروژه‌های زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب می‌شود و به حجم عظیمی از داده‌های زبانی گفته می‌شود که براساس معیارهای مشخص برای هدف معینی جمع‌آوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعه‌اند. معیارهای انتخاب زبانی که در طراحی یک پیکره در نظر گرفته می‌شوت عبارت‌اند از نوع متن (گفتاری، نوشتای یا حتی الکترونیکی)، زبان یا گونۀ زبانی (گونۀ معیار، فوق معیار، زیرمعیار)، نوع رسانه (کتاب، نشریه، آگهی و ...) محل تولید متن و بازۀ زمانی تولید متن. پیکره‌ها براساس اهداف پردازش زبان طبیعی در سطوح مختلف زبانی (آواشناسی، تکواژی، نحوی، گفتمان و کاربردشناسی) انجام می‌پذیرند و هر یک حجم متفاوتی از متون را دربرمی‌گیرد.

پیکره‌های زبانی براساس هدف غایی خود انواع مختلفی دارند: پیکرۀ نوشتاری، پیکرۀ گفتاری، پیکرۀ تاریخی، پیکرۀ زبان کودک، پیکرۀ چند زبانه، پیکرۀ زبان‌آموز، پیکرۀ موازی و پیکرۀ نحوی (بانک درختی).

طراحی پیکره یکی از زیر ساخت‌های ضروری برای انجام تحقیقات زبانی و پردازش زبان طبیعی است. از کاربردهای پردازش زبان طبیعی می‌‌توان به ترجمۀ ماشینی، بازیابی اطلاعات، استخراج اطلاعات، خلاصه‌سازی خودکار، نویسه‌خوان نوری و بسیاری از کاربردهای دیگر اشاره کرد. برای هر یک از این اهداف به طراحی یک پیکرۀ زبانی خاص در یکی از سطوح زبانی نیاز داریم. سطوح تحلیل زبان عبارت‌اند از سطح آواشناسی، واژگانی، نحوی، معناشناسی، گفتمان و کاربردشناسی. پس از طراحی چنین پیکره‌ای از ابزراهایی برای تحلیل زبانی این پیکره‌ها استفاده می‌شود. این ابزارها نرم‌افزارهایی هستند که کار تحلیل زبانی را سریع‌تر و با دقت نسبتاً بالایی انجام می‌دهند.

امروزه زبان فارسی به عنوان زبان معیار در کشور ایران در تمام محافل ارتباطی یا چالش‌هایی روبه‌روست. یکی از این چالش‌ها استفاده از زبان فارسی در فضای مجازی و تأثیری است که فضای مجازی بر آن می‌گذارد. زبان به‌مثابۀ یکی از ویژگی‌های خاص بشر همواره ماهیتی پویا و متغیر داشته و دارد. با تغییر فرهنگ و سبک زندگی بشر در طول تاریخ همواره زبان وی نیز دستخوش تغییر و دگرگونی بوده است. زبان فارسی هم در طی زندگی طولانی خود دچار دگرگونی‌های اساسی شده است؛ اما آنچه در این مجال باعث نگرانی است، تغییرات زبانی است که در فضای مجازی از روند طبیعی و تدریجی خود خارج شده است. در فضای مجازی عواملی در گسترش و تسریع این تغییرات دخیل‌اند که جنبه‌های مختلفی از فرهنگ و منش کاربران اینترنت را پوشش می‌دهند. خط و زبان فارسی به دلیل ویژگی‌های خاصی که دارد در فضای مجازی با مسائلی روبه‌روست که عدم توجه به آنها ممکن است آسیب‌های جبران ناپذیری به این زبان وارد نماید. با بررسی مشکلات زبان فارسی در فضای مجازی ریشه‌یابی آنها و ارائۀ راهکارهایی می‌توان تا حد زیادی بر این مشکلات غلبه و از زبان فارسی در برار تغییرات ناگهانی، نادرست و سهل‌انگرانه محافظت کرد. یکی از راهکارهای اصلی برای به حداقل رساندن این آسیب‌ها تقویت و گسترش پیکره‌های زبان فارسی است.

امروزه روش‌های آماری و مبتنی بر یادگیری ماشینی در پردازش زبان طبیعی و ایجاد سامانه‌هایی چون سامانه‌های ترجمۀ ماشینی، پرسش‌ و پاسخ خودکار، تبدیل رایانه‌ای متن به گفتار و بالعکس، بازیابی اطلاعات و ... کاربرد فراوانی یافته‌اند. یکی از ملزومات استفاده از روش‌های آماری در پردازش زبان طبیعی، دسترسی به داده‌های زبانی شامل پیکره‌های متنی، پیکره‌های درختی، واژگان، بانگ‌های صوتی و ... است و عدم دسترسی مناسب به چنین داده‌هایی مشکلات فراواتی را پیش پای پژوهشگران قرار می‌دهد.

از سوی دیگر بسیاری از زبان‌شناسان در پژوهش‌های خود از پیکره‌های زبانی بهره می‌گیرند و به بررسی ویژگی‌ها و کشف قواعد زبان از طریق اطلاعات موجود در داده‌های زبانی می‌پردازند.

این نوشتار مروری بر پیکره‌های به وجود آمده برای زبان فارسی و مراحل ساخت، ویژگی‌ها، امکانات، کاربردهای آن است و نیز ناکارآمدی‌ها و نواقص هر کدام از این پیکره‌ها را مورد بررسی قرار می‌دهد.

فصل اول کتاب به تعریف پیکره و مسایل نظری مربوط به تهیه پیکره‌ها می‌پردازد و در فصل‌های بعدی انواع پیکره‌های ایجاد شده برای زبان فارسی را تا سال 1394 به تفکیک نوع معرفی می‌کند و ویژگی‌های هر یک را شرح می‌دهد.[۱]

پانويس


منابع مقاله

پایگاه کتابخانه تخصصی ادبیات

وابسته‌ها