پیکره‌های زبان فارسی: تفاوت میان نسخه‌ها

جز
جایگزینی متن - ' .' به '.'
بدون خلاصۀ ویرایش
جز (جایگزینی متن - ' .' به '.')
برچسب‌ها: ویرایش همراه ویرایش از وبگاه همراه
 
خط ۳۱: خط ۳۱:


==گزارش کتاب==
==گزارش کتاب==
پیکره یکی از پروژه‌های زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب می‌شود و به حجم عظیمی از داده‌های زبانی گفته می‌شود که براساس معیارهای مشخص برای هدف معینی جمع‌آوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعه‌اند. معیارهای انتخاب زبانی که در طراحی یک پیکره در نظر گرفته می‌شوت عبارت‌اند از نوع متن (گفتاری، نوشتای یا حتی الکترونیکی)، زبان یا گونۀ زبانی (گونۀ معیار، فوق معیار، زیرمعیار)، نوع رسانه (کتاب، نشریه، آگهی و ...) محل تولید متن و بازۀ زمانی تولید متن. پیکره‌ها براساس اهداف پردازش زبان طبیعی در سطوح مختلف زبانی (آواشناسی، تکواژی، نحوی، گفتمان و کاربردشناسی) انجام می‌پذیرند و هر یک حجم متفاوتی از متون را دربرمی‌گیرد.
پیکره یکی از پروژه‌های زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب می‌شود و به حجم عظیمی از داده‌های زبانی گفته می‌شود که براساس معیارهای مشخص برای هدف معینی جمع‌آوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعه‌اند. معیارهای انتخاب زبانی که در طراحی یک پیکره در نظر گرفته می‌شوت عبارت‌اند از نوع متن (گفتاری، نوشتای یا حتی الکترونیکی)، زبان یا گونۀ زبانی (گونۀ معیار، فوق معیار، زیرمعیار)، نوع رسانه (کتاب، نشریه، آگهی و...) محل تولید متن و بازۀ زمانی تولید متن. پیکره‌ها براساس اهداف پردازش زبان طبیعی در سطوح مختلف زبانی (آواشناسی، تکواژی، نحوی، گفتمان و کاربردشناسی) انجام می‌پذیرند و هر یک حجم متفاوتی از متون را دربرمی‌گیرد.


پیکره‌های زبانی براساس هدف غایی خود انواع مختلفی دارند: پیکرۀ نوشتاری، پیکرۀ گفتاری، پیکرۀ تاریخی، پیکرۀ زبان کودک، پیکرۀ چند زبانه، پیکرۀ زبان‌آموز، پیکرۀ موازی و پیکرۀ نحوی (بانک درختی).
پیکره‌های زبانی براساس هدف غایی خود انواع مختلفی دارند: پیکرۀ نوشتاری، پیکرۀ گفتاری، پیکرۀ تاریخی، پیکرۀ زبان کودک، پیکرۀ چند زبانه، پیکرۀ زبان‌آموز، پیکرۀ موازی و پیکرۀ نحوی (بانک درختی).
خط ۳۹: خط ۳۹:
امروزه زبان فارسی به عنوان زبان معیار در کشور ایران در تمام محافل ارتباطی یا چالش‌هایی روبه‌روست. یکی از این چالش‌ها استفاده از زبان فارسی در فضای مجازی و تأثیری است که فضای مجازی بر آن می‌گذارد. زبان به‌مثابۀ یکی از ویژگی‌های خاص بشر همواره ماهیتی پویا و متغیر داشته و دارد. با تغییر فرهنگ و سبک زندگی بشر در طول تاریخ همواره زبان وی نیز دستخوش تغییر و دگرگونی بوده است. زبان فارسی هم در طی زندگی طولانی خود دچار دگرگونی‌های اساسی شده است؛ اما آنچه در این مجال باعث نگرانی است، تغییرات زبانی است که در فضای مجازی از روند طبیعی و تدریجی خود خارج شده است. در فضای مجازی عواملی در گسترش و تسریع این تغییرات دخیل‌اند که جنبه‌های مختلفی از فرهنگ و منش کاربران اینترنت را پوشش می‌دهند. خط و زبان فارسی به دلیل ویژگی‌های خاصی که دارد در فضای مجازی با مسائلی روبه‌روست که عدم توجه به آنها ممکن است آسیب‌های جبران ناپذیری به این زبان وارد نماید. با بررسی مشکلات زبان فارسی در فضای مجازی ریشه‌یابی آنها و ارائۀ راهکارهایی می‌توان تا حد زیادی بر این مشکلات غلبه و از زبان فارسی در برار تغییرات ناگهانی، نادرست و سهل‌انگرانه محافظت کرد. یکی از راهکارهای اصلی برای به حداقل رساندن این آسیب‌ها تقویت و گسترش پیکره‌های زبان فارسی است.
امروزه زبان فارسی به عنوان زبان معیار در کشور ایران در تمام محافل ارتباطی یا چالش‌هایی روبه‌روست. یکی از این چالش‌ها استفاده از زبان فارسی در فضای مجازی و تأثیری است که فضای مجازی بر آن می‌گذارد. زبان به‌مثابۀ یکی از ویژگی‌های خاص بشر همواره ماهیتی پویا و متغیر داشته و دارد. با تغییر فرهنگ و سبک زندگی بشر در طول تاریخ همواره زبان وی نیز دستخوش تغییر و دگرگونی بوده است. زبان فارسی هم در طی زندگی طولانی خود دچار دگرگونی‌های اساسی شده است؛ اما آنچه در این مجال باعث نگرانی است، تغییرات زبانی است که در فضای مجازی از روند طبیعی و تدریجی خود خارج شده است. در فضای مجازی عواملی در گسترش و تسریع این تغییرات دخیل‌اند که جنبه‌های مختلفی از فرهنگ و منش کاربران اینترنت را پوشش می‌دهند. خط و زبان فارسی به دلیل ویژگی‌های خاصی که دارد در فضای مجازی با مسائلی روبه‌روست که عدم توجه به آنها ممکن است آسیب‌های جبران ناپذیری به این زبان وارد نماید. با بررسی مشکلات زبان فارسی در فضای مجازی ریشه‌یابی آنها و ارائۀ راهکارهایی می‌توان تا حد زیادی بر این مشکلات غلبه و از زبان فارسی در برار تغییرات ناگهانی، نادرست و سهل‌انگرانه محافظت کرد. یکی از راهکارهای اصلی برای به حداقل رساندن این آسیب‌ها تقویت و گسترش پیکره‌های زبان فارسی است.


امروزه روش‌های آماری و مبتنی بر یادگیری ماشینی در پردازش زبان طبیعی و ایجاد سامانه‌هایی چون سامانه‌های ترجمۀ ماشینی، پرسش‌ و پاسخ خودکار، تبدیل رایانه‌ای متن به گفتار و بالعکس، بازیابی اطلاعات و ... کاربرد فراوانی یافته‌اند. یکی از ملزومات استفاده از روش‌های آماری در پردازش زبان طبیعی، دسترسی به داده‌های زبانی شامل پیکره‌های متنی، پیکره‌های درختی، واژگان، بانگ‌های صوتی و ... است و عدم دسترسی مناسب به چنین داده‌هایی مشکلات فراواتی را پیش پای پژوهشگران قرار می‌دهد.
امروزه روش‌های آماری و مبتنی بر یادگیری ماشینی در پردازش زبان طبیعی و ایجاد سامانه‌هایی چون سامانه‌های ترجمۀ ماشینی، پرسش‌ و پاسخ خودکار، تبدیل رایانه‌ای متن به گفتار و بالعکس، بازیابی اطلاعات و... کاربرد فراوانی یافته‌اند. یکی از ملزومات استفاده از روش‌های آماری در پردازش زبان طبیعی، دسترسی به داده‌های زبانی شامل پیکره‌های متنی، پیکره‌های درختی، واژگان، بانگ‌های صوتی و... است و عدم دسترسی مناسب به چنین داده‌هایی مشکلات فراواتی را پیش پای پژوهشگران قرار می‌دهد.


از سوی دیگر بسیاری از زبان‌شناسان در پژوهش‌های خود از پیکره‌های زبانی بهره می‌گیرند و به بررسی ویژگی‌ها و کشف قواعد زبان از طریق اطلاعات موجود در داده‌های زبانی می‌پردازند.
از سوی دیگر بسیاری از زبان‌شناسان در پژوهش‌های خود از پیکره‌های زبانی بهره می‌گیرند و به بررسی ویژگی‌ها و کشف قواعد زبان از طریق اطلاعات موجود در داده‌های زبانی می‌پردازند.