مصاحبه با دکتر پروانه خسروی‌زاده

شنبه, ۱۳ خرداد ۱۳۹۱، ۰۹:۵۴ ب.ظ

سابقه زبان‌شناسی رایانشی در جهان و در ایران

زبان‌شناسی رایانشی در جهان از سابقه‌ای بسیار کوتاه برخوردار است. هرچند مطالعات اولیه در این زمینه به سال‌های 1960 برمی‌گردد اما مطالعات جدی در زمینه پردازش زبان طبیعی در جهان کمتر از سی سال عمر دارد. خوشبختانه لزوم پرداختن به این علم جدید از دید پژوهشگران ایرانی نیز دور نمانده و در زمینه پردازش زبان فارسی، متخصصین این حوزه علمی دستاوردهایی ارزشمند ارائه کرده‌اند. اما علم با سرعتی مافوق تصور در مسیر پیشرفت حرکت می‌کند و ما نیز باید تلاش جدی خود را در راستای این حرکت انجام دهیم. با توجه به جوان بودن این علم در سطح جهان و نبود سیستم آموزشی منسجمی در زمینه تدریس این علم در ایران، دانشگاه صنعتی شریف در زمینه دستیابی به دانش علمی این حوزه در سطح کشور پیشگام بوده است.

اندیشه تاسیس رشته زبان‌شناسی رایانشی چگونه شکل گرفت؟

در فروردین ماه سال 1388 به همت انجمن زبان‌شناسی ایران هم‌اندیشی آواشناسی و واج‌شناسی برگزار شد و در این هم‌اندیشی دکتر حسین صامتی از دانشگاه صنعتی شریف مقاله‌ای در حوزه هوش مصنوعی ارائه کرد. دکتر صامتی در این هم‌اندیشی یادآور شد که کار در زمینه هوش مصنوعی زیاد و پیچیده است و در طول کار همواره با مشکلاتی روبرو هستیم که باید زبانشناسان به کمک ما بیایند و مشکلات ما را در حوزه زبان حل کنند. سخنرانی دکتر صامتی نقطه آغازی بود برای برنامه‌ریزی و راه‌اندازی رشته زبان‌شناسی رایانشی در مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف. البته در همین زمان برنامه و سرفصل دروس رشته زبان‌شناسی محاسباتی توسط دانشگاه شهید بهشتی نیز تهیه شده بود و به شورای گسترش آموزش عالی ارجاع شده بود اما دانشگاه صنعتی شریف هم به صورت جدی این امر را دنبال کرد و برنامه‌ای مجزا تدوین کرد. مسلما سهم دانشگاه شهید بهشتی در تدوین این برنامه بسیار اساسی و حائز اهمیت است و اندیشه تاسیس این رشته علمی در مقطع کارشناسی ارشد نخستین بار توسط دانشگاه شهید بهشتی شکل‌ گرفته بود اما با توجه به نظر مساعد شورای محترم دانشگاه صنعتی شریف نسبت به تاسیس این رشته و پیگیری‌های جدی این دانشگاه، در نهایت برنامه مصوب در شورای گسترش آموزش عالی تلفیقی از این دو برنامه پیشنهادی بود. دانشگاه صنعتی شریف، پس از کسب مجوز از وزارت علوم، تحقیقات و فناوری برای نخستین بار در ایران دوره کارشناسی ارشد زبان‌شناسی رایانشی را در مهرماه 1389 راه‌اندازی کرد.

تاسیس رشته زبان‌شناسی رایانشی در راستای اهداف نقشه جامع علمی کشور و سند چشم‌انداز 1404 قرار دارد.

مهمترین نکته در ترسیم نقشۀ جامع علمی کشور تبیین عالی ترین هدفی است که هدایت کلان نقشه را به عهده دارد. این هدف در سه سطح ترسیم شده که یکی از آن سه سطح "جبران فاصله با کشورهای توسعه‌یافته صنعتی" است و در این راستا شورای عالی انقلاب فرهنگی نیز مصوبات مختلفی درحوزه علم و فناوری داشته است.

ایجاد رشته زبان‌شناسی رایانشی و اجرای آن که در راستای تحقق اهداف سند چشم‌انداز 1404 و سیاست‌های کلی برنامه چهارم و پنجم توسعه کشور نیز بوده، از افتخارات مرکز زبان‌ها و زبان‌شناسی دانشگاه شریف است. از سوی دیگر دستاوردهای پژوهشی گروه زبان‌شناسی رایانشی این دانشگاه در زمره اولویت‌ها و طرح‌های پژوهشی مرکز پژوهش‌های مجلس شورای اسلامی قرار دارد و در نقشه جامع علمی کشور نیز از جمله فناوری‌های دارای اولویت تعریف شده است.

دانشجویان رشته زبان‌شناسی رایانشی:

در حال حاضر دو دوره از دانشجویان کارشناسی ارشد رشته زبان‌شناسی رایانشی در مرکز زبان‌ها و زبان‌شناسی مشغول به تحصیل هستند که در سال‌های تحصیلی 90-1389 و 91-1390 در دانشگاه صنعتی شریف پذیرفته شده‌اند. این دانشگاه برای سال تحصیلی آتی نیز دانشجو می‌پذیرد. دانشجویانی که در دانشگاه صنعتی شریف برای تحصیل در دوره کارشناسی ارشد رشته زبان‌شناسی رایانشی پذیرفته می‌شوند تلفیقی از دو شاخه فنی-مهندسی و علوم انسانی هستند. در شاخه فنی-مهندسی فارغ‌التحصیلان دوره کارشناسی رشته‌های مهندسی برق و مهندسی کامپیوتر و در شاخه علوم انسانی آن دسته از فارغ‌التحصیلان دوره کارشناسی که معمولا برای پذیرش در دوره کارشناسی ارشد رشته زبان‌شناسی همگانی واجد شرایط هستند پذیرفته می‌شوند.

دستاوردهای گروه زبان‌شناسی رایانشی مرکز زبان‌ها و زبان‌شناسی:

1- نرمال‌سازی خط تیره

ازجمله پژوهش‌های انجام‌گرفته در مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف، تلاش در جهت نرمال‌سازی متن فارسی است. با توجه به وسعت حوزه‌های مطالعاتی و کاربردی پردازش متن، از جمله تبدیل خودکار متن به گفتار، ترجمه ماشینی، استخراج اطلاعات از متون، خلاصه‌سازی و غیره، خوانش صحیح متن در محیط رایانه از اهمیت ویژه‌ای برخوردار است. ازاین‌رو، نرمال‌سازی متن زبان فارسی بسیار ضروری به‌نظر می‌رسد.

پژوهشگران مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف، نرمال‌سازی متن فارسی را از جنبه‌های گوناگونی مورد بررسی قرار داده‌اند. از پژوهش‌های انجام‌گرفته در این زمینه، تلاش در جهت نرمال‌سازی جنبه‌ای از متن زبان فارسی است که به منظور بازشناسی، طبقه‌بندی و واحدسازی انواع کاربرد خط‌تیره در زبان فارسی انجام گرفته ‌است. در این پژوهش به‌طور خاص به موضوع پردازش خط‌تیره و نحوه کاربرد انواع گوناگون آن در بافت‌های مختلف پرداخته شده است. این پروژه که به سرپرستی بنده و با همکاری آقای دکتر محمد بحرانی و یکی از دانشجویان این مرکز به نام آقای مهدی مرادی در مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف انجام شد، به بازشناسی گونه‌های کاربردی انواع خط‌تیره در زبان فارسی، طبقه‌بندی گونه‌های مختلف کاربرد آن در متون استخراجی و تحلیل آماری کاربرد این نشانه‌های نگارشی در پیکره متنی زبان فارسی پرداخته است. درنهایت با استفاده از نتایج به‌دست‌آمده از تحلیل داده‌ها، این نشانه‌های نگارشی براساس بافتی که در آن به‌کار رفته‌اند، نرمال‌سازی شده‌اند. برنامه نرمال‌ساز خط تیره در ابعاد گوناگونی چون پردازش متن، مکمل برنامه‌های اصلاحگر املایی، توسعه برنامه‌های ویراستاری متون از حیث رعایت اصول نگارشی، برنامه‌های تحلیل و تبدیل متن به گفتار و نیز ترجمه ماشینی کاربرد دارد.

2- برنامه تحلیلگر صرفی

این برنامه که به سرپرستی دکتر محرم اسلامی توسط یکی از دانشجویان این مرکز به نام آقای مهندس وحید مواجی تهیه شده، می‌تواند در مطالعات نظری و کاربردی علم زبان‌شناسی و نیز مهندسی زبان بسیار مفید باشد. برنامه تحلیلگر صرفی "پارس مورف" در آزمایشگاه پردازش زبان و گفتار مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف طراحی شده و مراحل تکمیلی خود را سپری می‌کند. دموی این برنامه به صورت برخط در آدرس اینترنتی:http://81.31.191.11 در دسترس است. نتایج این تحقیق در زمینه‌های مختلف از جمله موارد زیر کاربرد دارد:

- توسعه اصلاحگر‌های املایی

- توسعه برنامه ویراستاری متون از حیث رعایت اصول نگارشی

- تهیه منابع زبانی با استفاده از پیکره‌های بزرگ زبانی مانند فرهنگ‌های لغت پیکره-بنیاد با اهداف متفاوت و یا تهیه دستورزبان‌های پیکره-بنیاد

- ترجمه ماشینی

- تبدیل متن به گفتار

- تبدیل گفتار به متن

- استخراج اطلاعات از پیکره‌های بزرگ

- خلاصه‌سازی متون

3- طراحی و پیاده‌سازی پیکره موازی فارسی-انگلیسی به منظور استفاده در سامانه‌های ترجمه خودکار

اکثر سیستم‌های ترجمه اتوماتیک آماری نیاز به یک پیکره دو زبانه (مثلا فارسی و انگلیسی) دارند. این پیکره‌ها باید در سطح واژه و جمله هم‌ردیف و جفت شده باشند. متاسفانه تاکنون در زمینه تهیه پیکره موازی برای زبان فارسی تلاش کمی صورت گرفته است. در این پروژه مسئله حقوق معنوی مولفین و مترجمین به عنوان مهمترین اصل درنظر گرفته شده است. به همین دلیل در تهیه پیکره موازی فارسی-انگلیسی به هیچ‌وجه از متون و ترجمه‌هایی که دارای حقوق معنوی هستند و حق کپی‌رایت دارند استفاده نمی‌شود. متاسفانه در تهیه پیکره‌های موازی فارسی-انگلیسی موجود به این مسئله توجه چندانی نشده و به همین دلیل در مطالعاتی که در سطح جهان بر روی زبان فارسی انجام می‌شود منابع موجود کمتر مورد استفاده قرار می‌گیرند. پروژه تهیه پیکره موازی فارسی-انگلیسی را بنده از ابتدای سال 1390 با همکاری آقای مهندس افشین رحیمی، دانشجوی کارشناسی ارشد زبان‌شناسی رایانشی این مرکز شروع کردم. هرچند که این پروژه بسیار جدی دنبال می‌شود اما با توجه به این نکته که به منظور احترام به اخلاق پژوهشی و عدم استفاده از متون ترجمه شده موجود، باید فرایند ترجمه برای تمام متون مورد استفاده در این پیکره طی شود، طبیعی است که این پروژه زمانبر خواهد بود. تا به حال حدود یکصد دانشجوی دانشگاه صنعتی شریف در ترجمه متون به ما کمک کرده‌اند.

ویژگی‌های پروژه در دست اجرای مرکز زبان‌ها و زبان‌شناسی به شرح زیر است:

- طراحی و پیاده‌سازی سامانه ذخیره‌سازی و بازیابی این پیکره با توجه به نوع سامانه متن باز انتخاب شده و همچنین الگوریتم انتخاب شده متفاوت است. مهمترین نکته در طراحی این پیکره شیوه جفت کردن واژه‌ها و جمله‌ها (word aligning, sentence aligning) است.

- سامانه تولید پیکره به‌گونه‌ای است که ناظر بر تصحیح ترجمه‌های اولیه بوده و قادر به وارد کردن ترجمه نهایی به پیکره باشد.

- طراحی و تولید سامانه ذخیره‌سازی و بازیابی پیکره دوزبانه یا چندزبانه خود می‌تواند در سطح یک پروژه بزرگ به عنوان گام اول پروژه ترجمه ماشینی مطرح باشد. این پروژه به‌گونه‌ای طراحی شده که از همکاری سایر دانشگاه‌ها و مراکز تحقیقاتی نیز می‌توان در تکمیل پیکره بهره برد.

- پس از پایان تولید پیکره دوزبانه، ترجمه اتوماتیک توسط سامانه متن باز انتخاب شده امکان پذیر خواهد بود و فاز سفارشی‌سازی نرم افزار ترجمه ماشینی قابل انجام خواهد بود.

4- طراحی و پیاده‌سازی سامانه نرم‌افزاری ترجمه اتوماتیک از زبان انگلیسی به زبان فارسی و بالعکس

با توجه به نیاز روزافزون فارسی‌زبانان به دسترسی به منابع علمی، پژوهشی و فناوری که به زبان انگلیسی نگاشته می‌شوند و همچنین گسترش روزافزون استفاده از اینترنت، ایجاد امکاناتی جهت دسترسی کاربران فارسی‌زبان به این منابع ضروری است. سامانه‌های ترجمه اتوماتیک به دو دسته کلی مبتنی بر قاعده و مبتنی بر داده تقسیم می شوند. در سال‌های اخیر افزایش سرمایه‌گذاری در سامانه‌های ترجمه اتوماتیک مبتنی بر داده منجر به پیشرفت الگوریتم‌ها و همچنین سامانه‌های نرم‌افزاری مربوطه در این زمینه شده است. اکثر سیستم‌های ترجمه اتوماتیک آماری نیاز به یک پیکره دو زبانه (مثلا فارسی و انگلیسی) دارند. این پیکره‌ها باید در سطح واژه و جمله هم‌ردیف و جفت شده باشند. فاز اول این طرح "طراحی و پیاده‌سازی پیکره موازی فارسی-انگلیسی به منظور استفاده در سامانه‌های ترجمه خودکار" است که در حال حاضر در مرکز زبان‌ها و زبان‌شناسی در‌دست اجراست. این طرح به منظور رفع نیاز جامعه فارسی زبان در دستور کار مرکز زبان‌ها و زبان‌شناسی قرار گرفته است.

مشخصات سامانه ترجمه خودکار به شرح زیر خواهد بود:

1- قابلیت ترجمه از زبان انگلیسی به فارسی و بالعکس با دقت قابل قبول

2- قابلیت گسترش پیکره به زبان‌های دیگر

3- قابلیت گسترش پیکره به‌صورت برخط

4- قابلیت ایجاد سرویس‌های وب جهت دسترسی از طریق اینترنت

5- قابلیت پشتیبانی از پردازش توزیع شده به منظور پاسخ‌گویی به حجم بالای درخواست‌ها

6- قابلیت ایجاد افزونه فایرفاکس در محیط وب جهت آسانی استفاده از مترجم

7- پشتیبانی از کدگذاری های مشهور فارسی در محیط وب

8- قابلیت ایجاد افزونه نگارشگر مایکروسافت و همچنین اسناد پی دی اف

برخی دیگر از طرح های مرکز زبان ها و زبان شناسی:

پروژه دیگر در مرکز زبان‌ها و زبان‌شناسی "برچسب‌زنی معنایی پیکره زبان فارسی" است. در پردازش زبان طبیعی استخراج معنی از اهمیت ویژه‌ای برخوردار است و پردازش معنایی را می‌توان آخرین زنجیره از وظایف پردازش زبان طبیعی دانست. هدف اصلی این پروژه توسعه یک سیستم رفع ابهام معنایی واژه و پیاده‌سازی یک برچسب‌زن مفهومی خودکار برای زبان فارسی و استفاده از آن برای برچسب‌زنی یک پیکره است.

یکی دیگر از پروژه‌های جاری در این مرکز "مطالعه و تحلیل آماری تغییرات رسایی در مرز هجاهای زبان فارسی" است. این پروژه در زمینه بهسازی گفتار در سیستم‌های پردازش گفتار و نیز تبدیل متن به گفتار و تبدیل گفتار به متن کاربرد دارد.

از دیگر محصولات پژوهشگران این مرکز "برچسب‌زن نقش کلمات" است که در حوزه پردازش زبان طبیعی و در زمینه ترجمه ماشینی نقش به سزایی دارد.

"بررسی رابطه میان چند حوزه‌ای بودن زمینه مطالعات و میزان خلاقیت استعاری" و "تشخیص خودکار و رفع ابهام معنایی مفاهیم استعاری و مجازی" دو پروژه تحقیقاتی دیگر در مرکز زبان‌ها و زبان‌شناسی است.

مرکز زبان ها و زبان شناسی همچنین به تهیه فرهنگ توصیفی دوزبانه زبان‌شناسی رایانشی پرداخته است. این فرهنگ درحال حاضر کامل شده و در آینده نزدیک به چاپ می‌رسد. این اقدام در جهت نیل به هدف والاتری است که تحت عنوان تهیه بانک اصطلاحات علمی کشور در برنامه بلندمدت مرکز زبان‌ها و زبان‌شناسی تعریف شده است.

نخستین هم‌اندیشی زبان‌شناسی رایانشی به همت انجمن زبان‌شناسی ایران در تیرماه سال 1391 برگزار خواهد شد.

زبان‌شناسی رایانشی از یک جنبه علمی نظری و از جنبه‌‌ای دیگر دانشی بسیار کاربردی و عملی است و درک چگونگی عملکرد زبان و مدل‌سازی آن برای رایانه، محور اصلی پژوهش‌های زبان‌شناسی رایانشی را تشکیل می‌دهد. به همین دلیل مطالعاتی که در این حوزه انجام می‌شود نیازمند تعامل میان متخصصین حوزه علوم فنی-مهندسی و پژوهشگران دانش زبان‌شناسی است. در رویکردهای نوین به زبان‌شناسی رایانشی، متخصصین علوم زبان‌شناسی، مهندسی برق، مهندسی کامپیوتر، مهندسی پزشکی، هوش مصنوعی، فناوری اطلاعات و ارتباطات و علوم شناختی به یاری یکدیگر می‌شتابند تا حاصل پژوهش‌های خود را به دستاوردهایی کاربردی تبدیل کنند. این رویکرد در نخستین هم‌اندیشی زبان‌شناسی رایانشی انجمن زبان‌شناسی ایران نیز از نظر دور نبوده است. مقالاتی که در نخستین هم‌اندیشی زبان‌شناسی رایانشی ارائه خواهد شد، براستی محصول هم‌اندیشی پژوهشگرانی است که در این حوزه‌های علمی فعال هستند و نشان از آن دارد که دانش پیوستاری است فارغ از مرزبندی‌هایی که بشر برای تفکیک حوزه‌های مطالعاتی ترسیم کرده است.

با کمال افتخار به اطلاع می رسانم که مقاله‌های این هم‌اندیشی تخصصی از ارزش محتوایی بسیار بالایی برخوردار است و اساتید گرانقدری که به همراه دانشجویان خود و یا به تنهایی به ارائه مقاله در این هم‌اندیشی می‌پردازند، از برجسته‌ترین افراد در حوزه مربوطه هستند. ندیشی ‌ادر این هم‌اندیشی 12 مقاله با همکاری اساتید و دانشجویان ارائه خواهد شد که حاصل دستاوردهای علمی پژوهشگرانی است که در زمینه‌های نظری و کاربردی حوزه‌هایی چون زبان‌شناسی، علوم شناختی، هوش مصنوعی، ترجمه ماشینی، فناوری اطلاعات و ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از پیکره‌های زبانی، پردازش متن و گفتار، تبدیل متن به گفتار، تبدیل گفتار به متن و تهیه بانک‌های اطلاعاتی فعالیت دارند. از این رو مقالاتی که در این هم‌اندیشی ارائه خواهند شد، طیف گسترده‌ای از مطالعات کاربردی را در زمینه زبان‌شناسی رایانشی پوشش می‌دهند.

در پایان جا دارد از مسئولین محترم انجمن زبان‌شناسی ایران که همواره در جهت پیشبرد دانش زبان‌شناسی در ایران کوشیده‌اند سپاسگزاری کنم. این انجمن یکی از فعالترین مراکز علمی کشور است و با برگزاری نشست‌های علمی خود در بالاترین سطح کیفی، به ارتقای دانش ایرانی پرداخته است.

۰ ۹۱/۰۳/۱۳

سید محمد مهدی مقدس

زبان‌شناسی همگانی

زبان‌شناسی همگانی

آزمون کارشناسی ارشد زبان‌شناسی

آزمون دکتری زبان‌شناسی

دانلود کتاب‌های زبان و زبان‌شناسی

دانلود مقاله‌های زبان و زبان‌شناسی

دانلود آزمون‌های کارشناسی ارشد و دکتری

دانلود جزوه و خلاصه‌های کتاب‌های زبان‌شناسی

عنوان پایان‌نامه‌های زبان‌شناسی

معرفی کتاب‌های زبان‌شناسی

همایش ها و خبرهای زبان‌شناسی

آواشناسی و واج‌شناسی

صرف

معنی‌شناسی

نحو

تحلیل گفتمان و تحلیل انتقادی گفتمان

زبان‌شناسی و ادبیات

روان‌شناسی زبان و عصب‌شناسی زبان

زبان‌شناسی رایانشی

فراگیری و آموزش و یادگیری زبان اول یا دوم

فلسفه‌ی زبان