مصاحبه با دکتر پروانه خسرویزاده
سابقه زبانشناسی رایانشی در جهان و در ایران
زبانشناسی رایانشی در جهان از سابقهای بسیار کوتاه برخوردار است. هرچند مطالعات اولیه در این زمینه به سالهای 1960 برمیگردد اما مطالعات جدی در زمینه پردازش زبان طبیعی در جهان کمتر از سی سال عمر دارد. خوشبختانه لزوم پرداختن به این علم جدید از دید پژوهشگران ایرانی نیز دور نمانده و در زمینه پردازش زبان فارسی، متخصصین این حوزه علمی دستاوردهایی ارزشمند ارائه کردهاند. اما علم با سرعتی مافوق تصور در مسیر پیشرفت حرکت میکند و ما نیز باید تلاش جدی خود را در راستای این حرکت انجام دهیم. با توجه به جوان بودن این علم در سطح جهان و نبود سیستم آموزشی منسجمی در زمینه تدریس این علم در ایران، دانشگاه صنعتی شریف در زمینه دستیابی به دانش علمی این حوزه در سطح کشور پیشگام بوده است.
اندیشه تاسیس رشته زبانشناسی رایانشی چگونه شکل گرفت؟
در فروردین ماه سال 1388 به همت انجمن زبانشناسی ایران هماندیشی آواشناسی و واجشناسی برگزار شد و در این هماندیشی دکتر حسین صامتی از دانشگاه صنعتی شریف مقالهای در حوزه هوش مصنوعی ارائه کرد. دکتر صامتی در این هماندیشی یادآور شد که کار در زمینه هوش مصنوعی زیاد و پیچیده است و در طول کار همواره با مشکلاتی روبرو هستیم که باید زبانشناسان به کمک ما بیایند و مشکلات ما را در حوزه زبان حل کنند. سخنرانی دکتر صامتی نقطه آغازی بود برای برنامهریزی و راهاندازی رشته زبانشناسی رایانشی در مرکز زبانها و زبانشناسی دانشگاه صنعتی شریف. البته در همین زمان برنامه و سرفصل دروس رشته زبانشناسی محاسباتی توسط دانشگاه شهید بهشتی نیز تهیه شده بود و به شورای گسترش آموزش عالی ارجاع شده بود اما دانشگاه صنعتی شریف هم به صورت جدی این امر را دنبال کرد و برنامهای مجزا تدوین کرد. مسلما سهم دانشگاه شهید بهشتی در تدوین این برنامه بسیار اساسی و حائز اهمیت است و اندیشه تاسیس این رشته علمی در مقطع کارشناسی ارشد نخستین بار توسط دانشگاه شهید بهشتی شکل گرفته بود اما با توجه به نظر مساعد شورای محترم دانشگاه صنعتی شریف نسبت به تاسیس این رشته و پیگیریهای جدی این دانشگاه، در نهایت برنامه مصوب در شورای گسترش آموزش عالی تلفیقی از این دو برنامه پیشنهادی بود. دانشگاه صنعتی شریف، پس از کسب مجوز از وزارت علوم، تحقیقات و فناوری برای نخستین بار در ایران دوره کارشناسی ارشد زبانشناسی رایانشی را در مهرماه 1389 راهاندازی کرد.
تاسیس رشته زبانشناسی رایانشی در راستای اهداف نقشه جامع علمی کشور و سند چشمانداز 1404 قرار دارد.
مهمترین نکته در ترسیم نقشۀ جامع علمی کشور تبیین عالی ترین هدفی است که هدایت کلان نقشه را به عهده دارد. این هدف در سه سطح ترسیم شده که یکی از آن سه سطح "جبران فاصله با کشورهای توسعهیافته صنعتی" است و در این راستا شورای عالی انقلاب فرهنگی نیز مصوبات مختلفی درحوزه علم و فناوری داشته است.
ایجاد رشته زبانشناسی رایانشی و اجرای آن که در راستای تحقق اهداف سند چشمانداز 1404 و سیاستهای کلی برنامه چهارم و پنجم توسعه کشور نیز بوده، از افتخارات مرکز زبانها و زبانشناسی دانشگاه شریف است. از سوی دیگر دستاوردهای پژوهشی گروه زبانشناسی رایانشی این دانشگاه در زمره اولویتها و طرحهای پژوهشی مرکز پژوهشهای مجلس شورای اسلامی قرار دارد و در نقشه جامع علمی کشور نیز از جمله فناوریهای دارای اولویت تعریف شده است.
دانشجویان رشته زبانشناسی رایانشی:
در حال حاضر دو دوره از دانشجویان کارشناسی ارشد رشته زبانشناسی رایانشی در مرکز زبانها و زبانشناسی مشغول به تحصیل هستند که در سالهای تحصیلی 90-1389 و 91-1390 در دانشگاه صنعتی شریف پذیرفته شدهاند. این دانشگاه برای سال تحصیلی آتی نیز دانشجو میپذیرد. دانشجویانی که در دانشگاه صنعتی شریف برای تحصیل در دوره کارشناسی ارشد رشته زبانشناسی رایانشی پذیرفته میشوند تلفیقی از دو شاخه فنی-مهندسی و علوم انسانی هستند. در شاخه فنی-مهندسی فارغالتحصیلان دوره کارشناسی رشتههای مهندسی برق و مهندسی کامپیوتر و در شاخه علوم انسانی آن دسته از فارغالتحصیلان دوره کارشناسی که معمولا برای پذیرش در دوره کارشناسی ارشد رشته زبانشناسی همگانی واجد شرایط هستند پذیرفته میشوند.
دستاوردهای گروه زبانشناسی رایانشی مرکز زبانها و زبانشناسی:
1- نرمالسازی خط تیره
ازجمله پژوهشهای انجامگرفته در مرکز زبانها و زبانشناسی دانشگاه صنعتی شریف، تلاش در جهت نرمالسازی متن فارسی است. با توجه به وسعت حوزههای مطالعاتی و کاربردی پردازش متن، از جمله تبدیل خودکار متن به گفتار، ترجمه ماشینی، استخراج اطلاعات از متون، خلاصهسازی و غیره، خوانش صحیح متن در محیط رایانه از اهمیت ویژهای برخوردار است. ازاینرو، نرمالسازی متن زبان فارسی بسیار ضروری بهنظر میرسد.
پژوهشگران مرکز زبانها و زبانشناسی دانشگاه صنعتی شریف، نرمالسازی متن فارسی را از جنبههای گوناگونی مورد بررسی قرار دادهاند. از پژوهشهای انجامگرفته در این زمینه، تلاش در جهت نرمالسازی جنبهای از متن زبان فارسی است که به منظور بازشناسی، طبقهبندی و واحدسازی انواع کاربرد خطتیره در زبان فارسی انجام گرفته است. در این پژوهش بهطور خاص به موضوع پردازش خطتیره و نحوه کاربرد انواع گوناگون آن در بافتهای مختلف پرداخته شده است. این پروژه که به سرپرستی بنده و با همکاری آقای دکتر محمد بحرانی و یکی از دانشجویان این مرکز به نام آقای مهدی مرادی در مرکز زبانها و زبانشناسی دانشگاه صنعتی شریف انجام شد، به بازشناسی گونههای کاربردی انواع خطتیره در زبان فارسی، طبقهبندی گونههای مختلف کاربرد آن در متون استخراجی و تحلیل آماری کاربرد این نشانههای نگارشی در پیکره متنی زبان فارسی پرداخته است. درنهایت با استفاده از نتایج بهدستآمده از تحلیل دادهها، این نشانههای نگارشی براساس بافتی که در آن بهکار رفتهاند، نرمالسازی شدهاند. برنامه نرمالساز خط تیره در ابعاد گوناگونی چون پردازش متن، مکمل برنامههای اصلاحگر املایی، توسعه برنامههای ویراستاری متون از حیث رعایت اصول نگارشی، برنامههای تحلیل و تبدیل متن به گفتار و نیز ترجمه ماشینی کاربرد دارد.
2- برنامه تحلیلگر صرفی
این برنامه که به سرپرستی دکتر محرم اسلامی توسط یکی از دانشجویان این مرکز به نام آقای مهندس وحید مواجی تهیه شده، میتواند در مطالعات نظری و کاربردی علم زبانشناسی و نیز مهندسی زبان بسیار مفید باشد. برنامه تحلیلگر صرفی "پارس مورف" در آزمایشگاه پردازش زبان و گفتار مرکز زبانها و زبانشناسی دانشگاه صنعتی شریف طراحی شده و مراحل تکمیلی خود را سپری میکند. دموی این برنامه به صورت برخط در آدرس اینترنتی:http://81.31.191.11 در دسترس است. نتایج این تحقیق در زمینههای مختلف از جمله موارد زیر کاربرد دارد:
- توسعه اصلاحگرهای املایی
- توسعه برنامه ویراستاری متون از حیث رعایت اصول نگارشی
- تهیه منابع زبانی با استفاده از پیکرههای بزرگ زبانی مانند فرهنگهای لغت پیکره-بنیاد با اهداف متفاوت و یا تهیه دستورزبانهای پیکره-بنیاد
- ترجمه ماشینی
- تبدیل متن به گفتار
- تبدیل گفتار به متن
- استخراج اطلاعات از پیکرههای بزرگ
- خلاصهسازی متون
3- طراحی و پیادهسازی پیکره موازی فارسی-انگلیسی به منظور استفاده در سامانههای ترجمه خودکار
اکثر سیستمهای ترجمه اتوماتیک آماری نیاز به یک پیکره دو زبانه (مثلا فارسی و انگلیسی) دارند. این پیکرهها باید در سطح واژه و جمله همردیف و جفت شده باشند. متاسفانه تاکنون در زمینه تهیه پیکره موازی برای زبان فارسی تلاش کمی صورت گرفته است. در این پروژه مسئله حقوق معنوی مولفین و مترجمین به عنوان مهمترین اصل درنظر گرفته شده است. به همین دلیل در تهیه پیکره موازی فارسی-انگلیسی به هیچوجه از متون و ترجمههایی که دارای حقوق معنوی هستند و حق کپیرایت دارند استفاده نمیشود. متاسفانه در تهیه پیکرههای موازی فارسی-انگلیسی موجود به این مسئله توجه چندانی نشده و به همین دلیل در مطالعاتی که در سطح جهان بر روی زبان فارسی انجام میشود منابع موجود کمتر مورد استفاده قرار میگیرند. پروژه تهیه پیکره موازی فارسی-انگلیسی را بنده از ابتدای سال 1390 با همکاری آقای مهندس افشین رحیمی، دانشجوی کارشناسی ارشد زبانشناسی رایانشی این مرکز شروع کردم. هرچند که این پروژه بسیار جدی دنبال میشود اما با توجه به این نکته که به منظور احترام به اخلاق پژوهشی و عدم استفاده از متون ترجمه شده موجود، باید فرایند ترجمه برای تمام متون مورد استفاده در این پیکره طی شود، طبیعی است که این پروژه زمانبر خواهد بود. تا به حال حدود یکصد دانشجوی دانشگاه صنعتی شریف در ترجمه متون به ما کمک کردهاند.
ویژگیهای پروژه در دست اجرای مرکز زبانها و زبانشناسی به شرح زیر است:
- طراحی و پیادهسازی سامانه ذخیرهسازی و بازیابی این پیکره با توجه به نوع سامانه متن باز انتخاب شده و همچنین الگوریتم انتخاب شده متفاوت است. مهمترین نکته در طراحی این پیکره شیوه جفت کردن واژهها و جملهها (word aligning, sentence aligning) است.
- سامانه تولید پیکره بهگونهای است که ناظر بر تصحیح ترجمههای اولیه بوده و قادر به وارد کردن ترجمه نهایی به پیکره باشد.
- طراحی و تولید سامانه ذخیرهسازی و بازیابی پیکره دوزبانه یا چندزبانه خود میتواند در سطح یک پروژه بزرگ به عنوان گام اول پروژه ترجمه ماشینی مطرح باشد. این پروژه بهگونهای طراحی شده که از همکاری سایر دانشگاهها و مراکز تحقیقاتی نیز میتوان در تکمیل پیکره بهره برد.
- پس از پایان تولید پیکره دوزبانه، ترجمه اتوماتیک توسط سامانه متن باز انتخاب شده امکان پذیر خواهد بود و فاز سفارشیسازی نرم افزار ترجمه ماشینی قابل انجام خواهد بود.
4- طراحی و پیادهسازی سامانه نرمافزاری ترجمه اتوماتیک از زبان انگلیسی به زبان فارسی و بالعکس
با توجه به نیاز روزافزون فارسیزبانان به دسترسی به منابع علمی، پژوهشی و فناوری که به زبان انگلیسی نگاشته میشوند و همچنین گسترش روزافزون استفاده از اینترنت، ایجاد امکاناتی جهت دسترسی کاربران فارسیزبان به این منابع ضروری است. سامانههای ترجمه اتوماتیک به دو دسته کلی مبتنی بر قاعده و مبتنی بر داده تقسیم می شوند. در سالهای اخیر افزایش سرمایهگذاری در سامانههای ترجمه اتوماتیک مبتنی بر داده منجر به پیشرفت الگوریتمها و همچنین سامانههای نرمافزاری مربوطه در این زمینه شده است. اکثر سیستمهای ترجمه اتوماتیک آماری نیاز به یک پیکره دو زبانه (مثلا فارسی و انگلیسی) دارند. این پیکرهها باید در سطح واژه و جمله همردیف و جفت شده باشند. فاز اول این طرح "طراحی و پیادهسازی پیکره موازی فارسی-انگلیسی به منظور استفاده در سامانههای ترجمه خودکار" است که در حال حاضر در مرکز زبانها و زبانشناسی دردست اجراست. این طرح به منظور رفع نیاز جامعه فارسی زبان در دستور کار مرکز زبانها و زبانشناسی قرار گرفته است.
مشخصات سامانه ترجمه خودکار به شرح زیر خواهد بود:
1- قابلیت ترجمه از زبان انگلیسی به فارسی و بالعکس با دقت قابل قبول
2- قابلیت گسترش پیکره به زبانهای دیگر
3- قابلیت گسترش پیکره بهصورت برخط
4- قابلیت ایجاد سرویسهای وب جهت دسترسی از طریق اینترنت
5- قابلیت پشتیبانی از پردازش توزیع شده به منظور پاسخگویی به حجم بالای درخواستها
6- قابلیت ایجاد افزونه فایرفاکس در محیط وب جهت آسانی استفاده از مترجم
7- پشتیبانی از کدگذاری های مشهور فارسی در محیط وب
8- قابلیت ایجاد افزونه نگارشگر مایکروسافت و همچنین اسناد پی دی اف
برخی دیگر از طرح های مرکز زبان ها و زبان شناسی:
پروژه دیگر در مرکز زبانها و زبانشناسی "برچسبزنی معنایی پیکره زبان فارسی" است. در پردازش زبان طبیعی استخراج معنی از اهمیت ویژهای برخوردار است و پردازش معنایی را میتوان آخرین زنجیره از وظایف پردازش زبان طبیعی دانست. هدف اصلی این پروژه توسعه یک سیستم رفع ابهام معنایی واژه و پیادهسازی یک برچسبزن مفهومی خودکار برای زبان فارسی و استفاده از آن برای برچسبزنی یک پیکره است.
یکی دیگر از پروژههای جاری در این مرکز "مطالعه و تحلیل آماری تغییرات رسایی در مرز هجاهای زبان فارسی" است. این پروژه در زمینه بهسازی گفتار در سیستمهای پردازش گفتار و نیز تبدیل متن به گفتار و تبدیل گفتار به متن کاربرد دارد.
از دیگر محصولات پژوهشگران این مرکز "برچسبزن نقش کلمات" است که در حوزه پردازش زبان طبیعی و در زمینه ترجمه ماشینی نقش به سزایی دارد.
"بررسی رابطه میان چند حوزهای بودن زمینه مطالعات و میزان خلاقیت استعاری" و "تشخیص خودکار و رفع ابهام معنایی مفاهیم استعاری و مجازی" دو پروژه تحقیقاتی دیگر در مرکز زبانها و زبانشناسی است.
مرکز زبان ها و زبان شناسی همچنین به تهیه فرهنگ توصیفی دوزبانه زبانشناسی رایانشی پرداخته است. این فرهنگ درحال حاضر کامل شده و در آینده نزدیک به چاپ میرسد. این اقدام در جهت نیل به هدف والاتری است که تحت عنوان تهیه بانک اصطلاحات علمی کشور در برنامه بلندمدت مرکز زبانها و زبانشناسی تعریف شده است.
نخستین هماندیشی زبانشناسی رایانشی به همت انجمن زبانشناسی ایران در تیرماه سال 1391 برگزار خواهد شد.
زبانشناسی رایانشی از یک جنبه علمی نظری و از جنبهای دیگر دانشی بسیار کاربردی و عملی است و درک چگونگی عملکرد زبان و مدلسازی آن برای رایانه، محور اصلی پژوهشهای زبانشناسی رایانشی را تشکیل میدهد. به همین دلیل مطالعاتی که در این حوزه انجام میشود نیازمند تعامل میان متخصصین حوزه علوم فنی-مهندسی و پژوهشگران دانش زبانشناسی است. در رویکردهای نوین به زبانشناسی رایانشی، متخصصین علوم زبانشناسی، مهندسی برق، مهندسی کامپیوتر، مهندسی پزشکی، هوش مصنوعی، فناوری اطلاعات و ارتباطات و علوم شناختی به یاری یکدیگر میشتابند تا حاصل پژوهشهای خود را به دستاوردهایی کاربردی تبدیل کنند. این رویکرد در نخستین هماندیشی زبانشناسی رایانشی انجمن زبانشناسی ایران نیز از نظر دور نبوده است. مقالاتی که در نخستین هماندیشی زبانشناسی رایانشی ارائه خواهد شد، براستی محصول هماندیشی پژوهشگرانی است که در این حوزههای علمی فعال هستند و نشان از آن دارد که دانش پیوستاری است فارغ از مرزبندیهایی که بشر برای تفکیک حوزههای مطالعاتی ترسیم کرده است.
با کمال افتخار به اطلاع می رسانم که مقالههای این هماندیشی تخصصی از ارزش محتوایی بسیار بالایی برخوردار است و اساتید گرانقدری که به همراه دانشجویان خود و یا به تنهایی به ارائه مقاله در این هماندیشی میپردازند، از برجستهترین افراد در حوزه مربوطه هستند. ندیشی ادر این هماندیشی 12 مقاله با همکاری اساتید و دانشجویان ارائه خواهد شد که حاصل دستاوردهای علمی پژوهشگرانی است که در زمینههای نظری و کاربردی حوزههایی چون زبانشناسی، علوم شناختی، هوش مصنوعی، ترجمه ماشینی، فناوری اطلاعات و ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از پیکرههای زبانی، پردازش متن و گفتار، تبدیل متن به گفتار، تبدیل گفتار به متن و تهیه بانکهای اطلاعاتی فعالیت دارند. از این رو مقالاتی که در این هماندیشی ارائه خواهند شد، طیف گستردهای از مطالعات کاربردی را در زمینه زبانشناسی رایانشی پوشش میدهند.
در پایان جا دارد از مسئولین محترم انجمن زبانشناسی ایران که همواره در جهت پیشبرد دانش زبانشناسی در ایران کوشیدهاند سپاسگزاری کنم. این انجمن یکی از فعالترین مراکز علمی کشور است و با برگزاری نشستهای علمی خود در بالاترین سطح کیفی، به ارتقای دانش ایرانی پرداخته است.