بسیاری از موفقیت های چشمگیر اولیه که در زمینه ترجمه ماشینی اتفاق افتادند، به ویژه مرهون کارهای IBM Research بوده اند، که در آن مدل های آماریِ مرحله به مرحله پیچیده تری ساخته میشد. این سیستم ها قادر به بهره گیری از پیکرهای نوشتاری چندزبانه بودند که توسط پارلمان کانادا و اتحادیه اروپا در نتیجه ی نیاز به ترجمه گزارشات دولتی به تمام زبان های رسمی سیستم های دولتی مکاتبه کننده، تولید شده بود. با این حال، بیشتر سیستم های دیگر به پیکرهایی که مشخصاً برای کارهای اجرا شده توسط این سیستم ها ساخته شده بودند، وابستگی داشتند، که محدویتی بزرگ در موفقیت این سیستم ها بود (و میتوان گفت کماکان هست). در نتیجه، تحقیقات زیادی در روش های یادگیریِ اثربخش از مقادیر اندک داده (data)، انجام شده است.

تحقیقات اخیر تمرکز فزاینده ای بر الگوریتم های یادگیری نظارت نشده و نیمه نظارت شده داشته است. چنین الگوریتم هایی قادر به یادگیری از داده هایی که بطور دستی جواب مطلوب به آنها داده نشده، یا ترکیبی از این داده ها با داده های جوابدار، هستند. معمولاً این کار بسیار دشوارتر از یادگیری نظارت شده است، و برای مقدار مشخصی داده ورودی، عموماً نتایجی با دقت کمتر بدست میدهد. با این حال، میزان چشمگیری از داده های بی جواب، در دسترس است (از جمله تمام محتوای وب جهانگستر)، که معمولاً قادر به جبران نتایج ضعیف است، به شرطی که پیچدگی زمانی الگوریتمِ مورد استفاده به قدری پایین باشد که اجرای آن را عملی کند.

در سال های 2010 روش های یادگیری ماشین به سبک یادگیری نمایش و شبکه های عصبی عمیق در پردازش زبان طبیعیی فراگیر شدند، که تا حدی مرهون سیلی از تحقیقات بود که نشان میدادند چنین روش هایی می توانند نتایجی برتر در بسیاری از فعالیت های زبان طبیعی بدست آورند، برای مثال در مدلسازی زبانی، تجزیه (parsing) و موارد بسیار دیگر. برخی تکنیک های محبوب عبارت اند از استفاده از تعبیه لغات (word embedding) جهت دریافت معنای مفهومی لغات، و افزایش یادگیری سر-به-سرِ (end-to-end) یک عمل سطح بالا (مثلاً پاسخ دادن به سوال) به جای تکیه بر سِیری از فعالیت های میانجی (مثل برچسب گذاری اجزای کلام و تجزیه وابستگی). در برخی زمینه ها، این جابه جایی، در نحوه طراحی سیستم های NLP چنان تغییراتی اساسی در پی داشته است که روش های مبتنی بر شبکه های عصبی عمیق را میتوان به عنوان پارادایمی جدید و متمایز از پردازش زبان طبیعی در نظر گرفت. برای مثال، عبارت ترجمه ماشین عصبی (NMT) بر این حقیقت تاکید میکند که روش های یادگیری عمیق در ترجمه ماشینی، مستقیماً انتقالات رشته به رشته را یادگیری میکند و نیاز به گام های میانجی مثل ترازسازی لغات و مدلسازی زبانی را که در ترجمه ماشینی آماری (SMT) استفاده میشوند، رفع میکند.

NLP قاعده مند در مقابل NLP آماری


در روزهای آغازین، بسیاری از سیستم های پردازش زبان توسط کدنویسی دستی مجموعه ای از قواعد، طراحی میشدند، مثلاً با نوشتن گرامرها یا ایجاد قواعد ابتکاری برای ریشه یابی لغات. با این حال، چنین کاری درمقابل تغییرات زبان طبیعی به ندرت استوار است.

از زمان “انقلاب آماری” معروف در اواخر دهه 1980 و اواسط دهه 1990، تحقیقات زیادی در پردازش زبان طبیعی بر یادگیری ماشین متکی بوده است.

پارادایم یادگیری ماشین در عوض، نیازمند استنباط آماری برای یادگیری خودکار چنین قواعدی به واسطه تحلیل پیکره های بزرگی از مثال های متداول جهان واقعی است (یک پیکره (جمع آن پیکره ها) مجموعه ای از اسناد است، که احتمالاً توسط انسان یا رایانه تفسیر شده است).

بسیاری از کلاس های متفاوت الگوریتم های یادگیری ماشین برای کارهای پردازش زبان طبیعی استفاده شده اند. این الگوریتم ها مجموعه ای بزرگ از “ویژگی ها” را به عنوان ورودی دریافت میکنند که از داده های ورودی تولید شده اند. برخی از الگوریتم های کهنه تر، از جمله درخت های تصمیم، سیستم های سخت از قواعد اگر-آنگاه تولید میکردند که مشابه سیستم های قواعد دست نویس متداول در آن زمان بود. اما تحقیقات بطور فزاینده ای بر روش های آماری تمرکز داشته است، که تصمیماتی نرم و احتمالاتی، مبتنی بر الصاق وزن های حقیقی-مقدار به هر ویژگی ورودی، اتخاذ میکنند. چنین مدل هایی دارای این مزیت هستند که میتوانند به جای تنها یکی، قطعیت نسبی بسیاری از پاسخ های محتمل را بیان کنند، که هنگام استفاده از چنین مدلی به عنوان یک مولفه از سیستمی بزرگتر، نتایجی مطمئن تر تولید میکند.

سیستم های مبتنی بر الگوریتم های یادگیری ماشین، مزیت های متعددی نسبت به قواعد دست نویس دارند:

  • فرایندهای یادگیری مورد استفاده در یادگیری ماشین بطور خودکار بر متداول ترین موارد تمرکز میکنند، در حالیکه هنگام نوشتن قواعد با دست اغلب اصلاً روشن نیست که توجه کجا باید معطوف شود.
  •  فرایندهای یادگیری خودکار میتوانند از الگوریتم های استنباط آماری جهت تولید مدل هایی که نسبت به ورودی ناآشنا استوار هستند، استفاده کنند (مثلاً شامل لغات یا ساختارهای باشند که قبلاً دیده نشده اند). عموماً مدیریت سخاوتمندانه چنین ورودی هایی توسط قواعد دست نویس – یا عموماً ساخت سیستم هایی از قواعد دست نویس که تصمیمات نرم اتخاذ کنند – بسیار دشوار، خطاپذیر و وقت گیر است.
  •  سیستم های مبتنی بر یادگیریِ خودکارِ قواعد را میتوان به سادگی با تامین داده های ورودی بیشتر، دقیق تر نمود. با این حال، سیستم های مبتنی بر قواعد دست نویس را تنها با افزایش پیچیدگی قواعد میتوان دقیق تر نمود، که کاری دشوارتر است. به ویژه، پیچیدگی سیستم های مبتنی بر قواعد دست نویس، داری حدی از پیچیدگی هستند که فراتر از آن، سیستم ها بیشتر و بیشتر غیرقابل مدیریت میشوند. با این حال، ساختن داده های بیشتر در ورودی سیستم های یادگیری ماشین تنها نیازمند افزایشی متناظر در تعداد ساعات کاری افراد است، که معمولاً افزایش چشمگیری در پیچیدگی فرایند تفسیرنویسی (annotation) ندارد.

تکالیف و ارزیابی های عمده


فهرستی از بیشترین کارهای مورد پژوهش در پردازش زبان طبیعی در پی میاید. توجه کنید که برخی از این کارها (تکالیف) کاربردهای مستقیم در جهان واقعی دارند، در حالیکه بقیه بیشتر به عنوان زیرتکلیف در کمک به حل مسائل بزرگتر عمل میکنند.

گرچه تکالیف پردازش زبان طبیعی درهم تنیده هستند، اما اغلب آنها را برای راحتی به چند دسته تقسیم میکنند. یک دسته بندی درشت درپی میاید.

سینتکس (Syntax)

استقرای دستوری

تولید یک گرام صوری که سینتکس یک زبان را توصیف کند.

لم سازی (Lemmatization)

تکلیف حذف پایانه های صرفی تنها جهت بازگرداندن لغت پایه به شکل لغت نامه ای.

تقسیم تکواژشناسی

تقسیم بندی لغات به تکواژهای جدا و شناسایی کلاس تکواژها. دشواری این تکلیف عمدتاً به پیچیدگی تکواژ (مثلاً ساختار لغات) در زبان مورد نظر بستگی دارد. تکواژشناسی در انگلیسی نسبتاً ساده است، به ویژه تکواژشناسی صرفی، و لذا اغلب میتوان بطور کامل از این فعالیت صرف نظر کرد و تنها تمام شکل های ممکن یک لغت را  (مثلاً “open, opens, opened, opening”) را به عنوان لغات مجزا مدلسازی نمود. با این حال در زبان هایی مثل ترکی یا مانیپوری، که یک زبان شدیداً همچسبیده هندی است، چنین روشی ممکن نیست، زیرا هر ورودی لغت نامه ای ممکن است دارای هزاران شکل باشد.

برچسب گذاری اجزای کلام

با داشتن یک جمله، جزء کلام  برای هر لغت تعیین میشود. بسیاری از لغات، به ویژه لغات متداول، میتوانند به عنوان اجزای چندگانه کلام عمل کنند. برای مثال، “book” میتواند یک اسم (“book on the table”) یا یک فعل (“book a flight”) باشد؛ “set” میتواند یک اسم، فعل یا صفت باشد؛ و “out” میتواند هر یک از لااقل پنج جزء متفاوت سخن باشد. برخی زبان ها، بیشتر از زبان های دیگر دارای چنین ابهاماتی هستند. زبان هایی که تکواژشناسی صرفی اندکی دارند، مثل انگلیسی، بطوری ویژه چنین ابهاماتی را پذیرا هستند. زبان چینی نیز، چنین ابهامی را پذیراست زیرا هنگام فعل سازی، زبانی آهنگی است. چنین صرفی را نمیتوان به سادگی توسط نهادهای انتقالی مورد استفاده در اِملا، منتقل کرد.

تجزیه کردن (Parsing)

درخت تجزیه (تحلیل دستوری) یک جمله را تعیین میکند. دستور زبان در زبان های طبیعی، مبهم است و جملات معمول، تحلیل هایِ ممکنِ چندگانه ای دارند. در واقع، شاید تعجب آور باشد که برای یک جمله معمولی ممکن است هزاران تجزیه بالقوه وجود داشته باشد (که البته بیشتر آن از نظر انسان بی معنی است). دو نوع تجزیه اصلی وجود دارد، تجزیه وابستگی و تجزیه ترکیبی (constituency parsing). تجزیه وابستگی بر روابط بین لغات در جمله تمرکز دارد (که چیزهایی مثل مفعول اصلی و مسند را علامت گذاری میکند)، در حالیکه تجزیه ترکیبی بر ساخت درخت تجزیه با استفاده از یک گرامر مستقل از متن احتمالاتی (PCFG) تمرکز میکند. (گرامر تصادفی را نیز مشاهده کنید.)

شکستن جمله (که به عنوان ابهام ردایی مرز جمله نیز شناخته میشود)

با داشتن تکه ای متن، باید مرز جملات پیدا شوند. مرز جملات معمولاً با نقطه یا سایر علائم نشان گذاری مشخص میشوند، اما همین کاراکترها میتوانند اهداف دیگری نیز داشته باشند (مثلاً علامت گذاری مخفف ها).

ریشه یابی لغت

فرایند کاهش لغات صرف شده (یا گاهی اوقات مشتق شده) به شکل ریشه ای آنها. (مثلاً “close” ریشه “clesed”, “closing”, “close” یا “closer” است.)

تقسیم بندی لغت

تکه ای پیوسته از متن را به لغات مجزا تقسیم میکند. برای زبانی مثل انگلیسی، این عمل نسبتاً بدیهی است، زیرا لغات معمولاً با فاصله از هم جدا میشوند. اما برخی زبان های نوشتاری مثل چینی، ژاپنی و تایلندی مرز لغات را به این شکل علامت گذاری نمیکنند و در این زبان ها تقسیم بندی متن، تکلیفی بزرگ، و نیازمند دانش لغتنامه ای و تکواژشناسی لغات در زبان است. گاهی اوقات این فرایند در مواردی مثل ساخت کیسه لغات (BOW) در داده کاوی استفاده میشود.

استخراج اصطلاحات

هدف از استخراج اصطلاحات، استخراج خودکار عبارات مرتبط از یک پیکره معلوم است.

معناشناسی (Semantics)

معناشناسی الفبایی

معنای محاسباتی هر لغت در چارچوب متن چیست؟

معناشناسی توزیعی

چگونه میتوانیم نمایش های معنایی را از داده ها دریابیم؟

ترجمه ماشینی

ترجمه خودکار متن از زبانی به زبان دیگر. این یکی از سخت ترین مسائل است، و عضوی از کلاس مسائلی است که بطور غیررسمی “AI-کامل” نامیده میشوند، به این معنا که جهت حل مطلوب آنها به تمام انواع مختلف دانش های تحت اختیار انسان، نیاز است (دستور زبان، معناشناسی، حقایق جهان واقعی و غیره).

شناسایی نهاد نامدار (NER) – (Named entity recognition)

با داشتن جریانی از متن، تعیین میکند که چه عناصری در متن، به اسامی مناسب مثل افراد و یا مکان ها، نگاشته شوند و نوع هر اسم چیست (مثلاً فرد، مکان، سازمان). توجه کنید که گرچه حروف بزرگ میتوانند در شناسایی نهادهای اسمی در زبان هایی مثل انگلیسی کمک کنند، اما این اطلاع نمیتواند در تعیین نوع نهاد نامدار کمک کند، و در هر صورت اغلب نادقیق یا ناکافی است. برای مثال اولین حرف جمله نیز بزرگ است، و نهادهای نامدار اغلب چند لغتی هستند، که تنها برخی از آنها حروف بزرگ دارند. علاوه بر این، بسیاری از زبان های دیگر در متون غیر غربی (مثل چینی یا عربی) اصلاً حروف بزرگ ندارند، و حتی زبان هایی که حروف بزرگ دارند ممکن است از آن بطور سازگار برای تمییز اسامی استفاده نکنند. برای مثال، زبان آلمانی تمام اسامی را بزرگ نویسی میکند، صرف نظر از اینکه نام هستند یا خیر، و زبان های فرانسوی و اسپانیایی نام هایی را که صفت باشند، بزرگ نویسی نمیکنند.

تولید زبان طبیعی

تبدیل اطلاعات از پایگاه های داده ای رایانه، یا منظورهای معنایی، به زبان قابل خواندن توسط انسان.

فهم زبان طبیعی

تبدیل تکه های متن به نمایش های صوری تر مثل ساختارهای منطق مرتبه اول که کنترل آن برای برنامه های رایانه ای ساده تر است. فهم زبان طبیعی شامل شناسایی معنای منظور میان چند معنای محتمل است که می توان از یک عبارت زبان طبیعی برداشت نمود، و معمولاً دارای شکل علائم سازمان یافته مفاهیم زبان طبیعی است. معرفی و ساخت آنتولوژی و فَرامُدل زبانی، اثربخش اما راه حلی تجربی است. صوری سازی صریح از معناشناسی زبان طبیعی بدون سردرگمی همراه با فرض هایی نهان مثل فرض جهان بسته (CWA) درمقابل فرض جهان باز، یا بله/خیر فاعلی درمقابل صحیح/غلط مفعولی، جهت ساخت پایه ای برای صوری سازی معنایی، مورد انتظار است.

شناسایی بصری کاراکتر (OCR) – (Optical character recognition)

با داشتن تصویری که نمایانگر متن چاپی است، متن آن شناسایی میشود.

 پاسخ دهی سوال

با داشتن یک سوال به زبان انسان، جواب آن تعیین میشود. سوالات متداول، یک جواب درست مشخص دارند (مثل “حرف بزرگ Canada چیست؟”) اما گاهی اوقات سوالاتِ پایان-باز نیز مورد نظر هستند (مثل “معنای زندگی چیست؟”). فعالیت های اخیر حتی به سوالات پیچیده تر نیز پرداخته است.

شناسایی استنتاج متنی

با داشتن دو تکه ناقص متن، تعیین میشود اگر یکی درست باشد، آیا دیگری یا نقیض دیگری را نتیجه میدهد، یا اینکه اجازه میدهد دیگری درست یا غلط باشد.

استخراج روابط

با داشتن تکه ای متن، روابط میان نهادهای نامدار شناسایی میشود (مثلاً چه کسی همسر چه کسی است.)

عقیده کاوی (عقیده کاوی چندحالتی را نیز ملاحظه کنید)

استخراج اطلاعات ذهنی که معمولاً از مجموعه از اسناد انجام می شود که اغلب از بررسی های آنلاین جهت تعیین “قطبیت” در مورد اشیائی مشخص استفاده میکند. این کار به ویژه برای شناسایی گرایش عقاید عمومی در رسانه های اجتماعی، برای بازاریابی، مفید است.

شناسایی و تقسیم بندی موضوع

با داشتن تکه ای متن، آن به بخش هایی تقسیم میشود که هرکدام به موضوعی اختصاص دارد، و موضوع هر بخش شناسایی میشود.

ابهام زدایی معنای لغات

بسیاری از لغات، بیش از یک معنا دارند؛ ما باید در چارچوب مورد نظر، معنایی را انتخاب کنیم که بیشترین عقلانیت را دارد. برای این مسئله، معمولاً فهرستی از لغات و معناهای متناظر در اختیارمان گذاشته میشود، مثلاً از یک فرهنگ لغت یا از یک منبع آنلاین مثل WordNet.

گفتمان

خلاصه سازی خودکار

تولید یک خلاصه خوانا از تکه ای متن. اغلب جهت ایجاد خلاصه ی متنی از یک نوعِ شناخته شده استفاده میشود، مثل مقالات پژوهشی یا مقالاتی در بخش مالی یک روزنامه.

تصریح ارجاع (Coreference resolution)

با داشتن یک جمله یا تکه ای بزرگتر از متن، تعیین میشود که کدام لغات (“اشاره ها”) به یک شیء (“نهاد”) اشاره میکنند. تصریح آنافورا (Anaphora) مثالی مشخص از این تکلیف است و به ویژه سعی در تطابق ضمایر با اسم ها یا نام هایی دارد که به آنها اشاره میکنند. تکلیف بزرگتر تصریح ارجاع، شامل شناسایی “روابط میانجی” درمورد عبارت های ارجاع دهنده است. برای مثال، در یک جمله مثل “او از درب جلویی وارد منزلِ جان شد”، “درب جلویی” یک عبارت ارجاع دهنده است و رابطه میانجی که باید شناسایی شود، این حقیقت است که درب مورد ارجاع، درب جلویی منزلِ جان است (نه یک ساختار دیگر که ممکن است به آن هم اشاره شود).

تحلیل گفتمان

این بخش دربرگیرنده تعدادی تکلیف مرتبط است. یک تکلیف، شناسایی ساختار گفتمان از متن های متصل است، یعنی ذات روابط گفتمانی میان جملات

(مثلاً توضیح، تشریح، هم سنجی). یک فعالیت محتمل دیگر، شناسایی و طبقه بندی کُنش های گفتاری در تکه ای از متن است (مثلاً پرسش بله-خیر، پرسش محتوایی، بیانیه، تاییدیه و غیره).

گفتار

شناسایی گفتار

با داشتن کلیپ صوتی از صحبت یک شخص یا اشخاص، نمایش متنی گفتار آنها مشخص میشود. این عمل معکوس متن به گفتار (text to speech) است و یکی از مسائل به شدت سختی است که اصطلاحاً “AI-کامل” نامیده میشود (بالا را ملاحظه کنید). در گفتار طبیعی به ندرت مکثی بین لغات متوالی اتفاق می افتد،  و لذا تقسیم بندی گفتار، یک زیرتکلیفِ لازم برای شناسایی گفتار است (پایین را ملاحظه کنید). توجه کنید در بیشتر زبان های گفتاری، اصواتی که نمایانگر حروف متوالی هستند، طی فرایندی به نام هم بیانی (coarticulation) میان یکدیگر پنهان میشوند، لذا تبدیل سیگنال آنالوگ (پیوسته) به کاراکترهای گسسته میتواند فرایندی بسیار دشوار باشد. همچنین، با درنظر داشتن این نکته که لغات موجود در یک زبان توسط افرد با لهجه های مختلف ادا میشوند، نرم افزار شناسایی گفتار باید قادر به شناسایی طیف وسیعی از ورودی هایی باشد که از نظر معادل متنی، مشابه دیگر هستند.

تقسیم بندی گفتار

با داشتن کلیپی صوتی از صحبت یک فرد یا گروهی از افراد، آن را به لغات تقسیم میکند. این عمل، زیرتکلیفی از شناسایی گفتار است و معمولاً با آن ادغام میشود.

متن به گفتار

با داشتن یک متن، واحد های آن، منتقل و نمایشی گفتاری تولید میشود. متن به گفتار را میتوان برای کمک به افردی که بینایی ضعیف دارند استفاده کرد.

دیالوگ

در سال 2018 اولین کار توسط یک هوش مصنوعی در این زمینه منتشر شد که 1 the Road  نام دارد و به عنوان یک رمان، بازاریابی شد. این رمان دارای شصت میلیون لغت است.