آموزش

مکانیزم تبدیل گفتار به نوشتار به کمک هوش مصنوعی

در جهان امروزی، ارتباطات تبدیل به عنصر اصلی زندگی ما انسان‌ها شده. انتقال اطلاعات به شخص مناسب، به روش صحیح بسیار اهمیت داره. تبدیل گفتار به نوشتار و نوشتار به گفتار یکی از پیشرفت‌های حائز توجه در زمینه‌ی ارتباطاته. تماس‌های تلفنی، ایمیل‌ها، پیام‌های متنی و غیرمتنی بخش جدایی‌ناپذیر انتقال پیام در دنیای فناوری هستن. بیشتر برنامه‌های انتقال پیام، از توابعی برای تبدیل گفتار به متن، تبدیل متن به گفتار و ترجمه به زبان‌های دیگه استفاده می‌کنن.

در این مقاله‌ی مجله‌ی نت‌ران می‌خوام نحوه‌ی تبدیل گفتار به نوشتار و کاربردهای جالبش رو به زبان ساده‌تری توضیح بدم. به هر حال، چون این کار یه تکنولوژی پیچیده‌ حساب می‌شه، با اصطلاحات علمی زیادی روبرو می‌شیم؛ اما سعی کردم تا جایی که می‌تونم به‌صورت ساده و روان مسئله رو بررسی کنم.

ارتباطات لازمه زندگی امروز

تشخیص گفتار اولین مرحله‌ی تبدیل گفتار به متن

تشخیص گفتار، توانایی دستگاه/ برنامه در شناخت کلمات و عبارات بیان‌شده و تبدیل اون‌ها به قالب قابل‌فهم توسط ماشینه. در سیستم‌های تشخیص گفتار، چند عامل اهمیت دارن:

  • گوینده: صدای گوینده‌ها متفاوته. هر مدلی یا باید برای یک گوینده خاص طراحی بشه، یا طوری باشه که با صدای هر گوینده‌ای خودش رو تطبیق بده.
  • نحوه‌ی ‌بیان واژه‌ها: نحوه‌ی صحبت گوینده هم در تشخیص گفتار نقش داره. بعضی از مدل‌ها می‌تونن گفته‌های پیوسته یا گفته‌های ناپیوسته رو با مکثی که در این بین وجود داره، تشخیص بدن.
  • واژه‌ها: اندازه‌ی واژه‌ها در تعیین پیچیدگی، عملکرد و دقت سیستم نقش مهمی داره.

مدل تشخیص گفتار پایه

برای تبدیل گفتار به متن، از مدل‌های DTW و HMM به‌همراه مدل‌های مختلف شبکه‌ی عصبی استفاده می‌شه. این مدل‌ها با طبقه‌بندی واج‌ها، تشخیص کلمات و تشخیص صدای گوینده به‌خوبی کار می‌کنن. نقش شبکه عصبی در تکامل هوش مصنوعی، بسیار مهمه. هر سیستم تشخیص گفتار، مراحل استانداردی مثل استخراج ویژگی، تولید مدل و دسته‌بندی الگو رو طی می‌کنه.

 تشخیص صدا ، تشخیص گفتار و مفهوم یادگیری عمیق

مراحل تشخیص گفتار

  • پیش‌پردازش:‌ گفتار ما یک سیگنال آنالوگه. این سیگنال آنالوگ باید به سیگنال دیجیتال تبدیل بشه. بعد از تبدیل شدن به سیگنال دیجیتال، از اولین فیلتر عبور می‌کنه. به‌نوعی می‌شه گفت این فیلتر سیگنال‌ها رو مسطح می‌کنه. دلیل این کارها اینه که سیگنال در فرکانس بالاتر، انرژی بیش‌تری داره.
  • استخراج ویژگی: بعد از پیش‌پردازش، نوبت به استخراج ویژگی می‌رسه. در این مرحله، پارامترهای گفتار مشخص می‌شن. منظور از پارامترهای گفتار همون اطلاعات سیگناله. این پارامترها از طریق پردازش شکل موج صوتی بدست میان.

هدف این مرحله ایجاد یک دنباله از بردارهای ویژگی (یعنی همون اطلاعات سیگنال) هستش که به‌نوعی نمایش فشرده‌ی سیگنال ورودیه.

 

چند تکنیک استخراج ویژگی برای تشخیص گفتار

  • ضرایب پیشگویی خطی (LPC): این مرحله یک نمونه‌گفتار رو به‌عنوان یک ترکیب خطی از نمونه‌گفتار گذشته تقریب می‌زنه. شکل زیر، روند LPC رو نشون می‌ده. سیگنال دیجیتالی‌شده، بلوکی از N فریم نمونه است. هر فریم پنجره‌بندی می‌شه. این پنجره‌ها با هم در ارتباط هستن.

آخرین مرحله، تحلیل LPC هستش که هر فریم رو با توجه به همبستگی‌های خودش به مجموعه پارامترهای LPC تبدیل می‌کنه.

نمودار سیگنال صدا

 

  • ضریب کپسترال فرکانس مل (MFCC): این روش از سیستم شنوایی انسان الگو گرفته. MFCC مراحل خاصی رو بر سیگنال ورودی اعمال می‌کنه. این مراحل عبارتند از:
  1. فریم‌بندی: شکل موج گفتار، بریده بریده می‌شه تا در صورت وجود تداخل، تداخلات از بین برن.
  2. پنجره‌بندی: ناپیوستگی‌های سیگنال رو به حداقل می‌رسونه.
  3. تبدیل فریم گسسته: هر فریم رو از دامنه‌ی زمان به دامنه‌ی فرکانس نگاشت می‌کنه.
  4. الگوریتم فیلتر بانک مل: سیگنال رو به تقلید از شنوایی انسان با توجه به طیف Mel رسم می‌کنه.
  • کش و قوس زمانی پویا (Dynamic time warping): این الگوریتم برای اندازه‌گیری شباهت بین دو سری‌ زمانی براساس برنامه‌ریزی پویا استفاده می‌شه. ممکنه این دو سری زمانی از نظر سرعت متفاوت باشن. هدف اینه که دو توالی بردار ویژگی (1 از هر سری) به‌صورت تکراری بررسی بشن تا یک مطابقت مطلوب (با توجه به معیارهای مناسب) بین اونا پیدا بشه.

برای تبدیل گفتار به متن به هوش مصنوعی احتیاج دارید.

 

مدل‌های صوتی یا آکوستیک

این قسمت در سیستم تشخیص گفتار خودکار (ASR) خیلی مهمه. مدل‌های صوتی بین اطلاعات صوتی و آوایی ارتباط برقرار می‌کنه.

مدل‌های زبانی

این مدل، احتمال وقوع یک کلمه رو بعد از یک توالی کلمه بررسی می‌کنه. مدل شامل محدودیت‌های ساختاری موجود در زبان، برای بررسی احتمال وقوع هستش. مدل زبان بین کلمه و عباراتی که صدای مشابهی دارن، تمایز قائل می‌شه.

 

مدل زبانی باقی جمله رو حدس میزنه

طبقه‌بندی الگو

این فرآیند، با مقایسه‌ی الگوی ناشناخته با الگوهای مرجع و موجود صدا و محاسبه شباهت بین اون‌ها انجام می‌شه. پس از اتمام آموزش سیستم در زمان آزمایش، الگوها برای تشخیص گفتار طبقه‌بندی می‌شن. رویکردهای مختلف برای تطبیق با الگو در زیر آورده شده:

  • رویکرد مبتنی بر الگو: این رویکرد دارای مجموعه‌ای از الگوهای گفتاریه که به‌عنوان مرجعی از واژه‌های فرهنگ لغت ذخیره می‌شه. کلمه، از طریق تطبیق کلمه‌ی بیان‌شده با الگوی مرجع شناخته می‌شه.
  • رویکرد مبتنی بر دانش: این رویکرد مجموعه‌ای از ویژگی‌ها رو از گفتار می‌گیره، سپس سیستم رو آموزش می‌ده تا مجموعه‌ای از قواعد رو بر اساس نمونه تولید کنه.
  • رویکرد مبتنی بر شبکه‌ی عصبی: این رویکرد برای تشخیص گفتارهای پیچیده‌تر مناسبه. کار اصلی این رویکرد، کسب دانش از منابع گوناگون دانشه.
  • رویکرد آماری: در این روش، تغییرات در گفتار، با استفاده از روش‌های آموزشی از نظر آماری (به عنوان مثال HMM) مدل می‌شن.

تبدیل گفتار به نوشتار

بعد از این‌که کلمه‌ها یا همون گفتار تشخیص داده بشن، نوبت به تبدیل گفتار به نوشتار می‌رسه.  تبدیل گفتار به نوشتار، فرآیند تبدیل کلمات بیان‌شده به متن نوشتاریه. در زیر، بعضی روش‌های تبدیل که به‌طور گسترده مورد استفاده قرار گرفته رو مطرح کردیم:

  • زنجیره‌ی‌ مخفی مارکوف (HMM): یک مدل آماریه که در تشخیص گفتار استفاده می‌شه. این مدل، یک سیگنال گفتاری رو به‌شکل یک سیگنال ثابت کوچیک یا یک سیگنال ثابت کوتاه‌مدت می‌بینه. HMM به پارامترهای دقت تشخیص و سرعت تشخیص بستگی داره.
  • بهینه‌سازی جستجوی Cuckoo مبتنی بر دسته‌بندی‌کننده‌ی شبکه‌ی عصبی مصنوعی (ANN): تکنیک بهینه‌سازی جستجوی Cuckoo همراه با ASR برای ارتباط بهتر، شناخت بهتر و حذف نویز ناخواسته استفاده می‌شه. ASR برای رابط بهتر تعامل انسان و ماشین ساخته شده.

 

تبدیل گفتار به متن

کاربرد تبدیل گفتار به نوشتار

روش تبدیل گفتار به نوشتار رو دیدیم. اما این فناوری چه مزیتی داره؟  تصور کنید که قراره یک متن زیاد رو تایپ کنید. با خودتون فکر می‌کنید اگه این متن رو به کسی دیکته می‌کردم و او این متن رو می‌نوشت، چقدر خوب بود.

این فناوری مانند هر فناوری دیگه‌ای یک‌سری کارها رو برای انسان راحت‌تر کرده. در زمانی‌که پشت فرمون هستید، یا دست شما درگیر کار دیگه‌ایه، به‌راحتی می‌تونید برای دوستاتون پیام متنی ارسال کنید.

این فناوری، همچنین برای افرادی که معلولیت‌هایی دارن و قادر به نوشتن نیستن، مناسبه. بسیاری از کسب و کارها نیاز دارن که مواردی رو مکتوب کنن؛ مثلا یک مرکز تماس شاید نیاز داشته باشه که تماس‌ها رو مکتوب کنه. این‌ها فقط چند مورد از کاربردهای تبدیل گفتار به نوشتار بود.

حرف آخر

دیدیم که تشخیص گفتار یکی از مراحل تبدیل گفتار به نوشتار هستش. تشخیص گفتار و تبدیل گفتار به نوشتار هر کدوم رویکردهای مخصوص به‌خودشون رو دارن که من در این مقاله، این موارد رو بررسی کردم. تبدیل گفتار به نوشتار یکی دیگه از کاربردهای هوش مصنوعی هستش.

تشخیص گفتار مانند فناوری‌های دیگه، به‌ راحتی زندگی بشر بسیار کمک کرده. شما تا الان چه‌قدر از این فناوری استفاده کردین؟

دانلود فایل PDF مقاله:

دانلود فایل PDF

سوالات متداول

در تبدیل گفتار به متن از چه مدل‌هایی استفاده می‌شه؟

برای تبدیل گفتار به متن، از مدل‌های DTW و HMM به‌همراه مدل‌های مختلف شبکه‌ی عصبی استفاده می‌شه. این مدل‌ها با طبقه‌بندی واج‌ها، تشخیص کلمات و تشخیص صدای گوینده به‌خوبی کار می‌کنن.

تبدیل گفتار به متن، چه کاربردهایی داره؟

برای تایپ مطالب زیاد؛ برای افرادی که معلولیت‌هایی دارن؛ و برای مکتوب کردن تماس‌ها در مراکز پشتیبان و …

هوش مصنوعی در تبدیل گفتار به متن چه نقشی داره؟

تشخیص گفتار و استخراج ویژگی‌های گفتار به کمک هوش مصنوعی انجام می‌شه.

احسان نعنایی

عضوی کوچک از مجموعه بزرگ نت ران !
خبرنامه
Notify of
guest
0 نظرات
Inline Feedbacks
View all comments

نوشته های مشابه

دکمه بازگشت به بالا