مکانیزم تبدیل گفتار به نوشتار به کمک هوش مصنوعی

آخرین به روز رسانی: ۰۹ اسفند ۱۴۰۲

۰ ۱,۹۹۳ زمان مطالعه: ۵ دقیقه

در جهان امروزی، ارتباطات به عنصر اصلی زندگی ما انسان‌ها تبدیل شده. انتقال اطلاعات به شخص مناسب و به روش صحیح بسیار اهمیت داره. تبدیل گفتار به نوشتار و نوشتار به گفتار یکی از پیشرفت‌های حائز توجه در زمینه‌ی ارتباطاته. تماس‌های تلفنی، ایمیل‌ها، پیام‌های متنی و غیرمتنی بخش جدایی‌ناپذیر انتقال پیام در دنیای فناوری هستن. بیشتر برنامه‌های انتقال پیام، از توابعی برای تبدیل گفتار به متن، تبدیل متن به گفتار و ترجمه به زبان‌های دیگه استفاده می‌کنن.

در این مقاله‌ی مجله‌ی نت‌ران می‌خوام نحوه‌ی تبدیل گفتار به نوشتار و کاربردهای جالبش رو به زبان ساده‌تری توضیح بدم. به هر حال، چون این کار تکنولوژی پیچیده‌‌ای حساب میشه، با اصطلاحات علمی زیادی روبه‌رو می‌شیم؛ اما سعی کردم تا جایی که می‌تونم به‌صورت ساده و روان مسئله رو بررسی کنم.

ارتباطات لازمه زندگی امروز

با پیشرفت هوش مصنوعی، این تکنولوژی به دستورات “سیری” اپل و “بیکس‌بی” سامسونگ خلاصه نمیشه. chatGPT یکی از جدیدترین و پیشرفته‌ترین هوش‌های مصنوعی دنیای امروز است که توسط شرکت مایکروسافت طراحی و پیشرفت داده شده. علاوه‌بر چت جی بی تی، هوش مصنوعی گوگل به اسم Bard رونمایی شد که یکی از جدی‌ترین رقبای chatGPT است.

مطالب نوشته

تشخیص گفتار اولین مرحله‌ی تبدیل گفتار به متن

تشخیص گفتار، توانایی دستگاه در شناخت کلمات و عبارات بیان‌شده و تبدیل اون‌ها به قالب قابل‌فهم توسط ماشینه. در سیستم‌های تشخیص گفتار، چند عامل اهمیت دارن:

گوینده: صدای گوینده‌ها متفاوته. هر مدلی یا باید برای یک گوینده خاص طراحی بشه یا طوری باشه که با صدای هر گوینده‌ای خودش رو تطبیق بده.
نحوه‌ی ‌بیان واژه‌ها: نحوه‌ی صحبت گوینده هم در تشخیص گفتار نقش داره. بعضی از مدل‌ها می‌تونن گفته‌های پیوسته یا گفته‌های ناپیوسته رو با مکثی که در این بین وجود داره، تشخیص بدن.
واژه‌ها: اندازه‌ی واژه‌ها در تعیین پیچیدگی، عملکرد و دقت سیستم نقش مهمی داره.

مدل تشخیص گفتار پایه

برای تبدیل گفتار به متن، از مدل‌های DTW و HMM به‌همراه مدل‌های مختلف شبکه‌ی عصبی استفاده میشه. این مدل‌ها با طبقه‌بندی واج‌ها، تشخیص کلمات و تشخیص صدای گوینده به‌خوبی کار می‌کنن. نقش شبکه عصبی در تکامل هوش مصنوعی، بسیار مهمه. هر سیستم تشخیص گفتار، مراحل استانداردی مثل استخراج ویژگی، تولید مدل و دسته‌بندی الگو رو طی می‌کنه.

تشخیص صدا ، تشخیص گفتار و مفهوم یادگیری عمیق

مراحل تشخیص گفتار

پیش‌پردازش:‌ گفتار ما یک سیگنال آنالوگه. این سیگنال آنالوگ باید به سیگنال دیجیتال تبدیل بشه. بعد از تبدیل شدن به سیگنال دیجیتال، از اولین فیلتر عبور می‌کنه. به‌نوعی میشه گفت این فیلتر سیگنال‌ها رو مسطح می‌کنه. دلیل این کارها اینه که سیگنال در فرکانس بالاتر، انرژی بیشتری داره.

استخراج ویژگی: بعد از پیش‌پردازش، نوبت به استخراج ویژگی میرسه. در این مرحله، پارامترهای گفتار مشخص میشن. منظور از پارامترهای گفتار همون اطلاعات سیگناله. این پارامترها از طریق پردازش شکل موج صوتی به‌دست میان.

هدف این مرحله ایجاد یک دنباله از بردارهای ویژگی (یعنی همون اطلاعات سیگنال) هستش که به‌نوعی نمایش فشرده‌ی سیگنال ورودیه.

چند تکنیک استخراج ویژگی برای تشخیص گفتار

ضرایب پیشگویی خطی (LPC): این مرحله یک نمونه‌گفتار رو به‌عنوان یک ترکیب خطی از نمونه‌گفتار گذشته تقریب میزنه. شکل زیر، روند LPC رو نشون میده. سیگنال دیجیتالی‌شده، بلوکی از N فریم نمونه است. هر فریم پنجره‌بندی میشه. این پنجره‌ها با هم در ارتباط هستن.

آخرین مرحله، تحلیل LPC هستش که هر فریم رو با توجه به همبستگی‌های خودش به مجموعه پارامترهای LPC تبدیل می‌کنه.

نمودار سیگنال صدا

ضریب کپسترال فرکانس مل (MFCC): این روش از سیستم شنوایی انسان الگو گرفته. MFCC مراحل خاصی رو بر سیگنال ورودی اعمال می‌کنه. این مراحل عبارت‌اند از:

فریم‌بندی: شکل موج گفتار، بریده بریده میشه تا در صورت وجود تداخل، تداخلات از بین برن.
پنجره‌بندی: ناپیوستگی‌های سیگنال رو به حداقل می‌رسونه.
تبدیل فریم گسسته: هر فریم رو از دامنه‌ی زمان به دامنه‌ی فرکانس نگاشت می‌کنه.
الگوریتم فیلتر بانک مل: سیگنال رو به تقلید از شنوایی انسان با توجه به طیف Mel رسم می‌کنه.

کش‌وقوس زمانی پویا (Dynamic time warping): این الگوریتم برای اندازه‌گیری شباهت بین دو سری‌ زمانی براساس برنامه‌ریزی پویا استفاده میشه. ممکنه این دو سری زمانی از نظر سرعت متفاوت باشن. هدف اینه که دو توالی بردار ویژگی (1 از هر سری) به‌صورت تکراری بررسی بشن تا یک مطابقت مطلوب (با توجه به معیارهای مناسب) بین اون‌ها پیدا بشه.

برای تبدیل گفتار به متن به هوش مصنوعی احتیاج دارید.

مدل‌های صوتی یا آکوستیک

این قسمت در سیستم تشخیص گفتار خودکار (ASR) خیلی مهمه. مدل‌های صوتی بین اطلاعات صوتی و آوایی ارتباط برقرار می‌کنه.

مدل‌های زبانی

این مدل، احتمال وقوع یک کلمه رو بعد از یک توالی کلمه بررسی می‌کنه. مدل شامل محدودیت‌های ساختاری موجود در زبان، برای بررسی احتمال وقوع هستش. مدل زبان بین کلمه و عباراتی که صدای مشابهی دارن، تمایز قائل میشه.

مدل زبانی باقی جمله رو حدس میزنه

طبقه‌بندی الگو

این فرآیند، با مقایسه‌ی الگوی ناشناخته با الگوهای مرجع و موجود صدا و محاسبه شباهت بین اون‌ها انجام میشه. پس از اتمام آموزش سیستم در زمان آزمایش، الگوها برای تشخیص گفتار طبقه‌بندی میشن. رویکردهای مختلف برای تطبیق با الگو در زیر آورده شده:

رویکرد مبتنی بر الگو: این رویکرد دارای مجموعه‌ای از الگوهای گفتاریه که به‌عنوان مرجعی از واژه‌های فرهنگ لغت ذخیره میشه. کلمه، از طریق تطبیق کلمه‌ی بیان‌شده با الگوی مرجع شناخته میشه.
رویکرد مبتنی بر دانش: این رویکرد مجموعه‌ای از ویژگی‌ها رو از گفتار می‌گیره، سپس سیستم رو آموزش میده تا مجموعه‌ای از قواعد رو بر اساس نمونه تولید کنه.
رویکرد مبتنی بر شبکه‌ی عصبی: این رویکرد برای تشخیص گفتارهای پیچیده‌تر مناسبه. کار اصلی این رویکرد، کسب دانش از منابع گوناگون دانشه.
رویکرد آماری: در این روش، تغییرات در گفتار، با استفاده از روش‌های آموزشی از نظر آماری (به‌عنوان مثال HMM) مدل میشن.

تبدیل گفتار به نوشتار

بعد از اینکه کلمه‌ها یا همون گفتار تشخیص داده بشه، نوبت به تبدیل گفتار به نوشتار میرسه. تبدیل گفتار به نوشتار، فرآیند تبدیل کلمات بیان‌شده به متن نوشتاریه. در زیر، بعضی روش‌های تبدیل که به‌طور گسترده مورد استفاده قرار گرفته رو مطرح کردیم:

زنجیره‌ی‌ مخفی مارکوف (HMM): یک مدل آماریه که در تشخیص گفتار استفاده میشه. این مدل، یک سیگنال گفتاری رو به‌شکل یک سیگنال ثابت کوچیک یا یک سیگنال ثابت کوتاه‌مدت می‌بینه. HMM به پارامترهای دقت تشخیص و سرعت تشخیص بستگی داره.
بهینه‌سازی جست‌وجوی Cuckoo مبتنی بر دسته‌بندی‌کننده‌ی شبکه‌ی عصبی مصنوعی (ANN): تکنیک بهینه‌سازی جست‌وجوی Cuckoo همراه با ASR برای ارتباط بهتر، شناخت بهتر و حذف نویز ناخواسته استفاده میشه. ASR برای رابط بهتر تعامل انسان و ماشین ساخته شده.

تبدیل گفتار به متن

کاربرد تبدیل گفتار به نوشتار

روش تبدیل گفتار به نوشتار رو دیدیم. اما این فناوری چه مزیتی داره؟ تصور کنید که قراره یک متن زیاد رو تایپ کنید. با خودتون فکر می‌کنید اگه این متن رو به کسی دیکته می‌کردم و اون این متن رو می‌نوشت، چقدر خوب بود.

این فناوری مانند هر فناوری دیگه‌ای یکسری کارها رو برای انسان راحت‌تر کرده. در زمانی‌ که پشت فرمون هستید، یا دست شما درگیر کار دیگه‌ایه، به‌راحتی می‌تونید برای دوستاتون پیام متنی ارسال کنید.

این فناوری، همچنین برای افرادی که معلولیت‌هایی دارن و قادر به نوشتن نیستن، مناسبه. بسیاری از کسب‌وکارها نیاز دارن که مواردی رو مکتوب کنن؛ مثلا یک مرکز تماس شاید نیاز داشته باشه که تماس‌ها رو مکتوب کنه. این‌ها فقط چند مورد از کاربردهای تبدیل گفتار به نوشتار بود.

حرف آخر

دیدیم که تشخیص گفتار یکی از مراحل تبدیل گفتار به نوشتار هستش. تشخیص گفتار و تبدیل گفتار به نوشتار هرکدوم رویکردهای مخصوص به‌خودشون رو دارن که من در این مقاله، این موارد رو بررسی کردم. تبدیل گفتار به نوشتار یکی دیگه از کاربردهای هوش مصنوعی هستش.

تشخیص گفتار مانند فناوری‌های دیگه، به‌ راحتی زندگی بشر بسیار کمک کرده. شما تا الان چقدر از این فناوری استفاده کردین؟

سوالات متداول

در تبدیل گفتار به متن از چه مدل‌هایی استفاده میشه؟

برای تبدیل گفتار به متن، از مدل‌های DTW و HMM به‌همراه مدل‌های مختلف شبکه‌ی عصبی استفاده میشه. این مدل‌ها با طبقه‌بندی واج‌ها، تشخیص کلمات و تشخیص صدای گوینده به‌خوبی کار می‌کنن.

تبدیل گفتار به متن، چه کاربردهایی داره؟

برای تایپ مطالب زیاد، برای افرادی که معلولیت‌هایی دارن و برای مکتوب کردن تماس‌ها در مراکز پشتیبان و…

هوش مصنوعی در تبدیل گفتار به متن چه نقشی داره؟

تشخیص گفتار و استخراج ویژگی‌های گفتار به کمک هوش مصنوعی انجام میشه.