
مکانیزم تبدیل گفتار به نوشتار به کمک هوش مصنوعی
در جهان امروزی، ارتباطات به عنصر اصلی زندگی ما انسانها تبدیل شده. انتقال اطلاعات به شخص مناسب و به روش صحیح بسیار اهمیت داره. تبدیل گفتار به نوشتار و نوشتار به گفتار یکی از پیشرفتهای حائز توجه در زمینهی ارتباطاته. تماسهای تلفنی، ایمیلها، پیامهای متنی و غیرمتنی بخش جداییناپذیر انتقال پیام در دنیای فناوری هستن. بیشتر برنامههای انتقال پیام، از توابعی برای تبدیل گفتار به متن، تبدیل متن به گفتار و ترجمه به زبانهای دیگه استفاده میکنن.
در این مقالهی مجلهی نتران میخوام نحوهی تبدیل گفتار به نوشتار و کاربردهای جالبش رو به زبان سادهتری توضیح بدم. به هر حال، چون این کار تکنولوژی پیچیدهای حساب میشه، با اصطلاحات علمی زیادی روبهرو میشیم؛ اما سعی کردم تا جایی که میتونم بهصورت ساده و روان مسئله رو بررسی کنم.
تشخیص گفتار اولین مرحلهی تبدیل گفتار به متن
تشخیص گفتار، توانایی دستگاه در شناخت کلمات و عبارات بیانشده و تبدیل اونها به قالب قابلفهم توسط ماشینه. در سیستمهای تشخیص گفتار، چند عامل اهمیت دارن:
- گوینده: صدای گویندهها متفاوته. هر مدلی یا باید برای یک گوینده خاص طراحی بشه یا طوری باشه که با صدای هر گویندهای خودش رو تطبیق بده.
- نحوهی بیان واژهها: نحوهی صحبت گوینده هم در تشخیص گفتار نقش داره. بعضی از مدلها میتونن گفتههای پیوسته یا گفتههای ناپیوسته رو با مکثی که در این بین وجود داره، تشخیص بدن.
- واژهها: اندازهی واژهها در تعیین پیچیدگی، عملکرد و دقت سیستم نقش مهمی داره.
مدل تشخیص گفتار پایه
برای تبدیل گفتار به متن، از مدلهای DTW و HMM بههمراه مدلهای مختلف شبکهی عصبی استفاده میشه. این مدلها با طبقهبندی واجها، تشخیص کلمات و تشخیص صدای گوینده بهخوبی کار میکنن. نقش شبکه عصبی در تکامل هوش مصنوعی، بسیار مهمه. هر سیستم تشخیص گفتار، مراحل استانداردی مثل استخراج ویژگی، تولید مدل و دستهبندی الگو رو طی میکنه.
مراحل تشخیص گفتار
- پیشپردازش: گفتار ما یک سیگنال آنالوگه. این سیگنال آنالوگ باید به سیگنال دیجیتال تبدیل بشه. بعد از تبدیل شدن به سیگنال دیجیتال، از اولین فیلتر عبور میکنه. بهنوعی میشه گفت این فیلتر سیگنالها رو مسطح میکنه. دلیل این کارها اینه که سیگنال در فرکانس بالاتر، انرژی بیشتری داره.
- استخراج ویژگی: بعد از پیشپردازش، نوبت به استخراج ویژگی میرسه. در این مرحله، پارامترهای گفتار مشخص میشن. منظور از پارامترهای گفتار همون اطلاعات سیگناله. این پارامترها از طریق پردازش شکل موج صوتی بهدست میان.
چند تکنیک استخراج ویژگی برای تشخیص گفتار
- ضرایب پیشگویی خطی (LPC): این مرحله یک نمونهگفتار رو بهعنوان یک ترکیب خطی از نمونهگفتار گذشته تقریب میزنه. شکل زیر، روند LPC رو نشون میده. سیگنال دیجیتالیشده، بلوکی از N فریم نمونه است. هر فریم پنجرهبندی میشه. این پنجرهها با هم در ارتباط هستن.
آخرین مرحله، تحلیل LPC هستش که هر فریم رو با توجه به همبستگیهای خودش به مجموعه پارامترهای LPC تبدیل میکنه.
- ضریب کپسترال فرکانس مل (MFCC): این روش از سیستم شنوایی انسان الگو گرفته. MFCC مراحل خاصی رو بر سیگنال ورودی اعمال میکنه. این مراحل عبارتاند از:
- فریمبندی: شکل موج گفتار، بریده بریده میشه تا در صورت وجود تداخل، تداخلات از بین برن.
- پنجرهبندی: ناپیوستگیهای سیگنال رو به حداقل میرسونه.
- تبدیل فریم گسسته: هر فریم رو از دامنهی زمان به دامنهی فرکانس نگاشت میکنه.
- الگوریتم فیلتر بانک مل: سیگنال رو به تقلید از شنوایی انسان با توجه به طیف Mel رسم میکنه.
- کشوقوس زمانی پویا (Dynamic time warping): این الگوریتم برای اندازهگیری شباهت بین دو سری زمانی براساس برنامهریزی پویا استفاده میشه. ممکنه این دو سری زمانی از نظر سرعت متفاوت باشن. هدف اینه که دو توالی بردار ویژگی (1 از هر سری) بهصورت تکراری بررسی بشن تا یک مطابقت مطلوب (با توجه به معیارهای مناسب) بین اونها پیدا بشه.
مدلهای صوتی یا آکوستیک
این قسمت در سیستم تشخیص گفتار خودکار (ASR) خیلی مهمه. مدلهای صوتی بین اطلاعات صوتی و آوایی ارتباط برقرار میکنه.
مدلهای زبانی
این مدل، احتمال وقوع یک کلمه رو بعد از یک توالی کلمه بررسی میکنه. مدل شامل محدودیتهای ساختاری موجود در زبان، برای بررسی احتمال وقوع هستش. مدل زبان بین کلمه و عباراتی که صدای مشابهی دارن، تمایز قائل میشه.
طبقهبندی الگو
این فرآیند، با مقایسهی الگوی ناشناخته با الگوهای مرجع و موجود صدا و محاسبه شباهت بین اونها انجام میشه. پس از اتمام آموزش سیستم در زمان آزمایش، الگوها برای تشخیص گفتار طبقهبندی میشن. رویکردهای مختلف برای تطبیق با الگو در زیر آورده شده:
- رویکرد مبتنی بر الگو: این رویکرد دارای مجموعهای از الگوهای گفتاریه که بهعنوان مرجعی از واژههای فرهنگ لغت ذخیره میشه. کلمه، از طریق تطبیق کلمهی بیانشده با الگوی مرجع شناخته میشه.
- رویکرد مبتنی بر دانش: این رویکرد مجموعهای از ویژگیها رو از گفتار میگیره، سپس سیستم رو آموزش میده تا مجموعهای از قواعد رو بر اساس نمونه تولید کنه.
- رویکرد مبتنی بر شبکهی عصبی: این رویکرد برای تشخیص گفتارهای پیچیدهتر مناسبه. کار اصلی این رویکرد، کسب دانش از منابع گوناگون دانشه.
- رویکرد آماری: در این روش، تغییرات در گفتار، با استفاده از روشهای آموزشی از نظر آماری (بهعنوان مثال HMM) مدل میشن.
تبدیل گفتار به نوشتار
بعد از اینکه کلمهها یا همون گفتار تشخیص داده بشه، نوبت به تبدیل گفتار به نوشتار میرسه. تبدیل گفتار به نوشتار، فرآیند تبدیل کلمات بیانشده به متن نوشتاریه. در زیر، بعضی روشهای تبدیل که بهطور گسترده مورد استفاده قرار گرفته رو مطرح کردیم:
- زنجیرهی مخفی مارکوف (HMM): یک مدل آماریه که در تشخیص گفتار استفاده میشه. این مدل، یک سیگنال گفتاری رو بهشکل یک سیگنال ثابت کوچیک یا یک سیگنال ثابت کوتاهمدت میبینه. HMM به پارامترهای دقت تشخیص و سرعت تشخیص بستگی داره.
- بهینهسازی جستوجوی Cuckoo مبتنی بر دستهبندیکنندهی شبکهی عصبی مصنوعی (ANN): تکنیک بهینهسازی جستوجوی Cuckoo همراه با ASR برای ارتباط بهتر، شناخت بهتر و حذف نویز ناخواسته استفاده میشه. ASR برای رابط بهتر تعامل انسان و ماشین ساخته شده.
کاربرد تبدیل گفتار به نوشتار
روش تبدیل گفتار به نوشتار رو دیدیم. اما این فناوری چه مزیتی داره؟ تصور کنید که قراره یک متن زیاد رو تایپ کنید. با خودتون فکر میکنید اگه این متن رو به کسی دیکته میکردم و اون این متن رو مینوشت، چقدر خوب بود.
این فناوری مانند هر فناوری دیگهای یکسری کارها رو برای انسان راحتتر کرده. در زمانی که پشت فرمون هستید، یا دست شما درگیر کار دیگهایه، بهراحتی میتونید برای دوستاتون پیام متنی ارسال کنید.
این فناوری، همچنین برای افرادی که معلولیتهایی دارن و قادر به نوشتن نیستن، مناسبه. بسیاری از کسبوکارها نیاز دارن که مواردی رو مکتوب کنن؛ مثلا یک مرکز تماس شاید نیاز داشته باشه که تماسها رو مکتوب کنه. اینها فقط چند مورد از کاربردهای تبدیل گفتار به نوشتار بود.
حرف آخر
دیدیم که تشخیص گفتار یکی از مراحل تبدیل گفتار به نوشتار هستش. تشخیص گفتار و تبدیل گفتار به نوشتار هرکدوم رویکردهای مخصوص بهخودشون رو دارن که من در این مقاله، این موارد رو بررسی کردم. تبدیل گفتار به نوشتار یکی دیگه از کاربردهای هوش مصنوعی هستش.
سوالات متداول
برای تبدیل گفتار به متن، از مدلهای DTW و HMM بههمراه مدلهای مختلف شبکهی عصبی استفاده میشه. این مدلها با طبقهبندی واجها، تشخیص کلمات و تشخیص صدای گوینده بهخوبی کار میکنن.
برای تایپ مطالب زیاد، برای افرادی که معلولیتهایی دارن و برای مکتوب کردن تماسها در مراکز پشتیبان و…
تشخیص گفتار و استخراج ویژگیهای گفتار به کمک هوش مصنوعی انجام میشه.