پردازش گفتار
محمدرضا یزدچی؛ سید علی سیدصالحی
دوره 1، شماره 3 ، آذر 1386، ، صفحه 201-213
چکیده
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی ...
بیشتر
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد. در مقاله حاضر با الهام از سیستم درک و بازشناسی در انسان، شبکه عصبی دو سویه جدیدی طراحی و پیاده سازی شده است. این شبکه قادر است تا با اتصالات بازگشتی ضمن مدل سازی دنباله واج نظیر کلمات مجزا، طی تکرارهای مختلف، دنباله واج استخراج شده از مدل صوتی را به دنباله واج مطلوب، اصلاح کند. برای این منظور پس از پیاده سازی روش مذکور بر روی 400 کلمه مجزا از دادگان فارس دات تلفنی، در بهترین حالت، افزایش %16.9 در صحت بازشناسی واج مدل صوتی مشاهده شد. تشکیل بستر جذب در این شبکه عصبی دو سویه، از مزایای این شبکه در برابر شبکه های عصبی تک سویه است. در ادامه، به کمک متوالی کردن مدل واژگانی مذکور با مدل صوتی، متغیرهای بازنمایی بر اساس روش های معکوس سازی شبکه های عصبی اصلاح گردید. بهسازی گفتار با این روش نتایج قابل ملاحظه ای در کاهش عدم تطابق دادگان آزمون و آموزش در پی داشت. در این مقاله کارایی مدل واژگانی و بهسازی گفتار در قالب افزایش صحت بازشناسی واج به میزان %18 نسبت به مدل صوتی نشان داده شده است.