پایان نامه با موضوع: تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان

در این روش بعد از فاز استخراج ویژگی، برای تصمیم گیری از یک شبکه عصبی بهره گیری می گردد. شبکه های عصبی دارای ورودی، خروجی و لایه های مخفی میانی[1]می باشند.  شکل (2-7) دیاگرام ساده ای از این روش می باشد.

شکل (2-7): نمودار ساده ای از یک VAD مبتنی برشبکه های عصبی[30]

در [30] در لایه های میانی مقدار φ(X) ویژگی X از ارتباط (2-23) محاسبه می گردد.

 

که در آن C مرکز و مقدار میانگین و P دامنه تغییرات ویژگی مذکور می باشد. خروجی Y که یک تابع خطی از مقادیر لایه های آخرین سطح در لایه های پنهان می باشد از ارتباط (2-24) محاسبه می گردد.

 

که n تعداد واحدهای محاسباتی می باشد. پارامترهای بهره گیری شده در [30] شامل انرژی، مجموع مربع های ضرایب LPC و پارامترهای وابسته به فرکانس گام می باشد. در [54] از یک شبکه 3 لایه ای با 400 گره مخفی و بهره گیری از پارامترهای انرژی، اعوجاج طیفی (نسبت انرژی باند بالا به انرژی باند پایین) و اندازه صدادار بودن قاب، بهره گیری شده می باشد. در [55] بجای در نظر گرفتن دو کلاس گفتار و سکوت، از چند کلاس بهره گیری شده می باشد. در این مرجع با در نظر گرفتن ضرایب MFCC تعلق قاب به هر کلاس مطالعه می گردد و سپس از روی شاخص کلاس، مشخص می گردد قاب مورد نظر گفتار و یا سکوت می باشد.

[1] .Hidden Layers

 متن فوق بخش هایی از این پایان نامه بود

برای دیدن جزئیات بیشتر ، خرید و دانلود آنی فایل متن کامل با فرمت ورد

می توانید به لینک زیر مراجعه نمایید: