در ادامه مطلب می توانید تکه هایی از ابتدای این پایان نامه را بخوانید

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشکده تحصیلات تکمیلی

سمینار برای دریافت درجه کارشناسی ارشد

مهندسی برق – الکترونیک

عنوان:

جداسازی گفتار و موزیک

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :
(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)
چکیده
پردازش گفتار با در نظر داشتن کاربردهای وسیع آن در ارتباطات، تبادل اطلاعات میان بشر و ماشین مانند روبات ها، صنعت مخابرات، سمعک ها، به کارگیری ماشین در ترجمه مکالمات از یک زبان به زبان دیگر، ابزارهای آموزشی و دیگر محصولات تجاری مورد توجه قرار گرفته می باشد. دهه اخیر شاهد پیشرفت چشمگیری در این عرصه بوده می باشد. سیستم ها و الگوریتم هایی که با عملکرد بالا در آزمایشگاه پیاده سازی شده اند، به سمت دنیای واقعی در حال حرکت هستند.
جداسازی یا افتراق بین گفتار و موسیقی (SMD) مانند موضوعاتی می باشد که در دهه اخیر، مطالعات زیادی روی آن انجام شده می باشد. از کاربردهای آن می توان به تشخیص کانال های رادیویی که فقط موسیقی پخش می کنند تصریح نمود. همچنین می تواند به عنوان بخش اولیه در بازشناسی خودکار گفتار محسوب گردد.
به گونه کلی اغلب کارهایی که در این زمینه انجام شده می باشد شامل دو مرحله می باشد: 1- استخراج ویژگی قطعه صوتی که فرق بین گفتار و موسیقی را اظهار می کند 2- طبقه بندی قطعه صوتی با در نظر داشتن ویژگی. در بعضی رویکردها از یک ویژگی بهره گیری می گردد اما در بعضی دیگر از چند ویژگی. مانند این ویژگی ها می توان به نرخ عبور از صفر، ضرائب کپسترال، ضرائب کدینگ پیش خطی و… تصریح نمود. طبقه بندی کننده هایی که برای این کار بهره گیری می شوند نیز طبقه کننده های مرسوم مانند مدل مارکوف پنهان، ماشین بردار پشتیبان، گوسی و شبکه های عصبی و… می باشند.
مقدمه
پیشرفت های قابل توجه فن آوری در طی دهه های گذشته به گونه چشمگیری طریقه ارتباط مستقر کردن مردم با بسیاری از منابع مختلف اطلاعات و سرگرمی را تغییر داده می باشد. کاربران فن آوری های مدرن، در ارتباط با انواع رسانه ها از یک حالت انفعال به وضعیت فعال منتقل شده می باشد. همین گونه که مقادیر داده ای در دسترس افزایش می یابد، تکنیک های کارآمد داده گردانی نیز لازم می گردد.
در چند سال گذشته داده های صوتی به اندازه زیاد از منابع در دسترس مانند پایگاه داده ها، برنامه های پخش و اینترنت ایجاد شده اند. بخاطر این که، توجه ویژه ای به توسعه استراتژی های جابجایی داده اختصاص داده شده می باشد. پس، افتراق گفتار / موسیقی (SMD) به عنوان یکی از اهداف مهم به شمار می رود.
برای اهداف مختلفی می توان از یک SMD کارآمد بهره مند گردید. از این ابزار می توان برای انتخاب براساس محتوا در مجموعه برنامه های پخش بهره گیری نمود. نمونه ای از این نوع کاربرد، انتخاب ایستگاه های رادیویی می باشد که در واقع فقط موسیقی پخش می کنند. همچنین SMD قسمت اساسی تشخیص خودکار گفتار (ASR) و رونویسی موسیقی خودکار (AMT)، که اغلب نیاز به تجزیه و تحلیل داده های صوتی بی ساخت یا نامعلوم دارند. در مورد ASR، بخش گفتار فقط بایستی در نظر گرفته گردد، در حالی که در AMT بایستی نمونه های موسیقی مورد توجه قرار گیرند. پس مهم می باشد که سیگنال قبل از ورود به این سیستم ها به گونه صحیح قطعه بندی گردد. در نهایت نیز، توجه داشته باشید که دستگاه های مدرن کمک شنوایی اغلب شامل الگوریتم هایی هستند که عملکرد دستگاه را با در نظر داشتن نوع صدایی که به گوش می رسد تغییر می دهد. در این مورد، SMD خوب می تواند مؤثر باشد.
بیشتر تکنیک های SMD پیشنهاد شده تاکنون، نتایج خوبی داشته اند، اما هنوز هم چند نکته خصوصاً راجع به توانمندی به شرایط نامعلوم یا آموزش ندیده، موضوعی برای پیشرفت و توسعه این سیستم ها می باشند.
همه استراتژی های تبعیض بین گفتار و موسیقی در دو نکته مشترک هستند: استخراج ویژگی که حامل اطلاعات مربوط به سیگنال می باشد و ترکیب یا نگاشت این ویژگی ها به یک برچسب، برای داده هایی که طبقه بندی می شوند. در زیر بحث مختصری از استراتژی خاص مورد بهره گیری در بعضی از آثار اولیه مربوطه ارائه شده می باشد.
ساندرس یک دسته بندی کننده موزیک – گفتار برای پخش رادیویی با بهره گیری از ویژگی های ساده ای مانند نرخ عبور از صفر و انرژی زمان کوتاه ارائه داد. در مقاله ساندرس برای رسیدن به دقتی برابر 98% طول پنجره برابر 2/4 ثانیه در نظر گرفته گردید. در همین زمان اسچیرر و همکارش ویژگی های بیشتری را برای دسته بندی صوتی در نظر گرفتند و آزمایشات خود را بر روی انواع مدل های طبقه بندی کننده مدل مخلوط گوسی (GMM)، شبکه های عصبی مصنوعی انتشار خطا به عقب (BP-ANN) و k نزدیک ترین همسایه (KNN) انجام دادند. با به کارگیری پنجره یکسان (2/4 ثانیه) برای آزمایشات، نرخ خطا برابر 1/4 درصد گزارش شده می باشد. این در حالی می باشد که در صورت به کارگیری پنجره کوچکتر و یا در نظر گرفتن نویز و صداهای محیطی نتایج رضایت بخش نمی باشد.
در این مجموعه کوشش شده می باشد که به چند نمونه از کارهایی که در سال های اخیر انجام شده می باشد، پرداخته گردد. در این رویکردها از ویژگی های جدیدتری بهره گیری شده می باشد و از طبقه بندی کننده های مختلفی نیز بهره جسته اند. در آغاز در فصل اول، برای آشنایی با مفاهیم پایه پردازش گفتار، بعضی از مفاهیم و اصطلاحات مورد نیاز اظهار شده می باشد. در فصول بعدی نیز رویکردها و نتایج شبیه سازی بعضی از روش ها اظهار شده می باشد.
تعداد صفحه : 110
قیمت : 14700 تومان

 

این مطلب رو هم توصیه می کنم بخونین:   پایان نامه ارشد گروه برق گرایش قدرت: کنترل فرکانس سیستم قدرت در حضور منابع انرژی تجدید پذیر به کمک سیستم ذخیره ساز باتری

***

دسته‌ها: مهندسی برق

دیدگاهتان را بنویسید