AIcode مرجع تخصصی هوش مصنوعی

<aicode>

 

 

 

 

 

جهت خصوصی‌سازی و سفارشی‌سازی پروژه‌ها یا دریافت توضیحات و اطلاعات بیشتر از طریق فرم یا شماره تماس در صفحه تماس با ما اقدام کنید.


 هدف از این پروژه تشخیص جنسیت گوینده با استفاده از ویژگی‌های MFCC، LPC، LPCC و مدل دسته‌بند SVM است. از یک مجموعه داده کوچک فارسی به این منظور استفاده شده است. در روش پیاده‌سازی شده برای تشخیص جنسیت گوینده، ابتدا صوت فریم بندی شده و از هر فریم ویژگی‌های MFCC، LPC، LPCC استخراج می‌شود. این مرحله در واقع توصیفی فرکانسی از فریم را مدل می‌کند. در واقع ما انتظار داریم فریم‌های متناظر با جنسیت خاصی از (مثلا فریم‌های مربوط به مردان) بردار ویژگی MFCC مشابهی داشته ‌باشند. به عبارت دیگر اختلاف آنها ناچیز باشد. ویژگی‌های (مجموعا 36 ویژگی) هر فریم از یک صوت مربوط به یک گوینده، با برچسب جنسیت آن گوینده (1 [مرد] یا 2 [زن]) به دسته‌بند ماشین بردار پشتیبان داده می‌شود. برای مثال فرض کنید یک صوت مردان، شامل 100 فریم ‌باشد. از این 100 فریم، 100 بردار ویژگی 36-تایی (3 نوع ویژگی 12 بعدی) به دست می‌آید. هرکدام از این 100 بردار (36- بعدی) به دست آمده برچسب "1" می‌خورند و به دسته‌بند داده می‌شوند. در هنگام آزمون مدل آموزش دیده شده همین فرآیند تکرار می‌شود با این تفاوت که 100 برچسب توسط مدل SVM پیش‌بینی می‌شود. برای به دست آوردن برچسب، بین 100 پیش‌بینی به دست آمده رای اکثریت گرفته می‌شود تا برچسب نهایی یک صوت به عنوان یک زن یا مرد پیش بینی شود. در این پروژه دقت دسته‌بندی فریم‌های آزمون 89% و دقت دسته‌بندی در سطح صوت‌های آزمون 100% به دست آمد.

محتویات فایل قابل خرید: سورس کد متلب، فایل ورد گزارش پروژه، مجموعه داده نمونه
زبان برنامه نویسی: متلب

پروژه تشخیص جنسیت گوینده با استفاده از ماشین بردار پشتیبان (SVM) و ویژگی های MFCC، LPC و LPCC
390,000ریال

در این پروژه هدف تشخیص (دسته‌بندی) گوینده صوت ورودی است. برای این منظور از ویژگی‌های MFCC و مدل دسته‌بند ماشین بردار پشتیبان استفاده شده است. در روش پیاده‌سازی شده برای تشخیص گوینده، ابتدا صوت فریم بندی شده و از هر فریم ویژگی‌های MFCC استخراج می‌شود. این مرحله در اکثر پژوهش‌های پردازش گفتار رایج است و در واقع توصیفی فرکانسی از فریم را مدل می‌کند. در واقع ما انتظار داریم فریم‌های متناظر با بخش خاصی از یک واج (مثلا فریم‌های مربوط به بخش انفجاری واج انفجاری "ب") برای یک گوینده خاص، بردار ویژگی MFCC مشابهی داشته ‌باشند. به عبارت دیگر اختلاف آنها ناچیز باشد. ویژگی‌های MFCC هر فریم از یک صوت مربوط به یک گوینده، با برچسب آن گوینده (1 تا 10) به دسته‌بند ماشین بردار پشتیبان داده می‌شود. برای مثال فرض کنید یک صوت گوینده "پنج" ، شامل 100 فریم ‌باشد. از این 100 فریم، 100 بردار ویژگی MFCC به دست می‌آید. هرکدام از این 100 بردار (13- بعدی) به دست آمده برچسب "پنج" می‌خورند و به دسته‌بند داده می‌شوند. در هنگام آزمون مدل آموزش دیده شده همین فرآیند تکرار می‌شود با این تفاوت که 100 برچسب توسط مدل SVM پیش‌بینی می‌شود. برای به دست آوردن برچسب، بین 100 پیش‌بینی به دست آمده رای اکثریت گرفته می‌شود.

پروژه تشخیص صدای گوینده (دسته بندی صوت) با استفاده از ویژگی‌های MFCC و مدل دسته‌بند ماشین بردار پشتیبان
850,000ریال

ادامه مطلب...

در این تمرین قصد داریم تا با کارهای مقدماتی بر روی فایل‌های صوتی و نمایش آن به همراه طراحی یک واسط کاربری ساده، مهارت های اوليه را در این درس کسب نمایيم. در این تمرین هر دانشجو باید یک واسط کاربری، مشابه آنچه در زیر نمایش داده شده را در MATLAB R2013b به بالا طراحی کند. در ادامه توضيحاتی مربوط به این واسط کاربری داده شده است. در هر مورد میتوانيد با مراجعه به Help در MATLAB از جزئيات دستورات استفاده کنيد.(در ادامه متن صورت مسئله و موارد خواسته شده آمده است)

تمرین درس تبدیل متن به گفتار: طراحی رابط کاربری گرافيکی برای ضبط، پخش و نمایش سيگنال های صوتی و کار با نرم افزار WaveSurfer
200,000ریال

ادامه مطلب...

تشخیص گفتار آنلاین (تشخیص کلمات مجزا به صورت آنلاین) مبتنی بر مدل مارکوف مخفی (Hidden markov model)
این پروژه به منظور تشخیص کلمات گفتاری طراحی و پیاده‌سازی شده است. توجه شود که مجموعه داده به سادگی قابل تغییر است کافی است که به ازای هر کلمه موردنظر حدودا 20 فایل صوتی (و یا بیشتر) ضبط شود (توسط واسط گرافیکی تهیه شده برای برنامه). برای مثال ما برای تشخیص کلمات بهرام، کامران، محمد و سعید، به ازای هرکدام از این کلمات 25 فایل صوتی ضبط کرده‌ایم که 18 فایل از هرکدام برای آموزش مدل و 7 فایل برای آزمون آفلاین مدل استفاده شده است. پس از آموزش مدل‌های HMM با ضبط هر کلمه توسط واسط گرافیکی به صورت آنلاین توسط برنامه، برچسب کلمه مشخص می‌شود.

امکانات پروژه
1- تشخیص کلمات گفتاری
2- امکان تغییر مجموعه داده به صورت ساده و با ضبط صوت توسط برنامه
3- ضبط صوت
4- نمایش صوت هنگام ضبط
5- ذخیره صوت
6- پخش صوت
7- باز کردن صوت‌های wav
8- تنظیم پارامترهای مدل HMM در واسط گرافیکی

برای دانلود فایل راهنمای برنامه و توضیح روش مورد استفاده به آدرس زیر مراجعه کنید:

دانلودفایل توضیحات

محتویات فایل قابل خرید: سورس کد متلب، فایل راهنمای ورد، فایل راهنمای توضیح روش استفاده شده به زبان انگلیسی (این پروژه بر اساس پروژه نهایی یکی از دانشگاههای دانمارک تهیه شده و برای مجموعه داده‌های گفتار فارسی و انگلیسی قابل استفاده است)، مجموعه داده شامل 4 کلمه و 25 فایل صوتی (قابل تغییر)
زبان برنامه نویسی: متلب

تشخیص گفتار آنلاین (تشخیص کلمات مجزا به صورت آنلاین) مبتنی بر مدل مارکوف مخفی
750,000ریال

تبلیغات AIcodeMahak

AIcode مرجع تخصصی آموزش مهندسی کامپیوتر و هوش مصنوعی

تماس با ما

ايميل: info@aicode.ir

عضویت در خبرنامه AIcode