AIcode مرجع تخصصی هوش مصنوعی

<aicode>

 

 

 

 

 

مقدمه
شبکه‌های عصبی به دلیل قابلیت یادگیری ویژگی‌های ترکیبی و جدید در لایه‌ها به طور گسترده در همه زمینه‌های دسته‌بندی مورد استفاده قرار گرفته‌اند. مدل‌‌های شبکه عمیق توسعه یافته مدل‌های شبکه عصبی برای یادگیری تبدیل غیرخطی روی داده‌ها هستند. این مدل‌ها در سال‌های اخیر در همه زمینه‌ها از جمله پردازش تصاویر ماهواری و پزشکی، پردازش متن و ... مورد توجه فراوان قرار گرفته‌اند. در این مدل‌ها علاوه بر کدگذار در هر لایه یک کدگشا نیز وجود دارد . برای مثال در مدل کدگذار خودکار پشته‌ای در هر لایه یک تبدیل خطی همراه با یک تابع فعالیت روی آن برای بردن به نمایش جدید و یک تبدیل با همین مشخصات برای بازسازی داده داریم. مدل‌های مبتنی بر RBM در هر لایه یک مدل احتمالی مولد دارند، که به صورت خودکار نقش کدگشا را بازی می‌کند.


1

 لایه کدگذار خودکار در مدل شبکه عصبی عمیق

 
به عبارت دیگر تفاوت اساسی مدل‌های شبکه عمیق با شبکه عصبی این است که در هر لایه سعی می‌کنند قابلیت بازسازی داده را حفظ کنند یا شبیه مدل‌های RBM با مدل کردن توزیع داده‌ها در هر لایه، اطلاعات فضای ویژگی را حفظ کنند. این نکته اساسی در مدل‌های شبکه عمیق باعث می‌شود که جلوی بیش‌برازش مدل در شبکه عصبی گرفته شود و باعث می‌شود مدل قابلیت تعمیم بیشتری روی داده‌های آزمون داشته باشد. در واقع مدل‌های شبکه عصبی سنتی می‌توانند در تعداد لایه‌های زیاد، به راحتی وزن‌ها را به گونه‌ای تنظیم کنند که اطلاعات نظارتی توجیه شود درحالی‌که روی داده‌های آزمون نتیجه بسیار ناامید کننده به‌دست آيد. در واقع در مدل‌های شبکه عمیق این تضمین وجود دارد که فقط نمایش داده‌ها به منظور رسیدن به برچسب یا توجیه اطلاعات نظارتی تغییر کرده است و در واقع فقط اين اطلاعات حفظ شود در حالی‌که قابليت تعميم چندانی وجود نداشته باشد. به مدل‌های شبکه عمیق مبتنی بر RBM معمولا نام شبکه باور عمیق و به مدل‌های مبتنی بر انکدر-دیکدر شبکه عصبی عمیق یا مدل کدگذار خودکار پشته‌ای می‌گویند. مدل‌های شبکه عمیق در دو نسخه غیرنظارتی و نظارتی (مثل برچسب دسته‌ها) وجود دارند. مدل‌های غیرنظارتی به منظور انتقال فضای ویژگی و رسیدن به یک فضای بدون همبستگی در داده‌های با ابعاد بالا کاربد دارند. مدل‌های نظارتی معمولا به منظور دسته‌بندی یا رگرسیون همانند شبکه عصبی به صورت نظارتی آموزش می‌بینند.
مدل‌های شبکه عمیق توسعه‌یافته مدل‌های شبکه عصبی می‌باشند که امکان بالابردن تعداد لایه‌ها برای یادگیری ویژگی‌های سطح بالای جدید را دارند. در این نوشتار به معرفی مدل RBM و نحوه آموزش آن می‌پردازیم. مدل RBM و Auto-encoder دو مدل معروف به عنوان لایه‌های شبکه عمیق می‌باشند.
مدل‌‌های شبکه عمیق توسعه یافته مدل‌های شبکه عصبی برای یادگیری تبدیل غیرخطی روی داده‌ها هستند. این مدل‌ها در سال‌های اخیر مورد توجه فراوان قرار گرفته‌اند. در این مدل‌ها علاوه بر کدگذار در هر لایه یک کدگشا نیز وجود دارد. برای مثال در مدل کدگذار خودکار پشته‌ای در هر لایه یک تبدیل خطی همراه با یک تابع فعالیت روی آن برای بردن به نمایش جدید و یک تبدیل با همین مشخصات برای بازسازی داده داریم. مدل‌های مبتنی بر RBM در هر لایه یک مدل احتمالی مولد دارند، که به صورت خودکار نقش کدگشا را بازی می‌کند.
به عبارت دیگر تفاوت اساسی مدل‌های شبکه عمیق با شبکه عصبی این است که در هر لایه سعی می‌کنند قابلیت بازسازی داده را حفظ کنند یا شبیه مدل‌های RBM با مدل کردن توزیع داده‌ها در هر لایه، اطلاعات فضای ویژگی را حفظ کنند. این نکته اساسی در مدل‌های شبکه عمیق باعث می‌شود که جلوی بیش‌برازش مدل در شبکه عصبی گرفته شود. در واقع مدل‌های شبکه عصبی سنتی می‌توانند در تعداد لایه‌های زیاد، به راحتی وزن‌ها را به گونه‌ای تنظیم کنند که اطلاعات نظارتی توجیه شود درحالی‌که روی داده‌های آزمون نتیجه بسیار ناامید کننده به‌دست آيد. در واقع در مدل‌های شبکه عمیق این تضمین وجود دارد که فقط نمایش داده‌ها به منظور رسیدن به برچسب یا توجیه اطلاعات نظارتی تغییر کرده است و در واقع فقط اين اطلاعات حفظ شود در حالی‌که قابليت تعميم چندانی وجود نداشته باشد.
مدل کدگذار خودکار پشته‌ای:

2

مدل کدگذار خودکار پشته‌ای.


معرفی مدل RBM

مدل شبکه عصبی ماشین بولتزمان محدودشده (RBM) یک شبکه دولایه شامل یک لایه آشکار و یک لایه نهان است که مبتنی بر مدل هارمونیوم ابداع شد. یکی از پیچیدگی‌های مدل RBM، آموزش این مدل‌ است، که پس از ابداع الگوریتم مناسب برای آموزش آن توسط هینتون این مدل به‌شدت موردتوجه واقع شد و در حال حاضر مدل پایه‌ای در شبکه‌های باور عمیق است. در نوع استاندارد RBM معمولاً لایه داده آشکار و لایه نهان به‌صورت متغیرهای تصادفی دودویی مدل می‌شوند و توزیع شرطی متغیرها به‌صورت برنولی است. پارامترهای مدل RBM به‌گونه‌ای پیدا می‌شود که احتمال تولید داده‌ها را بیشینه کند و می‌توان آن را از دسته مدل‌های تولیدکننده برشمرد که مقدار درست نمایی را حداکثر می‌کنند. مدل گرافیکی مدل RBM را در شکل مشاهده می‌کنید. لایه ورودی x است. همان‌طور که مشاهده می‌شود مدل گرافیکی RBM بدون جهت است و بین هر متغیر در لایه نهان و لایه ورودی پیوند وجود دارد (گراف دوبخشی کامل است). مدل‌ RBM را می‌توان یک مدل گرافیکی MRF دانست.

 

3

4

مدل گرافیکی مدل‌ RBM

در مدل احتمالی RBM فرض‌های زیر برقرار است:
فرض 1) در مدل MRF هر متغیر به شرط همسایگانش از بقیه متغیرها مستقل است. در RBM همسایه‌های متغیرهای یک ‌لایه تمام گره‌های لایه مقابل است. بنابراین داریم:

5

W_i^k برهم‌کنش بین ویژگی i-ام از گونه x و متغیر –kام لایه نهان را مدل می‌کند. با توجه به مفهوم پیوند در مدل‌های MRF می‌توان این پارامترها را نشان‌دهنده همبستگی بین متغیرها دانست.
توجه شود که اگر نوع یکی از متغیرها را برنولی فرض کنیم در این صورت تابع توزیع شرطی مدل RBM استاندارد سیگموید خواهد بود. این توزیع‌های شرطی با فرض برنولی بودن متغیرها به شکل زیر به دست می‌آید:

6

از توزیع زیر برای آموزش مدل استفاده خواهیم کرد که به تابع E تابع انرژی توزیع گیبس گفته می‌شود:

7

آموزش مدل‌های RBM با استفاده از روش بیشینه کردن لگاریتم درست نمایی (Contrastive Divergence)

مدل RBM یک مدل احتمالی مولد (Generative) است. این مدل در حالت پایه هیچ استفاده‌ای از اطلاعات نظارتی فاصله‌ای نمی‌کند و فقط توزیع توأم ویژگی‌ها را تخمین می‌زند. برای آموزش مدل‌های مولد با رویکرد بیشینه کردن احتمال درست نمایی (Maximum Likelihood) داده‌ها، پارامترهای مدل را به‌گونه‌ای فرامی‌گیرند، که احتمال دیدن داده‌ها به‌شرط پارامترها حداکثر شود. برای آموزش مدل RBM، باید مسئله بهینه‌سازی زیر را حل کرد که معادل با بیشینه کردن درست نمایی مشاهده داده‌ها (لایه Visible) است:

8

برای یک نمونه خاص ('x)^i=(x) مقدار درست نمایی به‌صورت زیر به دست می آید:

9

که پارامتر Z ثابت نرمال ساز را مشخص می‌کند. برای حل این مسئله بهینه‌سازی از کاهش گرادیان استفاده می‌شود. با گرفتن گرادیان از لگاریتم دو طرف رابطه خواهیم داشت:

10

 انتگرال موجود در رابطه بالا تأثیر Z در مسئله بهینه‌سازی را نشان می‌دهد و محاسبه‌ی دقيق آن می‌تواند بسيار زمان‌بر باشد. ازآنجاکه توزیع‌های شرطی را داریم می‌توان برای تخمین انتگرال بالا از نمونه‌برداری گیبس استفاده کرد . با توجه به اینکه تعداد گام‌های نمونه‌برداری گیبس برای رسیدن به یک تخمین بدون بایاس زیاد است در عمل نمی‌توان از آن بهره برد. بنابراین هینتون روش نمونه‌برداری گیبس را تحت عنوان حداقل کردن واگرایی مقابله (CD)، برای حل تقريبی این مسئله ساده کردند. ایده آن به اين صورت است که به‌جای نمونه‌برداری از توزیع مدل از یک نمونه آموزش شروع کنیم و به‌صورت متناوب از لایه نهان و آشکار نمونه‌برداری کنیم (CD-K). آن‌ها نشان دادند که حتی با یک گام در این الگوریتم می‌توان به نتایج خوبی رسید (CD-1). الگوریتم نمونه‌برداری گیبس CD با K قدم:
یک نمونه آموزش انتخاب کن x^0=x^i
برای {l={1,…,K تکرار کن:

11

ازآنجا که روش آموزش این مدل، بر پایه کاهش گرادیان است، کاملاً مقیاس‌پذیر است. به‌صورت خلاصه می‌توان تغییر گرادیان پارامترها را به‌صورت زیر بیان کرد:

12

که در آن منظور از E_Data برآوردی است که با استفاده از مجموعه داده‌های آموزش به دست می‌آيد و در مقابل E_Model برآوردی را مشخص می‌کند که با استفاده از مدل با پارامترهای θ به دست می‌آيد. برای تخمين E_Model از داده‌های نمونه‌برداری شده توسط مدل با توجه به پارامترهای جاری (که توسط الگوریتم CD-1 با شروع از داده‌های آموزش به‌دست‌آمده‌اند) استفاده می‌شود. با توجه به توزیع توأم مفروض روابط مربوط به گرادیان نسبت به پارامترها برای مدل RBM به‌صورت زیر به دست می‌آید:

13

تعداد متغیرهای هر لایه در شبکه‌های عمیق

14

   15

معمولا در همه کارهای شبکه عمیق مرسوم است که هرچه که به لایه‌های جلوتر می‌رویم تعداد متغیرها کاهش می‌یابد. کم شدن تعداد متغیرهای لایه‌های بعدی را می‌توان از دو جنبه دید: 1. اصلا آیا اطلاعات موردنیاز از داده‌ها را می‌توان با تعداد کمتری متغیر نشان داد؟ 2. چرا کم شدن تعداد متغیرها باعث بهبود دقت می‌شود؟ در مورد پرسش اول می‌توان گفت که این کار در لایه‌های اول غیرممکن است ولی هرچه به لایه‌های بعد می‌رویم می‌توانیم وابستگی‌های سطح بالا در حد دسته مربوط به داده‌ها را مدل کنیم در مورد پرسش دوم، نیز پاسخ مشابهی وجود دارد.

 منابع

[1] Schmidhuber, Jürgen. "Deep learning in neural networks: An overview." Neural Networks 61 (2015): 85-117.
[2] Deng, Li, and Dong Yu. "Deep learning: methods and applications."Foundations and Trends in Signal Processing 7, no. 3–4 (2014): 197-387.
[3] Seyyedsalehi, Seyyede Zohreh, and Seyyed Ali Seyyedsalehi. "A fast and efficient pre-training method based on layer-by-layer maximum discrimination for deep neural networks." Neurocomputing (2015).
[4] Hinton, Geoffrey E. "A practical guide to training restricted boltzmann machines." In Neural Networks: Tricks of the Trade, pp. 599-619. Springer Berlin Heidelberg, 2012.
[5] Salakhutdinov, Ruslan, and Geoffrey E. Hinton. "Deep boltzmann machines." In International Conference on Artificial Intelligence and Statistics, pp. 448-455. 2009.
[6] Fischer, Asja, and Christian Igel. "Training restricted Boltzmann machines: an introduction." Pattern Recognition 47, no. 1 (2014): 25-39.

مقدمه
در این نوشتار ما روش‌های انتخاب کرنل را به دو دسته: 1. آگاهانه 2. نا آگاهانه تقسیم می‌کنیم. منظور از انتخاب آگاهانه، طراحی یا انتخاب یک کرنل سازگار با ویژگی‌های استخراج شده برای داده است. یکی از روش‌های دسته ناآگاهانه شامل استفاده از روش‌های مجموعه ارزیاب برای انخاب کرنل مناسب یا تنظیم پارامترها ‌می‌باشد. در این روش مدل SVM را با استفاده از کرنل‌ها یا پارامترهای مختلف آموزش می‌دهند و هرکدام از پارامترها یا کرنل‌ها که دقت بهتری روی مجموعه داده ارزیاب داشته ‌باشد به عنوان پارامتر و کرنل بهینه انتخاب می‌شوند. روش‌های نوین شامل ترکیب وزن‌دار کرنل‌های مختلف و یادگیری مقدار بهینه این وزنه‌ها برای بالا بردن دقت مدل دسته بند است. این مدل‌ها بر پایه این اصل ابتدایی که مجموع و یا ضرب وزن‌دار کرنل‌های معتبر، معتبر می‌باشند پایه‌گذاری شده‌اند و در سال‌های اخیر تحت عنوان Multiple Kernel Learning و یا نام‌های مشابه مورد توجه ‌قرار گرفته‌اند. با توجه به تحقیقات انجام‌شده برای تنظیم پارامتر بهینه مثل ضریب تنظیم‌گر c در مدل Soft-SVM و یا طول پنجره گوسی در کرنل گوسی در تقریبا همه پژوهش‌ها با استفاده از روش‌های مجموعه ارزیاب (و یا روش‌های k-fold Cross Validation) انجام شده است.


 1) مفهوم هسته

ضرب داخلی ساده در یک فضای برداری می‌تواند نشان‌دهنده شباهت بین داده‌ها باشد. کرنلها توسعه‌یافته ضرب داخلی داده‌ها می‌باشند که در یک فضای تبدیل یافته محاسبه می‌شود. معادل با هر هسته معتبر یک فضای هیلبرت فرآورنده هسته (RKHS) موجود است:

1

بردارهای x و y تحت نگاشت(.)ϕ قرارگرفته‌اند و در فضای جدید ضرب داخلی محاسبه ‌شده است. کرنلها خواص غیرخطی‌سازی دارند، برای مثال فضای معادل با هسته گوسی دارای ویژگی‌های غیرخطی از فضای اولیه است. در مسئله‌ی با داده‌های چندگونه فرض می‌کنیم برای هر گونه یک هسته مجزا داریم، که نشان‌دهنده شباهت دو داده از منظر آن گونه است:

2

2) انتخاب آگاهانه کرنل با استفاده از جنس فضای ویژگی

همانطور که اشاره شده کرنل یک معیار شباهت بین داده‌هاست. در هر نوع داده‌ای مثل داده‌های از جنس محل پیوند مولکول‌ها می‌توان بر اساس ویژگی‌های دامنه مورد نظر یک کرنل مناسب تعریف کرد و از ماتریس کرنل داده‌های آموزش که با هر روش ممکن به دست آمده است یک مدل ماشین بردار پشتیبان را آموزش داد. برای مثال پژوهشگران در [1] ابتدا یک روش استخراج ویژگی برای حوزه تصاویر ارایه داده‌اند و سپس بر اساس ذات و مفهوم ویژگی‌های استخراج شده یک کرنل ارایه داده‌اند. آنها برای هر سطح در روش هرمی خود یک کرنل متمایز ارایه کرده‌اند که اطلاعات مشترک از ویژگی‌های استخراج شده از سطح پایین‌تر را به صورت تکراری حساب نکند:

3

و سپس کرنل نهایی را از ترکیب کرنل‌های هر سطح محاسبه می‌کنند:

4

روش مطرح شده در این مقاله که به همراه SVM در دسته‌بندی تصاویر کاربرد دارد، یکی از روش‌های مطرح در پردازش تصویر است. از کرنل به دست آمده برای آموزش مدل SVM استفاده می‌کنند.
ترکیب کرنل‌ها
از ترکیب کرنل‌ها به دو هدف استفاده می‌شود: 1. فرض کنید از یک داده تصویر دو گونه ویژگی مختلف یکی بر اساس هیستوگرام رنگ و یکی مثلا با روش SIFT استخراج شده، در این حالت بهتر است روی هرکدام از این ویژگی‌ها جدا گانه کرنل زد و نتایج را با هم ادغام کرد. 2. روی یک گونه ویژگی مثلا هیستوگرام رنگ انواع کرنل مثل گوسی و چندجمله ای بزنیم و نتایج را با هم ترکیب کنیم.


3) ترکیب وزن‌دار کرنل‌ها

ساده‌ترین راه ترکیب کرنلهای مختلف برای رسیدن به یک هسته واحد، جمع بدون وزن آن‌هاست:

5

لازم به ذکر است که جمع کرنلهای معتبر (يا همان مثبت نيمه-معين )، معتبر است. هسته بالا معادل با الحاق فضاهای معادل با کرنلها است:

6

بنابراین با این رویکرد ساده، تنها کاری که برای ادغام گونه‌ها انجام شده است ادغام زودهنگام گونه‌ها است. حال فرض کنید که کرنلها را به‌صورت وزن‌دار باهم ترکیب کنیم:

7

همان‌طور که در رابطه بالا مشاهده می‌شود روش ترکیب وزن‌دار کرنلها ( MKC) معادل با این است که برای هر گونه وزن خاصی فرابگیریم و درواقع مشکل مقیاس در هر گونه در فضای هسته رفع می‌شود. باید توجه داشت که جمع وزن‌دار کرنلها با هر وزنی نمی‌تواند هسته معتبر باشد. یک شرط کافی برای وزن‌ها اين است که وزن‌ها مثبت باشند. در اين صورت جمع وزن‌دار کرنلها، مثبت نیمه معین می ‌شود [2-3].

8

پژوهشگران در [2-3] وزن‌ها را در چهارچوب نظارتی با استفاده از فرم مبتنی بر هسته ماشین بردار پشتیبان با حاشیه نرم در کنار پارامترهای وزن ماشین بردار پشتیبان، آموزش داده‌اند. معمولاً رویکردهای ترکیب کرنلها مبتنی بر نظارت هستند و نمی‌توانند به صورت غیرنظارتی برای انتقال فضای ویژگی گونه‌ها به یک فضای جدید به کار روند. پژوهشگران در [2] چندین آزمایش را برای بررسی ترکيب کرنلها مدنظر قرار داده‌اند. برای مثال در یک آزمایش به دنبال ترکیب مناسب کرنلهای مختلف چندجمله‌ای، گوسی و خطی روی یک گونه، به‌منظور استفاده از هسته ترکیبی در ماشین بردار پشتیبان بوده‌اند. در چندین آزمایش نیز ترکیب داده‌های با منابع ناهمگون چندگونه را با استفاده از این ایده انجام داده‌اند و برای هر گونه کرنلهای مجزا اعمال کرده‌اند.
بر مبنای همین ایده، روش‌های غیرخطی برای ترکیب وزن‌دار کرنلها نیز وجود دارد [4]، اما همه آن‌ها را می‌توان از دسته روش‌های ادغام دیرهنگام گونه‌ها دانست. درواقع این روش‌ها نقشی در انتقال ویژگی گونه‌ها ندارند و فقط سعی در ترکیب مناسب پیش‌بینی‌های هر گونه دارند. روش‌های غیرخطی نیز برای ترکیب کرنلها وجود دارند. برای مثال پژوهشگران در [4] ترکیب چندجمله‌ای را ارائه داده‌اند.


4) روش‌های مجموعه ارزیاب

استفاده از یک مجموعه محک (ارزیاب یا Validation) برای انتخاب پارامترهای اولیه یک مساله بهینه‌سازی مثل ماشین بردار پشتیبان یک روش معمول در همه مسایل بهینه‌سازی می‌باشد [5-6]. در این پژوهش‌ها برای مثال 20 مقدار بین مقادیر 0.001 تا 10000 را برای پارامتر C در دسته‌بند ماشین‌بردار پشتیبان در نظر می‌گیرند. سپس این 20 مدل SVM را با استفاده از داده‌های آموزش، آموزش می‌دهند. از قبل مقداری داده مستقل از آموزش را به عنوان مموعه ارزیاب کنار گذاشته‌اند. دقت دسته‌بندی این 20 مدل را روی این مجموعه ارزیاب حساب می‌کنند و پارامتر بهینه را انتخاب می‌کنند. سپس اگر داده بیشتری در اختیار داشته باشند و یا با استفاده از داده‌های آموزش + داده‌های ارزیاب مدل را قوی تر اموزش می‌دهند و در صورت نیاز دقت داده‌های آزمون را روی این مدل گزارش می‌کنند.

[1] Lazebnik, Svetlana, Cordelia Schmid, and Jean Ponce. "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories." Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
[2] Lanckriet, Gert RG, Nello Cristianini, Peter Bartlett, Laurent El Ghaoui, and Michael I. Jordan. 2004. "Learning the kernel matrix with semidefinite programming." The Journal of Machine Learning Research 5: 27-72.
[3] Sonnenburg, Sören, Gunnar Rätsch, Christin Schäfer, and Bernhard Schölkopf. 2006. "Large scale multiple kernel learning." The Journal of Machine Learning Research 7: 1531-1565.
[4] Cortes, Corinna, Mehryar Mohri, and Afshin Rostamizadeh. 2009. "Learning non-linear combinations of kernels." Advances in Neural Information Processing Systems 22 396-404.
[5] Wen, Zeyi, Rui Zhang, Kotagiri Ramamohanarao, Jianzhong Qi, and Kerry Taylor. "MASCOT: Fast and Highly Scalable SVM Cross-validation using GPUs and SSDs." In IEEE ICDM. 2014.
[6] Meyer, David, and FH Technikum Wien. "Support vector machines." The Interface to libsvm in package e1071 (2014).
[7] Niculescu-Mizil, Alexandru, Abhishek Kumar, and Koray Kavukcuoglu. "Two-stage multiple kernel learning method." U.S. Patent 8,838,508, issued September 16, 2014.
[8] Chen, Zhen-Yu, Zhi-Ping Fan, and Minghe Sun. "A hierarchical multiple kernel support vector machine for customer churn prediction using longitudinal behavioral data." European Journal of Operational Research 223, no. 2 (2012): 461-472.

یکی از مدل‌های شبکه عصبی که در سال‌های اخیر مورد توجه فراوان قرار گرفته است مدل ELM یا همان Extreme Learning Machine است. در این گزارش به معرفی این مدل و ارتباط آن با مدل‌های مبتنی بر SVM پرداخته شده است. مدل [SVM[1 به خاطر سادگی، در دهه اخیر در انواع کارها مدنظر قرار گرفته است. مدل‌های [PSVM[2 و[3]LS-SVM مدل‌هایی مشتق شده از ایده SVM می‌باشند که سرعت بیشتری دارند و مساله بهینه سازی آنها مثل SVM مکعبی نیست، بلکه خطی است. این مدل‌ها در حوزه دسته بندی باینری می‌باشند. البته با تکنیک‌هایی همچون یکی در مقابل همه[4] و یکی در مقابل یکی[5] قابل توسعه به حالت چند دسته‌ای می‌باشند. پژوهشگران در نشان داده‌اند که PSVM و LS-SVM و الگوریتم‌های تنظیم‌گر[6]می‌توانند بیشتر ساده شوند و در یک قالب یکپارچه تحت عنوان [ELM[7 قرار بگیرند. مدل ELM بر روی شبکه‌های تعمیم یافته فیدفوروارد با تک لایه مخفی[8] (SLFN) کار می‌کند. در مدل ELM لایه مخفی نیاز به تنظیم ندارد و توابع این لایه که یک انتقال ویژگی به فضای جدید است از قبل مشخص است. مدل‌های SVM، شبکه‌های چندجمله‌ای، [RBF[9 و مدل‌های فیدفوروارد تک لایه حالت خاصی از این مدل هستند. پژوهشگران در مقالات چند هدف عمده را مدنظر قرار داده‌اند:

ادامه مطلب...

تبلیغات AIcodeMahak

AIcode مرجع تخصصی آموزش مهندسی کامپیوتر و هوش مصنوعی

تماس با ما

ايميل: info@aicode.ir

عضویت در خبرنامه AIcode