یادگیری ماشین و یادگیری تقویتی

یادگیری ماشین

یادگیری ماشین (Machine Learning) یا همان فرآیند ماشینی سازی یادگیری موجودات زنده، یکی از موضوعات تحقیقاتی جدید به شمار می‌آید. این تحقیقات از دو فاز کلی تشکیل می شود:

شناخت اصول یادگیری موجودات زنده و مراحل آن
ارائه‌ یک متدولوژی برای قرار دادن این اصول در یک ماشین

یادگیری به صورت تغییرات ایجاد شده در کارایی یک سیستم بر اساس تجربه‌های گذشته تعریف می شود. یکی از ویژگی های مهم سیستم‌ های یادگیر، توانایی بهبود کارآیی خود با گذشت زمان می باشد.

به بیان ریاضی می‌توان این طور عنوان کرد که هدف یک سیستم یادگیر، بهینه‌ سازی وظیفه‌ ای است که کاملاً شناخته شده نیست. بنابراین یک رویکرد به این مسئله، کاهش اهداف سیستم یادگیر به یک مسئله‌ بهینه‌سازی است که بر روی مجموعه‌ای از پارامترها تعریف می شود و هدف آن پیدا کردن مجموعه پارامترهای بهینه می باشد.

در بسیاری از مسائل مطرح شده، اطلاعی از پاسخ های صحیح مسئله (که یادگیری نظارتی به آنها نیاز دارد) در دست نیست. به همین علت استفاده از یک روش یادگیری به نام یادگیری تقویتی مورد توجه قرار گرفته است.

یادگیری تقویتی

یادگیری تقویتی، یکی از روش های یادگیری ماشین بوده و از ترکیب برنامه‌ نویسی پویا و یادگیری نظارتی برای دستیابی به یک سیستم قدرتمند یادگیری ماشین استفاده می کند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص می شود تا به آن دست یابد. آنگاه عامل مذکور یاد می گیرد که چگونه با روش سعی و خطا در محیط خود، به هدف تعیین شده برسد.

در یادگیری تقویتی یک عامل یادگیرنده در طی یادگیری با فعل و انفعالات مکرر با محیط، به یک سیاست کنترل بهینه دست پیدا می کند. کارآیی این فعل و انفعالات با محیط به وسیله‌ بیشینه ‌(یا کمینه) بودن پاداش (یا جریمه) عددی که از محیط دریافت میشود، ارزیابی می گردد.

روش‌های یادگیری تقویتی، بیان کننده استفاده از یادگیری به روشی ساده، سیستماتیک و واقعی برای رسیدن به یک جواب تقریباً بهینه (پیدا کردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشکل است) می باشند. دانشی که در طی فرآیند یادگیری بدست می آید، در یک مکانیزم نمایش دانش مانند شبکه‌ عصبی یا جدول مراجعه ذخیره شده و برای فعالیت‌های آینده قابل استفاده خواهد بود.

از آنجایی که این روش یادگیری در محیطی بلادرنگ در حال انجام است، می توان آن را همزمان با فعالیت محیط انجام داد. در این حالت با تمام رخدادهای پیش‌بینی نشده به صورت یک تجربه‌ جدید برخورد می شود که می توان از آنها برای بهبود کیفیت یادگیری استفاده کرد. مزیت اصلی یادگیری تقویتی نسبت به سایر روش های یادگیری ماشین، عدم نیاز به هرگونه اطلاعاتی از محیط (به جز سیگنال تقویتی) می باشد.

یکی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی می باشد که می توان از آن به عنوان یک مکانیزم یادگیری استفاده نمود. اتوماتای یادگیر تصادفی یک نوع خاصی از اتوماتای یادگیر می باشد.

اتوماتای یادگیر

اتوماتای یادگیر، ابزار تصمیم گیری وفقی می باشد که روی محیط های تصادفی نامعین عمل می کند. یک اتوماتای یادگیر را می توان به صورت یک شیء مجرد در نظر گرفت که دارای تعداد متناهی اکشن می باشد.

اتوماتای یادگیر در هر مرحله، یک اکشن از مجموعه اکشن های خود را انتخاب و بر روی محیط، اِعمال می کند. انتخاب هر اکشن بر اساس احتمالی که به آن اختصاص داده شده است صورت می گیرد. اکشن انتخاب شده، توسط یک محیط تصادفی، ارزیابی شده و نتیجه ارزیابی در قالب یک سیگنال مثبت یا منفی با توزیع احتمال نامعین ثابت به اتوماتای یادگیر تحویل داده می‌شود.

اتوماتای یادگیر با توجه به بازخورد محیط، بردار احتمال مجموعه اکشن هایش را بروزرسانی کرده و به این صورت از بازخورد محیط برای انتخاب اکشن بعدی خود، تأثیر می پذیرد. در طی این فرآیند، اتوماتا یاد می گیرد که عمل بهینه را انتخاب نماید. الگوریتم یادگیری اتوماتا، نحوه استفاده از بازخورد محیط به اکشن انتخابی اتوماتا، را مشخص می کند.

اتوماتای یادگیر تصادفی

اتوماتای یادگیر تصادفی، یکی از روش های یادگیری تقویتی می باشد که می توان از آن به عنوان یک مکانیزم یادگیری استفاده نمود. اتوماتای یادگیر تصادفی بدون هیچ گونه اطلاعاتی درباره‌ اکشن بهینه (یعنی با در نظر گرفتن احتمال یکسان برای تمامی اکشن‌های خود در آغاز کار) سعی در یافتن پاسخ مسئله دارد.

در ابتدا یک اکشن اتوماتا به صورت تصادفی انتخاب شده و در محیط اِعمال می گردد. سپس بازخورد محیط، دریافت شده و احتمال اکشن‌ها طبق الگوریتم یادگیری بروزرسانی شده و روال فوق تکرار می گردد. اتوماتای یادگیر تصادفی، یک اتوماتای تصادفی می باشد که به صورت فوق در جهت افزایش کارایی خود عمل می کند.

یک اتوماتای یادگیر تصادفی از دو قسمت اصلی تشکیل شده است:

اتوماتای تصادفی با تعداد محدودی اکشن و یک محیط تصادفی که اتوماتا با آن در ارتباط است.
الگوریتم یادگیری که اتوماتا با استفاده از آن اکشن بهینه را یاد می گیرد.

اتوماتای یادگیر سلولی

اتوماتای یادگیر سلولی، مدل جدیدی است که از شبکه شدن تعدادی اتوماتای یادگیر، تشکیل می شود. اتوماتاهای یادگیر در این مدل، نسبت به رفتار همسایه های خود، عکس العمل نشان می دهند. اتوماتای سلولی متشکل از شبکه منظمی از سلول ها می باشد.

ایده اتوماتای یادگیر سلولی از اتوماتای سلولی اخذ شده است. در واقع هر سلول به یک اتوماتای یادگیر مجهز شده است.

کاربرد اتوماتای یادگیر

اتوماتای یادگیر، به عنوان یکی از ابزارهای یادگیری ماشین، کاربردهای مختلفی در حوزه های مختلف دارد.

در هر محیطی که بحث یادگیری موجودیت ها از طریق تعامل با محیط در میان باشد، اتوماتای یادگیر می تواند به عنوان یک راه حل مناسب برای حل مسئله به کار برود.

تا کنون از مدل اتوماتای یادگیر در تحقیقات متعددی استفاده شده است: