رگرسیون خطی تک متغیره Uni-variate linear regression – قسمت چهارم دوره یادگیری ماشین دانشگاه استنفورد

رگرسیون خطی تک متغیره Uni-variate linear regression – قسمت چهارم دوره یادگیری ماشین دانشگاه استنفورد

اولین الگوریتم یادگیری : رگرسیون خطی تک متغیره

اولین الگوریتمی که در دوره یادگیری ماشین دانشگاه استنفورد باهم یاد می‌گیریم رگرسیون خطی تک متغیره Uni-variate linear regression است. در این جلسه از دوره خواهیم دید که مدل چگونه است و مهم‌ار از همه فرآیند کلی یادگیری با نظارت به چه شکل است.

رگرسیون خطی تک متغیره را با مثال شروع کنیم

بیایید به مثالی که از پیش‌بینی قیمت مسکن داشتیم بازگردیم. در آن مثال به یاد دارید که داده‌های مختلفی از قیمت و ابعاد خانه‌هایی را در شهر پورتلند در ایالت اورگان آمریکا داشتیم. فرض کنیم دوستی داریم که می‌خواهد خانه‌اش را که اندازه آن ۱۲۵۰ فوت مربع است به فروش برساند و ما می‌خواهیم با یادگیری ماشین با نظارت به او کمک کنیم.

پیش بینی قیمت مسکن با استفاده از الگوریتم یادگیری ماشین با نظارت و رگرسیون خطی تک متغیره

داده‌های قیمت‌های خانه‌های مختلف در شهر پورتلند

آیا این یک مسئله یادگیری با نظارت است؟

به نظر شما اولین قدمی که باید برای کمک به این دوست مشترکمان برداریم چیست؟ اگر پاسخ شما تعیین مدل Fit Model است پس درست حدس زده‌اید. به تصویر زیر دقت کنید. در این تصویر خط راستی را برای داد‌هایمان در نظر گرفته‌ایم. این خط نزدیکترین خطی است که می‌توان بعنوان میانگینی برای تمامی داده‌هایی که داریم در نظر گرفت.

پیش بینی قیمت خانه با الگوریتم یادگیری ماشین با نظارت رگرسیون خطی تک متغیره

پیشنهاد قیمت براساس داده‌هایی که از قبل داشته‌ایم

در چنین حالتی و با توجه به مساحت خانهٔ دوستمان که ۱۲۵۰فوت مربع بود، می‌توانیم به او بگوییم که خانه‌اش در حدود ۲۲۰ هزار دلار ارزش دارد. این قیمتی است که با توجه به داده‌ها نه خیلی زیاد و نه خیلی کم است. یک قیمت مناسب.

آیا پیش‌بینی قیمت مسکن یک مسئله یادگیری با نظارت است؟

اما سوالی که حتماً در ذهن شما شکل گرفته‌، نوع الگوریتم یادگیری ماشین برای این مسئله است. این مسئله از نوع یادگیری با نظارت یا نظارت شده است. چرا؟ به این دلیل که ما مجموعه‌ای از پاسخ‌های درست را برای آن در اختیار داشتیم. به این معنا که ما می‌دانستیم قیمت واقعی فروش و متراژ هرکدام از خانه‌ها در شهر پورتلند چقدر است.

آیا این مسئله رگرسیون خطی تک متغیره است؟

از جلسه یادگیری با نظارت حتماً به خاطر دارید که این نوع از یادگیری ماشین به دو دسته رگرسیون و دسته بندی تقسیم می‌شد. با توجه به مباحثی که در آن جلسه از دوره یادگیری ماشین دانشگاه استنفورد بیان کردیم، مسئله پیش‌بینی قیمت خانه از نوع رگرسیون است. چراکه می‌خواهیم عددی حقیقی را پی‌بینی کنیم.

برای یادآوری به طور خلاصه می‌توان گفت که دسته بندی نیز مربوط به پیش‌بینی مقادیر گسسته بود. مانند مسئله تشخیص تومورهای سرطانی که تصمیم‌گیری می‌شد که آیا تومور مورد نظر خوش‌خیم است یا بد‌خیم. یعنی مقادیر گسسته صفر و یک.

حتما بخوانید:  یادگیری با نظارت (Supervised learning) یا یادگیری نظارت شده چیست - قسمت دوم دوره یادگیری ماشین دانشگاه استنفورد

در یادگیری با نظارت به مجموعه داده‌ای (Data Set) که در اختیار داریم مجموعه آموزشی (Training Set) گفته می‌شود. بعنوان مثال برای پیش‌بینی قیمت مسکن، مجموعه آموزشی متشکل از قیمت خانه‌های مختلف و متراژ آن‌هاست. بوسیله‌ٔ این داده‌هاست که باید قیمت خانه‌های جدید را پیش‌بینی کنیم.

معرفی تعدادی نماد که در این دوره استفاده می‌کنیم

در این دوره از تعداد زیادی نماد مختلف که بیانگر مفاهیم گوناگونی هستند استفاده خواهیم کرد. مشکلی نیست اگر همه‌ٔ آن‌ها را الان یاد نگیرید. اما مطمئن باشید در ادامه دوره برای شما مفید خواهند بود. جدول زیر را در نظر بگیرید:

ردیف قیمت (هزار دلار) \( \Large (y) \) متراژ (فوت مربع) \( \Large (x) \)
۱ ۴۶۰ ۲۱۰۴
۲ ۲۳۲ ۱۴۱۶
۳ ۳۱۵ ۱۵۳۴
۴ ۱۷۸ ۸۵۲
۵

\( \Large m \) بیانگر تعداد مثال‌های آموزشی است. بنابراین اگر در مثال فوق جدول ما ۴۷ ردیف داشته باشد، پس ۴۷ مثال آموزشی داریم که در نتیجه مقدار \( \Large m \) برابر با ۴۷ خواهد بود.

از حرف \( \Large x \) کوچک برای نمایش متغیرهای ورودی استفاده می‌شود. این متغیرها را ویژگی نیز می‌نامند. با توجه به جدول فوق در این مثال مقادیر ورودی \( \Large x \) برابر با متراژ خانه‌ها خواهد بود.

از حرف \( \Large y \) کوچک نیز برای متغیرهای خروجی استفاده خواهیم کرد. به این متغیرها را متغیرهای هدف نیز گفته می‌شود. همانطور که می‌بینید در جدول فوق قیمت‌ها متغیرهای خروجی ما هستند.

پس در نهایت می‌توان گفت که عبارت \( \Large (x,y) \) برای نمایش یک مثال آموزشی استفاده خواهد شد. همچنین اگر بخواهیم یک مثال آموزشی مشخص مانند مثال \( \Large i \)اُم را نشان دهیم آن را با عبارت \( \Large (x^{(i)} , y^{(i)}) \) نشان خواهیم داد.

دقت کنید که بالانویس‌هایی که برای \( \Large x \) و \( \Large y \) داریم توان نیستند. بالانویس \( \Large i \) در داخل پرانتز، فقط یک اندیس برای مجموعه آموزشی است و به \( \Large i \)اُمین ردیف از جدول اشاره دارد.

کمی دقیق‌تر بررسی کنیم؟

برای مثال ردیف دوم را در نظر بگیرید. مقدار ورودی ما در این ردیف ۱۴۱۶ \( \Large x^{(۲)} = \) است. همچنین مقدار خروجی در این ردیف برابر با ۲۳۲ \( \Large y^{(۲)} = \) خواهد بود.

تا به اینجای کار کامل متوجه شدید؟

طبق روشی که در تمام جلسات داریم، می‌خواهم سوالی را مطرح کنم که ببینم چقدر متوجه درس تا به اینجا شده‌اید. مجموعهٔ آموزشی زیر را در نظر بگیرید (مشابه جدول ابتدای همین نوشتار است). در این مجموعه \( \Large (x^{(i)} , y^{(i)}) \) مربوط به \( \Large i \)اُمین مثال آموزشی است. در چنین مجموعه‌ای \( \Large y^{(۳)} \) کدام است؟

حتما بخوانید:  تنظیم محیط برنامه نویسی Setting Up Programming Assignment Environment - قسمت هفدهم دوره یادگیری ماشین دانشگاه استنفورد
ردیف قیمت (هزار دلار) متراژ (فوت مربع)
۱ ۴۶۰ ۲۱۰۴
۲ ۲۳۲ ۱۴۱۶
۳ ۳۱۵ ۱۵۳۴
۴ ۱۷۸ ۸۵۲
۵

کاوشی عمیق‌تر در یادگیری نظارت شده با رگرسیون خطی تک متغیره

بیایید باهم روند کار را بررسی کنیم. متوجه شدیم که در ابتدای کار نیاز به یک مجموعه آموزشی داریم. در مثالی که این جلسه باهم بررسی کردیم قیمت‌های خانه‌ها مجموعه‌ٔ آموزشی ما بودند. در گام بعد این مجموعه را به الگوریتم یادگیری می‌دهیم. کار الگوریتم یادگیری این است که تابعی را مشخص کند. بنا به قراردادی که وجود دارد، این تابع را با \( \Large h \) نشان می‌دهیم که به مخفف Hypothesis یا فرضیه است. این فرضیه تابعی است که \( \Large x \) را می‌گیرد و به ما \( \Large y \) را می‌دهد. پس می‌توان به صورت خلاصه مراحل را نام برد:

  1. پیدا کردن مجموعه داده‌های آموزشی
  2. دادن مجموعهٔ آموزشی به الگوریتم یادگیری
  3. پیدا کردن یک تابع یا فرضیه بوسیلهٔ الگوریتم یادگیری
  4. استفاده از این فرضیه بوسیلهٔ دادن \( \Large x \) مناسب و گرفتن \( \Large y \) متناسب با آن.

در مثالی که امروز بررسی شد، وظیفه‌ٔ فرضیه این است که با دادن متراژ خانهٔ دوستمان به آن \( \Large (x) \) قیمت تخمینی متناسب با آن \( \Large (y) \) را برای ما پیدا کند. پس تابع \( \Large h \) تابعی است که \( \Large x \)ها را به \( \Large y \)ها متصل می‌کند.

مراحل الگوریتم یادگیری با نظارت و تعیین تابع فرضیه

مراحل انجام کار برای یادگیری با نظارت در مسئله رگرسیون خطی تک متغیره

چرا نام تابع \( \Large h \) را فرضیه گذاشتیم؟

حتما بسیاری از شما معنای فرضیه را می‌دانید و در واژه‌نامه‌های مختلف و منابع علمی، معنای دقیق آن را خوانده باشید. اما در روزهای اولیه شکوفایی یادگیری ماشین از این اصطلاح استفاده شد که حتماً شما هم متوجه شده‌اید که نام جالبی نیست. فرضیه نام جالبی برای این نوع از مسائل نیست اما اصطلاحی استاندارد است و عموم محققین از آن استفاده می‌کنند. پس زیاد نگران این موضوع نباشید.

چگونه تابع فرضیه \( \LARGE h \) را پیدا کنیم؟

با توجه به تمام تعاریفی که تا به اینجا ارائه شد، حتماً متوجه شده‌اید که مهم‌ترین کاری که باید انجام دهیم پیدا کردن تابع فرضیه \( \Large h \) است. در این جلسه و جلسات آینده در مورد همین موضوع صحبت خواهیم کرد. برای نشان دادن تابع \( \Large h \) بعنوان رگرسیون خطی تک متغیره آن را به شکل زیر نمایش می‌دهیم:

حتما بخوانید:  رگرسیون خطی چند متغیره Multiple Variables Linear Regression – قسمت هجدهم دوره یادگیری ماشین دانشگاه استنفورد

\( \Large h_{\theta}(x) = \theta_{1}x + \theta_{0} \)

گاهی اوقات برای راحتی و خلاصه‌نویسی، به جای نوشتن \( \Large h_{\theta}(x) \) عبارت \( \Large h(x) \) را می‌نویسیم. هرچند که در بسیاری از موارد اندیس \( \Large \theta \) را می‌نویسیم. در تصویر زیر همین مفهوم را به صورت شکل می‌بینید:

یک تابع از نوع رگرسیون خطی تک متغیره در یادگیری با نظارت

نمایش شماتیک از یک تابع از نوع رگرسیون خطی تک متغیره

همانطور که در شکل بالا می‌بینید، می‌خواهیم مقادیر \( \Large y \) را پیش‌بینی کنیم. \( \Large y \) خود تابعی خطی برحسب \( \Large x \) است. بنابراین کار تابع فرضیه این است که \( \Large y \)را بر روی خطی که تابعی از \( \Large x \) است پیدا کند که مقدار تابع فرضیه برابر با \( \Large h_{\theta}(x) = \theta_{1}x + \theta_{0} \) خواهد بود. این تابع همان تابع رگرسیون خطی تک متغیره است.

چرا رگرسیون خطی تک متغیره؟

گاهی اوقات ممکن است چینش داده‌های مجموعه آموزشی به صورتی باشد که نتوان یک خط راست را برای تخمین در نظر گرفت. در نتیجه در چنین موارد از توابع پیچیده‌تر و غیرخطی استفاده خواهیم کرد. اما سعی ما بر این است که در ابتدای کار از تابع خطی استفاده کنیم و در ادامه به سراغ الگوریتم‌های پیچیده‌تر خواهیم رفت.

از طرفی چون این معادله تنها یک متغیر \( \Large x \) دارد پس از نوع رگرسیون خطی تک متغیره خواهد بود. یعنی پیش‌بینی تمام قیمت‌ها بعنوان تابعی برای متغیر \( \Large x \) است.

ویدیو جلسه چهارم از دوره یادگیری ماشین دانشگاه استنفورد

جمع‌بندی این جلسه و موضوع جلسه آینده

در این جلسه از دوره یادگیری ماشین دانشگاه استنفورد با رگرسیون خطی تک متغیره آشنا شدیم. یاد گرفتیم که یکی از مهم‌ترین مثال‌های این بخش از یادگیری ماشین با نظارت، مسئله پیش‌بینی قیمت خانه است. همچنین این مثال را به شکل دقیق باهم بررسی کردیم.

در ادامه با مفهوم مجموعه آموزشی و تعدادی از نمادهایی که در این دوره استفاده خواهیم کرد آشنا شدیم. در انتها نیز دلیل نام‌گذاری این مدل به نام رگرسیون خطی تک متغیره را متوجه شدیم. در جلسه آینده در مورد چگونگی پیاده‌سازی مدل صحبت خواهیم کرد.

۶ دیدگاه در “رگرسیون خطی تک متغیره Uni-variate linear regression – قسمت چهارم دوره یادگیری ماشین دانشگاه استنفورد

    • ضمن عرض سلام و احترام
      متشکریم از شما دوست عزیز
      ان شا الله هر هفته یک قسمت از قسمت‌های این مجموعه منتشر میشه که این مورد هم جزوش خواهد بود.

  • سلام خیلی خوب بود ممکنه خواهش کنم سرعت ترجمه های این دوره را بیشتر کنید ممکنه مثل من افرادی باشند قصد داشته باشند زودتر یادگیری ماشین رو یاد بگیرند اینکه هر هفته منتظر یک قسمت باشیم با توجه به حجم زیاد ویدئوها/اموزش ها باید ماه ها یا سال ها صبر کنیم . اگر ممکنه روزانه اینکار رو انجام بدهید

    • ضمن عرض سلام و احترام
      باعث افتخار هست که ما رو دنبال می‌کنید.
      ان شا الله در حال اضافه کردن نیروی تولید محتوا هستیم تا به کار سرعت بدیم.
      موفق و پیروز باشید

      • سلام خیلی ممنونم . خیلی عالی فقط خواهش میکنم زودتر این اتفاق بیفته .

        یک پیشنهاد دیگه دوره ی آموزش ساخت وبلاگ / وب سایت با استفاده از گیت هاب و جیگل و… را هم قرار بدهید خیلی خوبه اگر افراد میخواهند حرفه ای باشند باید این موارد رو بدونند .

        • بسیار عالی
          ممنونیم از پیشنهاد سازندتون
          حتما در برنامه‌هامون قرار میدیم.
          ممنون خواهیم شد اگر این دوره رو به دوستان خودتون هم پیشنهاد بدید
          موفق و پیروز باشید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

-->