در یادگیری ماشین، اندازه گیری و محاسبه عملکرد، یک کار مهم و اساسی است. بنابراین وقتی به طبقه بندی یا دسته بندی مسائل برمیخوریم میتوانیم از یک منحنی به نام منحنی راک یا به لفظ درستتر منحنی ROC برای انجام محاسبات و برطرف کردن این مشکلات استفاده کنیم. در حقیقت استفاده ما از این منحنی به نیاز ما برای تجسم این مسائل چند لایه برمیگردد. اما منحنی راک چیست و نحوه عملکرد آن چگونه است؟ در این پست قصد داریم موارد زیر را برای شما بیان کنیم:
۱- منحنی راک چیست ؟
۲- بیان اصطلاحات مورد استفاده در منحنی ROC
3- چگونه عملکرد مدل را حدس بزنیم؟
۴- بیان ارتباط بین اصطلاحات حساسیت، اختصاصی بودن، FPR و آستانه
۵- چگونه از منحنی ROC برای یک مدل چند طبقه یا چند لایه استفاده کنیم؟
منحنی راک چیست ؟
ROC مخفف عبارت Receiver Operating Characteristics به معنی مشخصه عملکرد سیستم یا منحنی عملیاتی دریافت کننده میباشد. این منحنی یکی از مهمترین معیارهای ارزیابی عملکرد مدل های طبقه بندی شده یا چند لایه میباشد. این معیار مناسب، میتواند به اندازه گیری مدلها در آستانه های مختلف بپردازد. در حیقیقت این منحنی یک منحنی بر مبنای احتمال است.
این منحنی به ما میگوید که بین لایه ها و طبقه های مختلف از یک مدل چه میزان تفاوت در ظرفیت آنها وجود دارد. یکی از کاربردهای این منحنی بیان تفاوت بین بیماران مبتلا به بیماری و افراد بدون بیماری است.
منحنی ROC یک منحنی است که در آن محور Y را TPR و محور X را FPR تشکیل داده است.
بیان اصطلاحات مورد استفاده در منحنی ROC
TPR مخفف True Positive Rate و به معنای نرخ صحیح مثبت است که از آن با عنوان حساسیت یا Sensitivity نیز نام برده میشود. مقدار TPR از فرمول زیر محاسبه میشود:
اصطلاح بعدی اختصاصی بودن این منحنی یا Specificity است که مقدار آن وابسته به رابطه زیر است:
و درنهایت اصطلاح بعدی که تشکیل دهنده محور X در منحنی راک است، مخفف عبارت False Positive Rate به معنای نرخ نادرست مثبت است. که مقدار آن از روابط زیر قابل محاسبه است:
همانطور که در روابط میبینید عبارت TPR وابسته به Sensitivity و عبارت FPR وابسته به Specificity است.
چگونه عملکرد مدل را حدس بزنیم؟
بهترین مدل مدلی است که در آن منحنی راک به یک نزدیک باشد. بدین معنی که هرچه به یک نزدیکتر باشد اندازه گیری دقیقتر و مناسبتر بوده است.
همچنین بدترین مدل مدلی است که در آن منحنی راک به صفر نزدیک باشد. بدین مفهوم که هرچه به صفر نزدیکتر باشد نشان دهنده ضعف در دقت اندازه گیری است. در حقیقت این مدل صفرها را یک و یکها را صفر پیش بینی میکند و این یعنی حداکثر خطا و وقتی که به عدد ۰.۵ برمیخورد، هیچ تفاوتی در ظرفیت لایه ها را نشان نمیدهد.
بیایید کمی بیشتر به تفسیر این موضوع بپردازیم تا مفهوم آن را کاملا درک کنیم.
همانطور که میدانید و گفته شد، منحنی ROC یک منحنی احتمال است. بنابراین این امکان را به شما میدهد تا توزیع مربوط به این احتمالات را رسم کنید.
بهترین حالت ممکن در منحنی راک چیست ؟
همانطور که در نمودار زیر میبینید یک منحنی قرمز رنگ و یک منحنی سبز رنگ در اختیار داریم:
منحنی قرمز توزیع طبقه یا لایه مثبت را نشان میدهد(بیماران مبتلا).
منحنی سبز توزیع طبقه یا لایه منفی را نشان میدهد(افراد بدون بیماری).
شرایط موجود در شکل شرایطی ایده آل است. یعنی وقتی که دو منحنی مربوط به دو طبقه مختلف هیچ تداخلی با هم ندارند نشان دهنده آن است که اندازه گیری این مدل بسیار خوب و به اصطلاح ایده آل بوده است. تشخیص و تفکیک دو لایه از این مدل با توجه به منحنیهای هر دو لایه مثبت و منفی کاملا مشخص و واضح است.
حال به شکل زیر دقت کنید:
همانطور که ملاحظه میکنید بین دو منحنی تداخل ایجاد شده است. در این مدل با توجه به منحنیها ما میتوانیم بسته به مقدار آستانه، آنها را به یک حداقل یا حدکثری برسانیم. اما این اطمینان از تغییر منحنیها از کجا ناشی میشود؟ این اطمینان از مساحت زیر منحنیها یعنی AUC ناشی میشود. همانطور که در شکل مشاهده کردید این مقدار برابر ۰.۷ بود و این مقدار یعنی ما حدود ۷۰ درصد شانس داریم تا تفاوت ظرفیت بین دو لایه را تشخیص دهیم.
بدترین حالت ممکن در منحنی راک چیست ؟
اما اگر مدل ما دارای منحنی راک به شکل زیر باشد چطور؟
این حالت بدترین حالت ممکن است. حالتی که در آن مساحت زیر منحنی ۰.۵ است. در این حالت مدل تقریبا قدرت تشخیص ظرفیتهای دو لابه را ندارد و احتمال این تشخیص نزدیک به صفر است.
اما شکل نهایی از منحنی میتواند به صورت زیر باشد:
در این حالت سطح زیر منحنیها صفر در نظر گرفته شده است و این بدین معنی است که مدل کاملا برعکس پیش بینی میکند. یعنی به جای یک صفر و به جای صفر یک را پیش بینی خواهد کرد و جای دو منحنی کاملا عوض خواهد شد.
بیان ارتباط بین اصطلاحات حساسیت، اختصاصی بودن، FPR و آستانه
حساسیت و اختصاصی بودن نسبت به یکدیگر حالت عکس دارند. بنابراین وقتی حساسیت را بالا میبریم اختصاصی بودن کاهش میابد و برعکس.
با کاهش سطح آستانه ما مقادیر مثبت بیشتری را بدست میاوریم. بنابراین اگر بخواهیم رابطه سطح آستانه و حساسیت و اختصاصی بودن را بیان کنیم، باید اینگونه آنرا بیان کنیم:
با کاهش سطح آستانه مقدار حساسیت افزایش یافته و به طبع آن مقدار اختصاصی بودن کاهش میابد. بطور مشابه با افزایش سطح آستانه مقدار حساسیت کاهش یافته و به طبع آن اختصاصی بودن افزایش میابد.
حال اگر بخواهیم بین موارد بالا و FPR نیز رابطه ای برقرار کنیم، بدین صورت بیان میکنیم:
همانطور که میدانیم FPR برابر است با اختصاصی بودن منهای یک. بنابراین اگر ما مقدار TPR(همان حساسیت) را افزایش دهیم، FPR نیز افزایش میابد و برعکس.
چگونه از منحنی ROC برای یک مدل چند طبقه یا چند لایه استفاده کنیم؟
در مدلهای چند لایه ما میتوانیم n مقدار منحنی برای n لایه ترسیم کنیم. برای مثال اگر شما سه لایه داشته باشید و آنها را X و Y و Z بنامید، میتوانید سه منحنی بصورت زیر داشته باشید:
۱- X نسبت به Y و Z
2- Y نسبت به X و Z
3- Z نسبت به X و Y
امیداوریم پاسخ سوال منحنی راک چیست را به خوبی درک کرده و از این مطلب لذت برده باشید.
خدا پدر و مادرت رو بیامرزه، چقدر قشنگ گفتی
ضمن عرض سلام واحترام
باعث افتخار هست که این مطلب برای شما مفید بوده
موفق و پیروز باشید
عالی …
بسیار روان و زیبا
ضمن عرض سلام واحترام
نظر لطف شماست دوست عزیز.
عالی بود ممنون
ضمن عرض سلام
خیلی خوشحالیم که این مطلب براتون مفید بوده
بسیار خوب و قابل فهم بود. ممنونم
ضمن عرض سلام
خوشحالیم که براتون مفید بوده
موفق و پیروز باشید
سلام
بسیار عالی و مفید بود.
سپاس
ضمن عرض سلام و احترام
خوشحالیم که این مطلب برای شما مفید بوده است.
موفق و پیروز باشید
سلام
چقدر خوب توضیح دادین افرین مهندس
من ک اولین باره میخونم کاملا متوجه شدم
🌷🌷🌷🌷
ضمن عرض سلام و احترام
خیلی خوشحالیم که براتون مفید بوده
موفق و پیروز باشید
باسلام و احترام
جناب آقای موسوی نطنزی
در زمینه ROC از شما دوست عزیز راهنمایی می خواستم.
در صورت نیاز به پرداخت هزینه نیز در خدمت هستم.
ضمن عرض سلام و احترام
متاسفانه چنین خدمتی نداریم دوست عزیز
سلام
خیلی خوب توضیح دادین
ممنون
ضمن عرض سلام و ادب
باعث افتخار هست که محتوا برای شما مفید بوده است.