ارزیابی مدلهای ماشین لرنینگ و دیپ لرنینگ یک فرآیند بسیار حیاتی است که به کمک شاخصها و معیارهای مختلف انجام میشود. این شاخصها به تحلیل عملکرد مدل در تعیین یک وظیفه خاص کمک میکنند. در زیر، چندین شاخص معمول در ارزیابی مدلهای ماشین لرنینگ و دیپ لرنینگ ذکر شدهاند:
دقت (Accuracy):
نسبت تعداد دستههای درست تشخیص داده شده به کل دادهها. این شاخص معمولاً در مسائل توصیفی مانند تشخیص اشیاء یا طبقهبندی استفاده میشود.
دقت معکوس (Precision):
نسبت تعداد موارد درست مثبت به تعداد کل موارد تشخیص داده شده. این معیار مفید است زمانی که هزینه تشخیص اشتباه کمتر از اهمیت تشخیص صحیح است.
صحت معکوس (Recall):
نسبت تعداد موارد درست مثبت به تعداد کل موارد واقعی در دیتاست. این معیار مهم است زمانی که از مدل انتظار میرود تا تشخیص تمام موارد مثبت باشد.
اف (F1 Score):
میانگین هندسی از دقت و صحت معکوس. این معیار به صورت زهیمنگیر بین دقت و صحت معکوس تعادل میبرد.
ناپایداری (Instability):
این شاخص به اندازه ای که مدل به تغییرات در دادهها حساس است میپردازد. معیارهایی مانند واریانس یا انحراف معیار ممکن است در اینجا مفید باشند.
ماتریس درهمریختگی (Confusion Matrix):
یک جدول که نشان میدهد چه تعداد نمونه به درستی یا به اشتباه در هر یک از کلاسها تشخیص داده شدهاند.
مساحت زیر منحنی مشخصه عملکرد (Area Under the Curve – AUC-ROC):
بررسی عملکرد یک مدل در تشخیص بین دو کلاس در مسائل دستهبندی. AUC-ROC اندازهگیری احتمال این است که مدل بتواند بین دو کلاس تمیز بیانجامد.
معیارهای خطای رگرسیون (Regression Metrics):
برای مسائل رگرسیون، معیارهایی مانند میانگین مطلق خطا (MAE)، میانگین مربعات خطا (MSE) و ریشه میانگین مربعات خطا (RMSE) بررسی میشوند.
آمارههای معیارهای همبستگی (Correlation Metrics):
برای مسائل پیشبینی، معیارهای همبستگی نظیر ضریب همبستگی پیرسون و اسپیرمن بررسی میشوند.
زمان پیشبینی (Inference Time):
زمانی که مدل برای پیشبینی یک نمونه جدید نیاز دارد. این شاخص مهم است، به خصوص زمانی که نیاز به پیشبینی سریع دارید.
هر مسئله ممکن است نیاز به شاخصهای خاص خود داشته باشد و انتخاب آنها به ویژگیهای مسئله و نیازهای کاربردی بستگی دارد.