فارسی

Adjusted R-Squared چیست؟ تعریف، مثال‌ها

تعریف

R-Squared تعدیل شده یک معیار آماری است که بینشی در مورد چگونگی تناسب یک مدل رگرسیون با داده‌ها ارائه می‌دهد و تعداد پیش‌بینی‌کننده‌های استفاده شده را در نظر می‌گیرد. در حالی که R-Squared نسبت واریانس در متغیر وابسته را که می‌تواند توسط متغیرهای مستقل توضیح داده شود، نشان می‌دهد، R-Squared تعدیل شده این مقدار را بر اساس تعداد پیش‌بینی‌کننده‌ها در مدل تنظیم می‌کند. این تنظیم بسیار مهم است زیرا افزودن پیش‌بینی‌کننده‌های بیشتر می‌تواند به طور مصنوعی R-Squared را افزایش دهد و منجر به تفسیرهای گمراه‌کننده شود.

اجزای R-مربعی تنظیم‌شده

  • R-Squared (R²): این معیار پایه است که نسبت واریانس توضیح داده شده توسط مدل را نشان می‌دهد. این مقدار از 0 تا 1 متغیر است و مقادیر بالاتر نشان‌دهنده تناسب بهتر است.

  • تعداد پیش‌بین‌ها (k): این تعداد متغیرهای مستقل است که در مدل گنجانده شده‌اند. هرچه پیش‌بین‌های بیشتری را شامل شوید، R-Squared ممکن است بالاتر برود، صرف‌نظر از سهم واقعی آن‌ها.

  • اندازه نمونه (n): این تعداد کل مشاهدات در مجموعه داده است. اندازه نمونه بزرگتر می‌تواند تخمینی قابل اعتمادتر از عملکرد مدل ارائه دهد.

اهمیت R-مربعی تنظیم شده

  • اجتناب از بیش‌برازش: با جریمه کردن پیش‌بینی‌کننده‌های بیش از حد، R-Squared تنظیم‌شده به شناسایی مدل‌هایی که واقعاً پیش‌بینی‌کننده هستند کمک می‌کند و نه صرفاً داده‌ها را با نویز تطبیق می‌دهد.

  • مقایسه مدل: این امکان را فراهم می‌کند که مقایسه‌ای عادلانه بین مدل‌ها با تعداد متفاوتی از پیش‌بینی‌کننده‌ها انجام شود. یک R-Squared تعدیل‌شده بالاتر نشان‌دهنده مدلی است که رابطه زیرین را بهتر بدون پیچیدگی غیرضروری درک می‌کند.

  • تفسیر بهتر: R-Squared تنظیم‌شده تخمینی واقعی‌تر از درصد واریانس توضیح داده‌شده ارائه می‌دهد و این امر ارتباط یافته‌ها را برای تحلیلگران آسان‌تر می‌کند.

انواع R-مربعی تنظیم‌شده

در حالی که اساساً یک فرمول برای R-Squared تنظیم شده وجود دارد، می‌توان آن را در زمینه‌های مختلف محاسبه کرد:

  • رگرسیون خطی چندگانه: رایج‌ترین کاربرد، جایی که چندین متغیر مستقل برای پیش‌بینی یک متغیر وابسته استفاده می‌شوند.

  • رگرسیون چندجمله‌ای: R-Squared تعدیل‌شده همچنین در رگرسیون چندجمله‌ای قابل استفاده است، جایی که رابطه بین متغیرها به عنوان یک چندجمله‌ای از درجه n مدل‌سازی می‌شود.

  • مدل‌های خطی تعمیم‌یافته: می‌توان آن را برای استفاده در انواع مختلف مدل‌های خطی تعمیم‌یافته سازگار کرد و بینش‌هایی در مورد عملکرد مدل ارائه می‌دهد.

نمونه‌هایی از R-مربوط تنظیم‌شده

  • مثال 1: یک مدل رگرسیون خطی ساده با یک پیش‌بین ممکن است R-Squared معادل 0.85 را تولید کند. با این حال، اگر یک پیش‌بین دوم اضافه شود که اطلاعات معناداری ارائه ندهد، R-Squared تنظیم‌شده ممکن است به 0.80 کاهش یابد، که نشان می‌دهد پیش‌بین دوم مفید نیست.

  • مثال 2: در یک تحلیل رگرسیون چندگانه که شامل قیمت‌های مسکن است، مدلی با پنج پیش‌بین ممکن است R-Squared برابر با 0.90 را نشان دهد. اگر یک پیش‌بین دیگر اضافه شود و R-Squared تعدیل‌شده همچنان 0.90 باقی بماند، این نشان می‌دهد که پیش‌بین جدید قدرت توضیحی مدل را بهبود نمی‌بخشد.

روش ها و استراتژی های مرتبط

  • اعتبارسنجی متقاطع: این تکنیک شامل تقسیم داده‌ها به زیرمجموعه‌ها برای اعتبارسنجی عملکرد مدل است و بینش‌هایی را ارائه می‌دهد که می‌تواند بر ارزیابی‌های R-مربوط تنظیم‌شده تأثیر بگذارد.

  • معیارهای انتخاب مدل: تکنیک‌هایی مانند معیار اطلاعات آکائیک (AIC) و معیار اطلاعات بیزی (BIC) می‌توانند R-مربوط شده تنظیم شده را در انتخاب بهترین مدل تکمیل کنند.

  • انتخاب ویژگی: استفاده از استراتژی‌هایی مانند حذف به‌عقب یا انتخاب به‌جلو می‌تواند به شناسایی پیش‌بینی‌کننده‌های مهم‌تر کمک کند و در نهایت R-Squared تعدیل‌شده را بهبود بخشد.

نتیجه

به طور خلاصه، R-Squared تنظیم شده یک معیار ارزشمند برای ارزیابی عملکرد مدل‌های رگرسیون است. با تنظیم تعداد پیش‌بین‌ها، این معیار به تحلیلگران کمک می‌کند تا روابط معنادار را تشخیص دهند بدون اینکه تحت تأثیر بیش‌برازش قرار بگیرند. با درک این مفهوم، می‌توانید تحلیل‌های آماری خود را بهبود بخشید و تصمیمات آگاهانه‌تری بر اساس داده‌های خود بگیرید.

سوالات متداول

Adjusted R-Squared چیست و چرا مهم است؟

R-Squared تعدیل شده نسخه‌ای اصلاح شده از R-Squared است که برای تعداد پیش‌بینی‌کننده‌ها در یک مدل رگرسیون تنظیم می‌شود. این معیار اندازه‌گیری دقیق‌تری از کیفیت برازش ارائه می‌دهد، به‌ویژه هنگام مقایسه مدل‌هایی با تعداد پیش‌بینی‌کننده‌های متفاوت.

چگونه مقادیر R-Squared تنظیم شده را تفسیر می‌کنید؟

مقادیر R-Squared تنظیم‌شده از ۰ تا ۱ متغیر است، که در آن مقدار بالاتر نشان‌دهنده تناسب بهتر مدل با داده‌ها است. بر خلاف R-Squared، R-Squared تنظیم‌شده می‌تواند در صورت اضافه شدن پیش‌بینی‌کننده‌های غیرضروری کاهش یابد، که آن را به یک معیار قابل اعتمادتر برای ارزیابی مدل تبدیل می‌کند.