متغیرهای ساختگی یا متغیرهای طبقه ای اغلب در داده های دنیای واقعی به وجود می آیند. به عنوان مثال، انتخاب بین سرمایه گذاری یا عدم سرمایه گذاری در سهام یک شرکت، یک متغیر تصمیم گیری است که فقط می تواند دو مقدار داشته باشد: بله یا خیر. به طور مشابه، تصمیمگیری برای گذراندن تعطیلات بعدی خود در کدام قاره فقط میتواند مقادیر خاصی داشته باشد: آسیا، آفریقا، اروپا، آمریکای جنوبی و غیره. متغیرهای طبقهبندی نه تنها میتوانند موقعیتهایی را که ترتیب ذاتی گزینهها وجود ندارد (مانند دو مورد بالا) به تصویر بکشند. مثالها، یا بگویید مرد در مقابل زن، و غیره) اما همچنین زمانی که ارزشها دارای معنای ترتیبی هستند (مثلاً در مقیاس اعداد 1 تا 5 در حال حاضر چقدر خوشحال هستید که 5 شادترین است، یا اینکه چقدر سیاست یک کشور دموکراتیک است. در مقیاس اعداد صحیح از 1 تا 10 با 10 که دموکراسی کامل است).
برای ارائه یک مثال، فرض کنید نمونه ما از افراد دارای پنج سطح ثروت هستند. فقیرترین، فقیرتر، متوسط، ثروتمندتر و ثروتمندترین. ما علاقه مند به درک رابطه بین تعداد کل فرزندان متولد شده در یک خانواده و سطح ثروت آنها هستیم.(داده ها را می توانید در اینجا پیدا کنید.)
ما میتوانیم 5 متغیر ساختگی ایجاد کنیم که به آنها poorest، poorer، متوسط، غنیتر و غنیتر میگویند. متغیر poorest مقدار 1 را برای افرادی که فقیرترین ثروت را دارند و در غیر این صورت 0 را می گیرد. متغیر poorer برای افرادی که دارایی ضعیف تری دارند مقدار 1 و در غیر این صورت 0 را می گیرد. به همین ترتیب، ما سایر متغیرها را می سازیم. در حالی که تعداد کل فرزندان متولد شده در یک خانواده را در سطوح ثروت رگرسیون می کنیم، می توانیم از دو رویکرد استفاده کنیم:
I. عبارت ثابت، فقیرترین، فقیرتر، متوسط، ثروتمندتر را در رگرسیون لحاظ کنید و ثروتمندترین را کاهش دهید.
- ثابت تعداد مورد انتظار فرزندان متولد شده در خانوادهای با ثروتمندترین سطح ثروت از سال 201 را نشان میدهدj= ب0وقتی همه متغیرها مقدار 0 را بگیرند.
- ضریب فقیرترین به عنوان تفاوت بین تعداد مورد انتظار فرزندان متولد شده در خانواده با فقیرترین سطح ثروت و ثروتمندترین سطح ثروت تفسیر می شود. این درست است زیرا v201j = b0 + b1زمانی که poorest =1 و همه متغیرهای دیگر صفر هستند.
- به طور مشابه، ضریب سایر ضرایب تفاوت بین تعداد مورد انتظار فرزندان متولد شده در خانواده با آن سطح دارایی خاص و ثروتمندترین سطح ثروت را نشان می دهد.
II. عبارت ثابت را حذف کرده و تمام 5 متغیر را در بر می گیرد.
- اکنون در این رگرسیون، هر ضریب تعداد مورد انتظار فرزندان متولد شده در خانواده را با توجه به آن سطح دارایی خاص نشان می دهد. همانطور که می بینید ضریب غنی ترین با ثابت روش اول یکسان است.
III. عبارت ثابت و هر 5 متغیر را شامل شود.
به خاطر داشته باشید که متغیرهای مستقل می توانند در حین اجرای هر یک از مدل های زیر پیوسته یا دسته بندی شوند. نیازی به دودویی بودن متغیرهای مستقل نیست، فقط به دلیل باینری بودن متغیر وابسته.
(i) رگرسیون لجستیک (Logit): یک رگرسیون لجستیک با حداکثر احتمال با یک مدل پاسخ دوتایی (یا دوگانه) مطابقت دارد. با توجه به مجموعه ای از رگرسیون ها، احتمال یک نتیجه مثبت را مدل می کند. هنگامی که متغیر وابسته با یک عدد غیر صفر و غیر مفقود (معمولاً 1) برابر باشد، یک نتیجه مثبت را نشان می دهد، در حالی که مقدار صفر نشان دهنده یک نتیجه منفی است. از نظر ریاضی، اجرای یک logit از متغیر وابسته y بر روی رگرسیون x1و x2اساساً با تخمین ضرایب b با مدل زیر مطابقت دارد0 , b1و ب2: مشکل (yj= 1 |ایکس1j, x2j) = انقضا (ب0+b1x1j+b2x2j) / [exp(b0+b1x1j+b2x2j) + 1]. شکل عملکردی خاص احتمال از فرض یک توزیع لجستیک برای عبارت خطا در رگرسیون ناشی می شود.
به عنوان مثال، اگر اطلاعاتی در مورد وزن و مسافت پیموده شده 22 خودروی خارجی و 52 خودروی داخلی داشته باشیم، ممکن است بخواهیم یک مدل لاجیت برای توضیح خارجی بودن یا نبودن یک خودرو بر اساس وزن و مسافت پیموده شده آن قرار دهیم.(داده ها را می توان در اینجا یافت.)
وزن خارجی لاجیت mpg
در اینجا متغیر وابسته خارجی اگر ماشین خارجی باشد مقدار 1 و اگر داخلی باشد 0 می گیرد. وزن رگرسیور و mpg متغیرهای پیوسته معمولی هستند و به ترتیب وزن و مسافت پیموده شده خودرو را نشان می دهند.
- فرمان STATA بالا تخمینهایی از سه ضریب ارائه میدهد: یک ثابت/قطع، و دو ضریب برای وزن و مسافت پیموده شده.
- ضریب وزن بیانگر آن است که یک واحد افزایش وزن، احتمال خارجی بودن خودرو (در مقابل داخلی) را تا 0. 004- کاهش می دهد.
- ضریب mpg نشان می دهد که افزایش واحد در مسافت پیموده شده، احتمال خارجی بودن خودرو را 0. 17- کاهش می دهد.
- ستون چهارم جدول سطح معنی داری را نشان می دهد که فرض صفر که ضریب برابر با صفر است را می توان رد کرد. تمامی ضرایب از نظر آماری از صفر در سطح معناداری 10 درصد به طور معناداری هستند.
گاهی محقق به ضرایب b علاقه ای ندارد0 , b1و ب2فی نفسه، اما در نسبت شانس تک تک پسروندهها، یعنی exp(b0), exp(b1) و exp(b2 ).
وزن خارجی لجستیک mpg
- حال، ضریب وزن بیانگر این است که یک واحد افزایش وزن خودرو، شانس خارجی بودن خودرو را ضریب 0. 996 افزایش می دهد.
- ضریب مسافت پیموده شده نشان می دهد که افزایش واحد در مسافت پیموده شده خودرو، شانس خارجی بودن خودرو را 0. 84 افزایش می دهد.
هنگام تفسیر نسبت شانس عبارت ثابت/برق باید محتاط بود. معمولاً، این نسبت شانس، شانس پایه مدل را زمانی که همه متغیرهای پیش بینی بر روی صفر تنظیم می کنند، نشان می دهد. با این حال، قبل از ادامه این تفسیر، باید تأیید کرد که یک مقدار صفر برای همه پیشبینیکنندهها واقعاً منطقی است. به عنوان مثال، وزن صفر برای یک خودرو در مثال بالا معنی ندارد، و بنابراین تخمین نسبت شانس برای عبارت رهگیری در اینجا هیچ معنایی ندارد.
(ii) رگرسیون پروبیت (Probit): می توان فرض توزیعی یک رگرسیون لجستیک را با فرض یک توزیع نرمال استاندارد به جای توزیع لجستیک برای احتمال یک نتیجه مثبت تغییر داد. به عبارت دیگر، Prob.(yj= 1 |ایکس1j, x2j) = φ(b0+b1x1j+b2x2j) که در آن φ(.) تابع توزیع تجمعی یک توزیع نرمال استاندارد را نشان می دهد. این مدل را مدل پروبیت می نامند.
اجازه دهید به مثال قبلی خود بازگردیم و یک مدل پروبیت را به جای مدل لاجیت اجرا کنیم. این را می توان با استفاده از دستور زیر در STATA پیاده سازی کرد:
probit وزن خارجی mpg
- ضرایب رگرسیون تفسیری مشابه مدل لاجیت دارند، یعنی ضریب وزن نشان میدهد که یک واحد افزایش وزن، احتمال خارجی بودن خودرو (در مقابل داخلی) را تا 0. 004- کاهش میدهد.
- همانطور که مشاهده می شود، تمامی ضرایب کاملا مشابه مدل لاجیت هستند.
- انتخاب مدل لاجیت یا پروبیت به تئوری اقتصادی و ترجیح محقق بستگی دارد.
نکته: هر دو مدل Logit و Probit زمانی مناسب هستند که متغیر وابسته باینری یا دوگانه باشد. هنگامی که متغیر وابسته بیش از دو دسته دارد، باید یک رگرسیون لجستیک چند جمله ای یا یک رگرسیون لجستیک منظم را پیاده سازی کرد که در زیر مورد بحث قرار می گیرد.
(iii) لاجیت چند جمله ای: در مدل لاجیت چند جمله ای، تعداد نتایجی که متغیر وابسته احتمالاً می تواند داشته باشد، بیشتر از دو است. این تفاوت اصلی چند جمله ای از لوجیت معمولی است. با این حال، لاجیت چند جملهای تنها به متغیر وابستهای اجازه میدهد که دستههای آن به معنای واقعی مرتب نشدهاند (در این مورد باید یک رگرسیون Logit مرتب اجرا شود).
رگرسیون y را روی x در نظر بگیرید که در آن متغیر وابسته مقوله ای y دارای 3 نتیجه ممکن است. در مدل لاجیت چند جمله ای، مجموعه ای از ضرایب b را تخمین می زنند0(1)، ب1(1)، ب0(2)، ب1(2)، ب0(3)، ب1(3) مربوط به هر نتیجه:
با این حال، این مدل به این معنا که بیش از یک راه حل برای b وجود دارد، نامشخص است0(1)، ب1(1)، ب0(2)، ب1(2)، ب0(3)، ب1(3)، که منجر به احتمالات یکسان برای y=1، y=2 و y=3 می شود. برای شناسایی مدل، باید b را تنظیم کرد0(ک) = ب1(k) = 0 برای هر یک از نتایج k=1، 2 و 3. آن نتیجه، نتیجه پایه نامیده می شود، و ضرایب باقیمانده تغییر را نسبت به آن گروه y=k اندازه گیری می کند. ضرایب متفاوت خواهند بود زیرا تفسیرهای متفاوتی دارند، اما احتمالات پیش بینی شده برای y=1، 2 و 3 همچنان یکسان خواهد بود. به عنوان مثال، تنظیم b0(2) = ب1(2) = 0، معادلات تبدیل می شوند
به عنوان مثال، انتخاب یک فرد برای عدم حضور در نیروی کار، تبدیل شدن به یک کارگر تمام وقت یا یک کارگر پاره وقت می تواند با استفاده از تحصیلات و کنترل او برای سن و جنس مدل شود.(داده ها را می توان در اینجا یافت.).
ما متغیر lab_status را شامل اشتغال و مشارکت نیروی کار یک فرد تعریف کرده ایم. 0 به غیر نیروی کار، 1 به کار تمام وقت و 2 به کارگر پاره وقت اشاره دارد. جنسیت متغیر به این صورت تعریف میشود که مرد مقدار 1 و زن مقدار 2 را میگیرد.
mlogit lab_status آموزش سن جنسی
- ضریب جنسیت بیانگر این است که اگر فرد زن در مقابل مرد باشد، احتمال نسبی خارج شدن از نیروی کار در مقابل کارگر تمام وقت افزایش می یابد.
- ضریب جنس بیانگر این است که اگر فرد زن در مقابل مرد باشد، احتمال نسبی کار پاره وقت در مقابل کارگر تمام وقت افزایش می یابد.
- افزایش یک واحدی در سن با افزایش 0. 018 در احتمال نسبی بودن خارج از نیروی کار در مقابل شاغل بودن تمام وقت همراه است.
- افزایش یک واحدی در سن با کاهش 0. 011 در شانس ورود به سیستم نسبی استخدام پاره وقت در مقابل شاغل بودن تمام وقت همراه است.
- ضریب تحصیلات حاکی از افزایش یک ساله در سالهای تحصیل است که شانس نسبی خارج بودن از نیروی کار در مقابل شاغلان تمام وقت را 0. 28 کاهش می دهد.
- ضریب تحصیلات حاکی از افزایش یک ساله در سالهای تحصیل است که با کاهش 0. 13 در احتمال نسبی ورود به کار پاره وقت در مقابل شاغل بودن تمام وقت همراه است.
mlogit lab_status آموزش سن جنسی، پایه ( 0 )
- این به STATA میگوید که دسته صفر (y=0) را بهعنوان نتیجه پایه در نظر بگیرد، و آن ضرایب را سرکوب کند و همه ضرایب خارج از نیروی کار را به عنوان گروه پایه تفسیر کند. مقدار در دسته پایه بستگی به مقادیری دارد که متغیر y در داده ها گرفته است.
- ضریب رابطه جنسی ، سن ، تحصیلات و ثابت علائم را در بر گرفته است اما در مورد افراد تمام وقت شاغل در مقایسه با افراد خارج از نیروی کار در مورد قبلی ، همان اندازه را دارد. این انتظار می رود همانطور که گروه پایه را به هم زدیم.
- ضریب رابطه جنسی دلالت بر این دارد که شانس ورود به سیستم نسبی در کار پاره وقت در مقابل خارج از نیروی کار تنها در صورتی که فرد یک زن در مقابل مرد باشد ، اندکی افزایش می یابد.
- افزایش یک واحد در سن با کاهش 0. 029 در شانس ورود به سیستم نسبی در کار پاره وقت در مقابل خارج از نیروی کار همراه است.
- افزایش واحد در سالها به مدرسه با افزایش 0. 15 در شانس ورود به سیستم نسبی در کار پاره وقت در مقابل ، خارج از نیروی کار همراه است.
این کار توسط دستور زیر انجام می شود:
MLOGIT LAB_STATUS آموزش سن جنسی ، پایه (0) RRR
- نسبت خطر نسبی یک سال اضافی مدرسه برای 1. 16 (EXP (0. 15)) برای اشتغال پاره وقت در مقابل نیروی کار است.
(IV) ورود به سیستم سفارش داده شده: در یک مدل ورود به سیستم سفارش داده شده مقادیر واقعی که توسط متغیر وابسته طبقه بندی شده است بی ربط نیستند ، به جز اینکه مقادیر بزرگتر فرض می شود که با نتایج "بالاتر" مطابقت داشته باشد. چنین متغیرهای وابسته اغلب "نظم" ، به عنوان مثال ، "فقیر" ، "خوب" و "عالی" خوانده می شوند که ممکن است نشانگر وضعیت سلامتی فعلی شخص یا سابقه تعمیر یک ماشین باشد.
در ورود به سیستم ، نمره زیرین به عنوان یک عملکرد خطی متغیرهای توضیحی و مجموعه ای از برش ها تخمین زده می شود. احتمال مشاهده نتیجه K ، Prob (y = k) ، مربوط به احتمال اینکه عملکرد خطی تخمین زده شده ، به علاوه خطای تصادفی ، در محدوده برش های تخمین زده شده برای نتیجه است: Prob (yj= k) = prob (ck-1 < b0 + b1x1j + b2x2j + uj < ck) جایی که اصطلاح خطا شما استjفرض بر این است که از نظر لجستیکی توزیع شده است. Stata تخمین های ضرایب b را گزارش می کند0, b1و ب2همراه با نقاط برش c1, c2, … , cK-1، جایی که K تعداد نتایج احتمالی y است. جف0به عنوان بی نهایت منفی ، و جKبه عنوان بی نهایت مثبت گرفته می شود.
بیایید مثال زیر را در نظر بگیریم: ما می خواهیم انتخاب تعداد کل کودکانی که در یک خانواده متولد شده اند با استفاده از داده های مربوط به دختر به پسر (V203 / V201) ، آموزش (V133) ، سن همسر (V012) و ثروت مدل سازی کنیم. آدمک های کوئینتیل. ما می توانیم 5 متغیر ساختگی به نام فقیرترین ، فقیرتر ، میانه ، ثروتمندتر و ثروتمندتر ایجاد کنیم. متغیر فقیرترین ارزش 1 را برای افرادی که فقیرترین ثروت دارند و در غیر این صورت 0 است. متغیر فقیرتر ارزش 1 را برای افرادی که ثروت فقیرتر دارند و در غیر این صورت 0 است. به طور مشابه ، ما متغیرهای دیگر را می سازیم.(داده ها را می توان در اینجا یافت.)
ologit v201 girl_son_ratio v133 v012 فقیرترین فقیرن ثروتمند
- افزایش واحد نسبت دختر به پسر ، شانس ورود به سیستم فرزند دیگر را با 0. 86 افزایش می دهد.
- افزایش واحد در سالهای تحصیل (V133) باعث کاهش شانس ورود به فرزند دیگر 0. 16 می شود.
- با افزایش سن ، شانس ورود به سیستم دیگر افزایش می یابد.
- چهار سال ثروت از بین رفته در رگرسیون ثروتمندترین ثروت ثروت است. بنابراین ، فقیرترین خانواده در مقایسه با ثروتمندترین خانواده ، 1. 51 فرزند داشتن فرزند را دارند.
- به همین ترتیب ، خانوارهای میانه و ثروتمند در مقایسه با ثروتمندترین خانواده ، شانس ورود به سیستم بالاتری دارند.
برای به دست آوردن نسبت شانس به جای شانس ورود به سیستم ، ما باید از گزینه OR استفاده کنیم. برای اجرای آن در Stata ، باید دستور زیر را اجرا کنیم:
ologit v201 girl_son_ratio v133 v012 فقیرترین فقیرتر ثروتمندتر ، یا