א. מודל שמאפשר לבדוק את פער השכר בין מסיימים (1) לנושרים (0) – המודל הכי בסיסי ורגיל שהראינו, רק עם דמי רגיל, ללא אינטרקציה. תמציאו שם ותרשמו משוואה. אדגיש – אין אינטרקציה כי אינטרקציה זה כאשר רוצים לבדוק הבדל בשיפועים של משתנה כמותי כלשהו בין הקבוצות השונות, כלומר – האם למשל ההשפעה של השכלה על השכר שונה בין גברים לנשים. זה לא המקרה כאן, רק ביקשו מודל שבודק את פער השכר בין מסיימים לנושרים – דמי רגיל.
ב. סביר שהמשתנה שנות לימוד משפיע על השכר (כפי שראינו והסברנו באינספור דוגמאות), כמו כן הנתון הוא שיש מתאם בין שנות לימוד למשתנה הדמי של הפרוייקט (סיום/נשירה) – חישבו לבד לאיזה כיוון. אז, זה אמור להזכיר לכם נושא מפרק ז' – טעויות ספסיפיקציה – השמטת משתנה רלוונטי. הסבירו מה כיוון ההטייה של השיפוע במודל המושמט (מסעיף א') והציגו את המודל החדש שבו מכניסים גם את שנות הלימוד. גם כאן אין צורך באינטרקציה כי לא צויין שיש הבדל בהשפעה של שנות לימוד על השכר אם הפרט סיים/נשר, אלא רק שיש למשתנה זה השפעה על השכר ומתאם עם שנות לימוד.
שאלה 2
היה צריך להבין שהטענה אומרת שהפרש השכר בין נשים משכילות לעומת לא משכילות = הפרש השכר בין גברים משכילים ללא משכילים, מה שאומר שהתשואה להשכלה אינה תלויה במין. חלקו ל-4 קבוצות, רישמו איזה בטא מקבלת כל קבוצה ואז בצעו את ההפרשים המתוארים והשוו ביניהם כדי לקיים את הטענה.
שאלה 3
עוסקת בהשוואה בין משתנה כמותי, משתנה קטגורי (מופיע באתר ב"אלטרנטיבות לדמי") ומשתני דמי.
מודל 1 – משתנה כמותי רגיל של השכלה.
מודל 2 – משתנה קטגורי של השכלה – פרט שסיים יסודי יקבל ערך 1, פרט שסיים תיכון ללא בגרות יקבל ערך 2, פרט שסיים תיכון עם בגרות יקבל ערך 3, וכן הלאה.
מודל 3 – משתני דמי של השכלה – HS משתנה דמי לסיום תיכון ללא בגרות, BG משתנה דמי לקבלת תעודת בגרות, Post משתנה דמי לקבלת תעודה לא אקדמית (לדוגמא – הנדסאי), BA משתנה דמי לסיום תואר ראשון וכן הלאה (קבוצת הבסיס – יסודי). כלומר, אם למשל פרט סיים תואר ראשון הוא יקבל BA=1 ובכל המשתנים האחרים יקבל אפס. {דוגמא מאוד דומה נמצאת בקובץ – "משתני דמי – הרחבות ודוגמאות ב-R"}
הערה : כדי ליצור משתני דמי למודל 3, למשל את המשתנה HS, יש להשתמש בפקודות הבאות למשתני דמי :
mydata$HS <- NA
mydata$HS[mydata$f_diploma=="SECONDARY"] <- 1
mydata$HS[mydata$f_diploma!="SECONDARY"] <- 0
פתרון הסעיפים : (א) במודל 1 : בעלי תעודת בגרות למדו 3 שנים פחות מבעלי תואר ראשון, לכן הפער בלוג השכר הוא 3*B1 (B זה בטא).
במודל 3 : בעלי תעודת בגרות יקבלו BG=1 (ובשאר אפס), בעוד שבעלי תואר ראשון יקבלו BA=1 (ובשאר אפס). כלומר ההפרש בלוג השכר ביניהם הוא המקדם של BA (אלפא 4) פחות המקדם של BG (אלפא 2).
הערה : זהו מודל log-lin ולכן ההפרש בלוג השכר הוא ההפרש בשכר באחוזים. במידה ורוצים את ההפרש בשכר לא באחוזים, אז בכל מודל יש להתחשב גם בחותך וגם בשיפוע הרלוונטי של הקבוצה, להעלות את התוצאה ב-e, ואז לבצע הפרש בין התוצאות (אני הייתי מסתפק בהפרש באחוזים כרגע, כלומר בלוג השכר).
(ב) באופן דומה לסעיף א'.
(ג) ההנחה במודל 1 (משתנה השכלה "כמותי") שיש השפעה לינארית של ההשכלה על השכר. מודל 3 מאפשר השפעה לא לינארית על השכר אלא לפי קטגוריית לימוד, מה שמסתדר יותר טוב עם ההיגיון – הרי אם פרט למד שנה אחת לתואר ראשון ופרש, אין באמת הבדל בינו לבין מי שרק סיים בגרות, אך מודל 1 יראה שכן יש הבדל (תוספת של שנת לימוד).
(ד) ההנחה במודל 2 (משתנה השכלה "קטגורי") היא שיש השפעה זהה לכל קטגוריה על השכר (כלומר למשל עלייה מתעודת בגרות לתואר לא אקדמי משפיעה זהה כמו עלייה מתואר לא אקדמי לתואר ראשון, וכמו עלייה מתואר ראשון לתואר שני, וכן הלאה). כמו כן, יש כאן כפייה של סדר בין הקטגוריות השונות, כלומר תואר ראשון בהכרח עדיף על תואר לא אקדמי, וכן הלאה. במודל 3, ניתן לקבל (ואכן מקבלים) השפעה לא לינארית של קטגוריית הלימוד על השכר – כלומר ניתן לקבל כי מעבר מתואר ראשון לשני משפיע יותר מאשר מעבר מתואר לא אקדמי לתואר ראשון, וכן הלאה.
שאלה 4
(א) יש לאמוד מודל פשוט של משתנה דמי "מין" כמשתנה מסביר על לוג השכר. פער השכר באחוזים (= ההפרש בלוג השכר בין 2 הקבוצות) הוא פשוט המקדם של המשתנה הדמי.
(ב) הכוונה היא – בהינתן פיקוח על גיל, כלומר בהינתן שמכניסים את הגיל למודל. זה עדיין המקדם של המשתנה הדמי. שימו לב – אין קשר לאינטרקציה מסוג 1 (כלומר דמי*כמותי => מין*גיל), שכן אינטרקציה מסוג 1 בודקת מה ההבדל בהשפעה של גיל על השכר בין גברים לנשים, כלומר מה ההבדל בשיפוע של גיל אצל אישה לעומת השיפוע של גיל אצל גבר. אבל זה לא מה ששאלו כאן.
(ג) שוב – המקדם של המשתנה הדמי בהינתן שברגרסיה מריצים גם את גיל וגם את שנות לימוד.
(ד) זהו בדיוק הפרש ההפרשים (אינטרקציה מסוג 2 – דמי*דמי) – האם ההפרש בין 2 קבוצות של משתני דמי תלוי בקבוצות של משתנה דמי אחר.
יש ליצור משתנה דמי "רווק", ליצור משתנה דמי "מין" וליצור משתנה אינטרקציה של מכפלה ביניהם – רווק * מין (לא צריך ליצור אותו שוב כדמי).
במידה והמקדם של משתנה האינטרקציה מובהק, התשובה לשאלה היא כן – פער השכר בין נשים לגברים שונה בין רווקים לכל השאר (וההבדל באחוזים הוא בדיוק המקדם).
שאלה 5
# שאלה על הפרש ההפרשים #
המשתנה feram95 הוא משתנה אינטרקציה של דמי*דמי = ferem*year95.
סעיף א'
משמעות המקדמים היא כמו שהסברנו –
ניתן לרשום את "הפיצול" של כל קבוצה בנפרד כמו שעשינו עם המקדמים שהיא מקבלת ולראות את זה טוב –
מזרחים + 1983
אשכנזים + 1983
מזרחים + 1995
אשכנזים + 1995
בטא 0 = לוג השכר (הממוצע) של הקבוצה שמקבלת אפס בכל משתני הדמי – כלומר השילוב של שתי קבוצות הבסיס – מזרחיים + שנת 1983 (לא 1995).
בטא 1 = פער השכר הממוצע בין אשכנזים למזרחים בשנת 1983.
בטא 2 = פער השכר הממוצע בין גברים מזרחים בשנת 1983 לגברים מזרחים בשנת 1995.
בטא 3 = הפרש ההפרשים = ההפרש בין פער השכר הממוצע של אשכנזים לעומת מזרחים ב-1983 ובין אותו הפרש ב-1995. או : איך ההפרש בין אשכנזים למזרחים השתנה בין השנים 1983 ל-1995.
וכמובן, לאחר האמידה אתם יכולים לרשום את זה עם המספרים שיצאו.
סעיף ב' : זה בדיוק מתייחס להפרש ההפרשים, בטא 3. יש לעשות את מבחן המובהקות של בטא 3 – כלומר שווה אפס או שונה מאפס. אם שווה אפס אז פער השכר בין אשכנזים למזרחים לא השתנה בין השנים ואם שונה מאפס אז כן.
סעיפים ג'-ד' : (לא מופיע במצגת הפתרון)
בהתאם לשיטת הפיצול ובדומה למה שהראינו בסעיף א', נוכל לחשב את הפרמטרים לפי זה שאנו יודעים איזו קבוצה מייצג כל פרמטר.
לדוגמא – B0 זו הקבוצה כאשר כל המשתנים הם אפס – כלומר מזרחי + שנת 83. ואז זה שווה לממוצע של מזרחי משנת 83.
ואז, אשכנזים + 1983 יקבלו B0+B1, את B0 כבר יש לנו, ואפשר לקחת מהנתונים את הממוצע של אשכנזי ב-1983, ואז B1 יהיה ההפרש.
וכן הלאה..
לגבי סעיף ד' – המודל למעשה לא פיצל מספיק לקבוצות ויצא משהו "מאוחד" מדי, לכן לא ניתן לחשב את הפרמטרים.
שאלה 6
# עוסקת ב"אלטרנטיבות למשתני דמי ורעיון הכבילה" (מופיע אצלי לקראת סוף פרק ח') #
*שימו לב – יש שאלות כאלו אצלי בשיעור + בתרגול הנוסף. במידה ואתם לא מבינים על מה אני מדבר זה אומר שלא עברתם על השיעור ו/או לא עברתם על התרגול הנוסף. אז מומלץ לעבור.
* בנוסף – יש סרטון הסבר שלי על השאלה הזו ב"עמוד" הבא!
הערות לפני שמתחילים את השאלה :
# הסימונים של המשתנים גרועים ומבלבלים, שימו לב שאתם מבדילים כמו שצריך בין המשתנים.
# השאלה הבאה יותר פשוטה אז אם אתם מסתבכים אולי עדיף להתחיל ממנה ואז לחזור לזאת.
יש כאן השוואה בין מודלים – במודל הראשון יש משתני דמי ואינטרקציות. במודל השני אומדים רגרסיות נפרדות. כפי שהסברנו בשיעור הרלוונטי (שכותרתו רשומה לעיל) כאשר אומדים רגרסיות נפרדות אין שום כבילה – יש חותך נפרד לכל קבוצה ושיפוע נפרד לכל קבוצה, לכל משתנה מסביר. כלומר הרגרסיות הנפרדות מאפשר לאישה לקבל שיפוע שונה של שנות לימוד מאשר גבר, ומאפשרת לאישה לקבל שיפוע שונה לשנות עבודה לעומת גבר. אבל, מאחר שיש כאן 2 משתנים כמותיים, יש כאן אלמנט נוסף של אינטרקציה ביניהם. זה לא תמיד חובה ולא מופיע בכל מודל, אבל אנחנו יכולים לראות שכן התייחסו לזה ברגרסיות הנפרדות ולמעשה אפשרו לכל קבוצה (גבר ואישה) לקבל שיפוע שונה גם למשתנה אינטרקציה הזה. לעומת זאת, במודל עם משתני הדמי לגבר ואישה, לא עשו משתנה "אינטרקציה משולשת" ולכן לא איפשרו הבדל בין גבר ואישה בשיפוע של האינטרקציה ED*T. היו צריכים להכניס משתנה אינטרקציה משולשת : D*ED*T, ואז זה היה מאפשר הבדל בין גבר לאישה באינטרקציה שבין ED (שנות לימוד) ו-T (שנות עבודה). מאחר שלא עשו את זה, למעשה "כבלו" – והמודלים לא ניתנים להשוואה (מכאן תסיקו לבד מה היא התשובה הנכונה).
נשים לב שלמדא 1 (האות שנראית כמו ג') זה המקדם של T במשוואה 3, כלומר השיפוע של שנות עבודה על גברים, ובמודל 1 של משתני הדמי זה יוצא בטא 2 + בטא 3 = 21. לכן הטענות משוות את למדא 1 ל-21.
שאלה 7
# עוסקת באותו רעיון של שאלה 2.
טענה A : תפוקה שולית של הון = שיפוע הון = שיפוע X1. וכאשר מדובר ביצרן מקומי אז נחפש את השיפוע של X1 כאשר D=0. וזה פשוט יוצא דלתא 1.
טענה B : במודל הנתון יש כבילה בחותך של הקבוצות – לא הכניסו משתנה דמי חופשי של D ולכן החותך של יצרן זר שווה לחותך של מקומי. מכאן, שהתוצאה לא תצא זהה לרגרסיות נפרדות ולכן לא ניתן להשוות בין ה-ESSים שלהם (= סכום הטעויות בריבוע).
טענה C : נחפש את השיפוע של X1 כאשר D=1. זה יוצא דלתא 1 ועוד דלתא 3.