In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.formula.api as smf

# Økonometri A



## Problem Set 8



### Økonometrisk analyse af børns betydning for kvinders arbejdsudbud

I ugeseddel 8 får I en introduktion til instrument variabel (IV) estimation. I skal undersøge, hvilken betydning børn har på kvinders arbejdsudbud. Hvis lavere fertilitet eller færre børn giver kvinder et højere arbejdsudbud, kan det være med til forklare kvinders stigende deltagelse på arbejdsmarkedet efter 2. verdenskrig. Ligeledes har ændringer i kvinders arbejdsudbud, som kan forklares med ændringer i fertiltet, vigtige implikationer på andre fænomener såsom ægteskab, skilsmisse, børnepasning, fordeling af løn mellem mænd og kvinder i husholdningen og lønforskelle mellem mænd og kvinder.

Grunden til, at I skal bruge IV estimation i denne ugeseddel er, at fertilitet er en endogen variabel, så hver gang der sker en ændring i fertilitet, sker der en ukendt ændring i fejlleddet, som påvirker kvinders arbejdsudbud. At fertilitet er endogen kan skyldes omvendt kausalitet, udeladte variable, eller at fertilitet og arbejdsudbud bliver bestemt simultant. Det implicerer, at OLS estimatoren ikke kan bruges, hvis I gerne vil undersøge den kausale effekt af fertilitet på arbejdsudbud.

Ugesedlen tager udgangspunkt i forskningsartiklen *"Children and their Parents' Labor Supply"* af Angrist og Evans (1998). I deres forskningsartikel bruger Angrist og Evans, at forældre har en præference for at få børn af begge køn til at lave IV estimationen. I deres identifikationsstrategi bruger de, at forældre med to børn af samme køn har en signifikant større sandsynlighed for at få et 3. barn. Eftersom at et barns køn er tilfældigt givet, kan en variabel, som angiver, om de første to børns køn er ens, bruges som et instrument for, om en kvinde får flere end de to første børn.

For at kunne undersøge sammenhængen mellem fertilitet og arbejdsudbud, skal I se på data for amerikanske kvinder i 1990. I har detaljeret information om deres arbejds- og familiekarakteristika. Data består af 337.500 observationer fra et repræsentativt udsnit af kvinder mellem 21 og 35 år med mindst to børn i USA i 1990.



### Variabelliste

| Variabelnavn  | Forklaring                                                 |
| ------------- | ---------------------------------------------------------- |
| **workm**     | Dummy for om moren arbejder eller ej                        |
| **weekm**     | Antal uger arbejdet i løbet af et år                        |
| **hourm**     | Antal timer arbejdet i løbet af en uge                      |
| **lincm**     | Arbejdsindkomst i US dollars                                |
| **faminc**    | Samlet familieindkomst i US dollars                         |
| **agem**      | Morens alder                                                |
| **agem1stkid**| Morens alder ved første barn                                |
| **nkids**     | Samlet antal børn                                           |
| **morekids**  | Dummy for om moren har mere end to børn                     |
| **boy1stkid** | Dummy for om første barn er en dreng                        |
| **boy2ndkid** | Dummy for om andet barn er en dreng                         |
| **twoboys**   | Dummy for om de første to børn er drenge                    |
| **twogirls**  | Dummy for om de første to børn er piger                     |
| **samesex**   | Dummy for om de første to børn har samme køn                |
| **black**     | Dummy for morens afstamning (referencegruppe: hvid)         |
| **hisp**      | Dummy for morens afstamning (referencegruppe: hvid)         |
| **other**     | Dummy for morens afstamning (referencegruppe: hvid)         |
| **lowedu**    | Dummy for om morens uddannelse er kortere end gymnasiet     |
| **hsedu**     | Dummy for om morens uddannelse er gymnasieniveau            |
| **highedu**   | Dummy for om morens uddannelse længere end gymnasiet        |



### Regressionsmodel (1)

\begin{align}
workm_i = \space &\beta_0 + \beta_1 \, morekids_i + \beta_2 \, boy1stkid_i + \beta_3 \, boy2ndkid_i \\ &
+ \beta_4 \, agem_i + \beta_5 \, agem1stkid_i + \beta_6 \, black_i + \beta_7 \, hisp_i + \beta_8 \, other_i + u_i 
\end{align}\tag{1}

hvor $u_i$ er fejlleddet. Dummy-variablen $morekids_i$ er et mål for fertilitet.



## **Gruppespørgsmål**



### **Opgave 1.** 
Hvad er fortolkningen af $\beta_1$? Hvad er det forventede fortegn for $\beta_1$?



**Dit svar:**


> Fortolkningen af $\beta_1$ er den forventede effekt af fertilitet på mødres arbejdsudbud, alt andet lige. Vi sammenligner arbejdsudbud (om moren arbejder eller ej) for mødre med mere end to børn i forhold til mødre med to børn. Model (1) er en lineær sandsynlighedsmodel, så fortolkningen af $\beta_1$ er, at mødre med mere end to børn har $100\cdot \beta_1$ pct. mere/mindre sandsynlighed for at arbejde. 
> 
> Vi forventer, at større fertilitet giver lavere arbejdsudbud, jf. opgavebeskrivelse, så $\beta_1<0$. 


### **Opgave 2.** 
Hvad er fortolkningen af $\beta_4$ og $\beta_5$?



**Dit svar:**


> $\beta_4$ er den forventede effekt af moderens alder på arbejdsudbud, alt andet lige. $\beta_5$ er den forventede effekt af moderens alder, hvor hun får sit første barn, på arbejdsudbud, alt andet lige. 



### **Opgave 3.** 
Kom med eksempler på, hvad der kan påvirke både arbejdsudbud og fertilitet, som ikke er medtaget i modellen, og som gør $morekids_i$ til en endogen variabel. Diskuter, hvilke implikationer det har for OLS estimatorens egenskaber.



**Dit svar:**


> Uobserverede præferencer for fritid/arbejde påvirker både fertilitet og arbejdsudbud. Ønsket om en bestemt familiestørrelse. Eksempel med uobserveret familiestørrelse: Det er positivt korreleret med antallet af børn og negativt korreleret med arbejdsudbud. Det vil give en negativt bias i OLS estimatoren.


### **Opgave 4.** 
Hvilke to egenskaber skal en variabel $z$ have for at kunne være et godt instrument. Diskuter om en dummy-variabel, som viser, at de første to børns køn er ens, er et muligt instrument for $morekids_i$.



**Dit svar:**


> Et instrument skal være validt, $cov(z,u)=0$, og relevant $cov(z,x)\neq 0$. Variablen $samesex_i$ er et godt instrument, hvis det opfylder disse to kriterier. Hvis køn er tilfældigt givet, er instrumentet validt. Hvis forældre foretrækker at have et barn af hvert køn, er de mere tilføjelige til at få flere børn, hvis de to første er af samme køn. På den måde er instrumentet relevant og kan forklare en del af variationen i fertilitet.


## **Python øvelser**

I skal nu forsøge at estimere den kausale effekt af, at en kvinde får mere end to børn, hvor I bruger samme identifikationsstrategi som Angrist og Evans.



### **Opgave 1.** 
Lav en tabel, hvor I sammenligner kvinder med $samesex = 1$ og $samesex = 0$ på relevante karakteristika. Kommenter kort på tabellen.




**Din kode:**


In [2]:
df = pd.read_stata('PS8.dta')

df.groupby('samesex').mean().T.round(3)

samesex,0,1
workm,0.67,0.665
weekm,26.538,26.239
hourm,22.809,22.576
lincm,7365.05,7282.569
faminc,34437.25,34340.2
agem,30.426,30.44
agem1stkid,21.815,21.803
nkids,2.453,2.537
morekids,0.338,0.402
boy1stkid,0.502,0.523


**Dit svar:**


> Her er det interessant at se, at mødrene er ens på tværs af de to grupper, undtagen for $morekids_i$-variablen, hvor 33,8 pct. af mødrene med de første to børn af forskelligt køn får flere børn. Derimod får 40,2 pct. af mødrene med de to første børn af samme køn flere børn. Dette er en indikation af, at $samesex_i$ kan være et godt instrument for fertilitet.


### **Opgave 2.** 
Estimer model (1) med OLS. Vis resultaterne i en tabel, hvor I bruger de standardfejl, som I mener er relevante i denne sammenhæng. Kommenter på sammenhængen mellem at få flere børn og kvinders sandsynlighed for at arbejde.




**Din kode:**


In [3]:
model2 = smf.ols('workm ~ morekids + boy1stkid + boy2ndkid + agem + agem1stkid + black + hisp + other', data=df)
results2 = model2.fit(cov_type='HC1')
print(results2.summary())

                            OLS Regression Results                            
Dep. Variable:                  workm   R-squared:                       0.040
Model:                            OLS   Adj. R-squared:                  0.040
Method:                 Least Squares   F-statistic:                     2029.
Date:                Sat, 12 Oct 2024   Prob (F-statistic):               0.00
Time:                        20:42:18   Log-Likelihood:            -2.4221e+05
No. Observations:              375000   AIC:                         4.844e+05
Df Residuals:                  374991   BIC:                         4.845e+05
Df Model:                           8                                         
Covariance Type:                  HC1                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.4282      0.007     57.440      0.0

**Dit svar:**


> OLS estimatet af $\beta_1$ er -0,1521. Fortolkningen af estimatet er, at hvis en mor får mere end to børn, så falder sandsynligheden for, at hun arbejder med 15,21 pct. Fortegnet er som forventet fra første gruppespørgsmål. Vær opmærksom på, at effekten af fertilitet måske er mere negativ, fordi der er en negativ bias i OLS estimatet. 

---

## **- Intermission -**



Om lidt skal vi til at køre IV-regressioner. Til det skal vi bruge et nyt værktøj, nemlig `IV2SLS` fra pakken `linearmodels`. Det minder meget om statsmodels, men giver os mulighed for at bruge instrumentale variable – og så er det på nogle områder faktisk lidt nemmere at arbejde med end statsmodels.

Først importerer du pakken med følgende kode:

```py
from linearmodels import IV2SLS
```

Når vi vil instrumentere $morekids$ med variablen $samesex$ i model (1) kan vi nu bruge koden:

```py
model = IV2SLS.from_formula('workm ~ 1 + [morekids ~ samesex] + boy1stkid + boy2ndkid + agem + agem1stkid + black + hisp + other', data=df)
results = model.fit()
print(results)
```
Der er fire vigtige ting, du skal lægge mærke til her:
1. Instrumenteringen sker ved "indlejre" en ny regression i vores formel. Det gør vi ved at sætte den i klammer. I eksemplet ovenfor har vi `[morekids ~ samesex]`. Det betyder, at vi instrumenterer $morekids$ med instrumentet $samesex$. Alt der står uden for vores klammerne indgår i modellen helt som vi plejer.

2. Vi skal selv sørge for at tilføje et 1-tal i vores modelformel, hvis vi vil have et konstantled med (og det vil vi næsten altid!).

3. `IV2SLS` bruger automatisk robuste standardfejl. Hvis vi vil have almindelige standardfejl skal vi eksplicit bede om dem ved at bruge `.fit(cov_type='unadjusted')`

4. For at printe resultaterne bruger vi bare `print(results)`. Vi behøver altså ikke tilføje `.summary()`, som vi ellers plejer at skulle i statsmodels.



Du kan læse mere om værktøjet IV2SLS fra linearmodels her: https://bashtage.github.io/linearmodels/iv/examples/basic-examples.html



_Pro tip:_ Hvis du bliver glad for at bruge `IV2SLS` fra linearmodels, kan du faktisk også bruge det, når du vil køre almindelige OLS regressioner. Du får nemlig automatisk almindelige OLS estimater ud af `IV2SLS` værktøjet, hvis blot du undlader at specificere nogle instrumenter i din modelformel. Men du kan stadig nyde godt af den lidt simplere syntax og at der automatisk anvendes robuste standardfejl. Så hvis du vil, kan du helt undlade at bruge statsmodels fremadrettet.

---


**Opgave 3.** Estimer model (1) med IV, hvor I bruger $samesex_i$ som et instrument for $morekids_i$. Vis resultaterne i en tabel, og sammenlign med OLS estimaterne fra spørgsmål 2. Sørg for at du har læst og forstået ovenstående hints, inden du løser opgaven.




**Din kode:**


In [4]:
from linearmodels import IV2SLS

In [5]:
# Estimation af model (1), hvor morekids instrumenteres med samesex
model3 = IV2SLS.from_formula('workm ~ 1 + [morekids ~ samesex] + boy1stkid + boy2ndkid + agem + agem1stkid + black + hisp + other', data=df)
results3 = model3.fit()
print(results3)

                          IV-2SLS Estimation Summary                          
Dep. Variable:                  workm   R-squared:                      0.0368
Estimator:                    IV-2SLS   Adj. R-squared:                 0.0368
No. Observations:              375000   F-statistic:                    6945.6
Date:                Sat, Oct 12 2024   P-value (F-stat)                0.0000
Time:                        20:42:18   Distribution:                  chi2(8)
Cov. Estimator:                robust                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
Intercept      0.4006     0.0131     30.552     0.0000      0.3749      0.4263
boy1stkid     -0.0020     0.0015    -1.3449     0.17

In [6]:
# Er samesex et relevant instrument? (First stage regression)
firststage = smf.ols('morekids ~ samesex + boy1stkid + boy2ndkid + agem + agem1stkid + black + hisp + other', data=df)
firststage_res = firststage.fit(cov_type='HC1')
print(firststage_res.summary())

                            OLS Regression Results                            
Dep. Variable:               morekids   R-squared:                       0.081
Model:                            OLS   Adj. R-squared:                  0.081
Method:                 Least Squares   F-statistic:                     4703.
Date:                Sat, 12 Oct 2024   Prob (F-statistic):               0.00
Time:                        20:42:19   Log-Likelihood:            -2.4319e+05
No. Observations:              375000   AIC:                         4.864e+05
Df Residuals:                  374991   BIC:                         4.865e+05
Df Model:                           8                                         
Covariance Type:                  HC1                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.4182      0.007     58.530      0.0


**Dit svar:**


> Du kan starte med at teste, om instrumentet $samesex_i$ er relevant med en regression af $samesex_i$ på $morekids_i$ (første trin i IV estimation). Der er en positiv korrelation mellem instrumentet og fertilitetsmålet, som er forskellig fra 0 på et 5 pct. signifikansniveau. 
> 
> Estimatet af $\beta_1$ med IV estimatoren er -0,0904. Det er numerisk mindre end OLS estimatet, så der har været en negativ bias i OLS. Fortolkningen af estimatet er, at hvis en mor får mere end to børn, så falder sandsynligheden for, at hun arbejder med 9,04 pct.


### **Opgave 4.** 
En fordel ved at bruge $samesex_i$ som et instrument er, at det kan dekomponeres til to separate instrumenter: $twoboys_i$ og $twogirls_i$. Estimer model (1) uden dummyvariablen $boy2ndkid_i$, og hvor I bruger $twoboys_i$ og $twogirls_i$ som instrument for $morekids_i$. Kommenter på resultaterne og sammenlign med estimaterne fra spørgsmål 3. Hvorfor kan I ikke medtage $boy2ndkid_i$, når I bruger to separate instrumenter?



_Hint:_ Du kan let bruge flere instrumenter på en gang når du instrumenterer i linearmodels: `[morekids ~ twoboys + twogirls]`


**Din kode:**


In [7]:
# Estimation af model (1), hvor morekids instrumenteres med twoboys og twogirls
model4 = IV2SLS.from_formula('workm ~ 1 + [morekids ~ twoboys + twogirls] + boy1stkid + agem + agem1stkid + black + hisp + other', data=df)
results4 = model4.fit()
print(results4)

                          IV-2SLS Estimation Summary                          
Dep. Variable:                  workm   R-squared:                      0.0368
Estimator:                    IV-2SLS   Adj. R-squared:                 0.0368
No. Observations:              375000   F-statistic:                    6945.6
Date:                Sat, Oct 12 2024   P-value (F-stat)                0.0000
Time:                        20:42:19   Distribution:                  chi2(7)
Cov. Estimator:                robust                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
Intercept      0.4004     0.0131     30.567     0.0000      0.3747      0.4260
boy1stkid     -0.0020     0.0015    -1.3485     0.17

**Dit svar:**


> Vi opdeler instrumentet i to. Igen kan du teste, om de to instrumenter er relevante. Estimatet af $\beta_1$ er -0.0905. Fortolkningen af estimatet er, at hvis en mor får mere end to børn, så falder sandsynligheden for, at hun arbejder med 9.05 pct. Vi tilføjer ikke yderligere forklaringskraft til modellen ved at opdele instrumentet i to.



### **Opgave 5.** 
Forklar hvad overidentificerede restriktioner er. Herefter skal I udføre en test for dette i modellen fra spørgsmål 4.



**Dit svar:**


> Det er muligt at teste for overidentificerede restriktioner, når der er flere instrumenter end endogene variable. Bemærk, at et OI-test ikke kan afgøre, hvilke instrumenter der i sig selv er valide, og hvilke som ikke er. Det er stadig nødvendigt at have teoretiske/økonomiske argumenter for at sandsynliggøre validiteten af instrumenterne. Nulhypotesen er, at vi har valide instrumenter, så de eksogene variable er ukorreleret med fejlledet.


**Din kode:**


In [8]:
# Manuel test for overidentificerede restriktioner

# 1. Regresser residualerne på instrumenterne og de eksogene variable
worm_uhat = results4.resids
model_OI = smf.ols('worm_uhat ~ twoboys + twogirls + boy1stkid + agem + agem1stkid + black + hisp + other', data=df)
results_OI = model_OI.fit()

# 2. Beregn testet N*R^2
N = results_OI.nobs
R2 = results_OI.rsquared
test = N * R2

# 3. Sammenlign med kritisk værdi fra chi2 fordeling med 1 frighedsgrad
from scipy.stats import chi2
crit = chi2.ppf(0.95, 1)  # 5% signifikansniveau

print(f'Testværdi: {test:.4f}')
print(f'Kritisk værdi: {crit:.4f}')

Testværdi: 0.1398
Kritisk værdi: 3.8415


In [9]:
# Alternativ metode til test for overidentificerede restriktioner: 
# Brug den indbyggede funktion i linearmodels til at udføre testen

print(results4.wooldridge_overid)

Wooldridge's score test of overidentification
H0: Model is not overidentified.
Statistic: 0.1399
P-value: 0.7084
Distributed: chi2(1)


> I dette tilfælde tester vi mod en kritisk værdi på $\chi^2(1)=3,84$. Teststørrelsen er givet ved $nR^2 = 0,14$, så vi kan ikke afvise nulhypotesen. Instrumenterne er valide.


### **Bonusopgave: Lær at opsætte sammenligningstabeller for regressionsoutput** 
Indtil videre har I udelukkende set på den **ekstensive margin**, som er, om kvinder arbejder eller ej som følge af flere børn. I skal nu se på den **intensive margin**, som er ændringen i, hvor meget kvinder arbejder som følge af flere børn. I skal løse spørgsmål 2 og 3 igen.

   Model (1) kan omskrives til følgende, hvor $y_i = \{weekm_i, hourm_i, lincm_i, log(faminc_i)\}$:
   
   \begin{align*}
   y_i =& \beta_0 + \beta_1 \, \text{morekids}_i + \beta_2 \, \text{boy1stkid}_i + \beta_3 \, \text{boy2ndkid}_i + \beta_4 \, \text{agem}_i \\
   & + \beta_5 \, \text{agem1stkid}_i + \beta_6 \, \text{black}_i + \beta_7 \, \text{hisp}_i + \beta_8 \, \text{other}_i + u_i
\end{align*}

Prøv at læse koden nedenfor linje for linje og vær sikker på, at du forstår, hvad der sker i hvert trin. Kør koden og fortolk på resultaterne.


**Din kode:**


In [10]:
# Importer værktøjet `compare` fra linearmodels, som gør det let at sammenligne resultaterne af forskellige modeller
from linearmodels.iv import compare

In [11]:
# Fjern de observationer, hvor familieindkomsten er lig nul eller mangler
df2 = pd.read_stata('PS8.dta')
df2 = df[df.faminc > 0]

# Tag logaritmen af familiens indkomst
df2['lfaminc'] = np.log(df.faminc)

# Opret en tom dictionary til at gemme vores regressionsresultater
results = {}

# Estimer de fire modeller
for y in ['weekm', 'hourm', 'lincm', 'lfaminc']:
    model = IV2SLS.from_formula(y + '~ [morekids ~ samesex] + boy1stkid + agem + agem1stkid + black + hisp + other', data=df2)
    results[y] = model.fit()

# Sammenlign resultaterne i en tabel. Stjernerne angiver signifikansniveuaet. Paranteserne viser t-værdierne.
compare(results, stars=True)


  result = getattr(ufunc, method)(*inputs, **kwargs)
  result = getattr(ufunc, method)(*inputs, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['lfaminc'] = np.log(df.faminc)


0,1,2,3,4
,weekm,hourm,lincm,lfaminc
Dep. Variable,weekm,hourm,lincm,lfaminc
Estimator,IV-2SLS,IV-2SLS,IV-2SLS,IV-2SLS
No. Observations,370761,370761,370761,370761
Cov. Est.,robust,robust,robust,robust
R-squared,0.5990,0.5929,0.3755,0.9773
Adj. R-squared,0.5990,0.5929,0.3754,0.9773
F-statistic,5.429e+05,5.489e+05,2.055e+05,1.703e+07
P-value (F-stat),0.0000,0.0000,0.0000,0.0000
==================,============,============,============,============


**Dit svar:**

> Resultater og pointer er det samme som i de foregående opgaver.



# Regneøvelser

I denne øvelse skal I udlede IV-estimatoren i det simple og generelle tilfælde (2SLS).

I kan hente hjælp bagerst i forelæsningsslidesne om IV-estimation (appendikset).



### **Opgave 1**
Vi starter i det simple tilfælde (én forklarende variabel, ét instrument). Tag udgangspunkt i ligningen:
 $$y_i = \beta_0 + \beta_1 x_i + u_i$$
 hvor $z$ er et relevant og validt instrument for $x$. 

Du skal nu udlede, at: 

$$ {\beta_1} = \frac{cov(z_i,y_i)}{cov(z_i,x_i)} $$

og at IV estimatoren derfor er:

$$\hat{\beta}_1 = \frac{\sum_{i=1}^n(z_i-\bar{z})(y_i-\bar{y})}{\sum_{i=1}^n(z_i-\bar{z})(x_i-\bar{x})}$$


_Hint:_ Brug at:
$cov(z_i,y_i) = cov(z_i, \beta_0 + \beta_1x_i+u_i)$

**Dit svar:**


> \begin{align*}
cov(z_i,y_i) &= cov(z_i, \beta_0 + \beta_1x_i+u_i) \\
&= cov(z_i,\beta_0)+\beta_1cov(z_i,x_i) + cov(z_i,u_i) \\
&= \beta_1 cov(z_i,x_i) \Leftrightarrow \beta_1 = \frac{cov(z_i,y_i)}{cov(z_i,x_i)}
\end{align*}
> 
> IV estimatoren, som er en konsistent estimator for $\beta_1$, så $plim(\hat{\beta}_1) = \beta_1$:
>
>  $$\hat{\beta}_1 = \frac{\sum_{i=1}^n(z_i-\bar{z})(y_i-\bar{y})}{\sum_{i=1}^n(z_i-\bar{z})(x_i-\bar{x})}$$


### **Opgave 2.**
Vi betragter nu det generelle tilfælde (2SLS). Tag udgangspunkt i ligningen: 
$$y = X\beta + u$$
- hvor vi har $k$ forklarende variable
- De første $p \leq k$ variable er endogene. 
- De resterende $k-p$ variable er eksogene.
- $Z$ er en matrix med mindst $p$ instrumenter, som er relevante og valide instrumenter for de $p$ endogene variable.

Udled, at hvis antallet af instrumenter er det samme som antallet af endogene variable, da er 2SLS estimatoren:

\begin{align*}
\hat{\beta} &= (Z'X)^{-1}Z'y
\end{align*}

_Hint:_ Start med at bruge, at hvis $Z$ er valid, da gælder at $Z'\hat{u} = 0 \Leftrightarrow Z'(y-X\hat{\beta}) = 0$



**Dit svar:**



> \begin{align*}
> Z'\hat{u} = 0 \Leftrightarrow Z'(y-X\hat{\beta}) = 0 \Leftrightarrow Z'y = Z'X\hat{\beta} \Leftrightarrow \hat{\beta} = (Z'X)^{-1}Z'y
> \end{align*}


### **Opgave 3.**
Opskriv instrumentmatricen, $Z$, hvis der er ét instrument og én endogen variabel


> Instrumentmatricen, $Z$, hvis der er et instrument og en endogen variabel:
> \begin{align*}
> Z = 
> \begin{bmatrix}
> 1 & x_{1,1} & \cdots & x_{k-1,1} & z_n\\
> \vdots & \vdots & \ddots & \vdots & \vdots\\
> 1 & x_{1,n} & \cdots & x_{k-1,n} & z_n
> \end{bmatrix}
> \end{align*}


### **Opgave 4.** 

Hvis antallet af instrumenter er lig eller større end antallet af endogene variable, kan vi skrive 2SLS-estimatoren $\hat{\beta}$ på formen:
\begin{align*}
 X &= Z\Pi + E \\
 \hat{\Pi} &= (Z'Z)^{-1}Z'X  \quad \quad \quad \quad \quad \text{(First stage-estimatet)}\\
 \hat{X} &= Z\hat{\Pi} = Z(Z'Z)^{-1}Z'X \quad \quad \text{(De prædikterede X-værdier)} \\
 \hat{\beta} &= (\hat{X}'\hat{X})^{-1}\hat{X}'y \quad \quad \quad \quad \quad \quad \text{(Second stage-estimatet)} \\
             &= \left((X'Z)(Z'Z)^{-1}(Z'X)\right)^{-1}(X'Z)(Z'Z)^{-1}(Z'y)
\end{align*}
 

Skriv din egen funktion til at beregne 2SLS-estimaterne fra Python-opgave 3. Hvilke variable skal indgå i instrumentmatricen $Z$? Kan du få de samme resultater, som når du bruger `linearmodels`?


**Din kode:**


In [12]:
# Gør dataen klar til din estimation

# Tilføj først en konstant til vores dataframe
df = pd.read_stata('PS8.dta')
df['const'] = 1

# X er de k eksogene variable og de p endogene variable. Her er vores eneste endogene variabel `morekids`
X = df[['const', 'boy1stkid', 'boy2ndkid', 'agem', 'agem1stkid', 'black', 'hisp', 'other', 'morekids']]

# Z er de k eksogene variable og de >= p instrumenter. Her er vores eneste instrument `samesex`
# Z = ... # Din kode her
Z = df[['const', 'boy1stkid', 'boy2ndkid', 'agem', 'agem1stkid', 'black', 'hisp', 'other', 'samesex']]

# y er vores afhængige variabel
y = df['workm']

# Udtræk numpy arrays fra vores pandas dataframes
Z = Z.values
X = X.values
y = y.values

In [13]:
# Implementer din egen 2SLS estimator
def my_2SLS(y, X, Z):
    # Estimer dit first stage (regresser X på Z)
    Pihat = np.linalg.inv(Z.T @ Z) @ Z.T @ X
    
    # Brug first stage til at beregne Xhat (de prædikterede værdier af X)
    Xhat = Z @ Pihat
    
    # Estimer andet trin (regresser y på Xhat)
    betahat = np.linalg.inv(Xhat.T @ Xhat) @ Xhat.T @ y

    return betahat

print(my_2SLS(y, X, Z).round(4))


[ 0.4006 -0.002  -0.0006  0.0186 -0.0116 -0.0008 -0.1056 -0.0631 -0.0904]
