In [29]:
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from numpy.linalg import inv

$$y=\alpha+\delta s + \gamma a + u$$

In [36]:
N = 50000
δ,γ = 1,1

a = np.random.normal(size=N)
s = a + np.random.normal(size=N)
u = a + np.random.normal(1,size=N)

y = δ*s+γ*a+u

In [37]:
np.cov(s,u)

array([[2.03092839, 1.00722288],
       [1.00722288, 2.01340641]])

In [34]:
X = np.c_[np.ones(N),s,a]
b = inv(X.T@X)@X.T@y
b

array([2.00008959, 1.00039606, 1.99938343])

In [32]:
sm.OLS(u+a,a).fit().params

array([2.00845447])

Prøver litt freestyle OVB. Vil anta at ability er eneste grunn til at skolegang er korrelert med feilledd, men vil åpne for at ability kan være korrelert med feilledd. Begynner med å beskrive kausal sammenheng.

\begin{align}
y_i &= \rho s_i + \gamma A_i + \mathbf{x}'\beta \\
&=\rho s_i + \gamma A_i + v^u_i \\
&=E[v^u]+ \rho s_i + \gamma A_i + v^u_i-E[v^u] \\
&= \alpha +\rho s_i + \gamma A_i + v_i
\end{align}

Begge parametrene har kausal tolkning og feilledd har konkret tolkning som (avvik fra gjennomsnittlig) kumulativt bidrag på utfall av alle uobservert variabler. Antagelse om at $cov(s_i,v_i)=0$ er tvilsom siden $cov(s_i,A_i) \neq 0$ og vi ikke vil anta at $cov(A_i,v_i)=0$. 

Siden vi ikke bryr oss om $\gamma$ kan vi definere en ny parameter og lage nytt feilledd som per konstruksjon er ukorrelert med $A_i$,

\begin{align}
v_i &= \xi_0+\xi_1 A_i + (v_i-\eta A_i) \\
&= \xi_0+\xi_1 A_i + u_i 
\end{align}

Substituerer det inn i den kausale sammenhengen
\begin{align}
y_i&= (\alpha+\xi_0) +\rho s_i + (\gamma +\xi) A_i + u_i \\
&= \psi +\rho s_i + \phi A_i + u_i
\end{align}
der det nye feilleddet $u_i$ ikke har en like konkret tolkning. Det er nå ukorrelert med $s_i$ dersom $A_i$ var eneste grunn til at $cov(s_i,v_i)\neq0$.

In [41]:
N = 50000
ρ, γ = 2, 2

a = np.random.normal(size=N) # ability
s = a + np.random.normal(10,size=N) # schooling
xβ = a + np.random.normal(1,size=N) # kumulativ bidrag fra andre variabler

y = ρ*s +γ*a+xβ # kausal sammenheng

1.0038549274450999

Kan sentrere feilledd

In [45]:
α = np.mean(xβ)
v = xβ-α
np.isclose(y, α+ρ*s+γ*a+v).all()

True

Observerer at $cov(s,v) \neq 0$

In [48]:
np.cov(s,v)[0,1]

0.9945518282729048

Prosjekterer $v_i$ ned på $span(1,A_i)$

In [51]:
mod = sm.OLS(v,sm.add_constant(a)).fit()
ξ = mod.params


In [None]:
mod.res