# Строгая экзогенность
<br>
- **Вопрос 1:** если в целевой функции две зависимых переменных, а в модели построена только одна, то насколько конкретно будет смещена оценка коэффициента перед переменной в модели? Рассмотрим два случая: когда имеется confounding-переменная (т.е. истинная причина, которая влияет на зависимую и независимую переменные), и когда имеется просто недоступная нам переменная, которая не влияет на имеющуюся у нас переменную, однако при этом её матожидание не равно нулю, а оттуда и матожидание шума получится ненулевое, то есть предположение о строгой экзогенности будет нарушено.

- **Вопрос 2:** если в целевой функции $\text{y}$ зависит от $\text{X и X^2}$, а в модели - только от $\text{X}$ (то есть $\text{X^2}$ окажется в шуме), то насколько конкретно будет смещена оценка коэффициента перед переменной в модели?

<br><br><br><hr>
## 1. Наблюдение первое - confounding variable и дополнительная переменная
Рассмотрим следующий случай. Пусть на основе имеющихся данных мы регрессируем Зарплату на Образование, и построенная нами модель имеет вид:

$$\text{Wages} = \beta_0 + \beta_1\cdot\text{Education} + \varepsilon$$

Однако в реальности отношение несколько иное:

$$\text{Wages} = \beta_0 + \beta_1\cdot \text{Education} + \beta_2\cdot\text{Ability} + \mu$$

Способности в данном случае влияют на Образование и на Зарплату: чем выше Способности - тем больше Образование (более способные ученики чаще получают лучшее образование) и тем больше прогнозируемая Зарплата (более способные люди чаще зарабатывают больше). Между тем, Образование само по себе не очень сильно влияет на Зарплату: можно учиться долго и много, но зарабатывать мало, тогда как несколько менее образованный но более "пробивной" работник может подняться выше по карьерной лестнице. Легко показать, что есть матожидание Способностей ненулевое, то $\mathsf{E}[\varepsilon]\neq 0$, то есть нарушается экзогенность. Рассмотрим эту ситуацию подробнее и обратим внимание на оценки коэффициентов Образования.

<br><br><center>**Опыт 1. Confounding-переменная, влияет на X и y**</center>

Введём следующие условия:

**Условия:**
1. Зависимая переменная регрессируется на одну независимую переменную.
2. Присутствует скрытая переменная, влияющая как на х, так и на у.

**Объект интереса:**
- Оценка коэффициента $\text{x}$ и её смещение - endgogeneity bias 

**Ожидание:**

- ///

In [1]:
# General:
import numpy as np
# Graphics:
import seaborn as sns
from matplotlib import pyplot as plt
# ML:
import statsmodels.api as sm
from sklearn.datasets import make_regression
FONT_BOLD, FONT_END = '\033[1m', '\033[0m'

BIAS  = 4.5
NOISE = 12
POPULATION_SIZE = 10000
print('Used', POPULATION_SIZE)


# 1. Сгенерируем проблему регрессии с двумя независимыми переменными:
X, y, real_coef = make_regression(n_samples=POPULATION_SIZE, n_features=2, n_informative=1, 
                                  coef=True, noise=NOISE, bias=BIAS)
print(FONT_BOLD, ' -- Сгенерирована целевая функция.\n', FONT_END, '    Значения коэффициентов целевой функции:')
print('\t· β0 =', BIAS, '\n\t· β1 =', real_coef.item(0), '\n\t· β2 =', real_coef.item(1))
informative_feature_index = int(real_coef.item(0) == 0)
informative_feature_coef  = max(real_coef.item(0), real_coef.item(1))

# # 2. Запишем коэффициент корреляции Пирсона между информативным и неинформативным признаками:
# inter_coef          = np.corrcoef([row[0] for row in X], [row[1] for row in X])[0, 1]
# informative_coef    = np.corrcoef([row[informative_feature_index] for row in X], y)[0, 1]
# noninformative_coef = np.corrcoef([row[1 - informative_feature_index] for row in X], y)[0, 1]
# print('    Корреляция между информативным и неинформативным признаками:', inter_coef)
# print('    Корреляция между информативным признаком и y:', ' '*14, informative_coef)
# print('    Корреляция между неинформативным признаком и y:', ' '*12, noninformative_coef)

# 3. Экстрагируем информативный признак, и регрессируем y на неинформативный признак:
new_X = np.delete(X, informative_feature_index, 1)
statsmodels_result = sm.OLS(y, sm.add_constant(new_X)).fit()
print(FONT_BOLD, '\n\n -- Построена модель (на основании неинформативного признака).', FONT_END)
print('    Оценки коэффициентов регрессии:\n\t· Оценка β0:', statsmodels_result.params[0], 
      '\n\t· Оценка β1:', statsmodels_result.params[1])

b1_estimate = statsmodels_result.params[1]

  from pandas.core import datetools


Used 10000
[1m  -- Сгенерирована целевая функция.
 [0m     Значения коэффициентов целевой функции:
	· β0 = 4.5 
	· β1 = 0.0 
	· β2 = 7.068557677023679
    Корреляция между информативным и неинформативным признаками: 0.000971143435667
    Корреляция между информативным признаком и y:                0.515213248558
    Корреляция между неинформативным признаком и y:              0.0059826774821
[1m 

 -- Построена модель (на основании неинформативного признака). [0m
    Оценки коэффициентов регрессии:
	· Оценка β0: 4.4483566349 
	· Оценка β1: 0.0829651933222


Рассчёт в сторонке: рассчитаем значение оценки β1 по формуле:

$$\hat{\beta_1}=\frac{\text{Cov(X, Y)}}{\text{Var[X]}}$$

БЕЗ ШУМА:

In [98]:
NOISE = 0

X, y, real_coef = make_regression(n_samples=POPULATION_SIZE, n_features=1, n_informative=1, 
                                  coef=True, noise=NOISE, bias=BIAS)
print(FONT_BOLD, ' -- Сгенерирована целевая функция.\n', FONT_END, '    Значения коэффициентов целевой функции:')
print('\t· β0 =', BIAS, '\n\t· β1 =', real_coef.item(0))

cov = np.cov(X[:, 0], y)[0, 1]
var = np.var(X[:, 0])
print(cov/var)

numerator = np.dot(X[:, 0] - np.mean(X), y - np.mean(y))
denominator = np.square( np.linalg.norm(X[:, 0]-np.mean(X)) )
print(numerator / denominator)

[1m  -- Сгенерирована целевая функция.
 [0m     Значения коэффициентов целевой функции:
	· β0 = 4.5 
	· β1 = 71.63019144014122
71.6373551757
71.6301914401


С ШУМОМ:

$$\hat{\beta_1}=\frac{\text{Cov(X, Y) - Cov(X, E)}}{\text{Var[X]}}$$

In [392]:
PRINT_LINE = '-'*80 + '\n'

NOISE = 0
BIAS  = 4.5
POPULATION_SIZE = 100

X, y, real_coef = make_regression(n_samples=POPULATION_SIZE, n_features=1, n_informative=1, 
                                  coef=True, noise=0, bias=BIAS)
print(PRINT_LINE, 'Сгенерирована целевая функция.\n    Значения коэффициентов целевой функции:')
print('\t· β0 =', BIAS, '\n\t· β1 =', real_coef.item(0))

# Добавим шум вручную!!
NOISE   = 0.2
epsilon = np.random.uniform(5, 10, len(X))
epsilon = (epsilon*NOISE).reshape(-1, 1)
noisy_X = X + epsilon
print('    Матожидание шума E[epsilon] =', np.mean(epsilon), '≠ 0')
print('    Энергия шума   Var[epsilon] =', np.var(epsilon))
#noisy_X   = np.append(X, epsilon, axis=1) # for another experiment

# Произведём подгонку модели к зашумлённой версии X::
statsmodels_result = sm.OLS(y, sm.add_constant(noisy_X)).fit()
print('\n', PRINT_LINE, 'Произведена подгонка модели.\n\t· Оценка β0:', statsmodels_result.params[0])
print('\t· Оценка β1:', statsmodels_result.params[1])

# Выполним рассчёты:
print('\n', PRINT_LINE, 'Выполнены рассчёты.')
print('\tОценка β1 на чистых данных  :', real_coef.item(0))
print('\tОценка β1 на шумных данных  :', statsmodels_result.params[1])
print('\tРазность оценок             :', statsmodels_result.params[1]-real_coef.item(0))
print('\tДисперсия оценки в присутствии шума (Х чистые):', np.var(epsilon) / np.square(np.linalg.norm(X-np.mean(X))))

cov_XE = np.cov(X[:, 0], epsilon[:, 0])[0, 1]
var    = np.var(X[:, 0])
print('\tСпрогнозированная разность 1:', cov_XE/var)

cov_XE = np.cov(noisy_X[:, 0], epsilon[:, 0])[0, 1]
var    = np.var(noisy_X[:, 0])
print('\tСпрогнозированная разность 2:', cov_XE/var)




# cov_XY = np.cov(X[:, 0], y)[0, 1]
# cov_XE = np.cov(X[:, 0], epsilon[:, 0])[0, 1]
# var    = np.var(X[:, 0])
# print('Рассчёт по "шумной" формуле:    b1 =?=', (cov_XY - cov_XE)/var)
# b1_bias = cov_XE/var
# print('\tПри смещение (в формуле) оценки составляет =', b1_bias)
# #print('\tЗа вычетом второй части получим =', cov_XY/var - second_part)

# cov = np.cov(X[:, 0], y)[0, 1]
# var = np.var(X[:, 0])
# print('\tКорректировка смещения:', cov/var - b1_bias)
# print('Рассчёт по "бесшумной" формуле: b1 =?=', cov/var)

# numerator = np.dot(X[:, 0] - np.mean(X), y - np.mean(y))
# denominator = np.square( np.linalg.norm(X[:, 0]-np.mean(X)) )
# print('Рассчёт по длинной "бесшумной" формуле: b1 =?=', numerator / denominator)
# print('Подсчитанное матожидание резидуалов:', np.mean(statsmodels_result.resid))

--------------------------------------------------------------------------------
 Сгенерирована целевая функция.
    Значения коэффициентов целевой функции:
	· β0 = 4.5 
	· β1 = 90.0373971821571
    Матожидание шума E[epsilon] = 1.53395787951 ≠ 0
    Энергия шума   Var[epsilon] = 0.0825474245225

 --------------------------------------------------------------------------------
 Произведена подгонка модели.
	· Оценка β0: -119.166008222
	· Оценка β1: 80.7718585782

 --------------------------------------------------------------------------------
 Выполнены рассчёты.
	Оценка β1 на чистых данных  : 90.0373971821571
	Оценка β1 на шумных данных  : 80.7718585782
	Разность оценок             : -9.26553860395
	Дисперсия оценки в присутствии шума (Х чистые): 0.00113663453138
	Спрогнозированная разность 1: 0.00119690263239
	Спрогнозированная разность 2: 0.103947139698


In [389]:
max(X)

array([ 1.9813305])

In [382]:
statsmodels_result2 = sm.OLS(y, sm.add_constant(epsilon)).fit()
print('\n', PRINT_LINE, 'influence of epsilon:', statsmodels_result2.params[1])


 --------------------------------------------------------------------------------
 influence of epsilon: -11.1316380978


In [335]:
### OLDER



PRINT_LINE = '-'*80 + '\n'

NOISE = 0
POPULATION_SIZE = 100

X, y, real_coef = make_regression(n_samples=POPULATION_SIZE, n_features=1, n_informative=1, 
                                  coef=True, noise=NOISE, bias=BIAS)
print(PRINT_LINE, 'Сгенерирована целевая функция.\n    Значения коэффициентов целевой функции:')
print('\t· β0 =', BIAS, '\n\t· β1 =', real_coef.item(0))

# Добавим шум вручную!!
NOISE   = 0.4
epsilon = np.random.uniform(5, 10, len(X))
epsilon = (epsilon*NOISE).reshape(-1, 1)
print('    Матожидание шума E[epsilon] =', np.mean(epsilon), '≠ 0')
print('    Энергия шума   Var[epsilon] =', np.var(epsilon))
X = X + epsilon
#new_X   = np.append(X, epsilon, axis=1)

# Произведём подгонку:
statsmodels_result = sm.OLS(y, sm.add_constant(X)).fit()
print('\n', PRINT_LINE, 'Произведена подгонка модели.\n\t· Оценка β0:', statsmodels_result.params[0])
print('\t· Оценка β1:', statsmodels_result.params[1])

# Выполним рассчёты:
print('\n', PRINT_LINE, 'Выполняются рассчёты:')

cov_XY = np.cov(X[:, 0], y)[0, 1]
cov_XE = np.cov(X[:, 0], epsilon[:, 0])[0, 1]
var    = np.var(X[:, 0])
print('Рассчёт по "шумной" формуле:    b1 =?=', (cov_XY - cov_XE)/var)
b1_bias = cov_XE/var
print('\tПри смещение (в формуле) оценки составляет =', b1_bias)
#print('\tЗа вычетом второй части получим =', cov_XY/var - second_part)

cov = np.cov(X[:, 0], y)[0, 1]
var = np.var(X[:, 0])
print('\tКорректировка смещения:', cov/var - b1_bias)
print('Рассчёт по "бесшумной" формуле: b1 =?=', cov/var)

numerator = np.dot(X[:, 0] - np.mean(X), y - np.mean(y))
denominator = np.square( np.linalg.norm(X[:, 0]-np.mean(X)) )
print('Рассчёт по длинной "бесшумной" формуле: b1 =?=', numerator / denominator)
print('Подсчитанное матожидание резидуалов:', np.mean(statsmodels_result.resid))

--------------------------------------------------------------------------------
 Сгенерирована целевая функция.
    Значения коэффициентов целевой функции:
	· β0 = 4.5 
	· β1 = 65.9861569425232
    Матожидание шума E[epsilon] = 3.06583673417 ≠ 0
    Энергия шума   Var[epsilon] = 0.36739023191

 --------------------------------------------------------------------------------
 Произведена подгонка модели.
	· Оценка β0: -142.041656272
	· Оценка β1: 47.8035142771

 --------------------------------------------------------------------------------
 Выполняются рассчёты:
Рассчёт по "шумной" формуле:    b1 =?= 48.0080423192
	При смещение (в формуле) оценки составляет = 0.278335738488
	Корректировка смещения: 48.0080423192
Рассчёт по "бесшумной" формуле: b1 =?= 48.2863780577
Рассчёт по длинной "бесшумной" формуле: b1 =?= 47.8035142771
Подсчитанное матожидание резидуалов: 5.82645043323e-15


In [336]:
48.2863780577 - 0.278335738488

48.008042319211995

In [188]:
informative_beta     = max(real_coef.item(0), real_coef.item(1))
non_informative_beta = min(real_coef.item(0), real_coef.item(1))

x = X[:, informative_feature_index]
z = X[:, 1-informative_feature_index]

# Длинная запись:
# xz_dot = np.dot(x, z)                  # 1st term
# z_mean_x = z*np.mean(x)
# z_mean_x = sum(z_mean_x)               # 2nd term
# norm_x = (np.linalg.norm(x))**2        # 3rd term
# n_mean_x_sq = len(x) * (np.mean(x))**2 # 4th term
# b1_biased_estimate = non_informative_beta + informative_beta*((xz_dot-z_mean_x) / (norm_x+n_mean_x_sq))
# print(':::', non_informative_beta + informative_beta*((xz_dot-z_mean_x) / (norm_x+n_mean_x_sq)))

# Короткая запись:
numerator   = np.dot(np.array(x)-np.mean(x), z)
denominator = np.square(np.linalg.norm(x)) - len(x)*np.square(np.mean(x)) 
b1_biased_estimate = non_informative_beta + informative_beta*(numerator/denominator)

print('Biased b1 estimate:', b1_biased_estimate)
print('Absolute difference:', np.abs(b1_estimate - b1_biased_estimate))

Biased b1 estimate: -0.3667157829263108
Absolute difference: 0.2227956703034174


In [158]:
np.array([1, 2]) - 1

array([0, 1])

the estimated coefficient b would pick up the effect of x on y plus the association of x and z times the effect of z on y.

In [28]:
# z_X = np.delete(X, informative_feature_index, 1)
# statsmodels_result = sm.OLS(y, sm.add_constant(z_X)).fit()
# print('Effect of NON-INFORMATIVE on y:\n\tWith bias:', statsmodels_result.params[1])
# statsmodels_result = sm.OLS(y, z_X).fit()
# print('\tNo bias:  ', statsmodels_result.params[0])

# z_X = np.delete(X, 1-informative_feature_index, 1)
# statsmodels_result = sm.OLS(y, sm.add_constant(z_X)).fit()
# print('\nEffect of INFORMATIVE on y:\n\tWith bias:', statsmodels_result.params[1])
# statsmodels_result = sm.OLS(y, z_X).fit()
# print('\tNo bias:  ', statsmodels_result.params[0])


# z_X_1, z_X_2 = X[informative_feature_index], X[1 - informative_feature_index]
# statsmodels_result = sm.OLS(z_X_2, sm.add_constant(z_X_1)).fit()
# print('\nEffect of NON-INFORMATIVE on INFORMATIVE:\n\tWith bias:', statsmodels_result.params[1])
# statsmodels_result = sm.OLS(z_X_2, z_X_1).fit()
# print('\tNo bias:  ', statsmodels_result.params[0])

In [15]:
X[:2]

array([[ 1.70170091, -1.85892225],
       [ 0.08731626, -0.73426896]])

In [237]:
noninformative_coef + (inter_coef * informative_coef)

-0.10554504703150308

In [239]:
-1.76683487328 + (-0.073345030119 * 20.9079770399)

-3.300331078998826

In [10]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a)
a[:, 2]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([3, 6, 9])

**Результат:**
* MSE на тренировочной выборке ожидаемо получилась практически нулевой, в силу того, что подгонка полинома второй степени к двум точкам всегда будет идеальной.
* Однако на популяции MSE ожидаемо оказалась выше, с мощной дисперсией. Это обусловлено тем, что через две точки можно провести бесконечное количество парабол, и какая из них будет ближе к целевой функции - абсолютно неизвестно.

Теперь проведём такой же опыт, но уберём вариативность, задав как минимум 3 точки для тренировочного набора. Для точного задания параболы необходимо иметь как минимум 3 точки, через которые она проходит; а в силу того, что данные не имеют шума, эти 3 точки всегда будут лежать ровно на целевой параболе. Таким образом, ожидается, что подгонка всегда будет идеальной.

<br><br><center>**Опыт 2. Нулевой шум, нулевая вариативность**</center>

**Условия:**
1. Стохастический шум равен нулю: $\forall{x}, \epsilon(x)=0$
2. Детерминистский шум равен нулю: $\mathrm{Complexity}(g)=\mathrm{Complexity}(f)$
3. Вариативность модели нулевая; в данном случае (т.е. в случае с целевой функцией-параболой) объём выборки должен быть $\geq 3$.

**Ожидание:**

- Oжидается нулевая MSE как на тренировке, так и на популяции. Это будет достигнуто за счёт нулевой вариативности, нулевого детерминистского и нулевого стохастического шума.