##  Модели с дискретными объясняемыми переменными

####    1. Модели бинарного выбора 

##### Классическая линейная модель:

$$y_i = \theta_1 x_{i1} + ... + \theta_p x_{ip} + u_i$$


Попытка оценить такую модель МНК наталкивается на определенные трудности: 

При обычном предположении:
$$ E(y_i | х_i) = x_i^T \theta $$


В то же время, поскольку $y_i$  принимает только значения — 0 и 1, ее условное математическое ожидание (при заданном
значении х,) равно:

$$ E(y_i | х_i)   =   Р \{ у_i  = 1| х_i  \} $$  


Таким образом $$ x_i^T \theta =  Р \{ у_i  = 1| х_i  \} $$ - вероятность, а значит, она должна быть в рамках $[0,1]$ 

$$Var(\epsilon_i|x_i) = x_i^T\theta(1-x_i^T\theta)$$

Также возникает проблема гетероскедастичности,
осложненная еще и тем, что в выражения для дисперсий
входит (неизвестный) вектор параметров $\theta$.


Коэффициент $\theta$ практически всегда   является неинтерпретируемым. 


##### Логит-, пробит-, гомпит-модели


$$ у_i = G(\theta_1 x_{i1} + ... + \theta_p x_{ip} ) + u_i =  G(x_{i}^T \theta) + u_i $$


Предположим, что при фиксированных значениях объясняющих переменных, случайные ошибки статистически независимы, так что функция правдоподобия параметров имеет вид:

$$ L(\theta|x) = \prod  (G(x_{i}^T \theta))^{y_i} (1- G(x_{i}^T \theta))^{1 - y_i} $$


Максимизируя логарифмическую функцию правдоподобия, получаем оценки $\hat{\theta}$. 


- Пробит-модель - функция стандартного нормального распределения

$$\Phi (z) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z} e^{-t^2/2}dt  $$

- Логит-модель - функция стандартного логистического распределения

$$\Lambda (z) = \frac{e^z}{1+e^z}$$

- Гомпит-модель - функция стандартного распределения экстремальных значений (минимума) I типа (распределение Гомпертца)

$$ G(z) = 1 -exp(-e^z)$$

####    2. Показатели качества моделей бинарного выбора


Поскольку теперь имеем дело с нелинейными моделями, мы не можем пользоваться обычным коэффициентом детерминации $R^2$. 


Одна из имеющихся возможностей в этом отношении — сравнение количеств неправильных предсказаний, получаемых по выбранной модели и по
модели, в которой в качестве единственной объясняющей переменной выступает константа (тривиальная модель).

$$R^2_{predict} = 1 - \frac{v_{wrong,1}}{v_{wrong,0}} = 1 - \frac{\sum (y_i-\hat{y}_i)^2}{v_{wrong,0}}$$



\begin{equation*} v_{wrong,0} = 
 \begin{cases}
   1- \bar{y} &\text{если $\bar{y} >1/2$}\\
   \bar{y} &\text{если $\bar{y} \leq 1/2$}
 \end{cases}
\end{equation*}


Проблема, однако, в том, что выбранная модель может дать предсказание
хуже, чем тривиальная,  тогда $R^2$. 

Отметим
также, что вообще тривиальная модель может неправильно предсказать не более половины наблюдений,  поэтому эта доля может быть большой и для плохой модели.

Поскольку для оценивания моделей бинарного выбора мы использовали метод максимального правдоподобия, то естественным представляется сравнение максимумов функций правдоподобия (или максимумов логарифмических функций правдоподобия) для выбранной и тривиальной моделей.

$$pseudo R^2 = 1 - \frac{1}{1+ \frac{2(\ln L_1 - \ln L_0 )}{n}} $$


$$LRI = McFadden R^2 = 1 - \frac{\ln L_1 }{\ln L_0} $$


$L_1 $ — максимум функции правдоподобия для выбранной модели,
$L_0 $  — максимум функции правдоподобия для тривиальной модели. Заметим, что $ L_0 \leq L_1 < 1$, так что $ \ln L_0  \leq \ln L_1 < 0 $ 


##### Cравнение альтернативных моделей.


Как и в случае обычных линейных моделей, сравнивать качество нескольких альтернативных моделей бинарного выбора с разным количеством объясняющих переменных можно, опираясь на значения информационных критериев Акаике (AIC) и Шварца (BIC), Хеннана — Куинна:


$$АIС = -\frac{2\ln L_k}{n} + \frac{2p}{n}, BIC = -\frac{2\ln L_k}{n} + \frac{p \ln n}{n} , HQ = -\frac{2\ln L_k}{n} + \frac{2p \ln(\ln n )}{n}$$

##### Критерии согласия с имеющимися данными

Критерий Хосмера — Лемешоу: 

критерий основан на сравнении количеств предсказываемых
моделью и действительно наблюдаемых случаев с  $у_i  = 1$  в нескольких группах, на которые разбивается множество наблюдений.



####    3. Интерпретация коэффициентов

Поскольку модели логит, пробит и гомпит являются нелинейными, оцененные коэффициенты в этих моделях имеют интерпретацию, отличающуюся
от интерпретации коэффициентов в линейной модели.


Пусть $k$-я объясняющая переменная является непрерывной переменной.
Тогда предельный эффект (marginal effect) этой переменной определяется
как производная:

$$\frac{\partial P\{ y_i = 1| x_i\}}{\partial x_{ik}} = \frac{\partial G (x_i^T \theta )}{\partial x_{ik}}$$

и в отличие от линейной модели этот эффект зависит от значений объясняющих переменных для $i$-го субъекта. 


$$\Delta P\{ y_i = 1| x_i\}  = \frac{\partial P\{ y_i = 1| x_i\}}{\partial x_{ik}} \Delta x_{ik} = \frac{\partial G (x_i^T \theta )}{\partial x_{ik}} \Delta x_{ik}$$

В случае когда сама объясняющая переменная - дамми-переменная, предельный эффект определяют просто как разность

$$\Delta P\{ y_i = 1| x_i, d_i=1\} - \Delta P\{ y_i = 1| x_i, d_i=0\} $$



Пусть $р$ — вероятность некоторого события. Отношение шансов $\frac{p}{1-p}$


Логарифм отношения шансов называют логитом: $logit(р) = \ln  \frac{p}{1-p}$ 


Если  $logit(p) > 0$, то больше шансов, что событие А произойдет. Если $logit(p) < 0$, то больше шансов, что событие А не произойдет.


Логит-модель линейна в отношении логита. Отсюда вытекает, что изменение значения $k$-й объясняющей переменной на величину $\Delta x_{ik}$ приводит (при неизменных значениях остальных объясняющих переменных) к изменению значения логита на $\theta_k \Delta x_{ik} $


####    4. Проверка выполнения стандартных предположений


$$P\{ y_i = 1| x_i\}  = \Phi (x_i^T \theta  + \omega_1 (x_i^T \theta )^2 + \omega_2 (x_i^T \theta )^3) $$

$H_0:   \omega_1 =  \omega_2 =0 $ 

Критерий отношения правдоподобий (LR test) -  отвергает гипотезу, если наблюдаемое значение статистики LR превышает критическое значение. Этот критерий асимптотический: критическое значение вычисляется на основе распределения, к которому стремится при $n\to \infty$  распределение статистики LR, если гипотеза $H_0$ верна. Этим предельным распределением является распределение хи-квадрат с двумя степенями свободы.


$$LR = -2 \ln \frac{L_1}{L_2}  $$


Итак, в соответствии с критерием отношения правдоподобий гипотеза $Н_0$
отвергается, если

$$LR > \chi^2_{1-\alpha}(2)  $$




Еще одним «стандартным предположением» является предположение об
одинаковом распределении случайных ошибок. В сочетании с предположением нормальности этих ошибок данное условие сводится к совпадению дисперсий всех этих ошибок.

Нарушение
этого условия приводит к гетероскедастичной модели и к несостоятельности
оценок максимального правдоподобия, получаемых на основании стандартной модели. 

Для проверки гипотезы совпадения дисперсий можно опять рассмотреть какую-нибудь более общую модель с наличием гетероскедастичности, частным случаем которой является стандартная пробит-модель.



####    5. Порядковая пробит-модель


$$y_i^* = \beta_1 x_{i1} + ... + \beta_p x_{ip} + u_i$$


\begin{equation*} y_i = 
 \begin{cases}
   1 &\text{если $y^*_i \leq \gamma_{i1}$ }\\
   ... \\
   k &\text{если $  \gamma_{i,k-1} < y^*_i \leq \gamma_{i,k}$ }\\
   ... \\
   K &\text{если $  y^*_i \geq \gamma_{i,K-1} $}\\
  \end{cases}
\end{equation*}




Предполагая, что ошибки независимые в совокупности  случайные величины, имеющие одинаковое нормальное распределение, получаем порядковую пробит-модель.


####    6. Мультиномиальная модель

В целом ряде случаев не существует естественного упорядочения альтернатив, благодаря которому и возникает монотонная связь между непрерывной латентной переменной и наблюдаемой переменной, принимающей конечное количество значений.


Пусть имеем К таких альтернатив (занумеруем их в произвольном порядке) и пусть $i$-й субъект исследования приписывает $k$-й альтернативе полезность $u_{ik}$, так что


$$u_{ik}  = \beta_1 x_{i1,k} + ... + \beta_p x_{ip, k} + u_{ik} = x^T_{ik}\beta + u_{ik}$$


Предположим, что i-й субъект выбирает альтернативу к , если для него эта альтернатива имеет максимальную полезность. Тогда  вероятность того, что $i$-й субъект выберет альтернативу $u_{ik}$:
 

$$P\{ y_i = k \}  = P\{ u_{ik} = \max_{j} u_{ij} \}   = P \{ x^T_{ik}\beta + u_{ik} > \max_{j} (x^T_{ij}\beta + u_{ij} ) \} $$


Выразить такую вероятность в явном виде весьма проблематично. Однако
если предположить, что общим для всех случайных величин  является
Гампит распределение (это распределение часто называют также распределением Гумбеля), то формула для вычисления вероятности




$$ P\{y_i = k\} = \frac{\exp(x^T_{ik}\beta )}{\exp(x^T_{i1}\beta ) + ... + \exp(x^T_{iK}\beta )} $$



Естественная нормализация, при которой полагают $x^T_{i1}\beta = 0$: 



$$ P\{y_i = k\} = \frac{\exp(x^T_{ik}\beta )}{1+ \exp(x^T_{i2}\beta ) + ... + \exp(x^T_{iK}\beta )} $$









####    7.Стандартная тобит-модель


$$y_i^* = \theta_1 x_{i1} + ... + \theta_p x_{ip} + u_i$$


Наблюдаемыми являются значения:


\begin{equation*} y_i = 
 \begin{cases}
   y_i^* &\text{если $y^*_i > 0 $ }\\
   0 &\text{если $  y^*_i \leq   0  $}\\
  \end{cases}
\end{equation*}


В нашем примере значение коэффициента $\theta_j$  определяет изменение ожидаемой суммы расходов на (возможную) покупку автомобиля для семьи с вектором показателей $x_i$  при увеличении на единицу значения $j$-го показателя.


Если для оценивания коэффициентов $\theta_j$ использовать только наблюдения с $у_i > 0$, получим усеченную модель регрессии (truncated regression):


$$y_i = \theta_1 x_{i1} + ... + \theta_p x_{ip} + u_i$$


В такой модели для значений $w > 0$ 





####    8. Cтандартная тобит-II модель

Модель Тобина имеет один недостаток. Дело в том, что значение $y=0$ может означать выбор «не участвовать», а значения $y>0$, можно интерпретировать как «интенсивность участия». В тобит-модели и выбор «участвовать-не участвовать» и «интенсивность участия» определяются одними и теми же факторами и факторы действуют в одном направлении. 

Классический пример фактора и ситуации неоднозначного влияния — количество детей как фактор, влияющий на расходы семьи. Очевидно, что большое количество детей может негативно влиять на решение «отдыхать или нет» (из-за больших расходов), однако, если принято такое решение, то величина расходов ("интенсивность участия) на отдых прямо зависит от количества детей.

Хекман предложил разделить модель на две составляющие — модель бинарного выбора для участия, и линейную модель для интенсивности участия и факторы этих двух моделей вообще говоря могут быть разными.

Таким образом, в модели Хекмана имеются две латентные переменные, удовлетворяющие следующим моделям:

$$ y_i^{*}=x_{1i}^{T} \theta_1 + u_{1i} $$


$$ h_i^{*}=x_{2i}^{T} \theta_2 + u_{2i} $$


Случайные составляющие $u_{1i},  u_{2i}$  могут быть коррелированными



Вторая латентная переменная определяет выбор «участвовать/не участвовать» в рамках стандартной модели бинарного выбора (например, пробит-модели):



\begin{equation*} h_i = 
 \begin{cases}
   1 &\text{если $h^*_i > 0 $ }\\
   0 &\text{если $  h^*_i \leq   0  $}\\
  \end{cases}
\end{equation*}


Первая модель — это модель интенсивности участия при условии выбора «участвовать». Если выбирается «не участвовать», то y не наблюдается (равна нулю).


\begin{equation*} y_i = 
 \begin{cases}
   y_i^* &\text{если $h_i = 1 $ }\\
   0 &\text{если $  h_i = 0 $}\\
  \end{cases}
\end{equation*}



Если $u_{1i}, u_{2i}$ не коррелированы между собой, то можно, игнорируя уравнение для $h^*_i$, производить непосредственное оценивание уравнения регрессии   обычным МНК. Это приводит к состоятельным оценкам, но  если $\sigma_{12}^ \neq 0$, то при таком оценивании возникает смещение оценки $х^T_{1i} \theta_1$ пропорциональное величине, которую называют лямбдой Хекмана.


Получить состоятельные и асимптотически эффективные оценки параметров модели тобит-II можно, используя метод ML,
при котором соответствующая функция правдоподобия максимизируется по
всем возможным значениям параметров модели $\theta_1, \theta_2, \sigma_1, \sigma_2$. 



Оценка модели Хекмана производится также методом максимального правдоподобия, однако в связи с нестандартностью данной задачи часто применяют упрощенную двухшаговую процедуру оценивания, предложенную Хекманом. 


##### Двухшаговая процедура Хекмана:





На первом шаге оценивается модель бинарного выбора и определяются параметры этой модели.
Оценивание вектора $\theta_2$ производится в рамках пробит-модели бинарного
выбора. 

На полученных параметров можно определить для каждого наблюдения лямбду Хекмана: $ \hat{\lambda}_i =\lambda(х^T_{2i} \hat{\theta_2}) $ 



Идея Хекмана состоит в использовании соотношения

$$ E \{ y_i | h_i=1\} = х^T_{1i} \theta_1 + \sigma_{12} \lambda(х^T_{2i} \theta_2) $$


где $\lambda_i = \lambda(х^T_{2i} \theta_2) =  \frac{\phi(\lambda(х^T_{2i} \theta_2))}{\Phi (\lambda(х^T_{2i} \theta_2))} $




На втором шаге обычным МНК оценивается регрессия


$$ y_i^{*}=x_{1i}^{T} \theta_1 +  \sigma_{12} \lambda_i  + v_{1i} $$


Полученные оценки являются неэффективными, но вполне могут быть использованы в качестве начальных значений для итерационной процедуры максимизации функции правдоподобия.



Заметим, что в стандартной тобит-II модели функция правдоподобия имеет вид:

$ L (\theta_1, \theta_2, \sigma_1, \sigma_12)  = \prod (P\{h_i = 0\})^{(1-h_i)}  ( P\{h_i = 1\} f(y_i | h_i=1))^{h_i}$

где $f(y_i | h_i=1)$ — условная плотность распределения случайной величины $y_i$ при $h_i = 1$.
