# Analítica y Ciencia de Datos

## CIDE - Otoño 2015

### Modelos de Clasificación

# Referencias

Capítulo 4 de [ESL](http://web.stanford.edu/~hastie/ElemStatLearn/).

Capítulo 4 de [ISL](http://www-bcf.usc.edu/~gareth/ISL/)

Capítulos de Modelos de Elección Discreta de un texto econométrico (Greene, Wooldridge o Cameron y Trivedi). 



# Introducción a los Modelos de Clasificación


* En las notas [introductorias](6_Intro_MachineLearning.ipynb) mencionamos algunos de los conceptos que siguen a continuación.


* A diferencia de los modelos de regresión, los modelos de clasificación tienen como objetivo estimar la probabilidad de pertenecer a una categoría $k = 1, \cdots, K$.


* La variable dependiente $y_i$ es una variable *categórica* que indica a qué categoría pertenece el individuo $i$.


* Así, $y_i \in \{1,0\}$ indica la pertenencia a una de dos categorías, y las etiquetas $1,0$ carecen de contenido numérico u ordinal, así que los podríamos haber permutado, o nombrado de la manera que queramos.


* Ejemplo del mundo de los negocios abundan:

    * ¿Es el cliente alguien que potencialmente no paga su tarjeta de crédito?
    
    * ¿Es un cliente *fiel*, o nos abandonará en el siguiente período?
    
    * ¿Si le ofrecemos el producto, el cliente lo aceptará?
    

# Errores de Clasificación

* A diferencia de un modelo de regresión, la estructura no ordinal de la variable dependiente enriquece el análisis de errores que podemos hacer para evaluar un modelo.


* En regresión teníamos que una métrica de ajuste o error de un modelo era la *suma de residuos al cuadrado*.


* En el caso de modelos de clasificación esta estructura es más rica.


* Podemos empezar con el **error de clasificación**:

$$
\frac{1}{N}\sum_{i=1}^N I[\hat{y}_i \neq y_i]
$$

donde $I[x]$ es una variable indicadora que toma el valor $1$ cuando $x$ es verdadera y $0$ en caso contrario.

# ¿Pero cómo clasificamos?

* Todavía no está claro, pero eventualmente formularemos modelos de la probabilidad de pertenecer a una categoría. 


* El resultado del modelo es una probabilidad estimada $\hat{p}_{ik}$ de que el individuo $i$ pertenezca a la categoría $k \in 1, \cdots, K$.


* La probabilidad nos da una medida contínua de pertenecer a una categoría, pero nuestro objetivo es predicir la categoría.


* Así, por ejemplo, podemos decir que el individuo $i$ pertenece a la categoría que maximiza la probabilidad.

    * En el caso de dos categorías: la predicción es 
    $$
    i \hat{\in} k \iff \hat{p}_{ik}>0.5
    $$
    
   
* Pero **noten** que el valor límite o *threshold* $0.5$ es arbitrario, y más adelante veremos que podemos utilizar cualquiera en el intervalo $[min(\hat{p}_{i,k}), max(\hat{p}_{i,k})]$

# Matrices de Confusión


* Veamos el caso más simple de dos categorías $y_i \in \{0,1\}$.


* Aunque el error de clasificación anterior permite tener una primera métrica, para nosotros puede ser más relevante clasificar mal a una categoría que a otra.

* Para esto se crea una matriz de confusión, donde las filas denotan la clasificación real u observada y las columnas la clasificación que se obtiene del modelo.

$$
\begin{array}{|c|c|c|}
\hline
& \bf \hat{0} & \bf \hat{1} \\
\hline
\bf 0 & \text{Verdaderos Positivos} & \text{Falsos Negativos} \\
\hline
\bf 1 & \text{Falsos Positivos} & \text{Verdaderos Negativos} \\
\hline
\end{array}
$$


* Acá estamos siguiendo la tradición en esta literatura de denotar a la categoría $1$ como un negativo, y la categoría $0$ como positivo.


* Lo importante es entender que con $K$ categorías tenemos la posibilidad de encontrar $K$ errores de clasificación distintos.

* Hay dos métricas importantes que se obtienen de una matriz de confusión:

    1. **Sensibilidad**: o tasa de verdaderos positivos
    $$
    \text{sensibilidad} = \frac{VP}{VP + FN}
    $$
    
    2. **Especificidad**: o tasa de verdaderos negativos
    $$
    \text{especificidad} = \frac{VN}{VN + FP}
    $$
    
* En el contexto de modelos de clasificación:

    * **Error Tipo 1:** o falso positivo: $1-\text{especificidad}$
    * **Error Tipo 2:** o falso negativo: $1-\text{sensibilidad}$

# Curvas ROC

 ![caption](figures/roc_curve.png)
 
Figura 4.8 de ISL

# Curvas ROC (cont.)


* Las tasas de verdaderos positivos y falsos positivos son una buena medida del comportamiento de un modelo.


* Sin embargo, dependen crucialmente del *threshold que utilicemos*.


* La curva ROC permite mirar cómo cambian las tasas de verdadero y falsos positivos a medida que variamos los *thresholds* de clasificación.

$$
i \hat{\in} 0 \iff \hat{p}_{i0} > \tau
$$


* Así, si $\tau = 1$ la matriz de confusión es

$$
\begin{array}{|c|c|c|}
\hline
& \bf \hat{0} & \bf \hat{1} \\
\hline
\bf 0 & 0 & n_0 \\
\hline
\bf 1 & 0 & n_1 \\
\hline
\end{array}
$$

donde $n_i = \#\{\text{$i$ en la muestra de entrenamiento}\}$ y

$$
\text{sensibilidad} = 0$, $1-\text{especificidad} = 0
$$

obteniendo el punto en la esquina inferior izquierda de la curva ROC.

* De la misma forma $\tau=0$ implica que todas las observaciones se asignan a la categoría $0$ y obtenemos el punto superior derecho.

# Curvas ROC (cont.)

* ¿Qué pasa con la diagonal?

* Los puntos de la diagonal tienen la característica que los errores de clasificación en una u otra categoría son exactamente iguales.

* Corresponden a una asignación aleatoria (un "volado")

    * Sirve como referencia o benchmark para medir a nuestros modelos.
    

* Intuitivamente quisieramos modelos que estén muy lejos de la diagonal.


* Matemáticamente, quisieramos que el **área debajo de la curva** (AUC) sea lo mayor posible.


* Noten el parecido con el coeficiente de Gini.  Todas las dificultades que se conocen para comparar distribuciones de ingreso mediante el coeficiente de Gini son válidas acá.

# Costos directos, indirectos y de oportunidad

* Una alternativa con modelos de clasificación es tener una medida del costo esperado de un modelo, es decir, tener en cuenta las asimetrías entre un clasificación correcta de cada alternativa.


* Tomemos el caso de un modelo de *credit scoring*

$$
y_i = 
\begin{cases}
1 & \text{si cliente $i$ ha dejado de pagar sus créditos}\\
0 & \text{si cliente $i$ ha pagado sus créditos}
\end{cases}
$$


* El score crediticio es una función de la probabilidad de que el cliente pague.


* Así, un *menor* score sugiere que hay una mayor probabilidad de incumplimiento o de impago.




# Ejemplo Score Crediticio


* Supongamos que la matriz de confusión para un modelo y *threshold* dados es

$$
\begin{array}{|c|c|c|}
\hline
& \bf \hat{0} & \bf \hat{1} \\
\hline
\bf 0 & n_{00} & n_{01} \\
\hline
\bf 1 & n_{10} & n_{11} \\
\hline
\end{array}
$$

Miremos caso por caso:


* **Caso $0\hat{0}$**: cliente bueno y el modelo lo asigna correctamente.  Le damos una TdC, y nos deja una rentabilidad promedio de $r_{00} >0$.


* **Caso $0\hat{1}$**: cliente bueno pero el modelo lo clasifica como uno malo.  *No* le damos crédito, así que obtenemos una rentabilidad $r_{01} = 0$. $\Rightarrow$ **Costo de oportunidad de mala clasificación!**


* **Caso $1\hat{0}$**: cliente malo, pero el modelo lo clasifica como si fuera bueno.  Le damos una TdC y no nos paga $r_{10}<0$.  $\Rightarrow$ **costo directo de mala clasificación**


* **Caso $1\hat{1}$**: clientes malo y está bien clasificado.  No le damos una TdC, así que $r_{11} = 0$.


##### ¿Cuál es la rentabilidad esperada que obtenemos del modelo?

$$
E(r|\mathcal{M}) = \sum_{ij} p_{ij}r_{ij}  = p_{00}r_{00} + p_{10}r_{10}
$$

donde $p_{ij} = n_{ij}/ \sum_{kl} n_{kl}$

##### ¿Cuál es la rentabilidad esperada que obtenemos del modelo, si incluimos el costo de oportunidad?
$$
E(r_{co}|\mathcal{M}) = r_{00}(p_{00} - p_{01}) + p_{10} r_{10}
$$


# Modelos lineales de probabilidad


* Cuando hay sólo dos categorías, $y_i \in {0,1}$, es posible estimar por OLS el modelo.

$$
y_i = x_i' \beta + \epsilon_i
$$


* ¿Por qué se llama un **modelo lineal de probabilidad**?


* En general, queremos modelar 
$$
Prob(y=1|X) = F(X,\beta)
$$

Si $F(X,\beta) = x\beta$, entonces $E(y|x) = x\beta$, y tenemos el modelo lineal.



* Los modelos lineales de probabilidad tienen dos problemas:

    1. Nada garantiza que $\hat{y}_i \in [0,1]$, afectando la interpretación del modelo.
    
    2. Heteroscedasticidad.
    $$
    Var(\epsilon_i) = x_i'\beta(1-x_i'\beta)
    $$


* ¿Cómo se soluciona este problema?  En la **tarea** lo tendrán que hacer.

# Modelos Probit


* Una alternativa natural es asumir que $F(x_i,\beta) = \Phi(x_i'\beta)$, donde $\Phi$ es la función de distribución de una variable aleatoria normal estándar.


* Este tipo de modelos es ampliamente utilizado en econometría, así que no los cubriremos en el curso.


* Si miraremos a profundidad los modelos logísticos o Logit.

# Modelos Logit


* Otra alternativa es usar 
$$
F(x_i,\beta) = \Lambda(x_i'\beta) = \frac{e^{x_i'\beta}}{1+e^{x_i'\beta}}
$$


donde $\Lambda(x_i'\beta)$ denota a la función acumulativa logística.


* ¿Cuál es el valor esperado de $y$?

$$
E(y|x) = 1 \times F(x,\beta) + 0 \times (1-F(x,\beta)) = F(x,\beta)
$$


* Para encontrar los efectos marginales: 

$$
\frac{\partial E(y|x)}{\partial x} = \left[\frac{d F(x,\beta)}{d x'\beta}\right] \beta = f(x,\beta) \beta
$$

donde $f()$ es la función de densidad.

### Nota:
##### A diferencia del modelo lineal de probabilidad donde los efectos marginales son constantes, los efectos marginales en los modelos Logit y Probit son funciones de $x$ y $\beta$.   Generalmente se reportan *evalúandolos en las medias*.


# Efectos marginales del Logit


* En el caso del Logit es inmediato mostrar que:

$$
f(x,\beta) = \frac{e^{x'\beta}}{(1+e^{x'\beta})^2} = \Lambda(x'\beta)(1-\Lambda(x'\beta))
$$

* Así que para el caso de regresores contínuos podemos utilizar la fórmula de la diapósitiva anterior:

$$
\text{Efectos Marginales} = \frac{\partial E(y|x)}{\partial x_k} =  \Lambda(\overline{x}'\beta)(1-\Lambda(\overline{x}'\beta)) \beta_k
$$

donde $\overline{x} := [\overline{x}_1, \cdots, \overline{x}_p]$.


* En el caso de regresores categóricos (variables dummy), la derivada se reemplaza por el efecto marginal:

$$
\text{Efectos Marginales regresor k} = Prob \left(y=1 \Bigg\vert \overline{x}_{(d)}, x_k=1 \right) - Prob \left(y=1 \Bigg\vert  \overline{x}_{(d)}, x_k=0 \right)
$$



# Estimación de los modelos Logit

* Para estimar el modelo es necesario maximizar la logverosimilitud

$$
\begin{eqnarray}
\mathcal{l}(\beta) &=& \sum_{i=1}^N \log p_{g_i}(x_i;\beta)\\
&=& \sum_{i=1}^N y_i \ln \Lambda(x_i,\beta) + (1-y_i) \ln (1-\Lambda(x_i,\beta))
\end{eqnarray}
$$

* Las condiciones de primer orden son:

$$
\frac{\partial \mathcal{l}}{\partial \beta} = \sum_{i} (y_i - \Lambda_i)\mathbf{x}_i = \mathbf{0} = X'(y-\hat{p})
$$

* El Hessiano es

$$
H = \frac{\partial^2 \mathcal{l}}{\partial \beta \partial \beta'} = -\sum_{i} \Lambda_i (1-\Lambda_i)\mathbf{x}_i\mathbf{x}_i' = X'WX 
$$

con $W = diag(\Lambda_i (1-\Lambda_i))$

* Se puede demostrar que la función de verosimilitud es globalmente cóncava, así que existen métodos numéricos iterativos eficientes para resolverlo. 

# El Método de Newton y Mínimos Cuadrados Ponderados Iterativamente (IRLS)

* Supongamos que tenemos una estimación para la iteración $k$: $\beta_{(k)}$


* Vamos a hacer una aproximación de primer orden alrededor de esta estimación utilizando la condición de primer orden

$$
f(\beta_{(k+1)}) \approx f(\beta_{(k)}) + \nabla f(\beta_{(k)})(\beta_{(k+1)}-\beta_{(k)})
$$

donde el gradiente $\nabla$ de la condición de primer orden es el Hessiano


* asumiendo que convergimos y el lado izquierdo es cero, despejando obtenemos la iteración de Newton

$$
\beta_{(k+1)} = \beta_{(k)} -  \nabla f(\beta_{(k)})^{-1}f(\beta_{(k)})
$$

* Reemplazando, obtenemos

$$
\begin{eqnarray}
\beta_{(k+1)} &=& \beta_{(k)} + (X'WX)^{-1}X'(y-\hat{p})\\
&=& (X'WX)^{-1}X'[WX\beta_{(k)} + (y-\hat{p})] \\
&=& (X'WX)^{-1}X'W[X\beta_{(k)} + W^{-1}(y-\hat{p})] \\
&=& (X'WX)^{-1}X'W z
\end{eqnarray}
$$

con $z = X\beta_{(k)} + W^{-1}(y-\hat{p})$


* Así que en cada iteración obtenemos una nueva estimación que es el resultado de estimar por mínimos cuadrados ponderados una regresión de $z$ en $X$ utilizando $W$ como matriz de ponderadores.


* Este método converge muy rápidamente y tendrán que programarlo en la **tarea**.