<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 18**

## **Contenido**

- <a href="#reg"> Clasificación: Regresión logística</a><br>
- <a href="#ent"> Entrenamiento</a><br>
- <a href="#fro"> Fronteras de decisión</a><br>
- <a href="#cla"> Regresión logística multinomial (Softmax)</a><br>





# **Clasificación**

Identificamos un problema de clasificación cuando las variables independientes son de naturaleza continua y la variable dependiente es categórica, es decir, en clases como clase positiva y clase negativa. A veces nos encontramos con más de 2 clases y aún así es un problema de clasificación. Este tipo de problemas se conocen como problemas de clasificación de múltiples clases o multinomial.



<p><a name="reg"></a></p>

# **Regresión logística**

En la regresión lineal, la salida es la suma ponderada de las entradas. 


![picture](https://miro.medium.com/max/1092/1*8q9ztX9dGVCv7e0DmH_IVA.png)

La regresión logística es una regresión lineal generalizada en el sentido de que no generamos la suma ponderada de entradas directamente, sino que la pasamos a través de una función (función logística) que puede asignar cualquier valor real entre 0 y 1, que podemos utilizar para estimar la probabilidad de que una instancia pertenezca a una clase particular. 

$$\hat p = h_w(X) = \sigma(W^T \cdot X)$$

Si la probabilidad estimada es mayor al 50 %, entonces el modelo predice que la instancia pertenece a la *clase positiva*. Si dicha probabilidad es menor al 50 %, el modelo predecirá que pertenece a la *clase negativa*. 

\begin{equation}
\hat y = 
\begin{cases}
 0 & si & \hat p < 0.5 \\
 1 & si & \hat p \geq 0.5\\
\end{cases}\end{equation}

Esto define un **clasificador binario**.

**Función logística:**

\begin{equation}
\sigma (z) = \frac{1}{1 + \exp(-z)}
\end{equation}

<p><a name="ent"></a></p>

# **Entrenamiento**

El objetivo del entrenamiento es establecer el vector de parámetros $ W $ para que el modelo calcule altas probabilidades para instancias positivas ($y = 1$) y bajas probabilidades para instancias negativas ($y = 0$). Esta idea es capturada por la siguiente función de costo para una sola instancia

\begin{equation}
C(W) = 
\begin{cases}
 -\log(h_w(X)) & si & y = 1\\
 -\log(1 - h_w(X) ) & si & y = 0\\
\end{cases}\end{equation}

![picture](https://miro.medium.com/max/974/1*yWzKLQhWITQ4bR2aMSVVuw.png)

De la figura vemos que el costo será grande si el modelo estima una probabilidad cercana a 0 para una instancia positiva, y será muy grande también cuando el modelo estime una probabilidad cercana a 1 para una instancia negativa.

La función de costo sobre todo el conjunto de entrenamiento es simplemente el costo promedio en todas las instancias de entrenamiento:

* **Log-loss**


\begin{equation}
J(W) = -\frac{1}{n} \sum_{i=1}^n [ y_i \log(h_w(x_i)) + (1 - y_i)\log(1 - h_w(x_i)) ]
\end{equation}

No existe una solución cerrada en este caso, análoga a la ec normal. Sin embargo, esta función de costo es convexa por lo que podemos utilizar el GD:

\begin{equation}
w_{j+1} = w_j - \eta \frac{\partial J(W)}{\partial w_j}
\end{equation}

donde 

\begin{eqnarray}
\frac{\partial J(W)}{\partial w_j}  = \frac{1}{n} \sum_{i=0}^n \left[h_w(x^i) -y^i\right]x^i_{j}
\end{eqnarray}

<p><a name="fro"></a></p>

# **Fronteras de decisión**

Para ilustrar la regresión logística utilicemos el conjunto de datos Iris que habíamos trabajado antes. Este contiene información de longitud y ancho de 150 flores Iris de tres especies diferentes: Iris-Setosa, Iris-Versicolor, and Iris-Virginica

![iris](https://i.imgur.com/kYu11vT.png)

Para tener un problema de clasificación binaria, seleccionemos únicamente dos especies de flores y una sola característica *petal length*:

Construyamos el modelo:

se podría construir un modelo como estos utilizando el GD, si hacemos `loss="log"`:

Grafiquemos las predicciones del modelo

Para modelos lineales de regresión, la salida $\hat y$, es una función lineal de las características $X$: una línea, un plano o un hiperplano.

Para modelos lineales de clasificación, es la *frontera de decisión* la que es una función lineal de las entradas. En otras palabras, un clasificador binario lineal es un clasificador que separa dos clases utilizando una línea, un plano o un hiperplano.

Podemos obtener la frontera de decisión a partir de la hipótesis de la regresión logística:

\begin{equation}
h_w(X)  = \sigma(W^T \cdot X) =
\begin{cases}
 >0.5 & si & W^T \cdot X \geq 0 \\
 <0.5 & si & W^T \cdot X<0\\
\end{cases}\end{equation}

En nuestro caso, la frontera de decisión está dada por: $$X_{fd} = -\frac{w_0}{w_1}$$




Hay una frontera de decisión alrededor de 4.86 cm donde ambas probabilidades son iguales al 50 %. Si la longitud del pétalo es mayor a 4.86 cm, el clasificador predecirá que la flor es una Iris-virginica.

Consideremos ahora dos características para hacer la clasificación

De nuevo, construyamos un modelo de clasificación, encadenando ahora la construcción del modelo con la estandarización de los datos

Tenemos que $$\omega_0+\omega_1x_1+\omega_2x_2 = 0$$.

En este caso la frontera de decisión estará dada por $$x_1 = -\frac{1}{w_1}\left( w_0 + w_2x_2\right) $$

Podemos utilizar la librería `mlxtend` para obtener directamente la frontera de decisión:

La regresión logística aplica por defecto una regularización L2. El modelo no utiliza $\alpha$ directamente sino que utiliza el parámetro $C$ que es el inverso de $\alpha$: $$C= \frac{1}{\alpha}$$ Veamos cómo depende la frontera de decisión en función de este parámetro:

Debemos tener en cuenta que este modelo no funciona muy bien para datos que no son separables linealmente, algo análogo a lo que pasaba con la regresión lineal cuando las características no tenían relaciones lineales.

<p><a name="cla"></a></p>

# **Regresión logística multinomial (Softmax)**

Mientras que los clasificadores binarios distinguen entre dos clases, los clasificadores multiclase (también llamados clasificadores multinomiales) pueden distinguir entre más de dos clases. Algunos algoritmos son capaces de manejar varias clases directamente. Otros son clasificadores estrictamente binarios. Sin embargo, existen varias estrategias que se pueden utilizar para realizar una clasificación multiclase utilizando varios clasificadores binarios:

 * OVA (one vs all)
 * OVO (one vs one)

El modelo de regresión logística se puede generalizar para admitir varias clases directamente, sin tener que entrenar y combinar varios clasificadores binarios. Este se conoce como Regresión logística multinomial o Regresión Softmax

La idea es simple: dada una instancia $x$, la regresión Softmax comienza calculando un puntaje $s_k(x)$ para cada clase $k$






$$s_k(X) = W_k^{T} \cdot X$$



Note que cada clase tiene su propio vector de parámetros $W_k$. Una vez se han calculado los puntajes de cada clase para la instancia $x$, se puede estimar la probabilidad $p_k$ de que la instancia pertenezca a la clase $k$ pasando el puntaje la *función softmax*:



\begin{eqnarray}
\sigma (s_k) = \frac{\exp(s_k(X))}{\sum_j^{k} \exp(s_k)}
\end{eqnarray}



Al igual que la regresión logística, la regresión Softmax predice la clase con la probabilidad estimada más grande, que es simplemente la clase con el puntaje más alto:



$$\hat y = \underset{k}{\text{argmax}} \: \: \sigma (s_k)$$




Ahora que sabemos cómo el modelo estima las probabilidades y hace las predicciones, veámos cómo es el entrenamiento: El objetivo es tener un modelo que estime una alta probabilidad para la clase objetivo (y consecuentemente una baja probabilidad para las otras clases). La siguiente función de costo, conocida como la *entropia cruzada*, logrará dicho objetivo dado que penaliza el modelo cuando este estima una baja probabilidad para la clase objetivo




\begin{eqnarray}
J(W) = -\frac{1}{n} \sum_{i=1}^{n} \sum_{k=1}^{K} y_k^{i} \log(h_k^i)
\end{eqnarray}

Note que cuando solo hay dos clases (k=2), esta función de costo es equivalente a la función de costo de la regresión logistica, la *log-loss*.

Construyamos el modelo de clasificación multinomial:


**Ejercicio:** Entrene un modelo de regresión logistica para el siguiente conjunto de datos y obtenga la frontera de decisión. Luego, incluya una transformación polinómica (`PolynomialFeatures`) en el pipeline y repita el procedimiento.

Claramente el modelo no funciona bien cuando los datos no son separables linealmente.

Apliquemos ahora una transformación polinomial de las características: