# Trabajo Práctico N°13 - Regresión Logística
>Información e imagenes obtenidas de presentaciones de: Eric Eaton, Iassonas Kokkinos y Vivek Srikumar

Supongamos que quisieramos implementar un modelo para clasificar objetos de dos clases basado en probabilidades. Esto es:

$0\leq p(clase) \leq 1$

$p(clase)+p(\neg clase) = 1$

Si quieramos utilizar un modelo lineal nos encontrariamos con la siguiente situación:

![classification_linear_fit](img/classification_linear_fit.png)

Si analizamos graficamente la función de costo cuadratica:

![classification_quadratic_loss](img/classification_quadratic_loss.png)

Podemos ver que la funcion de costo asigna un peso muy grande a los elementos del dataset que estan mas alegajos de la frontera de deción, situación no deseable para un clasificador binario. Ademas, la siguiente condición, no se cumple:

$$p(clase)+p(\neg clase) = 1$$

## Regresión Logística (Logistic Regression)

![logistic_regression](img/logistic_regression.png)

### Función de costo:

$\ell(\theta)=-\sum_{i=1}^n[y_i\;log\;h_{\theta}(x_i)+(1-y_i)\;log\;(1-h_{\theta(x_i)})]$ (Entropía cruzada - Cross Entropy)

### Umbral de decisión (Decision threshold)
Para determinar si un punto $x_i$ pertenece a la clase evaluada hay que determinar un umbral de decision. 
Una elección común es:
- predecir y=1 si $h_{\theta}\geq 0.5$
- predecir y=0 si $h_{\theta} < 0.5$

Pero puede tomar otros valores dependiendo del problema.

![function_threshold](img/function_threshold.png)

### Límite de decisión no lineal (Non-linear Decision boundary)
En el caso de requirir limetes de decisión no lineal, se puede utilizar (al igual que regresión lineal comun) la tecnica expación de función.

![function_expansion](img/function_expansion.png)

### Función de costo con factor de regularización

Hay casos donde no queremos que los coefientes de nuestro predictor lineal sean muy grandes. Para evitar esto, podemos agregar un termino de penalización en la función de costo, que penalize (elevando el costo de la función) los coeficientes muy grandes o muy chicos.

$\ell(\theta)=-\sum_{i=1}^n[y_i\;log\;h_{\theta}(x_i)+(1-y_i)\;log\;(1-h_{\theta(x_i)})] + \lambda\sum_{j=1}^d\theta_j^2$

![classification_log_loss](img/log_loss.png)


### Descenso de gradiente en Regresión Logística

1. Inicializar $\theta_d$
2. Repetir hasta alcanzar un umbrarl de convergencia:

    $\theta_0\leftarrow\theta_0-\eta[\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})]$ (bias)
    
    $\theta_j\leftarrow\theta_j-\eta[\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}]$ (sin regularización)
    
    $\theta_j\leftarrow\theta_j-\eta[\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}-\frac{\lambda}{n}\theta_j]$ (con regularización)

## Ejercicio 1
1. Implementar Regreción Logística utilizando descenso de gradiente como clasificador con el dataset sintetico utilizado en el TP07.
    1. Comparar desempeño con y sin termino de regularización en los parametros.
    2. Evaluar la calidad de la predicción utilizando la metrica "Accuracy" vista en el TP07 
    3. Graficar resultados
    
Utilizar Cross-Validation para determinar el mejor $\eta$ y $\lambda$ a utilizar.

## Regresión Logística Multi-Clase
¿Es posible utilizar un clasificador binario para construir un clasificador multiclase?

Vamos a utilizar un de las posibles tecnicas: **One-vs-all**

**asunción:** Cada clase tiene que ser linealmente separable de todas las demas.

**Aprendizaje:** Dado un dataset $D={(x_i,y_i)}$
* $x\in\mathfrak{R}^n$
* $y\in\{1,2,\cdots,K\}$ 
* Crear $K$ clasificadores binarios
* Entrenar cada clasificador $k_i$ 
    * **Ejemplos positivos:** Puntos en $D$ con la etiqueta $k$
    * **Ejemplos negativos:** Todos los puntos en $D$ con etiquetas distintas a $k$
* **Predicción:** ''El ganador se lleva todo"
    * El predictor $k$ con el mayor porcentaje gana en la predicción de la clase.

![one-vs-all](img/one-vs-all.png)

**Beneficios:**
* Facil de implementar

**Problemas:**
* No tiene justificación téorica
* Problemas de calibración
    * Se comparan predicciónes de $K$ clasificadores entrenados independientemente. No hay para que los valores retornados por cada predictor se encuentren en el mismo rango. 
    * Por ejemplo: Un predictor $k_i$ puede retornar porcentajes extremadamente alto para la clase que detecta haciendo que siempre posea el porcentaje mas alto de la predicción multiclase global.

![one-vs-all-issue](img/one-vs-all-issue.png)

## Ejercicio 2
Implementar Regresión Logística multiclase (One vs All) con dataset Iris utilizado en el TP07 utilizando termino de regularización en la funcion de costo.

Utilizar Cross-Validation para determinar el mejor $\eta$ y $\lambda$ a utilizar.