<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Trabajo-Práctico" data-toc-modified-id="Trabajo-Práctico-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Trabajo Práctico</a></span></li><li><span><a href="#El-Problema" data-toc-modified-id="El-Problema-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>El Problema</a></span><ul class="toc-item"><li><span><a href="#Los-Datos" data-toc-modified-id="Los-Datos-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Los Datos</a></span></li><li><span><a href="#Dividimos-en-Train-y-Test" data-toc-modified-id="Dividimos-en-Train-y-Test-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Dividimos en Train y Test</a></span></li><li><span><a href="#Modelamos-y-Evaluamos:" data-toc-modified-id="Modelamos-y-Evaluamos:-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Modelamos y Evaluamos:</a></span></li><li><span><a href="#Probabilidades:" data-toc-modified-id="Probabilidades:-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Probabilidades:</a></span></li></ul></li><li><span><a href="#Ejercicio:" data-toc-modified-id="Ejercicio:-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Ejercicio:</a></span></li></ul></div>

![IES21](img/logo_ies.png)

# Regresión Logística en Scikit-Learn

## Trabajo Práctico

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score

## El Problema

En este caso contamos con un dataset real,referido a la calidad de ... distintos vinos blancos!  

Para distintos vinos blancos se han medido diversas variables como densidad, pH, cantidad de alcohol, de sulfatos, distintos tipos de acidez, etc y un grupo de enólogos ha calificado a estos vinos segun su calidad.  

Si bien la calidad originalmente estaba clasificada de 0 a 10, nosotros hemos agregado la columna **q** donde simplemente indicamos si es de baja calidad -> 0, o de buena calidad -> 1, porque aún no vimos qué pasa cuando tenemos más de dos etiquetas en la variable target!

Los datos se encuentra en *data/winq_white* .  

Nuestra tarea es tratar de pronosticar cómo sería calificado un nuevo vino blanco conociendo las medidas de las variables indicadas. 


### Los Datos

In [2]:
df=pd.read_csv('data/winq_white')
df.head()

Unnamed: 0.1,Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,q
0,0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,1
1,1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,1
2,2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,1
3,3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,1
4,4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,1


- La variable a pronosticar es q, que asume sólo dos etiquetas, 0 para los vinos de baja calidad y 1 para los de alta calidad, evaluados según enólogos (es un  valor subjetivo).  

- El resto de las variables son las features o características medidas para cada tipo de vino blanco (estas variables son objetivas). 

En este caso **no usaremos las columnas Unnamed:0 ni quality**, así que podemos ignorarlas o sacarlas, las saco con drop.

In [3]:
df=df.drop( axis=1, labels=['Unnamed: 0','quality'])


In [4]:
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,q
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,1
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,1
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,1
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,1
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,1


Ahora sí tenemos nuestros datos OK. 

### Dividimos en Train y Test

In [5]:

X_train,X_test,y_train,y_test=train_test_split(df.drop(axis=1,columns='q'),df['q'],test_size=0.20,random_state=123)

### Modelamos y Evaluamos:

Ahora modelicemos, entrenemos y evaluemos con Accuracy y F1: 

In [9]:
# Creamos el modelo:

modelo=linear_model.LogisticRegression(max_iter= 1000,penalty='none',fit_intercept=True, random_state=123)
# max_iter: generalmente no se pone, pero me salió un Warning pidiéndome que lo aumente, así que lo pasé a 1000, creo que por
# defecto son 100. 
# por ahora mantendremos el parámetro penalty='none'.
# A diferencia de la Regresión Lineal en Regresión Logística, por defecto fit_intercept está fijado en True, así que no sería necesario ponerlo.

# Entrenamos el modelo
modelo.fit(X_train,y_train)

#Pronosticamos en el Test Set
y_pred=modelo.predict(X_test)

#Evaluamos en el Test Set
AC=accuracy_score(y_test, y_pred)
F1=f1_score(y_test,y_pred, average='macro')
CM=confusion_matrix(y_test,y_pred)
# Mostrammos:

print("Evaluación modelo de Regresión Logística")
print("Accuracy: ", round(AC,3))
print("F1: ", round(F1,3))



Evaluación modelo de Regresión Logística
Accuracy:  0.769
F1:  0.71


### Probabilidades:

Recordemos que los pronósticos hechos por la Regresión Logística, son en definitivas las probabilidades de que pertenezca a la clase 1.   

Sklearn nos permite ver las probabilidades que calculó para cada una de las observaciones.


In [None]:
Primero quiero mostrarle los pronósticos o predicciones, a secas, que ya calculamos en y_pred, obtenido con modelo.predict()

In [12]:
y_pred

array([1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1,
       0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0,
       1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,

Como podemos ver al usar el método modelo.predict nos da las predicciones finales, es decir los 0 y 1.  

Pero este modelo también nos ofrece el método **modelo.predict_proba** que nos calcula justamente las probabilidades: 

In [15]:
modelo.predict_proba(X_test)

array([[0.36851638, 0.63148362],
       [0.06488924, 0.93511076],
       [0.04930237, 0.95069763],
       ...,
       [0.56524162, 0.43475838],
       [0.08856708, 0.91143292],
       [0.0572738 , 0.9427262 ]])

Por qué nos da dos columnas en el resultado?  

Porque:  

- la primer columna corresponde a la **probabilidad de que sea 0**,
- la segunda columna corresponde a la **probabilidad de que sea 1**

Si suma ambos valores, obtendrá 1, obviamente!

Así por ejemplo, para la primera observación del X_test la probabilidad de que sea no era del 37% y que de que fuera un 1 era del 63%, en definitiva le asignó e valor 1.

## Ejercicio:

Conseguirán estos otros modelos obtener mejores valores de Accuracy que esta Regresión Logística?  

Para sacarse la duda, resolver este mismo problema de Clasificación de vinos blancos con:  

- Árboles de Decisión
- kNN

Haga todo lo necesario para elegir también los mejores hiperparámetros de estos modelos!

