# Regresión logística

Existe una versión que permite predecir variables que toman categorías en vez de valores numéricos continuos.

Esta versión modela la probabilidad de que obtengamos cada una de las categorías.

Típicamente, se explica como un modelo binario.
- Por ejemplo, para predecir si un cliente va a comprar un cierto producto o no.

Pero el modelo está totalmente adaptado a un número ilimitado de categorías. A este modelo se le llama **regresión logística**

Así, en vez de usar la expresión clásica del modelo lineal que obtiene valores para la variable respuesta entre menos infinito e infinito, vamos a obtener la probabilidad de una cierta categoría con la siguiente expresión, que va a devolver valores entre el cero y el uno. Como puede observarse en esta función, si el exponencial toma un valor igual a 0, estamos obteniendo probabilidad igual a 1.

![](https://i.imgur.com/wIlT974.png)

En cambio, si el valor del exponente de la exponencial crece muchísimo, esta función va a tender a un valor muy grande y esto va a tener una probabilidad muy, muy, muy baja, así que en el límite esta probabilidad va a ser 0.


In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt

df = pd.read_csv(r"/home/flavioisay/MEGAsync/Python para data science y big data esencial/base_datos_2008.csv")

In [3]:
df = df.dropna(subset = ['ArrDelay']) # Eliminar los datos faltantes de nuestra variable respuesta
df = df.sample(frac = 1).head(100000) # Seleccionar 100,000 datos de una fraccion aleatoria del dataframe
# Generar la variable de respuesta, todos los vuelos que se hayan retrasado menor a 30 minutos
Y = df['ArrDelay'] < 30 # True = 1 / False = 0 // Interpretación: Vuelos sin retraso notable
# Ajustar el vuelo con una sola variable, el retraso en la salida
X = df[['DepDelay']]

In [4]:
# Crear el modelo con LogisticRegression
logreg = LogisticRegression()
# Se ajusta con fit, x puede ser un data frame con varias columnas
# Fijarse si son datos categoricos, ya que si es asi se tendran que convertir en dummies
logreg.fit(X,Y)
# Obtener predicciones
Y_pred = logreg.predict(X)
# La regresion logistica devuelve probabilidades
# Selecciona aquella categoria con probabilidad superior

In [5]:
np.round(logreg.predict_proba(X),3)
# El primer valor tiene unb 1.4% de pertenecer al grupo 0 y una probabilidad de 98.6% de permanecer al grupo 1
# Es decir, el primer caso es muy probable que no tenga un retraso notable
# Permite saber que tan seguros estamos de que sea si o que sea no

array([[0.014, 0.986],
       [0.06 , 0.94 ],
       [0.01 , 0.99 ],
       ...,
       [0.037, 0.963],
       [0.013, 0.987],
       [0.011, 0.989]])

In [6]:
# Evaluar eficiencia del modelo
# Ver en que caso las predicciones concuerdan con el valor real
# Genera un array con 1 si hay coincidencia y 0 si no lo hay
np.mean(Y_pred == Y) # 95.6% de las predicciones son correctas
# Si es bajo no debe abrumar ya que puede depender de que tan balanceadas estan las categorias
# Es decir, que existan mas casos del valor real en una categoria que en la otra

0.95603

In [7]:
# Comprobar
np.mean(Y) # La mayoria de los casos toman un valor igual a uno
# Esto quiere decir, que el modelo es bueno pero no tanto como pudiese parecer
# Con este modelo se puede predecir el 86.4% de los casos.
# Hay un balance de categorias bastante asimetrico
# Se debe vigilar este tipo de modelos, ya que, si las categorias no estan compensadas, podemos sobreestimar la precision de nuestro modelo.

0.86469

In [8]:
# Como funciona la matriz de confusion
# Este depende de dos valores, los reales y los predichos
confusion_matrix = confusion_matrix(Y, Y_pred)
print(confusion_matrix)
# Filas: Son los valores reales
# Columnas: Valores predichos por el modelo
# # 0   1
# 0
# 1
# Los 10209 son los casos que realmente eran un cero o false y que nuestro modelo ha predicho que como un cero
# Los 1075 son los que eran un 1 pero nuestro modelo los tomo como un 0
# La categoria mayoritaria es 85394, que son aquellos casos que no se han retrasado y nuestro modelo ha clasificado como no retrasado
# Esta matriz es util para saber que tan bien predice nuestro modelo, ver que tipo de sesgo hay  en una direccion o se sobresitma una categoria

[[10209  3322]
 [ 1075 85394]]
