### regresion logistica

🧠 ¿Qué la diferencia de la regresión lineal?

- Regresión lineal predice un número continuo (como temperatura, precio, etc).
- Regresión logística predice probabilidades y luego las convierte en una clase.

✅ ¿Para qué sirve?

Se usa cuando quieres responder preguntas como:

- ¿Este correo es spam o no?
- ¿El cliente comprará o no?
- ¿Un paciente tiene una enfermedad o no?

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

df = pd.read_csv(r"C:\Users\steve\OneDrive\Documentos\python\base_datos_2008.csv")

In [4]:
df = df.dropna(subset=["ArrDelay"])
df = df.sample(frac=1).head(100000)
Y = df["ArrDelay"] < 30 # True = 1/ False = 0 // Interpretacion: Vuelos sin retraso notable
X = df[["DepDelay"]]

Y

2781799     True
2087814     True
1432771     True
6251010     True
4375725     True
           ...  
3698559    False
2745730     True
3176535     True
1866940     True
6561554     True
Name: ArrDelay, Length: 100000, dtype: bool

In [9]:
X

Unnamed: 0,DepDelay
2781799,-10.0
2087814,-1.0
1432771,-3.0
6251010,19.0
4375725,12.0
...,...
3698559,69.0
2745730,-3.0
3176535,4.0
1866940,-4.0


In [None]:
logreg = LogisticRegression()
logreg.fit(X, Y)
Y_pred = logreg.predict(X)

In [6]:
np.round(logreg.predict_proba(X), 3)

array([[0.005, 0.995],
       [0.016, 0.984],
       [0.013, 0.987],
       ...,
       [0.03 , 0.97 ],
       [0.011, 0.989],
       [0.023, 0.977]], shape=(100000, 2))

🧠 ¿Qué hace?
Esta instrucción predice las probabilidades de clase usando un modelo de regresión logística (logreg), y redondea los resultados a 3 decimales.

![image.png](attachment:image.png)

In [10]:
np.mean(Y_pred == Y)

np.float64(0.956)

In [None]:
np.mean(Y) # Esto me dice que si me preguntan que el vuelo se retrasara, 
#Podemos responder que no, con un 86.64% de probabilidad

np.float64(0.86487)

In [12]:
confusion_matrix = confusion_matrix(Y, Y_pred)
print(confusion_matrix)

[[10145  3368]
 [ 1032 85455]]


🧠 ¿Qué es confusion_matrix?
La matriz de confusión es una tabla que resume el desempeño de un modelo de clasificación, comparando los valores reales (Y) con los predichos (Y_pred).

![image.png](attachment:image.png)

![image-3.png](attachment:image-3.png)

![image-2.png](attachment:image-2.png)

# Resumen

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)

