<a href="https://colab.research.google.com/github/mayait/Business-Analytics-Class/blob/main/clase_ML/notebooks/Logistic_regression_HowGoodIsMyModel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.cm as cm
from sklearn import metrics
from sklearn.metrics import roc_auc_score

from sklearn.model_selection import train_test_split
from matplotlib.colors import ListedColormap
import seaborn as sns

plt.rcParams['figure.dpi'] = 90

## 1. 🌶️🌶️🌶️
**La USFQ está desarrollando un modelo para predecir si un estudiante, basándose en sus horas de estudio, aprobará o no un examen importante.**


_Divide los datos en train y test, entrena un modelo de regresión logistica_

1. Identifica las métricas sensitivity (recall), specificity, precision, fpr.
2. Si un estudiante realmente va a aprobar pero el modelo predice que no, ¿qué tipo de error es?
3. Si un estudiante realmente va a reprobar pero el modelo predice que aprobará, ¿qué tipo de error es?
4. ¿Cuál podría ser un problema potencial al tener un alto número de falsos positivos en este escenario?
5. Dibuja la regresión logística con respecto a las horas de estudio y las predicciones.
6. ¿Cómo interpretas la curva de la regresión logística en el contexto de las horas de estudio y la probabilidad de aprobar?
7. Dibuja la curva ROC y AUC ¿Que puedes decir de la curva y el area bajo la curva?

```python
# Ejecuta para generar el dataset X,y

np.random.seed(42)
X = np.random.rand(1000, 1) * 10  
y = (X[:, 0] > 5).astype(int)  
y = y ^ (np.random.rand(1000) > 0.9)
```

In [None]:
print(X,y)

## 2. 🌶️🌶️
**Un hospital está desarrollando un modelo para detectar una enfermedad rara pero mortal.**

_Divide los datos en train y test, entrena un modelo de regresión logistica_

1. Identifica las metricas sensitivity (recall), specificity, precision, fpr
2. ¿Qué consecuencias podría tener un modelo con una sensibilidad baja?
3. ¿Que significa un falso negativo en este caso?
4. ¿Qué métrica es más importante para minimizar en este caso: la sensibilidad o la especificidad?
5. ¿En este caso que significa tener una especificidad baja?
6. Dibuja la curva ROC y AUC ¿Que puedes decir de la curva y el area bajo la curva?

```python
# Ejecuta para generar el dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42, weights=[0.95, 0.05]) # 5% de los datos son positivos (enfermedad grave)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

clf = LogisticRegression(random_state=42)
clf.fit(X_train, y_train)

# Haciendo predicciones en el conjunto de prueba
y_pred = clf.predict(X_test)

```

In [None]:
print(X,y)

## 3. 🌶️🌶️
**Una empresa de correo electrónico está desarrollando un modelo para filtrar correos no deseados (spam).**

_Divide los datos en train y test, entrena un modelo de regresión logística, imprime la mariz de confusión._

1. Identifica las métricas sensitivity (recall), specificity, precision, fpr.
2. En el contexto de la detección de spam, ¿qué significa un falso positivo?
3. ¿Y un falso negativo?
4. ¿Por qué podría ser crítico tener un alto número de falsos positivos en este escenario?
5. ¿Qué métrica sería más importante para optimizar en este caso y por qué?
6. Dibuja la curva ROC y AUC. ¿Qué puedes decir de la curva y el área bajo la curva en relación con la eficacia del modelo?
7. Si quisieras reducir el número de falsos positivos, ¿qué podrías hacer con el umbral de decisión del modelo?
8. ¿Cómo podría el modelo verse afectado por los cambios en los patrones de spam?
9. ¿Cómo podría el modelo ser utilizado para mejorar la experiencia del usuario?

```python
# Ejecuta para generar el dataset X,y

np.random.seed(42)
X = np.random.rand(1000, 1) * 10  
y = (X[:, 0] > 7).astype(int)  # Los correos con un valor mayor a 7 se consideran spam
y = y ^ (np.random.rand(1000) > 0.85)  # Añadir algo de ruido: 15% de los datos no siguen la regla anterior
```

## 4. 🌶️🌶️🎮
**Una empresa de videojuegos está desarrollando un modelo para predecir si un jugador disfrutará de un nuevo juego.**

La empresa cuenta con datos de juegos anteriores de los jugadores, como el tiempo de juego, la puntuación obtenida y las reseñas. Basándose en estos datos, quiere predecir si un jugador disfrutará de un nuevo juego que están por lanzar.

_Divide los datos en train y test, entrena un modelo de regresión logística._

1. Identifica las métricas sensitivity (recall), specificity, precision, fpr.
2. ¿Qué consecuencias podría tener un modelo con una alta tasa de falsos positivos?
3. Si un jugador realmente disfrutará del juego pero el modelo predice que no, ¿qué tipo de error es?
4. ¿Y si el modelo predice que un jugador disfrutará del juego pero en realidad no lo disfruta?
5. Dibuja la curva ROC y AUC. ¿Qué puedes decir de la curva y el área bajo la curva en relación con la eficacia del modelo?
6. Si quisieras asegurarte de no decepcionar a los jugadores, ¿qué métrica sería la más importante para optimizar?

```python
# Ejecuta para generar el dataset X,y

np.random.seed(42)
hours_played = np.random.rand(1000, 1) * 50  # Horas jugadas
score = np.random.rand(1000, 1) * 100  # Puntuación en el juego (0-100)
reviews = np.random.randint(1, 6, (1000, 1))  # Reseñas (1 a 5 estrellas)

X = np.hstack([hours_played, score, reviews])
y = (X[:, 0] > 25).astype(int) & (X[:, 1] > 50).astype(int) & (X[:, 2] > 3).astype(int)  # Considerarán que disfrutarán el juego si jugaron más de 25 horas, tienen una puntuación mayor a 50 y una reseña de más de 3 estrellas
y = y ^ (np.random.rand(1000) > 0.8)  # Añadir algo de ruido: 20% de los datos no siguen la regla anterior
```


## 5.

Banco Pichincha utiliza regresión logística para decidir si aprueba o no préstamos basados en la probabilidad de que el cliente devuelva el dinero. Rechazar a un buen cliente resulta en una oportunidad perdida, pero aprobar a un mal cliente podría resultar en un riesgo financiero.

¿Qué indicador deberían priorizar?

## 6.
La universidad esta usando regresión logística para seleccionar nuevos profesores para el school of Business, basado en una serie de características de sus CV. No quieren perderse de candidatos potencialmente buenos, pero tampoco quieren invertir tiempo entrevistando candidatos malos.