In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (accuracy_score,confusion_matrix,precision_score,recall_score,f1_score)

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report
from sklearn.preprocessing import StandardScaler

Una empresa de suscripción online quiere predecir si un cliente va a abandonar el servicio (churn = 1) o no (churn = 0).
Para ello dispone de datos históricos de clientes con información demográfica y de uso del servicio.

Tu objetivo es construir, entrenar y evaluar un modelo de regresión logística que permita estimar la probabilidad de abandono de un cliente.

Se te proporciona un dataset llamado churn.csv con las siguientes variables:

- State: Estado donde reside el cliente
- Account Length: número de días que el cliente lleva con la companía
- Area Code: código de área telefónica del cliente
- Phone: número de teléfono del cliente
- Int'l Plan: indica si el cliente tiene contratado un plan internacional
- Vmail Plan: indica si el cliente tiene servicio de buzón de voz
- Vmail Message: número de mensajes de voz recibidos
- Day Mins: minutos de llamadas realizadas durante el día
- Day Calls: número de llamadas realizadas durante el día
- Day Charge: coste total de las llamadas diurnas.
- Eve Mins: minutos de llamadas realizadas por la tarde
- Eve Calls: número de llamadas realizadas por la tarde
- Eve Charge: coste de las llamadas por la tarde
- Night Mins: minutos de llamadas realizadas por la noche
- Night Calls: número de llamadas nocturnas
- Night Charge: coste de las llamadas nocturnas
- Int'l Mins: minutos de llamadas internacionales
- Int'l Calls: número de llamadas internacionales
- Int'l Charge: coste de las llamadas internacionales
- CustServ Calls: número de llamadas al servicio de atención al cliente
- Churn?: indica si el cliente ha abandonado la compania (1) o permanece (0)


### Bloque 1 - análisis inicial

Comprueba:
- Dimensiones del dataset
- Tipos de datos
- Missing values
- Calcula estadísticas descriptivas básicas
- Valores únicos de cada variable

In [114]:
# 1. Cargar el dataset
df = pd.read_csv("churn.csv")
# Normalizar nombres de columnas
df.columns = df.columns.str.strip().str.lower()

### Bloque 2 - limpieza

- Elimina columnas que no consideres relevantes
- Convierte las variables de dos categorías en variables binarias de 0 y 1
- Identifica las variables categóricas

### Bloque 3 - preparación de los datos

- Comprueba si la variable objetivo (churn) está balanceada o desbalanceada

- Separa el dataset en variables explicativas (X) y variable objetivo (y) manteniendo la proporción original de las clases

- Divide los datos en train y test (por ejemplo 80/20)

- Escala las variables explicativas (utiliza la clase StandardScaler de scikit-learn)

### Bloque 4 - Entrenamiento

- Entrena el modelo de regresión logística usando el conjunto de entrenamiento con 2000 iteraciones.

- Extrae los coeficientes y el intercepto

Responde:
- ¿Qué variable parece aumentar más el riesgo de churn?

### Bloque 5 - Evalúa el modelo

- Construye la matriz de confusión

- Calcula precisión, recall, F1-score

- Calcula ROC, AUC Score y representalo en una gráfica

### Bloque 6 - Umbral de decisión
- Prueba a cambiar el umbral de decisión (prueba con 0.5, 0.3 y 0.7)

### Bloque 7 - Clases balanceadas

2.  Dataset balanceado (50% / 50%): genera un nuevo dataset con clases balanceadas y vuelve a entrenar y evaluar el modelo (obtén las métricas)

3. Ahora, prueba a entrenar otra con los datos originales y al entrenar utiliza el parámetro class_weight="balanced". Evalúa este modelo (obtén las métricas)

Compara las métricas de los 3 modelos:
- Sin balancear (dataset original)
- Balanceado (50/50)
- Utilizando parámetro class_weight = "balanced" con los datos originales