In [30]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder, StandardScaler

In [9]:
df = pd.read_excel("../Apoyo-Desafio/Telco-Customer-Churn.xlsx")

In [None]:
# Definir las columnas categ√≥ricas
categorical_columns = ['customerID', 'gender', 'Partner', 'Dependents', 'PhoneService',
					   'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
					   'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
					   'Contract', 'PaperlessBilling', 'PaymentMethod', 'Churn']

# Definir las columnas num√©ricas
numerical_columns = ['tenure', 'MonthlyCharges', 'TotalCharges']

# Generar estad√≠sticas descriptivas para variables num√©ricas
numerical_stats = df.describe()
print("Estad√≠sticas descriptivas para variables num√©ricas:")
print(numerical_stats)

# Generar estad√≠sticas descriptivas para variables categ√≥ricas
categorical_stats = df[categorical_columns].describe()
print("\nEstad√≠sticas descriptivas para variables categ√≥ricas:")
print(categorical_stats)

# Visualizar la distribuci√≥n de las variables clave mediante histogramas
df.hist(bins=30, figsize=(20, 15))
plt.suptitle("Histogramas de variables num√©ricas")
plt.show()

# Visualizar la distribuci√≥n de las variables clave mediante diagramas de caja
df.plot(kind='box', subplots=True, layout=(6, 4), figsize=(20, 20), sharex=False, sharey=False)
plt.suptitle("Diagramas de caja de variables num√©ricas")
plt.show()

# An√°lisis de correlaciones entre variables
correlation_matrix = df.corr()
print("\nMatriz de correlaci√≥n:")
print(correlation_matrix)

# Visualizar la matriz de correlaci√≥n mediante un mapa de calor
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title("Mapa de calor de la matriz de correlaci√≥n")
plt.show()


# Resumen de hallazgos clave
print("\nConclusiones:")
print("1. Estad√≠sticas descriptivas muestran la media, mediana, moda, desviaci√≥n est√°ndar y percentiles de las variables num√©ricas.")
print("2. Histogramas y diagramas de caja revelan la distribuci√≥n de las variables y posibles valores at√≠picos.")
print("3. Gr√°ficos de dispersi√≥n ayudan a identificar relaciones entre pares de variables.")
print("4. La matriz de correlaci√≥n y el mapa de calor muestran las correlaciones entre variables.")
print("5. Valores at√≠picos identificados deben ser tratados seg√∫n el contexto del an√°lisis.")

#  An√°lisis Exploratorio de Datos (EDA)

El objetivo de esta secci√≥n es explorar las caracter√≠sticas del dataset, identificar patrones y detectar posibles problemas en los datos antes de entrenar los modelos de machine learning. 

## **1Ô∏è Definici√≥n de Variables**

Para facilitar el an√°lisis, clasificamos las variables en dos grupos:

- **Variables Categ√≥ricas:** Incluyen informaci√≥n cualitativa sobre los clientes, como g√©nero, tipo de contrato y servicios contratados.
- **Variables Num√©ricas:** Contienen informaci√≥n cuantitativa, como duraci√≥n de la suscripci√≥n, cargos mensuales y cargos totales.

---

## **2Ô∏è An√°lisis Estad√≠stico de las Variables**
Antes de aplicar cualquier modelo, es fundamental entender la distribuci√≥n de los datos mediante estad√≠sticas descriptivas.

- **Variables num√©ricas:** Se analiza la media, mediana, desviaci√≥n est√°ndar y percentiles.
- **Variables categ√≥ricas:** Se revisa la cantidad de observaciones por cada categor√≠a.

---

## **3Ô∏è Visualizaci√≥n de la Distribuci√≥n de los Datos**
Para comprender la dispersi√≥n y la estructura de los datos, generamos diferentes visualizaciones:

###  **Histogramas**
Los histogramas permiten analizar la distribuci√≥n de cada variable num√©rica y detectar sesgos en los datos.

###  **Diagramas de Caja (Boxplots)**
Los boxplots ayudan a identificar valores at√≠picos y visualizar la dispersi√≥n de los datos.

---

## **4Ô∏è An√°lisis de Correlaci√≥n entre Variables**
Para evaluar relaciones entre variables y posibles colinealidades, generamos:

- **Matriz de correlaci√≥n:** Muestra el coeficiente de correlaci√≥n entre las variables num√©ricas.
- **Mapa de calor:** Representaci√≥n visual de la matriz de correlaci√≥n con `seaborn.heatmap`.

---

## **5Ô∏è Conclusiones del An√°lisis Exploratorio**
A partir de los gr√°ficos y estad√≠sticas obtenidos, podemos destacar los siguientes puntos clave:

1. **Las estad√≠sticas descriptivas** nos permiten ver la media, mediana, moda y dispersi√≥n de los datos.
2. **Histogramas y diagramas de caja** ayudan a identificar valores extremos y patrones de distribuci√≥n.
3. **Los gr√°ficos de dispersi√≥n** pueden mostrar relaciones entre pares de variables relevantes.
4. **La matriz de correlaci√≥n** indica posibles relaciones entre caracter√≠sticas.
5. **Valores at√≠picos** deben ser analizados y tratados adecuadamente antes del modelado.




In [None]:
# Identificar valores nulos, duplicados y tipos de datos
print("Valores nulos por columna:")
print(df.isnull().sum())
print("\nValores duplicados:")
print(df.duplicated().sum())
print("\nTipos de datos:")
print(df.dtypes)

# Limpieza de datos
# Eliminar valores duplicados
df = df.drop_duplicates()

# Imputar valores nulos
df['TotalCharges'] = df['TotalCharges'].replace(" ", np.nan).astype(float)
df['TotalCharges'] = df['TotalCharges'].fillna(df['TotalCharges'].mean())

# Transformaci√≥n de datos
# Convertir variables categ√≥ricas en variables num√©ricas
label_encoders = {}
for column in categorical_columns:
    if df[column].dtype == 'object':
        le = LabelEncoder()
        df[column] = le.fit_transform(df[column])
        label_encoders[column] = le

# Normalizaci√≥n y estandarizaci√≥n
scaler = StandardScaler()
df[numerical_columns] = scaler.fit_transform(df[numerical_columns])

# Informe de los pasos realizados
print("\nInforme de limpieza y transformaci√≥n:")
print("1. Valores duplicados eliminados.")
print("2. Valores nulos imputados en la columna 'TotalCharges'.")
print("3. Variables categ√≥ricas convertidas en variables num√©ricas.")
print("4. Variables num√©ricas normalizadas usando Z-score Normalization.")

# Visualizaci√≥n de datos antes y despu√©s del preprocesamiento
print("\nDatos antes del preprocesamiento:")
print(df.head())

print("\nDatos despu√©s del preprocesamiento:")
print(df.head())


#  Preprocesamiento de Datos

En esta secci√≥n, me encargo de **limpiar y transformar** los datos para asegurar que est√©n en el formato adecuado antes de entrenar cualquier modelo de machine learning.

---

## **1Ô∏è Identificaci√≥n de Problemas en los Datos**
Antes de aplicar transformaciones, lo primero que hago es revisar la calidad de los datos. Para ello, verifico:

- **Valores nulos**: Identifico si hay datos faltantes en alguna columna.
- **Valores duplicados**: Detecto si hay filas repetidas que podr√≠an afectar el an√°lisis.
- **Tipos de datos**: Me aseguro de que cada variable tenga el formato adecuado (n√∫meros, categor√≠as, etc.).

---

## **2Ô∏è Limpieza de Datos**
###  Eliminaci√≥n de Duplicados  
Si encuentro filas duplicadas en el dataset, las elimino para evitar que influyan negativamente en el modelo.

###  Imputaci√≥n de Valores Nulos  
En la columna `TotalCharges`, detect√© algunos valores vac√≠os representados como `" "`. Lo que hago es:

1. Convertir esos valores en `NaN` para tratarlos correctamente.
2. Rellenar los valores `NaN` con la **media** de la columna, asegurando que no haya datos faltantes.

---

## **3Ô∏è Transformaci√≥n de Datos**
###  Conversi√≥n de Variables Categ√≥ricas  
Dado que los modelos de machine learning no pueden manejar directamente variables categ√≥ricas, convierto estas variables en valores num√©ricos utilizando `LabelEncoder`.  

Cada categor√≠a recibe un n√∫mero √∫nico, lo que permite que los modelos interpreten la informaci√≥n correctamente.

---

## **4Ô∏è Normalizaci√≥n y Estandarizaci√≥n**
Para que los modelos trabajen mejor con las variables num√©ricas (`tenure`, `MonthlyCharges`, `TotalCharges`), aplico `StandardScaler`.  
Esto **normaliza** los valores usando la t√©cnica **Z-score Normalization**, que centra los datos en media 0 y varianza 1.  

 **Ventaja:** Evita que una variable con valores muy grandes (ejemplo: `TotalCharges`) domine sobre otras con valores m√°s peque√±os.

---

## **5Ô∏è Resumen del Preprocesamiento**
Despu√©s de aplicar los pasos anteriores, genero un informe de los cambios realizados:

1. **Valores duplicados eliminados.**
2. **Valores nulos imputados en la columna `TotalCharges`.**
3. **Variables categ√≥ricas convertidas en valores num√©ricos.**
4. **Variables num√©ricas normalizadas usando `Z-score Normalization`.**

---

## **6Ô∏è Visualizaci√≥n de los Datos Antes y Despu√©s**
Finalmente, muestro un resumen del dataset antes y despu√©s del preprocesamiento para asegurarme de que las transformaciones se aplicaron correctamente.

Este proceso es clave para garantizar que los datos sean adecuados para el entrenamiento de modelos de machine learning y evitar sesgos que puedan afectar el rendimiento.


In [None]:
# Definir las caracter√≠sticas (X) y la variable objetivo (y)
X = df.drop(columns=['Churn', 'customerID'])
y = df['Churn']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f'Tama√±o del conjunto de entrenamiento: {X_train.shape[0]}')
print(f'Tama√±o del conjunto de prueba: {X_test.shape[0]}')

In [None]:

# Definir los modelos y sus hiperpar√°metros
models = {
    'RandomForest': {
        'model': RandomForestClassifier(random_state=42),
        'params': {
            'n_estimators': [50, 100, 200],
            'max_depth': [None, 10, 20, 30],
            'min_samples_split': [2, 5, 10]
        }
    },
    'GradientBoosting': {
        'model': GradientBoostingClassifier(random_state=42),
        'params': {
            'n_estimators': [50, 100, 200],
            'learning_rate': [0.01, 0.1, 0.2],
            'max_depth': [3, 5, 7]
        }
    },
    'SVC': {
        'model': SVC(random_state=42),
        'params': {
            'C': [0.1, 1, 10],
            'kernel': ['linear', 'rbf', 'poly'],
            'gamma': ['scale', 'auto']
        }
    }
}

# Entrenar y optimizar los modelos
best_models = {}
for name, model_info in models.items():
    grid_search = GridSearchCV(model_info['model'], model_info['params'], cv=5, n_jobs=-1, scoring='accuracy')
    grid_search.fit(X_train, y_train)
    best_models[name] = grid_search.best_estimator_
    print(f"Best parameters for {name}: {grid_search.best_params_}")
    print(f"Best score for {name}: {grid_search.best_score_}")

# Evaluar los mejores modelos en el conjunto de prueba
for name, model in best_models.items():
    y_pred = model.predict(X_test)
    print(f"Classification report for {name}:\n{classification_report(y_test, y_pred)}")

#  Entrenamiento y Optimizaci√≥n de Modelos de Machine Learning

En esta secci√≥n, me encargo de **definir, entrenar y optimizar** varios modelos de clasificaci√≥n para predecir la fuga de clientes (*churn*). Utilizo **b√∫squeda de hiperpar√°metros** para obtener el mejor rendimiento posible.

---

## **1Ô∏è Selecci√≥n de Modelos**
Para abordar este problema, seleccion√© tres algoritmos de clasificaci√≥n populares:

- **Random Forest:** Modelo basado en m√∫ltiples √°rboles de decisi√≥n, ideal para manejar datos con relaciones no lineales.
- **Gradient Boosting:** Algoritmo de boosting que ajusta errores progresivamente para mejorar la precisi√≥n.
- **SVM (Support Vector Machine):** Modelo basado en la maximizaci√≥n de m√°rgenes entre clases.

Cada uno de estos modelos tiene ventajas espec√≠ficas:
‚úÖ **Random Forest** es robusto y maneja bien datos con muchas caracter√≠sticas.  
‚úÖ **Gradient Boosting** suele lograr alta precisi√≥n optimizando el error en cada iteraci√≥n.  
‚úÖ **SVM** es √∫til cuando los datos no son linealmente separables y requiere pocos par√°metros de ajuste.  

---

## **2Ô∏è Definici√≥n de Hiperpar√°metros**
Para cada modelo, defino una serie de hiperpar√°metros que quiero optimizar:

- **Random Forest:**
  - `n_estimators`: N√∫mero de √°rboles en el bosque.
  - `max_depth`: Profundidad m√°xima de cada √°rbol.
  - `min_samples_split`: M√≠nimo de muestras necesarias para dividir un nodo.

- **Gradient Boosting:**
  - `n_estimators`: N√∫mero de √°rboles a entrenar.
  - `learning_rate`: Controla cu√°nto cambia el modelo con cada iteraci√≥n.
  - `max_depth`: Profundidad de los √°rboles en la fase de boosting.

- **SVC (Support Vector Machine):**
  - `C`: Par√°metro de regularizaci√≥n (m√°s alto, menos penalizaci√≥n).
  - `kernel`: Define la funci√≥n del hiperplano (lineal, polinomial o radial).
  - `gamma`: Ajusta la influencia de los puntos de entrenamiento.

Estos hiperpar√°metros son clave porque afectan directamente el rendimiento del modelo.

---

## **3Ô∏è Entrenamiento y Optimizaci√≥n con GridSearchCV**
Para encontrar los mejores hiperpar√°metros, utilizo **GridSearchCV**, que prueba m√∫ltiples combinaciones y selecciona la mejor configuraci√≥n.  

 **Ventaja de GridSearchCV:** Eval√∫a autom√°ticamente cada combinaci√≥n con validaci√≥n cruzada (`cv=5`), lo que asegura que el modelo no est√© sobreajustado.

El proceso consiste en:
1. Definir los modelos y sus hiperpar√°metros.
2. Aplicar `GridSearchCV` para buscar la mejor combinaci√≥n.
3. Guardar el mejor modelo para cada algoritmo.

Despu√©s de entrenar cada modelo, imprimo los **mejores hiperpar√°metros** y la **mejor puntuaci√≥n** obtenida durante la validaci√≥n cruzada.

---

## **4Ô∏è Evaluaci√≥n de los Modelos**
Una vez que tengo los modelos optimizados, los pruebo en el **conjunto de prueba (`X_test`)** para evaluar su rendimiento real.

Para esto, uso `classification_report`, que me proporciona m√©tricas clave como:
- **Precisi√≥n (`precision`)**: Cu√°ntos de los clientes que predije como "fugados" realmente lo son.
- **Sensibilidad (`recall`)**: Cu√°ntos de los clientes fugados reales fueron detectados correctamente.
- **F1-score**: Un balance entre precisi√≥n y sensibilidad.
- **Exactitud (`accuracy`)**: Porcentaje total de predicciones correctas.

Cada modelo genera un informe con estas m√©tricas, lo que me permite comparar su desempe√±o y elegir el m√°s adecuado.

---

## **5Ô∏è Conclusi√≥n**
Despu√©s de evaluar los modelos, puedo determinar cu√°l es el mejor predictor para detectar clientes con riesgo de fuga.

 **Posibles mejoras futuras:**
- Evaluar otros modelos como **XGBoost** o **Redes Neuronales**.
- Usar t√©cnicas de balanceo de clases si los datos est√°n desbalanceados (`SMOTE`).
- Aplicar `RandomizedSearchCV` para acelerar la b√∫squeda de hiperpar√°metros.

Este proceso garantiza que obtenga el modelo m√°s eficiente para ayudar a la empresa a reducir la fuga de clientes y mejorar la retenci√≥n. üöÄüî•


In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Evaluar los mejores modelos en el conjunto de prueba
for name, model in best_models.items():
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)

    print(f"Metrics for {name}:")
    print(f"Accuracy: {accuracy:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print(f"F1 Score: {f1:.4f}")
    print("\n")