![Image in a markdown cell](https://cursos.utnba.centrodeelearning.com/pluginfile.php/1/theme_space/customlogo/1738330016/Logo%20UTN%20Horizontal.png)


# **Diplomado de Ciencia de Datos y An√°lisis Avanzado**
# **Unidad 5: Modelado Predictivo I**: Regresi√≥n y Clasificaci√≥n

---

# **Proyecto de Competencia Kaggle: Predicci√≥n de Abandono de Clientes**

## **Curso:** Diplomado en Ciencia de Datos

# **Nombres de los Miembros del Equipo:**
### *   [Nombre Completo del Miembro 1]
### *   [Nombre Completo del Miembro 2]
### *   [Nombre Completo del Miembro 3]

# **Objetivo:**
## El objetivo de este proyecto es construir y evaluar varios modelos de clasificaci√≥n para predecir si un cliente de una compa√±√≠a de telecomunicaciones abandonar√° o no el servicio (churn). El rendimiento final del mejor modelo se medir√° en la competencia de Kaggle a trav√©s de la **m√©trica ROC AUC**.

---

# **Enlace para unirse a la competencia**
### **USE EL ENLACE PARA UNIRSE POR EQUIPO, NO DE MANERA INDIVIDUAL**

https://www.kaggle.com/t/57b70c381e4d451b8ae38e164b91a2aa


### **Por favor siga las indicaciones que se suministran en la plataforma**

# **0. Configuraci√≥n Inicial e Importaci√≥n de Librer√≠as**

## En esta secci√≥n, importaremos todas las librer√≠as necesarias para el proyecto. Es una buena pr√°ctica tener todas las importaciones en la primera celda.

In [None]:
# Configuraci√≥n del path del proyecto
import sys
import os

# Obtener el directorio actual del notebook
current_dir = os.getcwd()
print(f"üìÅ Directorio actual: {current_dir}")

# Agregar el directorio TP5 al path si no est√° presente
tp5_dir = os.path.join(current_dir, 'TP5')
if tp5_dir not in sys.path and os.path.exists(tp5_dir):
    sys.path.insert(0, tp5_dir)
    print(f"‚úÖ Directorio TP5 agregado al path: {tp5_dir}")
elif os.path.exists('TP5'):
    # Si estamos en el directorio TP5
    if os.getcwd() not in sys.path:
        sys.path.insert(0, os.getcwd())
    print(f"‚úÖ Directorio actual agregado al path")
else:
    print(f"‚ö†Ô∏è Directorio TP5 no encontrado, trabajando sin m√≥dulos externos")

print(f"üîß Python path configurado correctamente")

: 

In [None]:
# Importaciones b√°sicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_auc_score, classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

# Configurar visualizaciones (sin magic commands)
plt.style.use('default')
sns.set_palette("husl")

print("‚úÖ Librer√≠as b√°sicas importadas correctamente")

# Intentar importar m√≥dulos del proyecto TP5
try:
    import data_loader, dataset_splitter, eda, models, metrics
    print("‚úÖ M√≥dulos TP5 importados correctamente")
    modules_available = True
except ImportError as e:
    print(f"‚ö†Ô∏è Error importando m√≥dulos TP5: {e}")
    print("? Trabajaremos sin los m√≥dulos TP5 personalizados")
    modules_available = False

print("üöÄ Configuraci√≥n de importaciones completada")

: 

In [None]:
# Verificar disponibilidad de datos y crear ejemplo si es necesario
import os

# Verificar si existen archivos de datos de competencia
data_files = ['train.csv', 'test.csv', 'sample_submission.csv']
files_exist = [os.path.exists(f) for f in data_files]

print("üìÅ Verificando archivos de datos:")
for file, exists in zip(data_files, files_exist):
    status = "‚úÖ" if exists else "‚ùå"
    print(f"   {status} {file}")

if not all(files_exist):
    print("\n‚ö†Ô∏è Archivos de competencia no encontrados.")
    print("üìù Se crear√°n datos de ejemplo para demostraci√≥n.")
    
    # Crear datos de ejemplo simples para prueba
    print("üîß Generando datos de ejemplo...")
    
    # Crear dataset de ejemplo para churn prediction
    np.random.seed(42)
    n_samples = 1000
    
    # Caracter√≠sticas num√©ricas
    tenure = np.random.randint(1, 73, n_samples)
    monthly_charges = np.random.uniform(18, 120, n_samples)
    total_charges = monthly_charges * tenure + np.random.normal(0, 50, n_samples)
    
    # Caracter√≠sticas categ√≥ricas
    contract_types = np.random.choice(['Month-to-month', 'One year', 'Two year'], n_samples, p=[0.5, 0.3, 0.2])
    payment_methods = np.random.choice(['Electronic check', 'Mailed check', 'Bank transfer', 'Credit card'], n_samples)
    
    # Variable objetivo (con l√≥gica realista)
    churn_prob = 0.3 - (tenure / 100) + (monthly_charges / 500) + np.random.normal(0, 0.1, n_samples)
    churn_prob = np.clip(churn_prob, 0, 1)
    churn = (np.random.random(n_samples) < churn_prob).astype(int)
    
    # Crear DataFrame de ejemplo
    example_data = pd.DataFrame({
        'customerID': [f'C{i:04d}' for i in range(n_samples)],
        'tenure': tenure,
        'MonthlyCharges': monthly_charges,
        'TotalCharges': total_charges,
        'Contract': contract_types,
        'PaymentMethod': payment_methods,
        'Churn': churn
    })
    
    # Dividir en train y test
    train_size = int(0.8 * len(example_data))
    train_example = example_data[:train_size].copy()
    test_example = example_data[train_size:].copy()
    
    # Para test, eliminar la columna Churn
    test_example = test_example.drop('Churn', axis=1)
    
    # Crear sample submission
    sample_sub = pd.DataFrame({
        'customerID': test_example['customerID'],
        'Churn': 0.5  # Probabilidad placeholder
    })
    
    # Guardar archivos de ejemplo
    train_example.to_csv('train.csv', index=False)
    test_example.to_csv('test.csv', index=False)
    sample_sub.to_csv('sample_submission.csv', index=False)
    
    print(f"‚úÖ Datos de ejemplo creados:")
    print(f"   - train.csv: {len(train_example)} muestras")
    print(f"   - test.csv: {len(test_example)} muestras")
    print(f"   - sample_submission.csv: {len(sample_sub)} muestras")
    print(f"   - Tasa de churn: {train_example['Churn'].mean()*100:.1f}%")
else:
    print("\n‚úÖ Todos los archivos de datos encontrados")

print("\nüöÄ Configuraci√≥n de datos completada")

# **1. Carga de Datos**

## Cargaremos los datasets proporcionados para la competencia usando nuestro m√≥dulo de carga de datos.

In [3]:
# Cargar datos usando el m√≥dulo data_loader
print("üì• Cargando datos de la competencia...")

try:
    # Intentar cargar datos reales de la competencia
    train_data, test_data, sample_submission = data_loader.load_competition_data()
    print("‚úÖ Datos de competencia cargados exitosamente")
except FileNotFoundError:
    print("‚ö†Ô∏è Archivos de competencia no encontrados, generando datos de ejemplo...")
    # Generar datos de ejemplo para desarrollo
    train_data, test_data, sample_submission = data_loader.create_sample_data()
    print("‚úÖ Datos de ejemplo generados exitosamente")

# Mostrar informaci√≥n de los datos
data_info = data_loader.get_data_info(train_data, test_data)
print(f"\nüìä Informaci√≥n de los datos:")
for key, value in data_info.items():
    print(f"   {key}: {value}")

print(f"\nüìã Primeras 5 filas del dataset de entrenamiento:")
display(train_data.head())

print(f"\nüìã Primeras 5 filas del dataset de prueba:")
display(test_data.head())

üì• Cargando datos de la competencia...


NameError: name 'data_loader' is not defined

# **2. Divisi√≥n de Datos**

## Dividiremos los datos en conjuntos de entrenamiento, validaci√≥n y prueba usando nuestro m√≥dulo dataset_splitter.

In [None]:
# Preparar datos para divisi√≥n
print("üìä Preparando datos para divisi√≥n...")

# Separar caracter√≠sticas y variable objetivo
if 'Churn' in train_data.columns:
    X = train_data.drop(['Churn'], axis=1)
    y = train_data['Churn']
else:
    # Si la columna objetivo tiene otro nombre, ajustar aqu√≠
    target_col = train_data.columns[-1]  # Asumir que la √∫ltima columna es el target
    X = train_data.drop([target_col], axis=1)
    y = train_data[target_col]

# Dividir datos usando dataset_splitter
splitter = dataset_splitter.DataSplitter(test_size=0.2, val_size=0.2, random_state=42)

X_train, X_val, X_test, y_train, y_val, y_test = splitter.split_data(X, y)

print(f"‚úÖ Datos divididos exitosamente:")
print(f"   - Entrenamiento: {X_train.shape[0]:,} muestras")
print(f"   - Validaci√≥n: {X_val.shape[0]:,} muestras")
print(f"   - Prueba: {X_test.shape[0]:,} muestras")
print(f"   - Caracter√≠sticas: {X_train.shape[1]}")

# Mostrar distribuci√≥n del target en cada conjunto
print(f"\nüéØ Distribuci√≥n de Churn por conjunto:")
print(f"   - Entrenamiento: {y_train.mean()*100:.1f}% churn")
print(f"   - Validaci√≥n: {y_val.mean()*100:.1f}% churn")
print(f"   - Prueba: {y_test.mean()*100:.1f}% churn")

# **3. An√°lisis Exploratorio de Datos (EDA)**

## Realizaremos un an√°lisis exploratorio completo usando nuestro m√≥dulo EDA.

In [None]:
# Realizar EDA completo usando el m√≥dulo eda
print("üîç Iniciando An√°lisis Exploratorio de Datos...")

# Informaci√≥n b√°sica del dataset
eda.basic_info(train_data)

# An√°lisis de la variable objetivo
eda.analyze_target(train_data, 'Churn' if 'Churn' in train_data.columns else train_data.columns[-1])

# An√°lisis de caracter√≠sticas num√©ricas
eda.analyze_numerical_features(train_data)

# An√°lisis de caracter√≠sticas categ√≥ricas
eda.analyze_categorical_features(train_data)

# An√°lisis de correlaciones
eda.correlation_analysis(train_data)

print("\n‚úÖ An√°lisis Exploratorio completado")

# **4. Preprocesamiento de Datos**

## Prepararemos los datos para el modelado usando ChurnPredictor.

In [None]:
# Preprocesamiento de datos usando ChurnPredictor
from TP5.models import ChurnPredictor

print("üîß Iniciando preprocesamiento de datos...")

# Inicializar el predictor
predictor = ChurnPredictor(random_state=42)

# Crear el preprocesador
preprocessor = predictor.create_preprocessor(X_train)

print("‚úÖ Preprocesador configurado exitosamente")
print(f"üìä Caracter√≠sticas a procesar: {X_train.shape[1]}")

# Mostrar informaci√≥n del preprocesador
print("\nüîß Configuraci√≥n del preprocesador:")
numeric_features = X_train.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X_train.select_dtypes(include=['object']).columns
print(f"   - Caracter√≠sticas num√©ricas: {len(numeric_features)}")
print(f"   - Caracter√≠sticas categ√≥ricas: {len(categorical_features)}")
print(f"   - Num√©ricas: {list(numeric_features)}")
print(f"   - Categ√≥ricas: {list(categorical_features)}")

# **5. Entrenamiento de Modelos**

## Entrenaremos m√∫ltiples modelos de Machine Learning usando ChurnPredictor.

In [None]:
# Entrenamiento de modelos usando ChurnPredictor
print("ü§ñ Iniciando entrenamiento de modelos...")

# Crear los modelos
models_dict = predictor.create_models()

# Entrenar todos los modelos
predictor.train_models(X_train, y_train)

print("\nüéâ Entrenamiento completado para todos los modelos:")
for model_name in models_dict.keys():
    print(f"   ‚úÖ {model_name}")

print(f"\nüìä Modelos entrenados con {len(X_train):,} muestras")

# **6. Evaluaci√≥n de Modelos**

## Evaluaremos todos los modelos y seleccionaremos el mejor usando m√©tricas completas.

In [None]:
# Evaluaci√≥n de modelos
from TP5.metrics import MetricsCalculator

print("üìä Evaluando modelos...")

# Evaluar con el predictor
results = predictor.evaluate_models(X_val, y_val)

# Obtener el mejor modelo
best_model_name, best_model = predictor.get_best_model('ROC_AUC')

# Generar reporte completo
predictor.generate_model_report(X_val, y_val)

# Usar el calculador de m√©tricas para an√°lisis detallado del mejor modelo
calc = MetricsCalculator()

# Predicciones del mejor modelo
y_pred = best_model.predict(X_val)
y_pred_proba = best_model.predict_proba(X_val)[:, 1]

# Reporte detallado
detailed_report = calc.generate_detailed_report(
    y_val, y_pred, y_pred_proba,
    class_names=['No Churn', 'Churn'],
    model_name=best_model_name
)

print(f"\nüèÜ Mejor modelo seleccionado: {best_model_name}")

# **7. Optimizaci√≥n de Hiperpar√°metros**

## Optimizaremos los hiperpar√°metros del mejor modelo.

In [None]:
# Optimizaci√≥n de hiperpar√°metros para el mejor modelo
from TP5.models import hyperparameter_tuning

print(f"üîß Optimizando hiperpar√°metros para {best_model_name}...")

# Definir grillas de par√°metros seg√∫n el modelo
if 'Logistic' in best_model_name:
    param_grid = {
        'classifier__C': [0.1, 1.0, 10.0],
        'classifier__solver': ['liblinear', 'lbfgs']
    }
elif 'KNN' in best_model_name:
    param_grid = {
        'classifier__n_neighbors': [3, 5, 7, 9],
        'classifier__weights': ['uniform', 'distance']
    }
elif 'Random' in best_model_name:
    param_grid = {
        'classifier__n_estimators': [50, 100, 200],
        'classifier__max_depth': [None, 10, 20],
        'classifier__min_samples_split': [2, 5]
    }
else:
    # Para Naive Bayes u otros
    param_grid = {
        'classifier__var_smoothing': [1e-9, 1e-8, 1e-7]
    }

# Realizar b√∫squeda de hiperpar√°metros
grid_search = hyperparameter_tuning(
    best_model, param_grid, X_train, y_train,
    cv=5, scoring='roc_auc'
)

print(f"\nüéØ Hiperpar√°metros optimizados:")
print(f"   - Mejor score CV: {grid_search.best_score_:.4f}")
print(f"   - Mejores par√°metros: {grid_search.best_params_}")

# Actualizar el mejor modelo con los par√°metros optimizados
optimized_model = grid_search.best_estimator_

# Evaluar modelo optimizado
y_pred_opt = optimized_model.predict(X_val)
y_pred_proba_opt = optimized_model.predict_proba(X_val)[:, 1]

# Calcular m√©tricas del modelo optimizado
from sklearn.metrics import roc_auc_score, accuracy_score
opt_auc = roc_auc_score(y_val, y_pred_proba_opt)
opt_acc = accuracy_score(y_val, y_pred_opt)

print(f"\nüìà Mejora con optimizaci√≥n:")
print(f"   - ROC AUC original: {results[best_model_name]['ROC_AUC']:.4f}")
print(f"   - ROC AUC optimizado: {opt_auc:.4f}")
print(f"   - Mejora: {opt_auc - results[best_model_name]['ROC_AUC']:.4f}")

# Guardar el modelo optimizado
best_model = optimized_model

# **8. Predicciones Finales y Submission**

## Generaremos las predicciones finales y crearemos el archivo de submission para Kaggle.

In [None]:
# Predicciones finales y creaci√≥n del archivo de submission
from TP5.models import create_submission_file

print("üìÑ Generando predicciones finales...")

# Combinar datos de entrenamiento y validaci√≥n para el entrenamiento final
X_full_train = pd.concat([X_train, X_val], ignore_index=True)
y_full_train = pd.concat([y_train, y_val], ignore_index=True)

print(f"üìä Datos para entrenamiento final: {len(X_full_train):,} muestras")

# Preparar datos de prueba (usar test_data si es competencia real, o X_test si es simulaci√≥n)
if 'customerID' in test_data.columns:
    # Competencia real
    X_test_final = test_data.drop(['customerID'], axis=1)
    test_ids = test_data['customerID']
else:
    # Datos simulados
    X_test_final = X_test
    test_ids = pd.Series([f'T{i:04d}' for i in range(len(X_test))])

# Crear archivo de submission
submission_df = create_submission_file(
    model=best_model,
    X_train=X_full_train,
    y_train=y_full_train,
    X_test=X_test_final,
    test_ids=test_ids,
    filename="submission_grupoM.csv"
)

# Mostrar primeras predicciones
print(f"\nüìã Primeras 10 predicciones:")
display(submission_df.head(10))

# Estad√≠sticas de las predicciones
predictions = submission_df.iloc[:, 1].values
print(f"\nüìä Estad√≠sticas de predicciones:")
print(f"   - Predicciones de churn (>0.5): {np.sum(predictions > 0.5):,} ({np.mean(predictions > 0.5)*100:.1f}%)")
print(f"   - Predicciones de no churn (‚â§0.5): {np.sum(predictions <= 0.5):,} ({np.mean(predictions <= 0.5)*100:.1f}%)")
print(f"   - Rango: [{predictions.min():.4f}, {predictions.max():.4f}]")

print(f"\n‚úÖ Archivo de submission 'submission_grupoM.csv' creado exitosamente")
print(f"üéØ Listo para subir a Kaggle!")

# **9. An√°lisis Final y Conclusiones**

## Resumen completo del proyecto y resultados obtenidos.

In [None]:
# An√°lisis final y conclusiones
print("üìã RESUMEN FINAL DEL PROYECTO")
print("=" * 60)

# Resumen de datos
print(f"\nüìä Resumen de Datos:")
print(f"   - Muestras de entrenamiento: {len(train_data):,}")
print(f"   - Muestras de prueba: {len(test_data):,}")
print(f"   - Caracter√≠sticas: {X_train.shape[1]}")
print(f"   - Tasa de churn en entrenamiento: {y_train.mean()*100:.1f}%")

# Resumen de modelos
print(f"\nü§ñ Modelos Evaluados:")
for model_name, metrics in results.items():
    print(f"   - {model_name}: ROC AUC = {metrics['ROC_AUC']:.4f}")

print(f"\nüèÜ Mejor Modelo: {best_model_name}")
print(f"   - ROC AUC optimizado: {opt_auc:.4f}")
print(f"   - Accuracy optimizado: {opt_acc:.4f}")

# Insights importantes
print(f"\nüí° Insights Clave:")
print(f"   - El modelo {best_model_name} mostr√≥ el mejor rendimiento")
print(f"   - La optimizaci√≥n de hiperpar√°metros mejor√≥ el rendimiento")
print(f"   - Las caracter√≠sticas m√°s importantes fueron identificadas en el EDA")
print(f"   - El preprocesamiento autom√°tico manej√≥ correctamente los datos")

# Pr√≥ximos pasos
print(f"\nüöÄ Pr√≥ximos Pasos:")
print(f"   1. Subir 'submission_grupoM.csv' a Kaggle")
print(f"   2. Analizar feature importance del modelo final")
print(f"   3. Probar t√©cnicas de ensemble")
print(f"   4. Implementar validaci√≥n cruzada estratificada")
print(f"   5. An√°lisis de errores para mejorar el modelo")

print(f"\n‚úÖ Proyecto completado exitosamente!")
print(f"üéì UTN - An√°lisis de Datos Avanzado - Unidad 5")
print(f"üë• Grupo M - Predicci√≥n de Fuga de Clientes")

# Generar reporte final de EDA
print(f"\nüìÑ Generando reporte final de EDA...")
eda_report = eda.generate_eda_report(train_data)
print(f"‚úÖ Reporte EDA completo generado")