***
#<font color="#274C77" size=10>Challenge TelecomX - PARTE 2</font>
***

## üß† Predicci√≥n de Cancelaci√≥n de Clientes (Churn)

Este notebook forma parte del desaf√≠o **TelecomX Parte 2**, cuyo objetivo es construir un modelo de Machine Learning para predecir la cancelaci√≥n de clientes de una empresa ficticia de telecomunicaciones.

**Enlace al Trello del proyecto**: [TelecomX_parte2_Latam](https://trello.com/b/J85wDAhj/telecomxparte2latam)  
**Repositorio GitHub**: [github.com/PamelaOrmeno/TelecomX_parte2_Latam](https://github.com/PamelaOrmeno/TelecomX_parte2_Latam)

---


## üì¶ Importaci√≥n de Librer√≠as

Comenzamos cargando todas las librer√≠as necesarias para manipulaci√≥n de datos, visualizaci√≥n, preprocesamiento y modelado. Se incluye manejo de errores para asegurar que el entorno tenga todos los paquetes disponibles.

In [None]:
# Librer√≠as principales
try:
    import pandas as pd
    from pandas import json_normalize
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    import plotly.express as px
    print("‚úÖ Librer√≠as de an√°lisis y visualizaci√≥n cargadas correctamente.")
except ImportError as e:
    print(f"‚ùå Error al importar librer√≠as principales: {e}")

# Librer√≠as para machine learning
try:
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import LabelEncoder, StandardScaler
    from sklearn.linear_model import LogisticRegression
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.metrics import classification_report, confusion_matrix
    print("‚úÖ Librer√≠as de machine learning cargadas correctamente.")
except ImportError as e:
    print(f"‚ùå Error al importar librer√≠as de machine learning: {e}")

# Configuraciones generales
try:
    import warnings
    warnings.filterwarnings('ignore')
    pd.set_option('display.max_columns', None)
    print("‚úÖ Configuraciones aplicadas.")
except Exception as e:
    print(f"‚ùå Error en configuraci√≥n inicial: {e}")


‚úÖ Librer√≠as de an√°lisis y visualizaci√≥n cargadas correctamente.
‚úÖ Librer√≠as de machine learning cargadas correctamente.
‚úÖ Configuraciones aplicadas.


## üß± Carga y Exploraci√≥n Inicial

En esta etapa cargamos el dataset directamente desde un repositorio p√∫blico de GitHub. Posteriormente, realizamos una exploraci√≥n preliminar para entender su estructura general y detectar posibles problemas a resolver.


### üì¶ C√≥digo Python: Carga desde GitHub

In [None]:
# Cargar dataset desde GitHub (formato JSON plano)
try:
    import pandas as pd

    url_data = 'https://raw.githubusercontent.com/PamelaOrmeno/TelecomX_parte2_Latam/refs/heads/main/Data/TelecomX_Data.json'
    df = pd.read_json(url_data)
    print(f"‚úÖ Datos cargados desde GitHub. Registros encontrados: {len(df)}")

except Exception as e:
    print(f"‚ùå Error al cargar datos desde GitHub: {e}")


‚úÖ Datos cargados desde GitHub. Registros encontrados: 7267


### üîç C√≥digo Python: Exploraci√≥n Preliminar

In [None]:
# Exploraci√≥n general de dimensiones, columnas y tipos de datos
try:
    print("üìê Dimensiones del dataset:", df.shape)

    print("\nüß© Primeras columnas:")
    display(df.columns.to_frame(index=False).head())

    print("\nüßæ Tipos de datos:")
    display(df.dtypes)

except Exception as e:
    print(f"‚ùå Error durante la exploraci√≥n inicial: {e}")


üìê Dimensiones del dataset: (7267, 6)

üß© Primeras columnas:


Unnamed: 0,0
0,customerID
1,Churn
2,customer
3,phone
4,internet



üßæ Tipos de datos:


Unnamed: 0,0
customerID,object
Churn,object
customer,object
phone,object
internet,object
account,object


## üõ†Ô∏è Preparaci√≥n del Dataset para Modelado

En esta secci√≥n se realiza el preprocesamiento del dataset. Esto incluye la conversi√≥n de variables categ√≥ricas a num√©ricas, el tratamiento de valores faltantes y la normalizaci√≥n de variables num√©ricas. Estas transformaciones son fundamentales para asegurar que los modelos funcionen correctamente.

---


### üî§ Codificaci√≥n de variables categ√≥ricas

Convertimos variables categ√≥ricas (como "Yes"/"No", "Male"/"Female") a variables num√©ricas. Se utiliza `LabelEncoder` para variables binarias y `get_dummies()` para aquellas con m√∫ltiples categor√≠as.


In [None]:
# Preparaci√≥n estructural completa: desanidado, normalizaci√≥n y df_model listo
try:
  # Verificamos que el DataFrame df exista y tenga columnas anidadas
    if 'customer' in df.columns:
        # Desanidamos las columnas estructuradas
        df_customer = json_normalize(df['customer'])
        df_phone = json_normalize(df['phone'])
        df_internet = json_normalize(df['internet'])
        df_account = json_normalize(df['account'])

        # Unimos todo en un nuevo DataFrame plano
        df_flat = pd.concat([
            df['customerID'], df['Churn'],
            df_customer, df_phone, df_internet, df_account
        ], axis=1)

        #print(f"‚úÖ Dataset desanidado correctamente. Dimensiones: {df_flat.shape}")
    else:
        raise ValueError("No se encontraron columnas anidadas ('customer', 'phone', etc.)")

    # Normalizamos nombres de columnas
    df_flat.columns = (
        df_flat.columns
        .str.strip()
        .str.lower()
        .str.replace(' ', '_')
        .str.replace('.', '_')
    )
    #print("‚úÖ Nombres de columnas normalizados.")

    # Eliminamos columnas irrelevantes antes del modelado
    df_model = df_flat.copy()
    if 'customerid' in df_model.columns:
        df_model.drop(columns=['customerid'], inplace=True)
        #print("‚úÖ Columna 'customerid' eliminada del dataset final.")

except Exception as e:
    print(f"‚ùå Error durante la preparaci√≥n estructural: {e}")


In [None]:
df_model.to_excel('archivo_salida.xlsx', sheet_name='Hoja1', index=False)


### ‚úÖ Revisi√≥n final del dataset preprocesado

Antes de dividir los datos para el entrenamiento, hacemos una revisi√≥n r√°pida del dataset resultante: n√∫mero de variables, balance de clases y chequeo de consistencia general.


In [None]:
# Verificaci√≥n final antes de modelar
try:
    print("üìê Dimensiones del dataset preprocesado:", df_model.shape)

    print("\nüîç Tipos de datos:")
    display(df_model.dtypes.value_counts())

    print("\nüìä Balance de clases (variable objetivo):")
    if 'churn' in df_model.columns:
        display(df_model['churn'].value_counts(normalize=True))
    else:
        print("‚ö†Ô∏è No se encontr√≥ la columna 'churn' como variable objetivo.")

except Exception as e:
    print(f"‚ùå Error al revisar dataset final: {e}")


üìê Dimensiones del dataset preprocesado: (7267, 20)

üîç Tipos de datos:


Unnamed: 0,count
object,17
int64,2
float64,1



üìä Balance de clases (variable objetivo):


Unnamed: 0_level_0,proportion
churn,Unnamed: 1_level_1
No,0.711986
Yes,0.25719
,0.030824
