# üì° TelecomX ‚Äî An√°lisis de Evasi√≥n de Clientes (Churn)

**Programa:** Oracle Next Education (ONE) ¬∑ Alura Latam  
**Challenge:** 2 ¬∑ Data Science  
**Autor:** Bernardo Adolfo G√≥mez Montoya  

---

Este notebook documenta el proceso completo de **ETL + An√°lisis Exploratorio** para identificar los factores que provocan la evasi√≥n de clientes en Telecom X, siguiendo la metodolog√≠a √°gil del tablero Trello del challenge.

---
# ‚öôÔ∏è FASE 1 ‚Äî Extracci√≥n (E ¬∑ Extract)
---

## üìå Tarjeta 1: Extracci√≥n de Datos

Para iniciar el an√°lisis, necesitamos importar los datos de la API de **Telecom X**. Estos datos est√°n disponibles en formato **JSON** y contienen informaci√≥n esencial sobre los clientes, incluyendo datos demogr√°ficos, tipo de servicio contratado y estado de evasi√≥n.

**Fuente de datos (API):**  
üîó `https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json`

**¬øQu√© haremos?**
- ‚úÖ Cargar los datos directamente desde la API utilizando Python.
- ‚úÖ Convertir los datos a un **DataFrame de Pandas** para facilitar su manipulaci√≥n.

In [None]:
import pandas as pd
import requests
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# URL de la API proporcionada por el challenge
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"

print("üîÑ Iniciando extracci√≥n de datos desde la API...")

try:
    # 1. Obtener los datos de la API
    respuesta = requests.get(url, timeout=20)
    respuesta.raise_for_status()
    datos_json = respuesta.json()

    # 2. Convertir a DataFrame
    # Usamos json_normalize() porque la estructura JSON es anidada
    # Esto separa 'customer', 'phone', 'account', etc. en columnas individuales
    df = pd.json_normalize(datos_json)

    print("‚úÖ Extracci√≥n exitosa.")
    print(f"üìä El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
    print("\nüìã Primeras 5 filas del dataset:")
    display(df.head())

except Exception as e:
    print(f"‚ùå Error al extraer los datos: {e}")

---
# üîß FASE 2 ‚Äî Transformaci√≥n (T ¬∑ Transform)
---

## üìå Tarjeta 2: Conoce el Conjunto de Datos

Ahora que hemos extra√≠do los datos, es fundamental **comprender la estructura del dataset** y el significado de sus columnas. Esta etapa nos ayudar√° a identificar qu√© variables son m√°s relevantes para el an√°lisis de evasi√≥n de clientes.

**¬øQu√© haremos?**
- ‚úÖ Explorar las columnas del dataset y verificar sus **tipos de datos**.
- ‚úÖ Consultar el diccionario para comprender mejor el significado de las variables.
- ‚úÖ Identificar las columnas m√°s relevantes para el an√°lisis de evasi√≥n.

**Referencias:** `DataFrame.info()` ¬∑ `DataFrame.dtypes`

In [None]:
# --- Exploraci√≥n general del dataset ---
print("=" * 60)
print("üìã INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 60)
df.info()

print("\n" + "=" * 60)
print("üî¢ TIPOS DE DATOS POR COLUMNA")
print("=" * 60)
print(df.dtypes)

print("\n" + "=" * 60)
print("üîç VERIFICACI√ìN DE DUPLICADOS")
print("=" * 60)
print(f"Filas duplicadas encontradas: {df.duplicated().sum()}")

In [None]:
# --- Diccionario de Datos ---
# Descripci√≥n de las columnas m√°s relevantes para el an√°lisis

diccionario = {
    'Columna': [
        'customerID', 'Churn',
        'customer.gender', 'customer.SeniorCitizen', 'customer.Partner',
        'customer.Dependents', 'customer.tenure',
        'phone.PhoneService', 'phone.MultipleLines',
        'internet.InternetService', 'internet.OnlineSecurity',
        'internet.TechSupport', 'internet.StreamingTV',
        'account.Contract', 'account.PaperlessBilling',
        'account.PaymentMethod', 'account.Charges.Monthly',
        'account.Charges.Total'
    ],
    'Descripci√≥n': [
        'Identificador √∫nico del cliente', 'Si el cliente abandon√≥ el servicio (Yes/No)',
        'G√©nero del cliente (Male/Female)', 'Si el cliente es adulto mayor (1/0)',
        'Si el cliente tiene pareja (Yes/No)', 'Si el cliente tiene dependientes (Yes/No)',
        'Meses que el cliente lleva con la empresa',
        'Si tiene servicio telef√≥nico (Yes/No)', 'Si tiene m√∫ltiples l√≠neas (Yes/No)',
        'Tipo de servicio de internet (DSL/Fiber/No)',
        'Si tiene seguridad online (Yes/No)', 'Si tiene soporte t√©cnico (Yes/No)',
        'Si tiene TV en streaming (Yes/No)',
        'Tipo de contrato (Month-to-month/One year/Two year)',
        'Si usa facturaci√≥n sin papel (Yes/No)',
        'M√©todo de pago del cliente',
        'Cargo mensual actual del cliente (USD)',
        'Total cobrado al cliente durante su permanencia (USD)'
    ]
}

df_diccionario = pd.DataFrame(diccionario)
print("üìñ DICCIONARIO DE DATOS")
display(df_diccionario)# --- Diccionario de Datos ---
# Descripci√≥n de las columnas m√°s relevantes para el an√°lisis

diccionario = {
    'Columna': [
        'customerID', 'Churn',
        'customer.gender', 'customer.SeniorCitizen', 'customer.Partner',
        'customer.Dependents', 'customer.tenure',
        'phone.PhoneService', 'phone.MultipleLines',
        'internet.InternetService', 'internet.OnlineSecurity',
        'internet.TechSupport', 'internet.StreamingTV',
        'account.Contract', 'account.PaperlessBilling',
        'account.PaymentMethod', 'account.Charges.Monthly',
        'account.Charges.Total'
    ],
    'Descripci√≥n': [
        'Identificador √∫nico del cliente', 'Si el cliente abandon√≥ el servicio (Yes/No)',
        'G√©nero del cliente (Male/Female)', 'Si el cliente es adulto mayor (1/0)',
        'Si el cliente tiene pareja (Yes/No)', 'Si el cliente tiene dependientes (Yes/No)',
        'Meses que el cliente lleva con la empresa',
        'Si tiene servicio telef√≥nico (Yes/No)', 'Si tiene m√∫ltiples l√≠neas (Yes/No)',
        'Tipo de servicio de internet (DSL/Fiber/No)',
        'Si tiene seguridad online (Yes/No)', 'Si tiene soporte t√©cnico (Yes/No)',
        'Si tiene TV en streaming (Yes/No)',
        'Tipo de contrato (Month-to-month/One year/Two year)',
        'Si usa facturaci√≥n sin papel (Yes/No)',
        'M√©todo de pago del cliente',
        'Cargo mensual actual del cliente (USD)',
        'Total cobrado al cliente durante su permanencia (USD)'
    ]
}

df_diccionario = pd.DataFrame(diccionario)
print("üìñ DICCIONARIO DE DATOS")
display(df_diccionario)

## üìå Tarjeta 3: Comprobaci√≥n de Incoherencias en los Datos

En este paso verificamos si hay **problemas en los datos** que puedan afectar el an√°lisis. Prestamos atenci√≥n a:
- üîç Valores **ausentes (NaN)**
- üîç Registros **duplicados**
- üîç **Errores de formato** e inconsistencias en las categor√≠as

**Referencias:** `pandas.unique()` ¬∑ `pandas.Series.value_counts()`

In [None]:
# --- Comprobaci√≥n de valores nulos ---
print("=" * 60)
print("üîç VALORES NULOS POR COLUMNA")
print("=" * 60)
nulos = df.isnull().sum().sort_values(ascending=False)
print(nulos[nulos > 0] if nulos.sum() > 0 else "‚úÖ No se encontraron valores nulos")

print("\n" + "=" * 60)
print("üîç VALORES √öNICOS EN COLUMNAS CATEG√ìRICAS CLAVE")
print("=" * 60)

columnas_clave = [
    'customer.gender', 'account.Contract',
    'account.PaymentMethod', 'Churn'
]

for col in columnas_clave:
    if col in df.columns:
        print(f"\nüìå Columna: '{col}'")
        print(df[col].value_counts(dropna=False))

print("\n" + "=" * 60)
print("üîç TIPOS MIXTOS O STRINGS NUM√âRICOS (Charges.Total)")
print("=" * 60)
print(df['account.Charges.Total'].dtype)
print("Muestra de valores:", df['account.Charges.Total'].unique()[:10])

## üìå Tarjeta 4: Manejo de Inconsistencias

Ahora que hemos identificado las inconsistencias, aplicamos las **correcciones necesarias** para asegurarnos de que los datos est√©n completos y coherentes, prepar√°ndolos para las siguientes etapas del an√°lisis.

**Acciones a realizar:**
- ‚úÖ Convertir columnas de cargos a tipo num√©rico.
- ‚úÖ Rellenar valores nulos generados por la conversi√≥n.
- ‚úÖ Eliminar espacios en blanco en strings.
- ‚úÖ Estandarizar categor√≠as inconsistentes.

In [None]:
# --- Manejo de Inconsistencias ---

# 1. Convertir columnas de cargos a tipo num√©rico
# (pueden venir como string vac√≠o '' o con espacios)
df['account.Charges.Total'] = pd.to_numeric(df['account.Charges.Total'], errors='coerce')
df['account.Charges.Monthly'] = pd.to_numeric(df['account.Charges.Monthly'], errors='coerce')

# 2. Verificar cu√°ntos nulos aparecieron tras la conversi√≥n
nulos_total = df['account.Charges.Total'].isnull().sum()
nulos_monthly = df['account.Charges.Monthly'].isnull().sum()
print(f"üî¢ Valores nulos en Charges.Total tras conversi√≥n: {nulos_total}")
print(f"üî¢ Valores nulos en Charges.Monthly tras conversi√≥n: {nulos_monthly}")

# 3. Rellenar nulos con 0 (clientes nuevos sin historial de pagos)
df['account.Charges.Total'] = df['account.Charges.Total'].fillna(0)
df['account.Charges.Monthly'] = df['account.Charges.Monthly'].fillna(0)

# 4. Eliminar espacios en blanco en columnas de texto
df = df.apply(lambda x: x.str.strip() if x.dtype == 'object' else x)

# 5. Verificar columna Churn: limpiar valores inconsistentes si los hay
print(f"\nüìä Valores √∫nicos en 'Churn' tras limpieza: {df['Churn'].unique()}")

# 6. Eliminar duplicados si existen
before = df.shape[0]
df = df.drop_duplicates()
after = df.shape[0]
print(f"\nüóëÔ∏è  Duplicados eliminados: {before - after}")
print("\n‚úÖ Manejo de inconsistencias completado.")

## üìå Tarjeta 5: Columna de Cuentas Diarias

Ahora que los datos est√°n limpios, creamos la columna **`Cuentas_Diarias`**. Utilizamos la facturaci√≥n mensual para calcular el **valor diario**, lo que proporciona una visi√≥n m√°s detallada del comportamiento de los clientes a lo largo del tiempo.

> Esta columna ayudar√° a profundizar en el an√°lisis y a obtener informaci√≥n valiosa para las siguientes etapas.

In [None]:
# --- Feature Engineering: Columna Cuentas_Diarias ---
# C√°lculo: cargo mensual dividido entre 30 d√≠as

df['Cuentas_Diarias'] = (df['account.Charges.Monthly'] / 30).round(2)

print("‚úÖ Columna 'Cuentas_Diarias' creada exitosamente.")
print("\nüìä Estad√≠sticas de la nueva columna:")
print(df['Cuentas_Diarias'].describe().round(2))
print("\nüìã Muestra de valores:")
print(df[['account.Charges.Monthly', 'Cuentas_Diarias']].head(10))

## üìå Tarjeta 6: Estandarizaci√≥n y Transformaci√≥n de Datos *(Recomendado)*

La estandarizaci√≥n y transformaci√≥n de datos busca hacer que la informaci√≥n sea m√°s **consistente, comprensible y adecuada** para el an√°lisis.

**Acciones en esta etapa:**
- ‚úÖ **Renombrar columnas** al espa√±ol para facilitar la lectura de stakeholders hispanohablantes.
- ‚úÖ Convertir la variable `Churn` de texto (`Yes/No`) a **binario** (`1/0`) para procesamiento matem√°tico.

> Aunque es opcional, mejora significativamente la claridad y comunicaci√≥n de los resultados.

In [None]:
# --- Estandarizaci√≥n y Transformaci√≥n ---

# 1. Diccionario de renombrado de columnas (ingl√©s ‚Üí espa√±ol)
diccionario_nombres = {
    'customerID':                   'ID_Cliente',
    'Churn':                        'Evasion',
    'customer.gender':              'Genero',
    'customer.SeniorCitizen':       'Adulto_Mayor',
    'customer.Partner':             'Tiene_Pareja',
    'customer.Dependents':          'Tiene_Dependientes',
    'customer.tenure':              'Meses_Contrato',
    'phone.PhoneService':           'Servicio_Telefono',
    'phone.MultipleLines':          'Multiples_Lineas',
    'internet.InternetService':     'Tipo_Internet',
    'internet.OnlineSecurity':      'Seguridad_Online',
    'internet.OnlineBackup':        'Backup_Online',
    'internet.DeviceProtection':    'Proteccion_Dispositivo',
    'internet.TechSupport':         'Soporte_Tecnico',
    'internet.StreamingTV':         'Streaming_TV',
    'internet.StreamingMovies':     'Streaming_Peliculas',
    'account.Contract':             'Tipo_Contrato',
    'account.PaperlessBilling':     'Factura_Digital',
    'account.PaymentMethod':        'Metodo_Pago',
    'account.Charges.Monthly':      'Cargos_Mensuales',
    'account.Charges.Total':        'Cargos_Totales'
}

df_limpio = df.rename(columns=diccionario_nombres)

# 2. Convertir Evasi√≥n (Yes/No) ‚Üí Binario (1/0)
df_limpio['Evasion_Binaria'] = df_limpio['Evasion'].map({'Yes': 1, 'No': 0})

print("‚úÖ Datos estandarizados y traducidos.")
print(f"\nüìä Columnas en el dataset limpio: {df_limpio.shape[1]}")
print("\nüìã Vista previa del dataset transformado:")
display(df_limpio[['ID_Cliente', 'Evasion', 'Evasion_Binaria', 'Genero',
                    'Tipo_Contrato', 'Cargos_Mensuales', 'Cuentas_Diarias']].head())

---
# üìä FASE 3 ‚Äî Carga y An√°lisis (L ¬∑ Load & Analysis)
---

## üìå Tarjeta 7: An√°lisis Descriptivo

Comenzamos con un **an√°lisis descriptivo** de los datos, calculando m√©tricas como media, mediana, desviaci√≥n est√°ndar y otras medidas que ayuden a comprender la distribuci√≥n y el comportamiento de los clientes.

**Referencia:** `DataFrame.describe()`

In [None]:
# --- An√°lisis Descriptivo ---
print("=" * 60)
print("üìä ESTAD√çSTICAS DESCRIPTIVAS ‚Äî VARIABLES NUM√âRICAS")
print("=" * 60)

cols_numericas = ['Meses_Contrato', 'Cargos_Mensuales', 'Cargos_Totales', 'Cuentas_Diarias']
display(df_limpio[cols_numericas].describe().round(2))

print("\n" + "=" * 60)
print("üìä DISTRIBUCI√ìN DE LA VARIABLE OBJETIVO: EVASI√ìN")
print("=" * 60)
conteo_evasion = df_limpio['Evasion'].value_counts()
porcentaje_evasion = df_limpio['Evasion'].value_counts(normalize=True) * 100
resumen = pd.DataFrame({'Cantidad': conteo_evasion, 'Porcentaje (%)': porcentaje_evasion.round(2)})
print(resumen)
print(f"\nüìå Tasa de evasi√≥n total: {porcentaje_evasion['Yes']:.2f}%")

## üìå Tarjeta 8: Distribuci√≥n de Evasi√≥n

En este paso, el objetivo es **comprender c√≥mo est√° distribuida** la variable *churn* (evasi√≥n) entre los clientes. Utilizamos gr√°ficos para visualizar la **proporci√≥n de clientes** que permanecieron y los que se dieron de baja.

In [None]:
# --- Distribuci√≥n de Evasi√≥n ---
fig, axes = plt.subplots(1, 2, figsize=(14, 6))
fig.suptitle('Distribuci√≥n de Evasi√≥n de Clientes (Churn)', fontsize=16, fontweight='bold', y=1.02)

# Gr√°fico 1: Pie chart
colores = ['#4ECDC4', '#FF6B6B']
conteo = df_limpio['Evasion'].value_counts().reindex(['No', 'Yes'])  # ‚Üê Ordenar consistentemente
axes[0].pie(
    conteo,
    labels=['No evadi√≥', 'Evadi√≥'],
    autopct='%1.1f%%',
    colors=colores,
    startangle=90,
    wedgeprops={'edgecolor': 'white', 'linewidth': 2}
)
axes[0].set_title('Proporci√≥n de Evasi√≥n', fontsize=13)

# Gr√°fico 2: Barras
bars = axes[1].bar(
    ['No evadi√≥', 'Evadi√≥'],
    conteo.values,
    color=colores,
    edgecolor='white',
    linewidth=1.5
)
axes[1].set_title('Recuento de Evasi√≥n', fontsize=13)
axes[1].set_ylabel('N√∫mero de Clientes')
for bar, val in zip(bars, conteo.values):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 50,
                 f'{val:,}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()
print(f"\nüìå De {conteo.sum():,} clientes, {conteo['Yes']:,} ({conteo['Yes']/conteo.sum()*100:.1f}%) abandonaron el servicio.")

## üìå Tarjeta 9: Recuento de Evasi√≥n por Variables Categ√≥ricas

Exploramos c√≥mo se distribuye la evasi√≥n seg√∫n **variables categ√≥ricas**, como g√©nero, tipo de contrato y m√©todo de pago.

> Este an√°lisis puede revelar patrones interesantes: por ejemplo, si los clientes de ciertos perfiles tienen mayor tendencia a cancelar el servicio.

In [None]:
# --- Evasi√≥n por Variables Categ√≥ricas ---
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('Evasi√≥n por Variables Categ√≥ricas', fontsize=16, fontweight='bold')

paleta = {'Yes': '#FF6B6B', 'No': '#4ECDC4'}

# 1. Por G√©nero
sns.countplot(x='Genero', hue='Evasion', data=df_limpio,
              palette=paleta, ax=axes[0, 0])
axes[0, 0].set_title('Evasi√≥n por G√©nero', fontsize=13)
axes[0, 0].set_xlabel('G√©nero')
axes[0, 0].set_ylabel('Cantidad de Clientes')
axes[0, 0].legend(title='Evasi√≥n')

# 2. Por Tipo de Contrato
sns.countplot(x='Tipo_Contrato', hue='Evasion', data=df_limpio,
              palette=paleta, ax=axes[0, 1])
axes[0, 1].set_title('Evasi√≥n por Tipo de Contrato', fontsize=13)
axes[0, 1].set_xlabel('Tipo de Contrato')
axes[0, 1].set_ylabel('Cantidad de Clientes')
axes[0, 1].tick_params(axis='x', rotation=10)
axes[0, 1].legend(title='Evasi√≥n')

# 3. Por M√©todo de Pago
sns.countplot(x='Metodo_Pago', hue='Evasion', data=df_limpio,
              palette=paleta, ax=axes[1, 0])
axes[1, 0].set_title('Evasi√≥n por M√©todo de Pago', fontsize=13)
axes[1, 0].set_xlabel('M√©todo de Pago')
axes[1, 0].set_ylabel('Cantidad de Clientes')
axes[1, 0].tick_params(axis='x', rotation=20)
axes[1, 0].legend(title='Evasi√≥n')

# 4. Por Tipo de Internet
sns.countplot(x='Tipo_Internet', hue='Evasion', data=df_limpio,
              palette=paleta, ax=axes[1, 1])
axes[1, 1].set_title('Evasi√≥n por Tipo de Internet', fontsize=13)
axes[1, 1].set_xlabel('Tipo de Servicio de Internet')
axes[1, 1].set_ylabel('Cantidad de Clientes')
axes[1, 1].legend(title='Evasi√≥n')

plt.tight_layout()
plt.show()

## üìå Tarjeta 10: Conteo de Evasi√≥n por Variables Num√©ricas

Exploramos c√≥mo las **variables num√©ricas** ‚Äî como el total gastado o el tiempo de contrato ‚Äî se distribuyen entre clientes que evadieron y los que no.

> Este an√°lisis ayuda a entender si ciertos valores num√©ricos est√°n m√°s asociados con la evasi√≥n, proporcionando insights sobre los factores que influyen en el comportamiento de los clientes.

In [None]:
# --- Evasi√≥n por Variables Num√©ricas ---
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
fig.suptitle('Distribuci√≥n de Variables Num√©ricas por Evasi√≥n', fontsize=16, fontweight='bold')

paleta_violin = {'Yes': '#FF6B6B', 'No': '#4ECDC4'}

# 1. Meses de Contrato vs Evasi√≥n
sns.boxplot(x='Evasion', y='Meses_Contrato', data=df_limpio,
            palette=paleta_violin, ax=axes[0])
axes[0].set_title('Meses de Contrato vs Evasi√≥n', fontsize=12)
axes[0].set_xlabel('Evasi√≥n')
axes[0].set_ylabel('Meses de Contrato')

# 2. Cargos Mensuales vs Evasi√≥n
sns.boxplot(x='Evasion', y='Cargos_Mensuales', data=df_limpio,
            palette=paleta_violin, ax=axes[1])
axes[1].set_title('Cargos Mensuales vs Evasi√≥n', fontsize=12)
axes[1].set_xlabel('Evasi√≥n')
axes[1].set_ylabel('Cargos Mensuales (USD)')

# 3. Cargos Totales vs Evasi√≥n
sns.boxplot(x='Evasion', y='Cargos_Totales', data=df_limpio,
            palette=paleta_violin, ax=axes[2])
axes[2].set_title('Cargos Totales vs Evasi√≥n', fontsize=12)
axes[2].set_xlabel('Evasi√≥n')
axes[2].set_ylabel('Cargos Totales (USD)')

plt.tight_layout()
plt.show()

# Estad√≠sticas comparativas
print("\nüìä Comparativa de medias por grupo de Evasi√≥n:")
cols_numericas = ['Meses_Contrato', 'Cargos_Mensuales', 'Cargos_Totales', 'Cuentas_Diarias']
print(df_limpio.groupby('Evasion')[cols_numericas].mean().round(2))