# üì° TelecomX ‚Äî An√°lisis de Evasi√≥n de Clientes (Churn)

**Programa:** Oracle Next Education (ONE) ¬∑ Alura Latam  
**Challenge:** 2 ¬∑ Data Science  
**Autor:** Bernardo Adolfo G√≥mez Montoya  

---

Este notebook documenta el proceso completo de **ETL + An√°lisis Exploratorio** para identificar los factores que provocan la evasi√≥n de clientes en Telecom X, siguiendo la metodolog√≠a √°gil del tablero Trello del challenge.

---
# ‚öôÔ∏è FASE 1 ‚Äî Extracci√≥n (E ¬∑ Extract)
---

## üìå Tarjeta 1: Extracci√≥n de Datos

Para iniciar el an√°lisis, necesitamos importar los datos de la API de **Telecom X**. Estos datos est√°n disponibles en formato **JSON** y contienen informaci√≥n esencial sobre los clientes, incluyendo datos demogr√°ficos, tipo de servicio contratado y estado de evasi√≥n.

**Fuente de datos (API):**  
üîó `https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json`

**¬øQu√© haremos?**
- ‚úÖ Cargar los datos directamente desde la API utilizando Python.
- ‚úÖ Convertir los datos a un **DataFrame de Pandas** para facilitar su manipulaci√≥n.

In [None]:
import pandas as pd
import requests
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# URL de la API proporcionada por el challenge
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"

print("üîÑ Iniciando extracci√≥n de datos desde la API...")

try:
    # 1. Obtener los datos de la API
    respuesta = requests.get(url, timeout=20)
    respuesta.raise_for_status()
    datos_json = respuesta.json()

    # 2. Convertir a DataFrame
    # Usamos json_normalize() porque la estructura JSON es anidada
    # Esto separa 'customer', 'phone', 'account', etc. en columnas individuales
    df = pd.json_normalize(datos_json)

    print("‚úÖ Extracci√≥n exitosa.")
    print(f"üìä El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
    print("\nüìã Primeras 5 filas del dataset:")
    display(df.head())

except Exception as e:
    print(f"‚ùå Error al extraer los datos: {e}")

---
# üîß FASE 2 ‚Äî Transformaci√≥n (T ¬∑ Transform)
---

## üìå Tarjeta 2: Conoce el Conjunto de Datos

Ahora que hemos extra√≠do los datos, es fundamental **comprender la estructura del dataset** y el significado de sus columnas. Esta etapa nos ayudar√° a identificar qu√© variables son m√°s relevantes para el an√°lisis de evasi√≥n de clientes.

**¬øQu√© haremos?**
- ‚úÖ Explorar las columnas del dataset y verificar sus **tipos de datos**.
- ‚úÖ Consultar el diccionario para comprender mejor el significado de las variables.
- ‚úÖ Identificar las columnas m√°s relevantes para el an√°lisis de evasi√≥n.

**Referencias:** `DataFrame.info()` ¬∑ `DataFrame.dtypes`

In [None]:
# --- Exploraci√≥n general del dataset ---
print("=" * 60)
print("üìã INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 60)
df.info()

print("\n" + "=" * 60)
print("üî¢ TIPOS DE DATOS POR COLUMNA")
print("=" * 60)
print(df.dtypes)

print("\n" + "=" * 60)
print("üîç VERIFICACI√ìN DE DUPLICADOS")
print("=" * 60)
print(f"Filas duplicadas encontradas: {df.duplicated().sum()}")

In [None]:
# --- Diccionario de Datos ---
# Descripci√≥n de las columnas m√°s relevantes para el an√°lisis

diccionario = {
    'Columna': [
        'customerID', 'Churn',
        'customer.gender', 'customer.SeniorCitizen', 'customer.Partner',
        'customer.Dependents', 'customer.tenure',
        'phone.PhoneService', 'phone.MultipleLines',
        'internet.InternetService', 'internet.OnlineSecurity',
        'internet.TechSupport', 'internet.StreamingTV',
        'account.Contract', 'account.PaperlessBilling',
        'account.PaymentMethod', 'account.Charges.Monthly',
        'account.Charges.Total'
    ],
    'Descripci√≥n': [
        'Identificador √∫nico del cliente', 'Si el cliente abandon√≥ el servicio (Yes/No)',
        'G√©nero del cliente (Male/Female)', 'Si el cliente es adulto mayor (1/0)',
        'Si el cliente tiene pareja (Yes/No)', 'Si el cliente tiene dependientes (Yes/No)',
        'Meses que el cliente lleva con la empresa',
        'Si tiene servicio telef√≥nico (Yes/No)', 'Si tiene m√∫ltiples l√≠neas (Yes/No)',
        'Tipo de servicio de internet (DSL/Fiber/No)',
        'Si tiene seguridad online (Yes/No)', 'Si tiene soporte t√©cnico (Yes/No)',
        'Si tiene TV en streaming (Yes/No)',
        'Tipo de contrato (Month-to-month/One year/Two year)',
        'Si usa facturaci√≥n sin papel (Yes/No)',
        'M√©todo de pago del cliente',
        'Cargo mensual actual del cliente (USD)',
        'Total cobrado al cliente durante su permanencia (USD)'
    ]
}

df_diccionario = pd.DataFrame(diccionario)
print("üìñ DICCIONARIO DE DATOS")
display(df_diccionario)# --- Diccionario de Datos ---
# Descripci√≥n de las columnas m√°s relevantes para el an√°lisis

diccionario = {
    'Columna': [
        'customerID', 'Churn',
        'customer.gender', 'customer.SeniorCitizen', 'customer.Partner',
        'customer.Dependents', 'customer.tenure',
        'phone.PhoneService', 'phone.MultipleLines',
        'internet.InternetService', 'internet.OnlineSecurity',
        'internet.TechSupport', 'internet.StreamingTV',
        'account.Contract', 'account.PaperlessBilling',
        'account.PaymentMethod', 'account.Charges.Monthly',
        'account.Charges.Total'
    ],
    'Descripci√≥n': [
        'Identificador √∫nico del cliente', 'Si el cliente abandon√≥ el servicio (Yes/No)',
        'G√©nero del cliente (Male/Female)', 'Si el cliente es adulto mayor (1/0)',
        'Si el cliente tiene pareja (Yes/No)', 'Si el cliente tiene dependientes (Yes/No)',
        'Meses que el cliente lleva con la empresa',
        'Si tiene servicio telef√≥nico (Yes/No)', 'Si tiene m√∫ltiples l√≠neas (Yes/No)',
        'Tipo de servicio de internet (DSL/Fiber/No)',
        'Si tiene seguridad online (Yes/No)', 'Si tiene soporte t√©cnico (Yes/No)',
        'Si tiene TV en streaming (Yes/No)',
        'Tipo de contrato (Month-to-month/One year/Two year)',
        'Si usa facturaci√≥n sin papel (Yes/No)',
        'M√©todo de pago del cliente',
        'Cargo mensual actual del cliente (USD)',
        'Total cobrado al cliente durante su permanencia (USD)'
    ]
}

df_diccionario = pd.DataFrame(diccionario)
print("üìñ DICCIONARIO DE DATOS")
display(df_diccionario)

## üìå Tarjeta 3: Comprobaci√≥n de Incoherencias en los Datos

En este paso verificamos si hay **problemas en los datos** que puedan afectar el an√°lisis. Prestamos atenci√≥n a:
- üîç Valores **ausentes (NaN)**
- üîç Registros **duplicados**
- üîç **Errores de formato** e inconsistencias en las categor√≠as

**Referencias:** `pandas.unique()` ¬∑ `pandas.Series.value_counts()`

In [None]:
# --- Comprobaci√≥n de valores nulos ---
print("=" * 60)
print("üîç VALORES NULOS POR COLUMNA")
print("=" * 60)
nulos = df.isnull().sum().sort_values(ascending=False)
print(nulos[nulos > 0] if nulos.sum() > 0 else "‚úÖ No se encontraron valores nulos")

print("\n" + "=" * 60)
print("üîç VALORES √öNICOS EN COLUMNAS CATEG√ìRICAS CLAVE")
print("=" * 60)

columnas_clave = [
    'customer.gender', 'account.Contract',
    'account.PaymentMethod', 'Churn'
]

for col in columnas_clave:
    if col in df.columns:
        print(f"\nüìå Columna: '{col}'")
        print(df[col].value_counts(dropna=False))

print("\n" + "=" * 60)
print("üîç TIPOS MIXTOS O STRINGS NUM√âRICOS (Charges.Total)")
print("=" * 60)
print(df['account.Charges.Total'].dtype)
print("Muestra de valores:", df['account.Charges.Total'].unique()[:10])