<a href="https://colab.research.google.com/github/byfurkation/TelecomX_datos/blob/main/TelecomX_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Telecom X - Análisis de Evasión de Clientes

Has sido contratado como asistente de análisis de datos en Telecom X y formarás parte del proyecto "Churn de Clientes". **La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la pérdida de clientes.**

Tu desafío será recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer información valiosa. A partir de tu análisis, el equipo de Data Science podrá avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.

¿Qué vas a practicar?

✅ Importar y manipular datos desde una API de manera eficiente.

✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.

✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.

✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

¡Ahora es tu turno! 🚀 Usa tus conocimientos para transformar datos en información estratégica y ayudar a Telecom X a retener más clientes.

##📌 Extracción

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

¿Qué debes hacer?

✅ Cargar los datos directamente desde la API utilizando Python.

✅ Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

Este es el primer paso para transformar los datos en información valiosa. ¿Listo para programar? 🚀

### **Ayuda a visualizar un archivo un formato Json en la web.**

https://jsonviewer.stack.hu/



In [36]:
# Procederemos a cargar un archivo Json, Por lo cual como primer paso
# necesitamos importar pandas y Json
import pandas as pd
import json

In [37]:
df = pd.read_json('https://raw.githubusercontent.com/byfurkation/TelecomX_datos/d3d77c77396a50d0951630ec521dc3b048607b6f/TelecomX_Data.json')

df.head(10)

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
5,0013-MHZWF,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
6,0013-SMEOE,No,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Two year', 'PaperlessBilling': '..."
7,0014-BMAQU,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Two year', 'PaperlessBilling': '..."
8,0015-UOCOJ,No,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
9,0016-QLJIS,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


### **Resultado**
De esta manera queda guardado automáticamente en un Data frame nuestra información, pues al aplicarle el método read a cualquier importación de archivos se transforma automáticamente en uno.

##🔧 Transformación

In [38]:
# Normalizamos cada columna con diccionarios
df_customer = pd.json_normalize(df['customer'])
df_phone    = pd.json_normalize(df['phone'])
df_internet = pd.json_normalize(df['internet'])
df_account  = pd.json_normalize(df['account'])

# Concatenamos todas las columnas nuevas con el DataFrame original
df_normalizado = pd.concat([df.drop(['customer', 'phone', 'internet', 'account'], axis=1),
                      df_customer, df_phone, df_internet, df_account], axis=1)


In [39]:
df_normalizado.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [40]:
df_normalizado.sample(20)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
6247,8597-CTXVJ,No,Male,0,No,Yes,70,Yes,Yes,DSL,...,Yes,No,Yes,No,No,One year,No,Bank transfer (automatic),64.95,4551.5
3642,5019-GQVCR,No,Male,1,No,No,43,Yes,Yes,Fiber optic,...,No,No,No,Yes,No,Month-to-month,Yes,Electronic check,84.85,3645.6
1251,1791-PQHBB,No,Female,0,No,Yes,2,Yes,No,DSL,...,No,No,No,No,Yes,Month-to-month,Yes,Credit card (automatic),61.2,125.95
4199,5766-RLNAM,,Male,0,Yes,No,72,Yes,Yes,Fiber optic,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Electronic check,115.55,8425.3
6358,8740-XLHDR,Yes,Male,0,No,No,5,No,No phone service,DSL,...,Yes,Yes,Yes,No,No,Month-to-month,Yes,Mailed check,43.25,219.0
4848,6633-MPWBS,Yes,Male,0,No,No,5,Yes,No,DSL,...,No,No,Yes,No,No,Month-to-month,Yes,Electronic check,49.2,216.9
606,0867-LDTTC,No,Male,0,No,No,5,Yes,No,DSL,...,No,Yes,Yes,Yes,Yes,Month-to-month,No,Bank transfer (automatic),75.15,392.65
1766,2511-ALLCS,No,Female,0,Yes,Yes,35,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Bank transfer (automatic),24.3,821.6
1983,2809-ZMYOQ,No,Female,0,No,No,32,Yes,Yes,Fiber optic,...,No,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,101.35,3334.9
5928,8096-LOIST,No,Female,0,No,No,19,Yes,No,DSL,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,56.2,1093.4


### **Conoce el conjunto de datos**

Ahora que has extraído los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudará a identificar qué variables son más relevantes para el análisis de evasión de clientes.

📌 Para facilitar este proceso, se creó un diccionario de datos con la descripción de cada columna, mismo que se encuentra en el repositorio bajo el nombre de "TelecomX_diccionario.md".



### **Diccionario de datos**

customerID: número de identificación único de cada cliente

Churn: si el cliente dejó o no la empresa

gender: género (masculino y femenino)

SeniorCitizen: información sobre si un cliente tiene o no una edad igual o mayor a 65 años

Partner: si el cliente tiene o no una pareja

Dependents: si el cliente tiene o no dependientes

tenure: meses de contrato del cliente

PhoneService: suscripción al servicio telefónico

MultipleLines: suscripción a más de una línea telefónica

InternetService: suscripción a un proveedor de internet

OnlineSecurity: suscripción adicional de seguridad en línea

OnlineBackup: suscripción adicional de respaldo en línea

DeviceProtection: suscripción adicional de protección del dispositivo

TechSupport: suscripción adicional de soporte técnico, menor tiempo de espera

StreamingTV: suscripción de televisión por cable

StreamingMovies: suscripción de streaming de películas

Contract: tipo de contrato

PaperlessBilling: si el cliente prefiere recibir la factura en línea

PaymentMethod: forma de pago

Charges.Monthly: total de todos los servicios del cliente por mes

Charges.Total: total gastado por el cliente

### **Tarea 1:** Explorar las columnas del dataset y verificar sus tipos de datos.


In [41]:
# Observamos que la totalidad de su registro son 7,267, y en sus columnas cada
# una registra los mismos con los datos no nulo.
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


### **Tarea 2**: Consultar el diccionario para comprender mejor el significado de las variables.


In [42]:
# Valores unicos de una columna
df['Churn'].unique()

array(['No', 'Yes', ''], dtype=object)

In [43]:
# Ver valores únicos y sus frecuencias para todas las columnas

for col in df_normalizado.columns:
    print(f"--- {col} ---")
    print(df_normalizado[col].value_counts(dropna=False))  # incluye NaN si existen
    print()

--- customerID ---
customerID
9995-HOTOH    1
0002-ORFBO    1
0003-MKNFE    1
9970-QBCDA    1
9968-FFVVH    1
             ..
0014-BMAQU    1
0013-SMEOE    1
0013-MHZWF    1
0013-EXCHZ    1
0011-IGKFF    1
Name: count, Length: 7267, dtype: int64

--- Churn ---
Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64

--- gender ---
gender
Male      3675
Female    3592
Name: count, dtype: int64

--- SeniorCitizen ---
SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64

--- Partner ---
Partner
No     3749
Yes    3518
Name: count, dtype: int64

--- Dependents ---
Dependents
No     5086
Yes    2181
Name: count, dtype: int64

--- tenure ---
tenure
1     634
72    369
2     246
3     207
4     185
     ... 
28     60
39     59
44     54
36     50
0      11
Name: count, Length: 73, dtype: int64

--- PhoneService ---
PhoneService
Yes    6560
No      707
Name: count, dtype: int64

--- MultipleLines ---
MultipleLines
No                  3495
Yes                 3065
No phone s

#### **Decisión de análisis clave**

Antes de transformar o eliminar datos, se debe entender qué significan los valores faltantes y cómo afectan el análisis. Como en este caso es un ejercicio didáctico, podemos aplicar criterios lógicos con justificación.

**Columna: Churn**

Valores únicos:

"No": 5174

"Yes": 1869

" " (espacios vacíos): 224

Esta **columna define si un cliente abandonó o no el servicio**, lo cual es clave para análisis predictivo.

Se eliminaránn 224 registros (~3%) con datos faltantes en la columna Churn, ya que esta representa la variable objetivo del análisis y no se puede inferir razonablemente su valor.

In [44]:
# eliminar filas vacías de churn 224+7043= 7, 267

# Eliminar filas donde Churn es solo un espacio
df_normalizado = df_normalizado[df_normalizado['Churn'].str.strip() != '']
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   object 
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   int64  
 4   Partner           7043 non-null   object 
 5   Dependents        7043 non-null   object 
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   object 
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 
 17  

### **Tarea 3:** Identificar las columnas más relevantes para el análisis de evasión.

🎯 Objetivo asumido:

Analizar y predecir el "Churn" (si un cliente se va o se queda)

1. tenure (meses de contrato)

🧠 Relevancia: Refleja el tiempo de permanencia. Clientes con menor tenure son más propensos a irse.

🧪 Análisis: Puedes hacer histogramas, segmentaciones, correlaciones con Churn.

2. Contract (tipo de contrato: mensual, anual...)

🧠 Relevancia: Clientes con contrato mes a mes tienden a irse más fácilmente.

📊 Ideal para gráficos de barras o análisis de riesgo.

3. PaymentMethod (forma de pago)

💳 Pagos automáticos vs. manuales podrían influir.

🎯 A menudo se asocia a abandono por fricción en pagos.

4. Charges.Monthly y Charges.Total

💵 Clientes con cargos más altos pueden estar menos satisfechos.

También pueden indicar uso intensivo (más fidelidad).

Útiles para crear grupos de riesgo por gasto.

5. InternetService y servicios relacionados:

InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies

🧠 Estos servicios son opcionales y reflejan nivel de compromiso y satisfacción.

Algunos modelos han demostrado que la combinación de servicios influye fuertemente en la retención.

6. PaperlessBilling

📥 Puede parecer menor, pero se ha encontrado correlación entre este tipo de facturación y cancelación: refleja preferencia por lo digital y menos fricción al cambiar de proveedor.

7. PhoneService y MultipleLines

🔁 Relacionados con fidelización: clientes que contratan más de un servicio tienden a quedarse más.

⚖️ Variables demográficas (prioridad media)

Estas no siempre son predictoras fuertes, pero pueden dar contexto:

SeniorCitizen: Algunos estudios muestran que personas mayores son más estables en sus servicios.

Partner y Dependents: Pueden reflejar estabilidad o necesidad de varios servicios.

gender: Usualmente no es significativa para Churn por sí sola, pero puede considerarse por completitud.




### **Tarea 4** Comprobación de incoherencias en los datos

En este paso, verifica si hay problemas en los datos que puedan afectar el análisis. Presta atención a valores ausentes, duplicados, errores de formato e inconsistencias en las categorías. Este proceso es esencial para asegurarte de que los datos estén listos para las siguientes etapas.

 0   customerID        7043 non-null   object ok

 1   Churn             7043 non-null   object boolean

 2   gender            7043 non-null   object ok

 3   SeniorCitizen     7043 non-null   int64  ok

 4   Partner           7043 non-null   object boolean

 5   Dependents        7043 non-null   object boolean

 6   tenure            7043 non-null   int64  ok

 7   PhoneService      7043 non-null   object int64

 8   MultipleLines     7043 non-null   object boolean

 9   InternetService   7043 non-null   object boolean

 10  OnlineSecurity    7043 non-null   object boolean

 11  OnlineBackup      7043 non-null   object boolean

 12  DeviceProtection  7043 non-null   object boolean

 13  TechSupport       7043 non-null   object boolean

 14  StreamingTV       7043 non-null   object boolean

 15  StreamingMovies   7043 non-null   object boolean

 16  Contract          7043 non-null   object ok

 17  PaperlessBilling  7043 non-null   object boolean

 18  PaymentMethod     7043 non-null   object ok

 19  Charges.Monthly   7043 non-null   float64 ok

 20  Charges.Total     7043 non-null   object float 64

### **Tarea 5** Manejo de inconsistencias

Ahora que has identificado las inconsistencias, es momento de aplicar las correcciones necesarias. Ajusta los datos para asegurarte de que estén completos y coherentes, preparándolos para las siguientes etapas del análisis.

In [46]:
import pandas as pd

# 1. Churn: object → boolean
df_normalizado['Churn'] = df_normalizado['Churn'].map({'Yes': True, 'No': False})

# 2. SeniorCitizen: int64 → boolean
df_normalizado['SeniorCitizen'] = df_normalizado['SeniorCitizen'].map({1: True, 0: False})

# 3. Partner: object → boolean
df_normalizado['Partner'] = df_normalizado['Partner'].map({'Yes': True, 'No': False})

# 4. Dependents: object → boolean
df_normalizado['Dependents'] = df_normalizado['Dependents'].map({'Yes': True, 'No': False})

# 5. PhoneService: object → boolean
df_normalizado['PhoneService'] = df_normalizado['PhoneService'].map({'Yes': True, 'No': False})

# 6. PaperlessBilling: object → boolean
df_normalizado['PaperlessBilling'] = df_normalizado['PaperlessBilling'].map({'Yes': True, 'No': False})

# 7. Charges.Total: object → float64
df_normalizado['Charges.Total'] = pd.to_numeric(df_normalizado['Charges.Total'], errors='coerce')


In [47]:
# Se corroboran las conversiones de tipos de dato

df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   bool   
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   bool   
 4   Partner           7043 non-null   bool   
 5   Dependents        7043 non-null   bool   
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   bool   
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 
 17  

In [50]:
df_normalizado.sample(6)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
967,1357-BIJKI,False,Male,False,True,False,50,True,Yes,Fiber optic,...,Yes,No,No,Yes,Yes,One year,True,Electronic check,98.25,4858.7
1442,2074-GKOWZ,True,Male,False,True,True,2,True,No,Fiber optic,...,No,No,No,Yes,Yes,Month-to-month,True,Bank transfer (automatic),89.55,185.55
408,0582-AVCLN,False,Female,False,False,False,38,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,False,Mailed check,20.3,743.05
6717,9250-WYPLL,True,Female,False,False,False,5,True,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,False,Electronic check,75.55,413.65
6050,8259-NFJTV,False,Female,False,True,True,7,False,No phone service,DSL,...,No,No,Yes,No,No,Month-to-month,False,Mailed check,34.65,246.6
168,0265-PSUAE,False,Female,False,True,True,16,True,No,Fiber optic,...,No,Yes,No,Yes,Yes,Month-to-month,False,Bank transfer (automatic),100.7,1522.7


### **Tarea 5** Columna de cuentas diarias

### **Tarea 6** Estandarización y transformación de datos (opcional)

La estandarización y transformación de datos es una etapa opcional, pero altamente recomendada, ya que busca hacer que la información sea más consistente, comprensible y adecuada para el análisis. Durante esta fase, por ejemplo, puedes convertir valores textuales como "Sí" y "No" en valores binarios (1 y 0), lo que facilita el procesamiento matemático y la aplicación de modelos analíticos.

Además, traducir o renombrar columnas y datos hace que la información sea más accesible y fácil de entender, especialmente cuando se trabaja con fuentes externas o términos técnicos. Aunque no es un paso obligatorio, puede mejorar significativamente la claridad y comunicación de los resultados, facilitando la interpretación y evitando confusiones, especialmente al compartir información con stakeholders no técnicos.

##📊 Carga y análisis

##📄Informe final