# **Telecom X - Análisis de Evasión de Clientes**

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json

##📌 **Extracción**

In [3]:
# Cargar el archivo JSON
with open('/content/drive/MyDrive/Alura-Challenge-Telecom/TelecomX_Data.json', 'r') as file:
    data = json.load(file)


In [5]:
# Convertir los datos a un DataFrame de pandas
df = pd.DataFrame(data)
df

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
...,...,...,...,...,...,...
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


In [8]:
# Convertir estructuras anidadas en DataFrame plano
df_raw = pd.json_normalize(data)
df_raw

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


In [9]:
df_raw.shape

(7267, 21)

## 🔧 **Transformación**

In [10]:
# Filtrar registros válidos (Churn 'Yes' o 'No')
df_clean = df_raw[df_raw['Churn'].isin(['Yes', 'No'])].copy()

In [11]:
# Convertir 'Total Charges' a numérico
df_clean['account.Charges.Total'] = pd.to_numeric(df_clean['account.Charges.Total'], errors='coerce')

In [12]:
# Eliminar filas con valores nulos en 'Total Charges'
df_clean = df_clean.dropna(subset=['account.Charges.Total'])

In [13]:
# Revisar estructura final
print("Dimensiones después de limpieza:", df_clean.shape)
print(df_clean.dtypes)

Dimensiones después de limpieza: (7032, 21)
customerID                    object
Churn                         object
customer.gender               object
customer.SeniorCitizen         int64
customer.Partner              object
customer.Dependents           object
customer.tenure                int64
phone.PhoneService            object
phone.MultipleLines           object
internet.InternetService      object
internet.OnlineSecurity       object
internet.OnlineBackup         object
internet.DeviceProtection     object
internet.TechSupport          object
internet.StreamingTV          object
internet.StreamingMovies      object
account.Contract              object
account.PaperlessBilling      object
account.PaymentMethod         object
account.Charges.Monthly      float64
account.Charges.Total        float64
dtype: object


## **📊 Carga y análisis**

In [14]:
# 1. Tasa general de churn
churn_rate = df_clean['Churn'].value_counts(normalize=True) * 100
print("Tasa general de churn (%):\n", churn_rate.round(2))

Tasa general de churn (%):
 Churn
No     73.42
Yes    26.58
Name: proportion, dtype: float64


In [15]:
# 2. Churn por tipo de contrato
churn_by_contract = df_clean.groupby(['account.Contract', 'Churn']).size().unstack().fillna(0)
churn_by_contract_percent = churn_by_contract.div(churn_by_contract.sum(axis=1), axis=0) * 100
print("\nChurn por tipo de contrato (%):\n", churn_by_contract_percent.round(2))


Churn por tipo de contrato (%):
 Churn                No    Yes
account.Contract              
Month-to-month    57.29  42.71
One year          88.72  11.28
Two year          97.15   2.85


In [16]:
# 3. Churn por tipo de Internet
churn_by_internet = df_clean.groupby(['internet.InternetService', 'Churn']).size().unstack().fillna(0)
churn_by_internet_percent = churn_by_internet.div(churn_by_internet.sum(axis=1), axis=0) * 100
print("\nChurn por tipo de Internet (%):\n", churn_by_internet_percent.round(2))


Churn por tipo de Internet (%):
 Churn                        No    Yes
internet.InternetService              
DSL                       81.00  19.00
Fiber optic               58.11  41.89
No                        92.57   7.43


In [17]:
# 4. Churn por método de pago
churn_by_payment = df_clean.groupby(['account.PaymentMethod', 'Churn']).size().unstack().fillna(0)
churn_by_payment_percent = churn_by_payment.div(churn_by_payment.sum(axis=1), axis=0) * 100
print("\nChurn por método de pago (%):\n", churn_by_payment_percent.round(2))


Churn por método de pago (%):
 Churn                         No    Yes
account.PaymentMethod                  
Bank transfer (automatic)  83.27  16.73
Credit card (automatic)    84.75  15.25
Electronic check           54.71  45.29
Mailed check               80.80  19.20


#📄**Informe final**

## **Factores de Abandono en Clientes de TelecomX**

**1. Tasa General de Abandono**

- El 26.58% de los clientes han abandonado la compañía.

- El 73.42% de los clientes se mantienen activos.

📌**Esto representa una tasa alta de churn para una empresa de telecomunicaciones, lo cual requiere atención inmediata.**

**2. Relación entre Tipo de Contrato y Churn**

**a) Tipo de Contrato Mes a mes:** Churn(%) 42.71 / Retención(%) 57.29

**b) Tipo de Contrato 1 año:**	   Churn(%) 11.28 / Retención(%) 88.72

**c) Tipo de Contrato 2 años:**    Churn(%)  2.85 / Retención(%) 97.15

📌**Los contratos de largo plazo (1 y 2 años) retienen mucho mejor. Los clientes con contratos mes a mes son mucho más propensos a cancelar.**



**3. Relación entre Tipo de Internet y Churn**

**a) Fibra Óptica:** Churn(%) 41.89 / Retención(%) 58.11

**b) DSL:** Churn(%) 19.00 / Retención(%) 81:00

**c) Sin Servicio:** Churn(%) 7.43 / Retención(%) 92.57

📌**Los usuarios con fibra óptica presentan la mayor tasa de churn, lo que podría indicar una brecha entre la promesa y la experiencia del servicio.**




**4. Relación entre Método de Pago y Churn**

**a) Cheque Electrónico:** Churn(%) 45.29 / Retención(%) 54.71

**b) Cheque por Correo:** Churn(%) 19.20 / Retención(%) 80:80

**c) Transferencia Automática:** Churn(%) 16.73 / Retención(%) 83.27

**d) Tarjeta Automática:** Churn(%) 15.25 / Retención(%) 84.75

📌**El método de pago más riesgoso es el cheque electrónico. Los pagos automáticos están asociados con mayor retención.**



✅**Recomendaciones Iniciales

**1. Fomentar contratos largos mediante descuentos o beneficios exclusivos.**

**2. Auditar el servicio de fibra óptica, especialmente la calidad percibida por el cliente.**

**3. Incentivar métodos de pago automáticos, como transferencias o tarjetas, con promociones.**

