### Telecom X - Análisis de Evasión de Clientes
<p>Has sido contratado como asistente de análisis de datos en Telecom X y formarás parte del proyecto "Churn de Clientes". La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la pérdida de clientes.</p>

<p>Tu desafío será recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer información valiosa. A partir de tu análisis, el equipo de Data Science podrá avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.</p>

¿Qué vas a practicar?
<ul>
<li>
✅ Importar y manipular datos desde una API de manera eficiente.
</li>
<li>
✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.
</li>
<li>
✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.
</li>
<li>
✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.
</li>
</ul>

¡Ahora es tu turno! 🚀 Usa tus conocimientos para transformar datos en información estratégica y ayudar a Telecom X a retener más clientes.

#📌 Extracción

In [None]:
import pandas as pd

In [84]:
import requests
# Manera Local
# df = pd.read_json('./TelecomX_Data.json')
# df.head()
# Manera API
response = requests.get("https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json")
data = response.json()
# df = pd.DataFrame(data)


In [85]:
df = pd.json_normalize(data)

In [86]:
df.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


##### Acciones mas comunes 
1. Duplicados
2. Valores vacíos
3. Valores Nulos
4. Tipos de datos
5. Valores atípicos
6. Consistencia y validez de datos categóricos
7. Normalización de texto

In [93]:
# df['Churn'].replace({'Yes': 1, 'No': 0})
# df.duplicated()
df.info()

# df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

In [96]:
for col in df.columns:
    print(f"Columna[{col}] = {df[col].unique()}")
    

Columna[customerID] = ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
Columna[Churn] = ['No' 'Yes' '']
Columna[customer.gender] = ['Female' 'Male']
Columna[customer.SeniorCitizen] = [0 1]
Columna[customer.Partner] = ['Yes' 'No']
Columna[customer.Dependents] = ['Yes' 'No']
Columna[customer.tenure] = [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
Columna[phone.PhoneService] = ['Yes' 'No']
Columna[phone.MultipleLines] = ['No' 'Yes' 'No phone service']
Columna[internet.InternetService] = ['DSL' 'Fiber optic' 'No']
Columna[internet.OnlineSecurity] = ['No' 'Yes' 'No internet service']
Columna[internet.OnlineBackup] = ['Yes' 'No' 'No internet service']
Columna[internet.DeviceProtection] = ['No' 'Yes' 'No internet service']
Columna[internet.TechSupport] = ['Yes' 'No' 'No internet ser

In [115]:
# Valores duplicados
valores_duplicados = df.duplicated().sum()
print("-"*20,"Valores duplicados", "-"*20)
print(valores_duplicados)
# Valores nulos 
print("-"*20,"Valores nulos", "-"*20)
valores_nulos = df.isnull().sum()
print(valores_nulos[valores_nulos > 0])
# Valores Vacíos
print("-"*20,"Valores Vacíos", "-"*20)
valores_vacios = df.apply(lambda x: x.astype(str).str.strip() == "").sum()
print(valores_vacios[valores_vacios > 0])

-------------------- Valores duplicados --------------------
0
-------------------- Valores nulos --------------------
Series([], dtype: int64)
-------------------- Valores Vacíos --------------------
Churn                    224
account.Charges.Total     11
dtype: int64


In [None]:

# import numpy as np
# data.query('Churn != ["Yes","No"]')
# data['Churn'].replace({'Yes': 1, 'No': 0}, inplace=True)
# data['Churn'].astype(int)
# data
# customers_not_churn = data.query('Churn == 1')
# customers_churn = data.query('Churn == 0')
# # pd.to_numeric(data['Churn'])

# data.info()

# # medi
# customers_not_churn['Churn'].mean()
# customers_not_churn

# count_customers_not_churn = data.sum(lambda x: x['Churn'] == "yes")

Unnamed: 0,customerID,Churn,customer,phone,internet,account
30,0047-ZHDTW,,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
75,0120-YZLQA,,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'No', 'OnlineSecurity': 'N...","{'Contract': 'Two year', 'PaperlessBilling': '..."
96,0154-QYHJU,,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
98,0162-RZGMZ,,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
175,0274-VVQOQ,,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'One year', 'PaperlessBilling': '..."
...,...,...,...,...,...,...
7158,9840-GSRFX,,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7180,9872-RZQQB,,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'No', 'MultipleLines': 'No ph...","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7211,9920-GNDMB,,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7239,9955-RVWSC,,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'No', 'OnlineSecurity': 'N...","{'Contract': 'Two year', 'PaperlessBilling': '..."


In [5]:
# df.explode(['internet'])
pd.json_normalize(df['internet'])

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No
...,...,...,...,...,...,...,...
7262,DSL,Yes,No,No,Yes,No,No
7263,Fiber optic,No,No,No,No,No,Yes
7264,DSL,No,Yes,No,No,No,No
7265,DSL,Yes,No,Yes,Yes,No,Yes


In [116]:
import pandas as pd

# Crear DataFrame de ejemplo con 3 valores únicos
df = pd.DataFrame({
    'categoria': ['alto', 'medio', 'bajo', 'alto', 'medio', 'bajo', 'alto']
})

print("Estado inicial del DataFrame:")
print("\nConteo de valores únicos:")
print(df['categoria'].value_counts())
print("\nTipo de dato actual:")
print(df['categoria'].dtype)

# Convertir a tipo categórico
df['categoria_cat'] = df['categoria'].astype('category')

print("\nEstado después de la conversión:")
print("\nNuevo tipo de dato:")
print(df['categoria_cat'].dtype)
print("\nCategorías definidas:")
print(df['categoria_cat'].cat.categories)
print("\nCodificación interna:")
print(df['categoria_cat'].cat.codes)

# Mostrar memoria usada
print("\nMemoria usada por columna:")
print(f"Columna original: {df['categoria'].memory_usage()} bytes")
print(f"Columna categórica: {df['categoria_cat'].memory_usage()} bytes")

# Demostrar orden personalizado
df['categoria_cat_ord'] = pd.Categorical(
    df['categoria'],
    categories=['bajo', 'medio', 'alto'],
    ordered=True
)

print("\nOrden de categorías:")
print(df['categoria_cat_ord'].cat.categories)
print("\nVerificación de orden:")
print(df.sort_values('categoria_cat_ord').head())

Estado inicial del DataFrame:

Conteo de valores únicos:
categoria
alto     3
medio    2
bajo     2
Name: count, dtype: int64

Tipo de dato actual:
object

Estado después de la conversión:

Nuevo tipo de dato:
category

Categorías definidas:
Index(['alto', 'bajo', 'medio'], dtype='object')

Codificación interna:
0    0
1    2
2    1
3    0
4    2
5    1
6    0
dtype: int8

Memoria usada por columna:
Columna original: 188 bytes
Columna categórica: 271 bytes

Orden de categorías:
Index(['bajo', 'medio', 'alto'], dtype='object')

Verificación de orden:
  categoria categoria_cat categoria_cat_ord
2      bajo          bajo              bajo
5      bajo          bajo              bajo
1     medio         medio             medio
4     medio         medio             medio
0      alto          alto              alto


#🔧 Transformación

#📊 Carga y análisis

#📄Informe final