#📌 Extracción

## 🗂️ Importación de datos desde la API de Telecom X

In [1]:
import requests
import pandas as pd

In [2]:
# En este paso, cargamos los datos directamente desde la API publicada en GitHub.
# La fuente contiene información de clientes, incluyendo datos demográficos,
# tipos de servicios contratados y estado de cancelación del servicio (churn).

url = 'https://raw.githubusercontent.com/alura-cursos/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json'

In [3]:
# Realizamos la solicitud HTTP a la URL
response = requests.get(url)

In [4]:
# Convertimos la respuesta en formato JSON a una estructura de Python
datos = response.json()

In [5]:
# Cargamos los datos en un DataFrame de pandas
df = pd.DataFrame(datos)
df.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


#🔧 Transformación

In [6]:
# "aplanando" la estructura del JSON, transformándola en un DataFrame tabular (df_n) donde cada campo del JSON
 # (incluso los que están dentro de diccionarios o listas) se convierte en una columna.
df_aplanado = pd.json_normalize(datos)
df_aplanado.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [7]:
# Verificar la forma
df_aplanado.shape

(7267, 21)

In [8]:
# Verificar columnas del DataFrame
df_aplanado.columns

Index(['customerID', 'Churn', 'customer.gender', 'customer.SeniorCitizen',
       'customer.Partner', 'customer.Dependents', 'customer.tenure',
       'phone.PhoneService', 'phone.MultipleLines', 'internet.InternetService',
       'internet.OnlineSecurity', 'internet.OnlineBackup',
       'internet.DeviceProtection', 'internet.TechSupport',
       'internet.StreamingTV', 'internet.StreamingMovies', 'account.Contract',
       'account.PaperlessBilling', 'account.PaymentMethod',
       'account.Charges.Monthly', 'account.Charges.Total'],
      dtype='object')

In [9]:
#Explorar los tipos de datos y valores faltantes:
df_aplanado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

## Análisis de valores únicos por columna

Para entender mejor la diversidad y posibles categorías en cada variable, realizamos un conteo de valores únicos por columna. Esto ayuda a:

- Identificar variables categóricas con pocas categorías (por ejemplo, género, tipo de contrato).
- Detectar posibles columnas con muchos valores distintos que pueden requerir tratamiento especial (como IDs o valores numéricos continuos).
- Facilitar la inspección de las categorías presentes en variables relevantes, cuando su cantidad es manejable (menos de 50 valores únicos).

El siguiente código imprime la cantidad de valores únicos por columna, y muestra los valores concretos para aquellas con menos de 50 categorías.


In [10]:
# Mostrar la cantidad de valores únicos por columna
# e imprimir los valores únicos solo si son menos de 50 para mejor legibilidad
for col in df_aplanado.columns:
    num_unicos = df_aplanado[col].nunique()
    print(f"Columna '{col}' tiene {num_unicos} valores únicos.")

    if num_unicos < 50:
        print(f"Valores únicos en '{col}':")
        print(df_aplanado[col].unique())

    print('-' * 50)  # Línea divisoria para claridad visual


Columna 'customerID' tiene 7267 valores únicos.
--------------------------------------------------
Columna 'Churn' tiene 3 valores únicos.
Valores únicos en 'Churn':
['No' 'Yes' '']
--------------------------------------------------
Columna 'customer.gender' tiene 2 valores únicos.
Valores únicos en 'customer.gender':
['Female' 'Male']
--------------------------------------------------
Columna 'customer.SeniorCitizen' tiene 2 valores únicos.
Valores únicos en 'customer.SeniorCitizen':
[0 1]
--------------------------------------------------
Columna 'customer.Partner' tiene 2 valores únicos.
Valores únicos en 'customer.Partner':
['Yes' 'No']
--------------------------------------------------
Columna 'customer.Dependents' tiene 2 valores únicos.
Valores únicos en 'customer.Dependents':
['Yes' 'No']
--------------------------------------------------
Columna 'customer.tenure' tiene 73 valores únicos.
--------------------------------------------------
Columna 'phone.PhoneService' tiene 2 va

In [11]:
# Verificar si hay filas duplicadas
num_duplicados = df_aplanado.duplicated().sum()
print(f"Número de filas duplicadas: {num_duplicados}")

Número de filas duplicadas: 0


In [12]:
# Mostrar cantidad de valores nulos en todas las columnas
print("Cantidad de valores nulos por columna:")
print(df_aplanado.isnull().sum())

Cantidad de valores nulos por columna:
customerID                   0
Churn                        0
customer.gender              0
customer.SeniorCitizen       0
customer.Partner             0
customer.Dependents          0
customer.tenure              0
phone.PhoneService           0
phone.MultipleLines          0
internet.InternetService     0
internet.OnlineSecurity      0
internet.OnlineBackup        0
internet.DeviceProtection    0
internet.TechSupport         0
internet.StreamingTV         0
internet.StreamingMovies     0
account.Contract             0
account.PaperlessBilling     0
account.PaymentMethod        0
account.Charges.Monthly      0
account.Charges.Total        0
dtype: int64


In [13]:
# Contar celdas vacías o con solo espacios en blanco en cada columna
blancos = df_aplanado.apply(lambda x: x.astype(str).str.strip() == '').sum()

print("Cantidad de valores vacíos o en blanco por columna:")
print(blancos)


Cantidad de valores vacíos o en blanco por columna:
customerID                     0
Churn                        224
customer.gender                0
customer.SeniorCitizen         0
customer.Partner               0
customer.Dependents            0
customer.tenure                0
phone.PhoneService             0
phone.MultipleLines            0
internet.InternetService       0
internet.OnlineSecurity        0
internet.OnlineBackup          0
internet.DeviceProtection      0
internet.TechSupport           0
internet.StreamingTV           0
internet.StreamingMovies       0
account.Contract               0
account.PaperlessBilling       0
account.PaymentMethod          0
account.Charges.Monthly        0
account.Charges.Total         11
dtype: int64


In [14]:
# Convertir la columna 'account.Charges.Total' a tipo numérico (float)
# Los valores que no se puedan convertir quedarán como NaN (por ejemplo, valores vacíos o erróneos)
df_aplanado['account.Charges.Total'] = pd.to_numeric(df_aplanado['account.Charges.Total'], errors='coerce')

# Confirmamos el nuevo tipo de dato
print("Tipo de dato de 'account.Charges.Total':", df_aplanado['account.Charges.Total'].dtype)


Tipo de dato de 'account.Charges.Total': float64


In [15]:
# Eliminar filas donde la columna 'Churn' está vacía o solo con espacios
df_aplanado = df_aplanado[df_aplanado['Churn'].str.strip() != '']

print("Número de filas después de eliminar valores vacíos en 'Churn':", len(df_aplanado))


Número de filas después de eliminar valores vacíos en 'Churn': 7043


In [16]:
# Contar valores vacíos o en blanco (strings vacíos o solo espacios)
espacios_vacios = df_aplanado.apply(lambda x: x.astype(str).str.strip() == '').sum()

print("Cantidad de valores vacíos o en blanco por columna:")
print(espacios_vacios)


Cantidad de valores vacíos o en blanco por columna:
customerID                   0
Churn                        0
customer.gender              0
customer.SeniorCitizen       0
customer.Partner             0
customer.Dependents          0
customer.tenure              0
phone.PhoneService           0
phone.MultipleLines          0
internet.InternetService     0
internet.OnlineSecurity      0
internet.OnlineBackup        0
internet.DeviceProtection    0
internet.TechSupport         0
internet.StreamingTV         0
internet.StreamingMovies     0
account.Contract             0
account.PaperlessBilling     0
account.PaymentMethod        0
account.Charges.Monthly      0
account.Charges.Total        0
dtype: int64


In [20]:
df_aplanado.describe()

Unnamed: 0,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
count,7043.0,7043.0,7043.0,7032.0,7043.0
mean,0.162147,32.371149,64.761692,2283.300441,2.158723
std,0.368612,24.559481,30.090047,2266.771362,1.003002
min,0.0,0.0,18.25,18.8,0.608333
25%,0.0,9.0,35.5,401.45,1.183333
50%,0.0,29.0,70.35,1397.475,2.345
75%,0.0,55.0,89.85,3794.7375,2.995
max,1.0,72.0,118.75,8684.8,3.958333


In [21]:
# Crear una nueva columna llamada 'Cuentas_Diarias'
# calculando el valor diario a partir del cargo mensual ('account.Charges.Monthly')
df_aplanado['Cuentas_Diarias'] = df_aplanado['account.Charges.Monthly'] / 30

# Mostrar las primeras filas de las columnas relevantes para verificar que el cálculo esté correcto
print(df_aplanado[['account.Charges.Monthly', 'Cuentas_Diarias']].head())


   account.Charges.Monthly  Cuentas_Diarias
0                     65.6         2.186667
1                     59.9         1.996667
2                     73.9         2.463333
3                     98.0         3.266667
4                     83.9         2.796667


In [24]:
df_aplanado = df_aplanado.drop('Cuentas_Diarias', errors='ignore')

In [27]:
df_aplanado

Unnamed: 0,customerID,Churn,Sexo,Jubilado/a,Pareja/Conyugue,Personas_a_cargo,Meses_Contrato_Cliente,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,Tipo_de_Contrato,Pago_online,Forma_de_Pago,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.30,2.186667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.40,1.996667
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85,2.463333
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85,3.266667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.40,2.796667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,Yes,No,No,One year,No,Mailed check,55.15,742.90,1.838333
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.70,2.836667
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75,1.676667
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65,2.261667


In [25]:
# Renombramos columnas para que sean más claras y legibles
# Esto ayuda a entender mejor el contenido del dataset, sobre todo si se comparte con terceros.
df_aplanado = df_aplanado.rename(columns={
    'customer.gender': 'Sexo',
    'customer.SeniorCitizen': 'Jubilado/a',
    'customer.Partner': 'Pareja/Conyugue',
    'customer.Dependents': 'Personas_a_cargo',
    'customer.tenure': 'Meses_Contrato_Cliente',
    'account.Contract': 'Tipo_de_Contrato',
    'account.PaperlessBilling': 'Pago_online',
    'account.PaymentMethod': 'Forma_de_Pago',
})

In [28]:
# Unificamos valores 'No internet service' y 'No phone service' a 'No' para simplificar categorías
columnas_unificar = [
    'phone.MultipleLines',
    'internet.InternetService',
    'internet.OnlineSecurity',
    'internet.OnlineBackup',
    'internet.DeviceProtection',
    'internet.TechSupport',
    'internet.StreamingTV',
    'internet.StreamingMovies'
]

for col in columnas_unificar:
    df_aplanado[col] = df_aplanado[col].replace({
        'No internet service': 'No',
        'No phone service': 'No'
    })


In [32]:
df_aplanado.head(15)


Unnamed: 0,customerID,Churn,Sexo,Jubilado/a,Pareja/Conyugue,Personas_a_cargo,Meses_Contrato_Cliente,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,Tipo_de_Contrato,Pago_online,Forma_de_Pago,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,2.186667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,2.463333
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,2.796667
5,0013-MHZWF,No,Female,0,No,Yes,9,Yes,No,DSL,...,No,Yes,Yes,Yes,Month-to-month,Yes,Credit card (automatic),69.4,571.45,2.313333
6,0013-SMEOE,No,Female,1,Yes,No,71,Yes,No,Fiber optic,...,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),109.7,7904.25,3.656667
7,0014-BMAQU,No,Male,0,Yes,No,63,Yes,Yes,Fiber optic,...,No,Yes,No,No,Two year,Yes,Credit card (automatic),84.65,5377.8,2.821667
8,0015-UOCOJ,No,Female,1,No,No,7,Yes,No,DSL,...,No,No,No,No,Month-to-month,Yes,Electronic check,48.2,340.35,1.606667
9,0016-QLJIS,No,Female,0,Yes,Yes,65,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,Two year,Yes,Mailed check,90.45,5957.9,3.015


#📊 Carga y análisis

#📄Informe final