# 📌 Extracción

## Librerías clave

In [49]:
import requests
import json
import pandas as pd

## Extracción

In [50]:
# URL de la API con los datos 
url = "https://raw.githubusercontent.com/alura-cursos/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"

# Realizar la petición GET a la API para la extracción de los datos
response = requests.get(url)

# Verificamos si la petición fue exitosa
if response.status_code == 200: 
    #Convertimos la respuesta del JSON a un dataframe de pandas
    data = json.loads(response.text)
else: 
    print(f"Error al obtener los datos: {response.status_code}")

In [51]:
# Exploremos un poco la estructura de los datos
print(f'La estructura principal trabaja como: {type(data)} y posee {len(data)} registros.')

# Veamos la estructura de un registro
first_record = data[0]
for key, value in first_record.items():
    print(f"- {key}: {type(value)} -> {value}")

La estructura principal trabaja como: <class 'list'> y posee 7267 registros.
- customerID: <class 'str'> -> 0002-ORFBO
- Churn: <class 'str'> -> No
- customer: <class 'dict'> -> {'gender': 'Female', 'SeniorCitizen': 0, 'Partner': 'Yes', 'Dependents': 'Yes', 'tenure': 9}
- phone: <class 'dict'> -> {'PhoneService': 'Yes', 'MultipleLines': 'No'}
- internet: <class 'dict'> -> {'InternetService': 'DSL', 'OnlineSecurity': 'No', 'OnlineBackup': 'Yes', 'DeviceProtection': 'No', 'TechSupport': 'Yes', 'StreamingTV': 'Yes', 'StreamingMovies': 'No'}
- account: <class 'dict'> -> {'Contract': 'One year', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}


 Diccionario de datos
    - `customerID`: número de identificación único de cada cliente  
    - `Churn`: si el cliente dejó o no la empresa  
    - `gender`: género (masculino y femenino)  
    - `SeniorCitizen`: información sobre si un cliente tiene o no una edad igual o mayor a 65 años  
    - `Partner`: si el cliente tiene o no una pareja  
    - `Dependents`: si el cliente tiene o no dependientes  
    - `tenure`: meses de contrato del cliente  
    - `PhoneService`: suscripción al servicio telefónico  
    - `MultipleLines`: suscripción a más de una línea telefónica  
    - `InternetService`: suscripción a un proveedor de internet  
    - `OnlineSecurity`: suscripción adicional de seguridad en línea  
    - `OnlineBackup`: suscripción adicional de respaldo en línea  
    - `DeviceProtection`: suscripción adicional de protección del dispositivo  
    - `TechSupport`: suscripción adicional de soporte técnico, menor tiempo de espera  
    - `StreamingTV`: suscripción de televisión por cable  
    - `StreamingMovies`: suscripción de streaming de películas  
    - `Contract`: tipo de contrato  
    - `PaperlessBilling`: si el cliente prefiere recibir la factura en línea  
    - `PaymentMethod`: forma de pago  
    - `Charges.Monthly`: total de todos los servicios del cliente por mes  
    - `Charges.Total`: total gastado por el cliente  


# 🔧 Transformación

In [None]:
# 🔧 TRANSFORMACIÓN - Estructura relacional

# 1️⃣ CUSTOMER_DF (Tabla principal con información demográfica)
customer_df = pd.DataFrame([{
    'customerID': record['customerID'],
    'Churn': record['Churn'],
    'gender': record['customer']['gender'],
    'SeniorCitizen': record['customer']['SeniorCitizen'],
    'Partner': record['customer']['Partner'],
    'Dependents': record['customer']['Dependents'],
    'tenure': record['customer']['tenure']
} for record in data])

# 2️⃣ PHONE_DF (Servicios telefónicos)
phone_df = pd.DataFrame([{
    'customerID': record['customerID'],  # Clave foránea
    'PhoneService': record['phone']['PhoneService'],
    'MultipleLines': record['phone']['MultipleLines']
} for record in data])

# 3️⃣ INTERNET_DF (Servicios de internet)
internet_df = pd.DataFrame([{
    'customerID': record['customerID'],  # Clave foránea
    'InternetService': record['internet']['InternetService'],
    'OnlineSecurity': record['internet']['OnlineSecurity'],
    'OnlineBackup': record['internet']['OnlineBackup'],
    'DeviceProtection': record['internet']['DeviceProtection'],
    'TechSupport': record['internet']['TechSupport'],
    'StreamingTV': record['internet']['StreamingTV'],
    'StreamingMovies': record['internet']['StreamingMovies']
} for record in data])

# 4️⃣ ACCOUNT_DF (Información de cuenta y facturación)
account_df = pd.DataFrame([{
    'customerID': record['customerID'],  # Clave foránea
    'Contract': record['account']['Contract'],
    'PaperlessBilling': record['account']['PaperlessBilling'],
    'PaymentMethod': record['account']['PaymentMethod'],
    'MonthlyCharges': record['account']['Charges']['Monthly'],
    'TotalCharges': record['account']['Charges']['Total']
} for record in data])

In [70]:
customer_df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure
0,0002-ORFBO,No,Female,0,Yes,Yes,9
1,0003-MKNFE,No,Male,0,No,No,9
2,0004-TLHLJ,Yes,Male,0,No,No,4
3,0011-IGKFF,Yes,Male,1,Yes,No,13
4,0013-EXCHZ,Yes,Female,1,Yes,No,3


In [None]:
phone_df.head()
# phone_df[(phone_df['MultipleLines'] == 'Yes') & (phone_df['customerID'] == '0003-MKNFE')].head()

Unnamed: 0,customerID,PhoneService,MultipleLines
1,0003-MKNFE,Yes,Yes


In [81]:
internet_df.head()
#internet_df[internet_df['customerID'] == '0003-MKNFE'].head()  # Mostrar las primeras filas del DataFrame de internet

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,0002-ORFBO,DSL,No,Yes,No,Yes,Yes,No
1,0003-MKNFE,DSL,No,No,No,No,No,Yes
2,0004-TLHLJ,Fiber optic,No,No,Yes,No,No,No
3,0011-IGKFF,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,0013-EXCHZ,Fiber optic,No,No,No,Yes,Yes,No


In [82]:
account_df.head()
#account_df[account_df['customerID'] == '0003-MKNFE'].head()

Unnamed: 0,customerID,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,0002-ORFBO,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Month-to-month,Yes,Mailed check,83.9,267.4


# 📊 Carga y análisis

# 📄Informe final