## Extracción

In [15]:
# 🔧 Importar librerías necesarias
import pandas as pd
import requests
import numpy as np


# 🌐 URL de la API (archivo JSON alojado en GitHub)
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"

# 📥 Obtener los datos de la API
response = requests.get(url)
data = response.json()

# 🧾 Convertir a DataFrame
df = pd.DataFrame(data)

# 👀 Vista previa de los datos
df.head()


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## Transformación

In [16]:
# Explorar las columnas del dataset y verificar sus tipos de datos.
# Ver columnas disponibles
print("Columnas del dataset:")
print(df.columns.tolist())

#Consultar el diccionario para comprender mejor el significado de las variables.
# Tipos de datos por columna
print("\nTipos de datos:")
print(df.dtypes)

# Ver el diccionario dentro del notebook (opcional)
with open("TelecomX_diccionario.md", "r", encoding="utf-8") as file:
    print(file.read())

#Identificar las columnas más relevantes para el análisis de evasión.
# Revisión de un ejemplo completo para entender la estructura de columnas anidadas
df.iloc[0]



Columnas del dataset:
['customerID', 'Churn', 'customer', 'phone', 'internet', 'account']

Tipos de datos:
customerID    object
Churn         object
customer      object
phone         object
internet      object
account       object
dtype: object
#### Diccionario de datos

- `customerID`: número de identificación único de cada cliente
- `Churn`: si el cliente dejó o no la empresa
- `gender`: género (masculino y femenino)
- `SeniorCitizen`: información sobre si un cliente tiene o no una edad igual o mayor a 65 años
- `Partner`: si el cliente tiene o no una pareja
- `Dependents`: si el cliente tiene o no dependientes
- `tenure`: meses de contrato del cliente
- `PhoneService`: suscripción al servicio telefónico
- `MultipleLines`: suscripción a más de una línea telefónica
- `InternetService`: suscripción a un proveedor de internet
- `OnlineSecurity`: suscripción adicional de seguridad en línea
- `OnlineBackup`: suscripción adicional de respaldo en línea
- `DeviceProtection`: suscripción ad

customerID                                           0002-ORFBO
Churn                                                        No
customer      {'gender': 'Female', 'SeniorCitizen': 0, 'Part...
phone            {'PhoneService': 'Yes', 'MultipleLines': 'No'}
internet      {'InternetService': 'DSL', 'OnlineSecurity': '...
account       {'Contract': 'One year', 'PaperlessBilling': '...
Name: 0, dtype: object

## Comprobación de incoherencias

In [17]:
# 📌 Verificar valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())
print("\n")

# 📌 Verificar filas duplicadas
# Convertimos columnas con dicts a string
df_temp = df.copy()
for col in df_temp.columns:
    if df_temp[col].apply(lambda x: isinstance(x, dict)).any():
        df_temp[col] = df_temp[col].astype(str)

print("Cantidad de filas duplicadas:", df_temp.duplicated().sum())
print("\n")

# 📌 Verificar tipos únicos en columnas categóricas (seguro con dicts)
for col in df.columns:
    if df[col].dtype == 'object':
        print(f"Valores únicos en '{col}':")
        
        # Evitar error si hay diccionarios en la columna
        if df[col].apply(lambda x: isinstance(x, dict)).any():
            print("⚠️ Contiene diccionarios, no se puede mostrar valores únicos directamente.")
        else:
            print(df[col].unique())
        
        print("—" * 50)


Valores nulos por columna:
customerID    0
Churn         0
customer      0
phone         0
internet      0
account       0
dtype: int64


Cantidad de filas duplicadas: 0


Valores únicos en 'customerID':
['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
——————————————————————————————————————————————————
Valores únicos en 'Churn':
['No' 'Yes' '']
——————————————————————————————————————————————————
Valores únicos en 'customer':
⚠️ Contiene diccionarios, no se puede mostrar valores únicos directamente.
——————————————————————————————————————————————————
Valores únicos en 'phone':
⚠️ Contiene diccionarios, no se puede mostrar valores únicos directamente.
——————————————————————————————————————————————————
Valores únicos en 'internet':
⚠️ Contiene diccionarios, no se puede mostrar valores únicos directamente.
——————————————————————————————————————————————————
Valores únicos en 'account':
⚠️ Contiene diccionarios, no se puede mostrar valores únicos directament

In [18]:
# Reemplazar valores vacíos en 'Churn' por NaN
df['Churn'] = df['Churn'].replace('', np.nan)

# Eliminar filas con 'Churn' faltante (opcional, si son pocas)
df = df.dropna(subset=['Churn'])

# Expandir columnas con diccionarios
customer_df = df['customer'].apply(pd.Series)
phone_df = df['phone'].apply(pd.Series)
internet_df = df['internet'].apply(pd.Series)
account_df = df['account'].apply(pd.Series)

# Combinar con el DataFrame original
df = pd.concat([df.drop(columns=['customer', 'phone', 'internet', 'account']),
                customer_df, phone_df, internet_df, account_df], axis=1)

# Comprobamos que ya no existan valores problemáticos
print(df.isnull().sum())
print(df.dtypes)


customerID          0
Churn               0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
Charges             0
dtype: int64
customerID          object
Churn               object
gender              object
SeniorCitizen        int64
Partner             object
Dependents          object
tenure               int64
PhoneService        object
MultipleLines       object
InternetService     object
OnlineSecurity      object
OnlineBackup        object
DeviceProtection    object
TechSupport         object
StreamingTV         object
StreamingMovies     object
Contract            object
PaperlessBilling    object
PaymentMethod       object
Charges             object
dtype: 

#📊 Carga y análisis

#📄Informe final