<a href="https://colab.research.google.com/github/JorgeAccardi/cienciadedatos/blob/main/TelecomX_LATAM_V3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#üìå Extracci√≥n

##‚úÖ PASO 1: Importaci√≥n de datos desde la API (GitHub)
üß© ETAPA ETL: Extracci√≥n (Extract)

## üì• Extracci√≥n de los datos desde la API (GitHub)
**Etapa ETL:** Extracci√≥n (Extract)

El objetivo de este paso es importar el archivo JSON que contiene los datos de clientes de Telecom X, simulando una extracci√≥n desde una API. El archivo se encuentra alojado en un repositorio p√∫blico de GitHub, por lo tanto accederemos a √©l utilizando su URL directa (*raw URL*).

### üîπ Variables y funciones utilizadas:

- `url`: contiene la direcci√≥n del archivo JSON en crudo desde GitHub.
- `pd.read_json()`: funci√≥n de pandas que permite leer un archivo JSON directamente desde una URL o archivo local y lo convierte en un DataFrame.
- `df_crudo`: nombre del DataFrame donde se almacenan los datos crudos originales importados.
- `df_crudo.head()`: m√©todo que muestra las primeras 5 filas del DataFrame para verificar la estructura inicial.

### üìå ¬øQu√© hace cada l√≠nea del c√≥digo?

1. **Importaci√≥n de pandas:** Se importa la biblioteca pandas, fundamental para la manipulaci√≥n de datos.
2. **Definici√≥n de URL:** Se guarda en la variable `url` la direcci√≥n directa al archivo JSON.
3. **Carga del JSON:** Se lee el archivo y se convierte en un DataFrame con `pd.read_json(url)`.
4. **Vista previa de los datos:** Se usa `df_crudo.head()` para ver las primeras filas y validar que la carga fue exitosa.

Este paso marca el inicio del proceso ETL, espec√≠ficamente la etapa de **extracci√≥n**.


In [4]:
import pandas as pd  # 1. Importamos la biblioteca pandas

# 2. URL del archivo JSON crudo desde GitHub
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json'

# 3. Leemos el JSON y lo convertimos en un DataFrame
df_crudo = pd.read_json(url)

# 4. Mostramos las primeras filas para verificar
df_crudo.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


##‚úÖ PASO 2 ‚Äì Aplanar el JSON (normalizaci√≥n de estructura anidada)
üß© ETAPA ETL: Extracci√≥n (Extract)

## üì• Aplanamiento del JSON con estructura anidada
**Etapa ETL:** Extracci√≥n (Extract)

Los datos cargados en el paso anterior tienen una estructura jer√°rquica o anidada. Es decir, algunas columnas contienen diccionarios dentro de s√≠ mismas, como por ejemplo `customer`, `account`, `phone`, `internet`.

Para analizarlos correctamente, necesitamos "aplanar" esta estructura. Para eso usamos la funci√≥n `json_normalize()` de pandas, que permite convertir objetos JSON anidados en un DataFrame plano con columnas accesibles.

### üîπ Variables y funciones utilizadas:

- `df_crudo`: DataFrame original con la estructura anidada (creado en el paso anterior).
- `df_crudo.to_dict(orient='records')`: convierte el DataFrame en una lista de diccionarios, un formato que `json_normalize` puede interpretar.
- `pd.json_normalize()`: a√≠sla todos los niveles anidados y los transforma en columnas planas.
- `sep='_'`: define que las claves anidadas se unir√°n con guion bajo (por ejemplo, `customer_gender`).

- `df`: ser√° el nuevo DataFrame ya aplanado y listo para an√°lisis.

### üìå ¬øQu√© hace este paso?

1. Convierte el DataFrame original a una lista de diccionarios (uno por fila).
2. Aplica `json_normalize()` para desanidar las claves internas.
3. Une los nombres de las claves con `_` para facilitar futuras referencias.

Resultado: un DataFrame limpio y plano, con columnas como `customer_gender`, `account_Contract`, `internet_StreamingTV`, etc.


In [5]:
# Convertimos el DataFrame a una lista de diccionarios para normalizarlo
datos_dict = df_crudo.to_dict(orient='records')

# Aplicamos json_normalize para aplanar las columnas anidadas
df = pd.json_normalize(datos_dict, sep='_')

# Mostramos las primeras filas del DataFrame plano
df.head()


Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges_Monthly,account_Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#üîß Transformaci√≥n

##‚úÖ PASO 3 ‚Äì Exploraci√≥n de columnas y tipos de datos
üß© ETAPA ETL: Transformaci√≥n (Transform)



## üîç Exploraci√≥n de columnas y tipos de datos
**Etapa ETL:** Transformaci√≥n (Transform)

Ahora que tenemos el DataFrame en formato plano, es fundamental entender su estructura general. Esto incluye:

- Ver cu√°ntas columnas tenemos
- Conocer los tipos de datos en cada columna
- Detectar posibles columnas con errores de tipo (ej: num√©ricos como texto)

Esta informaci√≥n es clave para identificar qu√© variables ser√°n √∫tiles en el an√°lisis de las bajas de los clientes (churn).

### üîπ Variables y funciones utilizadas:

- `df.info()`: muestra una visi√≥n general del DataFrame: n√∫mero de columnas, tipos de datos y valores no nulos por columna.
- `df.dtypes`: lista los tipos de datos (`int64`, `float64`, `object`, etc.) para cada columna.
- `df.columns.to_list()`: devuelve una lista con los nombres de todas las columnas.

### üìå ¬øQu√© hace este paso?

1. **Eval√∫a estructura general:** n√∫mero de columnas, filas, tipos de datos y valores no nulos.
2. **Ayuda a detectar errores comunes:** como fechas no formateadas o n√∫meros mal interpretados.
3. **Prepara el terreno** para la limpieza y estandarizaci√≥n.

Este paso marca el inicio de la etapa **Transform** dentro del proceso ETL.


In [9]:
# 1. Informaci√≥n general del DataFrame
df.info()

# 2. Tipos de datos por columna
df.dtypes

# 3. Listado completo de columnas
df.columns.to_list()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer_gender            7267 non-null   object 
 3   customer_SeniorCitizen     7267 non-null   int64  
 4   customer_Partner           7267 non-null   object 
 5   customer_Dependents        7267 non-null   object 
 6   customer_tenure            7267 non-null   int64  
 7   phone_PhoneService         7267 non-null   object 
 8   phone_MultipleLines        7267 non-null   object 
 9   internet_InternetService   7267 non-null   object 
 10  internet_OnlineSecurity    7267 non-null   object 
 11  internet_OnlineBackup      7267 non-null   object 
 12  internet_DeviceProtection  7267 non-null   object 
 13  internet_TechSupport       7267 non-null   objec

['customerID',
 'Churn',
 'customer_gender',
 'customer_SeniorCitizen',
 'customer_Partner',
 'customer_Dependents',
 'customer_tenure',
 'phone_PhoneService',
 'phone_MultipleLines',
 'internet_InternetService',
 'internet_OnlineSecurity',
 'internet_OnlineBackup',
 'internet_DeviceProtection',
 'internet_TechSupport',
 'internet_StreamingTV',
 'internet_StreamingMovies',
 'account_Contract',
 'account_PaperlessBilling',
 'account_PaymentMethod',
 'account_Charges_Monthly',
 'account_Charges_Total']

## ‚úÖ PASO 4 ‚Äì Consulta del diccionario de datos y selecci√≥n de variables relevantes
üß© ETAPA ETL: Transformaci√≥n (Transform)

## üìñ Consulta del diccionario de datos y selecci√≥n de variables relevantes
**Etapa ETL:** Transformaci√≥n (Transform)

Para comprender mejor el significado de cada columna del dataset, se consulta el diccionario de datos provisto. Este documento describe el prop√≥sito y el contenido de cada variable, lo que permite:

- Interpretar correctamente los campos
- Identificar las variables m√°s relevantes para explicar la baja de los clientes (churn)

### üîπ Variables y funciones utilizadas:

- `open()`: funci√≥n est√°ndar de Python para abrir archivos.
- `read()`: m√©todo para leer el contenido del archivo.
- `print()`: muestra el contenido del diccionario en pantalla.

### üìå ¬øQu√© hace este paso?

1. Lee y muestra el archivo `TelecomX_diccionario.md`.
2. Permite interpretar adecuadamente cada columna.
3. Sirve como base para seleccionar las variables clave en el an√°lisis.

Se presta especial atenci√≥n a variables relacionadas con el contrato, m√©todo de pago, antig√ºedad, servicios contratados y monto facturado, ya que son las m√°s relacionadas con las bajas.

Este paso es clave en la fase de **Transformaci√≥n**, porque define con qu√© variables continuaremos trabajando.


In [11]:
# Mostrar el contenido del diccionario de datos
with open('/content/TelecomX_diccionario.md', 'r', encoding='utf-8') as file:
    print(file.read())


#### Diccionario de datos

- `customerID`: n√∫mero de identificaci√≥n √∫nico de cada cliente
- `Churn`: si el cliente dej√≥ o no la empresa
- `gender`: g√©nero (masculino y femenino)
- `SeniorCitizen`: informaci√≥n sobre si un cliente tiene o no una edad igual o mayor a 65 a√±os
- `Partner`: si el cliente tiene o no una pareja
- `Dependents`: si el cliente tiene o no dependientes
- `tenure`: meses de contrato del cliente
- `PhoneService`: suscripci√≥n al servicio telef√≥nico
- `MultipleLines`: suscripci√≥n a m√°s de una l√≠nea telef√≥nica
- `InternetService`: suscripci√≥n a un proveedor de internet
- `OnlineSecurity`: suscripci√≥n adicional de seguridad en l√≠nea
- `OnlineBackup`: suscripci√≥n adicional de respaldo en l√≠nea
- `DeviceProtection`: suscripci√≥n adicional de protecci√≥n del dispositivo
- `TechSupport`: suscripci√≥n adicional de soporte t√©cnico, menor tiempo de espera
- `StreamingTV`: suscripci√≥n de televisi√≥n por cable
- `StreamingMovies`: suscripci√≥n de streaming de 

## üß† Selecci√≥n de variables clave para el an√°lisis de evasi√≥n (Churn)
**Etapa ETL:** Transformaci√≥n (Transform)

A partir del diccionario de datos, se seleccionaron las siguientes variables como potencialmente relevantes para explicar las bajas de clientes (`churn`). Estas variables fueron elegidas en base a su relaci√≥n directa con el comportamiento del cliente y su nivel de compromiso con la empresa.

| Variable (columna)     | Significado                              | ¬øPor qu√© es relevante?                                      |
|------------------------|------------------------------------------|-------------------------------------------------------------|
| `churn`                | Si el cliente se dio de baja (`yes/no`)  | Es la variable objetivo del an√°lisis.                       |
| `tenure`               | Meses como cliente                       | Clientes nuevos tienen mayor probabilidad de cancelar.      |
| `contract`             | Tipo de contrato (mensual, anual, etc.)  | Contratos m√°s largos tienden a fidelizar m√°s.               |
| `paymentmethod`        | M√©todo de pago                           | Algunos m√©todos (ej. electronic check) se asocian a m√°s bajas. |
| `paperlessbilling`     | Uso de facturaci√≥n electr√≥nica           | Indica nivel de digitalizaci√≥n y comportamiento.            |
| `monthly`              | Monto facturado mensualmente             | Cargos m√°s altos pueden generar deserci√≥n.                  |
| `total`                | Total facturado hist√≥ricamente           | Ayuda a distinguir clientes nuevos de clientes leales.      |
| `partner`              | Si tiene pareja                          | Puede indicar mayor estabilidad o dependencia del servicio. |
| `dependents`           | Si tiene personas a cargo                | Similar a `partner`, sugiere mayor necesidad de continuidad.|
| `internetservice`      | Tipo de conexi√≥n a internet              | Determina el valor percibido del servicio.                  |
| `streamingtv`, `streamingmovies` | Servicios adicionales contratados | Clientes con m√°s servicios son menos propensos a irse.     |
| `phoneservice`, `techsupport`, `onlinesecurity`, `onlinebackup` | Servicios complementarios | Permiten analizar la vinculaci√≥n del cliente con la empresa.|

Esta selecci√≥n de variables guiar√° el resto del an√°lisis y ser√° la base para visualizaciones, agrupamientos y, en etapas futuras, modelado predictivo.


##‚úÖ PASO 5 ‚Äì Verificaci√≥n de incoherencias en los datos
üß© ETAPA ETL: Transformaci√≥n (Transform)

## üß™ Verificaci√≥n de incoherencias en los datos
**Etapa ETL:** Transformaci√≥n (Transform)

Antes de continuar con el an√°lisis, es fundamental revisar si el dataset presenta problemas de calidad que puedan afectar los resultados. En este paso se identifican posibles incoherencias como:

- Valores nulos
- Filas duplicadas
- Columnas con tipos de datos incorrectos
- Inconsistencias en las categor√≠as (por ejemplo: "Yes", " yes", "yes ")

### üîπ Variables y funciones utilizadas:

- `df.isnull().sum()`: muestra cu√°ntos valores faltantes hay por columna.
- `df.duplicated().sum()`: cuenta cu√°ntas filas duplicadas existen.
- `df.select_dtypes(include='object')`: selecciona solo las columnas categ√≥ricas (tipo texto).
- `Series.unique()`: muestra los valores √∫nicos por columna para detectar inconsistencias en may√∫sculas/min√∫sculas o espacios.
- `str.strip()` / `str.lower()`: funciones para limpiar y estandarizar texto.

### üìå ¬øQu√© hace este paso?

1. Identifica valores faltantes para decidir si se imputan o eliminan.
2. Detecta duplicados que puedan distorsionar los an√°lisis.
3. Revisa si hay errores de formato o tipeado.
4. Inspecciona valores categ√≥ricos que puedan estar mal escritos o duplicados visualmente.

Este paso es esencial para garantizar la calidad y coherencia de los datos antes de su transformaci√≥n final.


In [12]:
# 1. Verificar valores nulos por columna
print("üîç Valores nulos por columna:")
print(df.isnull().sum())

# 2. Verificar si hay filas duplicadas
print("\nüîÅ Filas duplicadas:", df.duplicated().sum())

# 3. Verificar inconsistencias en valores categ√≥ricos (columnas tipo texto)
print("\nüî† Valores √∫nicos por columna categ√≥rica:")
for col in df.select_dtypes(include='object').columns:
    print(f"\n{col}: {df[col].unique()}")


üîç Valores nulos por columna:
customerID                   0
Churn                        0
customer_gender              0
customer_SeniorCitizen       0
customer_Partner             0
customer_Dependents          0
customer_tenure              0
phone_PhoneService           0
phone_MultipleLines          0
internet_InternetService     0
internet_OnlineSecurity      0
internet_OnlineBackup        0
internet_DeviceProtection    0
internet_TechSupport         0
internet_StreamingTV         0
internet_StreamingMovies     0
account_Contract             0
account_PaperlessBilling     0
account_PaymentMethod        0
account_Charges_Monthly      0
account_Charges_Total        0
dtype: int64

üîÅ Filas duplicadas: 0

üî† Valores √∫nicos por columna categ√≥rica:

customerID: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']

Churn: ['No' 'Yes' '']

customer_gender: ['Female' 'Male']

customer_Partner: ['Yes' 'No']

customer_Dependents: ['Yes' 'No']

phone

#üìä Carga y an√°lisis

#üìÑInforme final