<a href="https://colab.research.google.com/github/JorgeAccardi/cienciadedatos/blob/main/TelecomX_LATAM_V3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#📌 Extracción

##✅ PASO 1: Importación de datos desde la API (GitHub)
🧩 ETAPA ETL: Extracción (Extract)

## 📥 Extracción de los datos desde la API (GitHub)
**Etapa ETL:** Extracción (Extract)

El objetivo de este paso es importar el archivo JSON que contiene los datos de clientes de Telecom X, simulando una extracción desde una API. El archivo se encuentra alojado en un repositorio público de GitHub, por lo tanto accederemos a él utilizando su URL directa (*raw URL*).

### 🔹 Variables y funciones utilizadas:

- `url`: contiene la dirección del archivo JSON en crudo desde GitHub.
- `pd.read_json()`: función de pandas que permite leer un archivo JSON directamente desde una URL o archivo local y lo convierte en un DataFrame.
- `df_crudo`: nombre del DataFrame donde se almacenan los datos crudos originales importados.
- `df_crudo.head()`: método que muestra las primeras 5 filas del DataFrame para verificar la estructura inicial.

### 📌 ¿Qué hace cada línea del código?

1. **Importación de pandas:** Se importa la biblioteca pandas, fundamental para la manipulación de datos.
2. **Definición de URL:** Se guarda en la variable `url` la dirección directa al archivo JSON.
3. **Carga del JSON:** Se lee el archivo y se convierte en un DataFrame con `pd.read_json(url)`.
4. **Vista previa de los datos:** Se usa `df_crudo.head()` para ver las primeras filas y validar que la carga fue exitosa.

Este paso marca el inicio del proceso ETL, específicamente la etapa de **extracción**.


In [4]:
import pandas as pd  # 1. Importamos la biblioteca pandas

# 2. URL del archivo JSON crudo desde GitHub
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json'

# 3. Leemos el JSON y lo convertimos en un DataFrame
df_crudo = pd.read_json(url)

# 4. Mostramos las primeras filas para verificar
df_crudo.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


##✅ PASO 2 – Aplanar el JSON (normalización de estructura anidada)
🧩 ETAPA ETL: Extracción (Extract)

## 📥 Aplanamiento del JSON con estructura anidada
**Etapa ETL:** Extracción (Extract)

Los datos cargados en el paso anterior tienen una estructura jerárquica o anidada. Es decir, algunas columnas contienen diccionarios dentro de sí mismas, como por ejemplo `customer`, `account`, `phone`, `internet`.

Para analizarlos correctamente, necesitamos "aplanar" esta estructura. Para eso usamos la función `json_normalize()` de pandas, que permite convertir objetos JSON anidados en un DataFrame plano con columnas accesibles.

### 🔹 Variables y funciones utilizadas:

- `df_crudo`: DataFrame original con la estructura anidada (creado en el paso anterior).
- `df_crudo.to_dict(orient='records')`: convierte el DataFrame en una lista de diccionarios, un formato que `json_normalize` puede interpretar.
- `pd.json_normalize()`: aísla todos los niveles anidados y los transforma en columnas planas.
- `sep='_'`: define que las claves anidadas se unirán con guion bajo (por ejemplo, `customer_gender`).

- `df`: será el nuevo DataFrame ya aplanado y listo para análisis.

### 📌 ¿Qué hace este paso?

1. Convierte el DataFrame original a una lista de diccionarios (uno por fila).
2. Aplica `json_normalize()` para desanidar las claves internas.
3. Une los nombres de las claves con `_` para facilitar futuras referencias.

Resultado: un DataFrame limpio y plano, con columnas como `customer_gender`, `account_Contract`, `internet_StreamingTV`, etc.


In [5]:
# Convertimos el DataFrame a una lista de diccionarios para normalizarlo
datos_dict = df_crudo.to_dict(orient='records')

# Aplicamos json_normalize para aplanar las columnas anidadas
df = pd.json_normalize(datos_dict, sep='_')

# Mostramos las primeras filas del DataFrame plano
df.head()


Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges_Monthly,account_Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#🔧 Transformación

##✅ PASO 3 – Exploración de columnas y tipos de datos
🧩 ETAPA ETL: Transformación (Transform)



## 🔍 Exploración de columnas y tipos de datos
**Etapa ETL:** Transformación (Transform)

Ahora que tenemos el DataFrame en formato plano, es fundamental entender su estructura general. Esto incluye:

- Ver cuántas columnas tenemos
- Conocer los tipos de datos en cada columna
- Detectar posibles columnas con errores de tipo (ej: numéricos como texto)

Esta información es clave para identificar qué variables serán útiles en el análisis de las bajas de los clientes (churn).

### 🔹 Variables y funciones utilizadas:

- `df.info()`: muestra una visión general del DataFrame: número de columnas, tipos de datos y valores no nulos por columna.
- `df.dtypes`: lista los tipos de datos (`int64`, `float64`, `object`, etc.) para cada columna.
- `df.columns.to_list()`: devuelve una lista con los nombres de todas las columnas.

### 📌 ¿Qué hace este paso?

1. **Evalúa estructura general:** número de columnas, filas, tipos de datos y valores no nulos.
2. **Ayuda a detectar errores comunes:** como fechas no formateadas o números mal interpretados.
3. **Prepara el terreno** para la limpieza y estandarización.

Este paso marca el inicio de la etapa **Transform** dentro del proceso ETL.


In [9]:
# 1. Información general del DataFrame
df.info()

# 2. Tipos de datos por columna
df.dtypes

# 3. Listado completo de columnas
df.columns.to_list()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer_gender            7267 non-null   object 
 3   customer_SeniorCitizen     7267 non-null   int64  
 4   customer_Partner           7267 non-null   object 
 5   customer_Dependents        7267 non-null   object 
 6   customer_tenure            7267 non-null   int64  
 7   phone_PhoneService         7267 non-null   object 
 8   phone_MultipleLines        7267 non-null   object 
 9   internet_InternetService   7267 non-null   object 
 10  internet_OnlineSecurity    7267 non-null   object 
 11  internet_OnlineBackup      7267 non-null   object 
 12  internet_DeviceProtection  7267 non-null   object 
 13  internet_TechSupport       7267 non-null   objec

['customerID',
 'Churn',
 'customer_gender',
 'customer_SeniorCitizen',
 'customer_Partner',
 'customer_Dependents',
 'customer_tenure',
 'phone_PhoneService',
 'phone_MultipleLines',
 'internet_InternetService',
 'internet_OnlineSecurity',
 'internet_OnlineBackup',
 'internet_DeviceProtection',
 'internet_TechSupport',
 'internet_StreamingTV',
 'internet_StreamingMovies',
 'account_Contract',
 'account_PaperlessBilling',
 'account_PaymentMethod',
 'account_Charges_Monthly',
 'account_Charges_Total']

#📊 Carga y análisis

#📄Informe final