# Notebook 01: Extracción de Datos - TelecomX

**Proyecto:** Análisis de Churn - TelecomX  

**Autor:** Santiago Aparicio Pérez

**Fecha:** Diciembre 2025  

---

## Objetivo
Extraer los datos de clientes desde la API de GitHub y realizar una primera exploración de su estructura.

## Contenido
1. Configuración del entorno
2. Conexión con la fuente de datos
3. Descarga y carga de datos
4. Exploración inicial
5. Guardado de datos raw

In [1]:
# 1. Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Definir ruta del proyecto
PROJECT_PATH = '/content/drive/MyDrive/churn_TelecomX'
print(f" Ruta del proyecto: {PROJECT_PATH}")

Mounted at /content/drive
 Ruta del proyecto: /content/drive/MyDrive/churn_TelecomX


In [2]:
# 2. Navegar al directorio del proyecto
%cd {PROJECT_PATH}
!pwd

/content/drive/MyDrive/churn_TelecomX
/content/drive/MyDrive/churn_TelecomX


## 2. Importación de Librerías

Para este proceso de extracción necesitamos las siguientes librerías:

- **requests**: Para hacer peticiones HTTP y descargar datos desde la API/GitHub
- **json**: Para leer y procesar archivos JSON
- **pandas**: Para manipular y analizar los datos en formato tabular
- **numpy**: Para operaciones numéricas (si las necesitamos)
- **datetime**: Para registrar la fecha de extracción

Estas son las herramientas fundamentales para cualquier proyecto de ciencia de datos.

In [3]:
# Importar librerías necesarias
import requests
import json
import pandas as pd
import numpy as np
from datetime import datetime

print("Librerías importadas correctamente")
print(f"Fecha de extracción: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

Librerías importadas correctamente
Fecha de extracción: 2025-12-30 12:29:43


## 3. Conexión con la Fuente de Datos

Los datos de TelecomX están almacenados en un archivo JSON en GitHub.

**URL de la API/Datos:**
```
https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json
```

**¿Por qué usamos la URL "raw"?**
- GitHub muestra los archivos con formato HTML
- La URL "raw" nos da acceso directo al contenido del archivo
- Esto permite descargarlo programáticamente con Python

In [4]:
# Definir la URL de los datos
URL_DATOS = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"

print("URL de los datos:", URL_DATOS)
print("\nDescargando datos desde GitHub...")

# Realizar la petición HTTP
response = requests.get(URL_DATOS)

# Verificar que la descarga fue exitosa
if response.status_code == 200:
    print("Datos descargados exitosamente")
    print(f"Tamaño de la respuesta: {len(response.content)} bytes")
else:
    print(f"Error al descargar los datos. Código: {response.status_code}")

URL de los datos: https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json

Descargando datos desde GitHub...
Datos descargados exitosamente
Tamaño de la respuesta: 3807078 bytes


## 4. Conversión y Exploración Inicial de los Datos

Ahora que tenemos los datos descargados, debemos:

1. **Convertir el JSON** a un formato que Python pueda procesar
2. **Cargar en un DataFrame de Pandas** para facilitar el análisis
3. **Hacer una exploración inicial** para entender qué información tenemos

Un DataFrame es como una tabla de Excel en Python - tiene filas y columnas, y nos permite manipular los datos fácilmente.

In [5]:
# Convertir la respuesta JSON a un diccionario de Python
datos_json = response.json()

# Convertir a DataFrame de Pandas
df_raw = pd.DataFrame(datos_json)

print("Datos convertidos a DataFrame exitosamente")
print(f"Dimensiones del dataset: {df_raw.shape[0]} filas x {df_raw.shape[1]} columnas")

Datos convertidos a DataFrame exitosamente
Dimensiones del dataset: 7267 filas x 6 columnas


### Resumen de Datos Descargados

Tenemos un dataset con:
- **7,267 registros** (clientes)
- **6 variables** (características de cada cliente)

Ahora vamos a explorar:
- ¿Qué columnas tenemos?
- ¿Qué tipo de datos contiene cada columna?
- ¿Cómo se ven las primeras filas?

In [6]:
# Ver las primeras 5 filas del dataset
print("Primeras 5 filas del dataset:\n")
df_raw.head()

Primeras 5 filas del dataset:



Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## 5. Estructura de los Datos

### Observación Importante

Los datos tienen una **estructura anidada**. Esto significa que algunas columnas contienen diccionarios con múltiples valores dentro.

**Ejemplo:**
- La columna `customer` contiene: `{'gender': 'Female', 'SeniorCitizen': 0, ...}`
- La columna `phone` contiene: `{'PhoneService': 'Yes', 'MultipleLines': 'No'}`

**¿Por qué es un problema?**
- Es difícil analizar datos en este formato
- No podemos hacer gráficos ni cálculos directamente

**Solución:**
Necesitamos "aplanar" (flatten) estos diccionarios para convertirlos en columnas individuales.

**Antes:**
```
customer: {'gender': 'Female', 'SeniorCitizen': 0}
```

**Después:**
```
gender: Female
SeniorCitizen: 0
```

In [7]:
# Función para aplanar diccionarios anidados
def aplanar_columna(df, columna):
    """
    Convierte una columna con diccionarios en múltiples columnas
    """
    # Extraer el diccionario y convertirlo a DataFrame
    df_expandido = pd.json_normalize(df[columna])

    # Agregar prefijo con el nombre de la columna original
    df_expandido.columns = [f"{columna}_{col}" for col in df_expandido.columns]

    return df_expandido

print("Aplanando estructura de datos...")

# Aplanar cada columna con diccionarios
df_customer = aplanar_columna(df_raw, 'customer')
df_phone = aplanar_columna(df_raw, 'phone')
df_internet = aplanar_columna(df_raw, 'internet')
df_account = aplanar_columna(df_raw, 'account')

# Combinar todo en un solo DataFrame
df_limpio = pd.concat([
    df_raw[['customerID', 'Churn']],  # Mantener ID y Churn
    df_customer,
    df_phone,
    df_internet,
    df_account
], axis=1)

print("Datos aplanados exitosamente")
print(f"Nuevas dimensiones: {df_limpio.shape[0]} filas x {df_limpio.shape[1]} columnas")

Aplanando estructura de datos...
Datos aplanados exitosamente
Nuevas dimensiones: 7267 filas x 21 columnas


### Resultado del Aplanamiento

**Antes:** 6 columnas (4 con diccionarios anidados)  
**Después:** 21 columnas (todas individuales y accesibles)

Ahora cada característica del cliente es una columna separada, lo que facilita:
- Análisis estadístico
- Visualizaciones
- Modelos de machine learning

Veamos qué columnas tenemos ahora y algunos datos de ejemplo.

In [8]:
# Ver las primeras filas del dataset limpio
print("Primeras 5 filas del dataset aplanado:\n")
display(df_limpio.head())

print("\n" + "="*60)
print("Lista de todas las columnas:")
print("="*60)
for i, col in enumerate(df_limpio.columns, 1):
    print(f"{i:2d}. {col}")

Primeras 5 filas del dataset aplanado:



Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges.Monthly,account_Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4



Lista de todas las columnas:
 1. customerID
 2. Churn
 3. customer_gender
 4. customer_SeniorCitizen
 5. customer_Partner
 6. customer_Dependents
 7. customer_tenure
 8. phone_PhoneService
 9. phone_MultipleLines
10. internet_InternetService
11. internet_OnlineSecurity
12. internet_OnlineBackup
13. internet_DeviceProtection
14. internet_TechSupport
15. internet_StreamingTV
16. internet_StreamingMovies
17. account_Contract
18. account_PaperlessBilling
19. account_PaymentMethod
20. account_Charges.Monthly
21. account_Charges.Total


In [9]:
# Información detallada del dataset
print("Información del dataset limpio:\n")
df_limpio.info()

print("\n" + "="*60)
print("Resumen estadístico de variables numéricas:")
print("="*60)
df_limpio.describe()

Información del dataset limpio:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer_gender            7267 non-null   object 
 3   customer_SeniorCitizen     7267 non-null   int64  
 4   customer_Partner           7267 non-null   object 
 5   customer_Dependents        7267 non-null   object 
 6   customer_tenure            7267 non-null   int64  
 7   phone_PhoneService         7267 non-null   object 
 8   phone_MultipleLines        7267 non-null   object 
 9   internet_InternetService   7267 non-null   object 
 10  internet_OnlineSecurity    7267 non-null   object 
 11  internet_OnlineBackup      7267 non-null   object 
 12  internet_DeviceProtection  7267 non-null   object 
 13  internet_TechSu

Unnamed: 0,customer_SeniorCitizen,customer_tenure,account_Charges.Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


## 6. Análisis Inicial de los Datos

### Características del Dataset

**Dimensiones:**
- 7,267 clientes
- 21 variables

**Variables por categoría:**

1. **Identificación (1)**
   - `customerID`: ID único del cliente

2. **Variable Objetivo (1)**
   - `Churn`: Si el cliente abandonó (Yes/No)

3. **Información Demográfica (4)**
   - `customer_gender`: Género
   - `customer_SeniorCitizen`: Es adulto mayor (0/1)
   - `customer_Partner`: Tiene pareja (Yes/No)
   - `customer_Dependents`: Tiene dependientes (Yes/No)
   - `customer_tenure`: Meses como cliente

4. **Servicios Telefónicos (2)**
   - `phone_PhoneService`: Tiene servicio telefónico
   - `phone_MultipleLines`: Tiene múltiples líneas

5. **Servicios de Internet (7)**
   - `internet_InternetService`: Tipo de internet (DSL/Fiber optic/No)
   - `internet_OnlineSecurity`: Seguridad en línea
   - `internet_OnlineBackup`: Respaldo en línea
   - `internet_DeviceProtection`: Protección de dispositivos
   - `internet_TechSupport`: Soporte técnico
   - `internet_StreamingTV`: TV en streaming
   - `internet_StreamingMovies`: Películas en streaming

6. **Información de Cuenta (5)**
   - `account_Contract`: Tipo de contrato
   - `account_PaperlessBilling`: Facturación sin papel
   - `account_PaymentMethod`: Método de pago
   - `account_Charges.Monthly`: Cargo mensual
   - `account_Charges.Total`: Cargo total

### Buenas Noticias

- **No hay valores nulos** (7,267 registros completos en todas las columnas)
- Los datos están bien estructurados
- Tenemos variables numéricas y categóricas

### Observaciones

1. `account_Charges.Total` está como **object** (texto) en lugar de numérico
   - Esto necesita corrección en la fase de limpieza
2. Muchas variables categóricas (Yes/No)
   - Necesitarán codificación para modelos

In [10]:
# Ver la distribución de nuestra variable objetivo
print("Distribución de Churn (Variable Objetivo):\n")
print(df_limpio['Churn'].value_counts())
print("\nPorcentajes:")
print(df_limpio['Churn'].value_counts(normalize=True) * 100)

Distribución de Churn (Variable Objetivo):

Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64

Porcentajes:
Churn
No     71.198569
Yes    25.719004
        3.082427
Name: proportion, dtype: float64


## 7. Diccionario de Datos

### Significado de las Variables

A continuación se describe cada variable del dataset y su relevancia para el análisis de churn:

#### Identificación
- **customerID**: Número de identificación único de cada cliente

#### Variable Objetivo
- **Churn**: Si el cliente dejó o no la empresa (Yes/No)
  - Esta es nuestra **variable objetivo** - lo que queremos predecir

#### Información Demográfica
- **gender**: Género del cliente (Male/Female)
- **SeniorCitizen**: Si el cliente tiene 65 años o más (1=Sí, 0=No)
- **Partner**: Si el cliente tiene pareja (Yes/No)
- **Dependents**: Si el cliente tiene dependientes (Yes/No)
- **tenure**: Meses de contrato del cliente
  - *Hipótesis*: Clientes con más antigüedad probablemente tienen menor churn

#### Servicios Telefónicos
- **PhoneService**: Suscripción al servicio telefónico (Yes/No)
- **MultipleLines**: Suscripción a más de una línea telefónica (Yes/No/No phone service)

#### Servicios de Internet
- **InternetService**: Tipo de proveedor de internet (DSL/Fiber optic/No)
- **OnlineSecurity**: Seguridad en línea adicional (Yes/No/No internet service)
- **OnlineBackup**: Respaldo en línea adicional (Yes/No/No internet service)
- **DeviceProtection**: Protección de dispositivo adicional (Yes/No/No internet service)
- **TechSupport**: Soporte técnico con menor tiempo de espera (Yes/No/No internet service)
- **StreamingTV**: Suscripción de televisión por cable (Yes/No/No internet service)
- **StreamingMovies**: Suscripción de streaming de películas (Yes/No/No internet service)

#### Información de Cuenta
- **Contract**: Tipo de contrato (Month-to-month/One year/Two year)
  - *Hipótesis*: Contratos más largos podrían reducir el churn
- **PaperlessBilling**: Si prefiere factura en línea (Yes/No)
- **PaymentMethod**: Forma de pago (Electronic check/Mailed check/Bank transfer/Credit card)
- **Charges.Monthly**: Total de servicios del cliente por mes (USD)
- **Charges.Total**: Total gastado por el cliente (USD)
  - *Hipótesis*: Clientes con cargos muy altos podrían tener mayor churn

### Variables Potencialmente Más Relevantes para Predecir Churn

Basándonos en lógica de negocio, estas variables podrían ser las más importantes:

1. **tenure** (antigüedad) - Clientes nuevos suelen irse más
2. **Contract** (tipo de contrato) - Contratos mensuales vs anuales
3. **Charges.Monthly** - Precio del servicio
4. **InternetService** - Tipo de conexión
5. **TechSupport** - Soporte técnico disponible
6. **PaymentMethod** - Método de pago puede indicar compromiso
7. **SeniorCitizen** - Grupo demográfico específico

Estas hipótesis las validaremos en el análisis exploratorio (EDA).

## 8. Guardado de Datos Raw

Ahora que hemos extraído y explorado los datos, debemos guardarlos en la carpeta `data/raw/` para:
- Preservar los datos originales sin modificar
- Permitir reproducibilidad del análisis
- Seguir las mejores prácticas de organización de proyectos

Los datos se guardarán en formato CSV para facilitar su manipulación posterior.

In [11]:
# Guardar el DataFrame en formato CSV
ruta_datos_raw = f"{PROJECT_PATH}/data/raw/TelecomX_raw.csv"

# Guardar sin índice
df_limpio.to_csv(ruta_datos_raw, index=False)

print("Guardando datos extraídos...")
print(f"Datos guardados exitosamente")
print(f"Ubicación: data/raw/TelecomX_raw.csv")
print(f"Registros: {len(df_limpio):,}")
print(f"Columnas: {len(df_limpio.columns)}")
print(f"Tamaño del archivo: {df_limpio.memory_usage(deep=True).sum() / 1024:.2f} KB")

Guardando datos extraídos...
Datos guardados exitosamente
Ubicación: data/raw/TelecomX_raw.csv
Registros: 7,267
Columnas: 21
Tamaño del archivo: 7206.96 KB


## Resumen del Notebook 01: Extracción de Datos

### Tareas Completadas

1. **Configuración del entorno** - Conexión con Google Drive
2. **Extracción de datos** - Descarga exitosa desde API de GitHub (3.8 MB)
3. **Transformación de estructura** - Aplanado de JSON anidado (6 → 21 columnas)
4. **Exploración inicial** - Análisis de tipos de datos con `.info()` y `.describe()`
5. **Consulta del diccionario** - Comprensión del significado de cada variable
6. **Identificación de variables relevantes** - Variables clave para análisis de churn
7. **Guardado de datos raw** - Datos preservados en `data/raw/TelecomX_raw.csv`

---

### Resumen de los Datos Extraídos

| Métrica | Valor |
|---------|-------|
| **Total de clientes** | 7,267 |
| **Número de variables** | 21 |
| **Valores nulos** | 0 (todas las columnas completas) |
| **Variables numéricas** | 3 (`SeniorCitizen`, `tenure`, `Charges.Monthly`) |
| **Variables categóricas** | 18 |

---

### Hallazgos Importantes

1. **No hay valores nulos** en ninguna columna
2. **224 registros (3.1%) tienen Churn vacío** - Requiere atención en limpieza
3. **`account_Charges.Total` está como object** - Debe convertirse a numérico
4. **Distribución de Churn** (excluyendo vacíos):
   - No: 73.5% (5,174 clientes)
   - Yes: 26.5% (1,869 clientes)

---

### Variables Identificadas como Más Relevantes

Según el diccionario de datos y lógica de negocio:

1. **tenure** - Antigüedad del cliente (meses)
2. **Contract** - Tipo de contrato (mensual vs anual)
3. **Charges.Monthly** - Cargo mensual
4. **InternetService** - Tipo de servicio de internet
5. **TechSupport** - Disponibilidad de soporte técnico
6. **PaymentMethod** - Método de pago
7. **SeniorCitizen** - Si es adulto mayor

Estas variables serán analizadas en profundidad en el EDA para validar su impacto en el churn.

---

### Próximos Pasos

**Notebook 02: Limpieza y Transformación de Datos**

Tareas pendientes:
- [ ] Convertir `account_Charges.Total` de object a float
- [ ] Analizar y decidir qué hacer con los 224 registros de Churn vacío
- [ ] Verificar valores inconsistentes en variables categóricas
- [ ] Detectar y manejar outliers en variables numéricas
- [ ] Estandarizar formatos de variables categóricas
- [ ] Guardar datos limpios en `data/processed/`

---

**Fecha de extracción**: 30 de diciembre de 2025  
**Archivo generado**: `data/raw/TelecomX_raw.csv`  
**Analista**: Santiago Aparicio Pérez  
**Proyecto**: Challenge ONE - Análisis de Churn TelecomX

In [15]:
# Configurar usuario de Git
!git config --global user.name "Santiago Aparicio"
!git config --global user.email "santiagoaparicioperez674@gmail.com"

print("Git configurado correctamente")

Git configurado correctamente


In [16]:
# Descargar el notebook actual desde Colab y guardarlo en la carpeta correcta
from google.colab import files
import shutil

# Ruta donde debe estar el notebook
notebook_destino = f"{PROJECT_PATH}/notebooks/01_extraccion_datos.ipynb"

print(f"Por favor, guarda manualmente el notebook en:")
print(f"   {notebook_destino}")
print("\nPasos:")
print("   1. Archivo → Descargar → Descargar .ipynb")
print("   2. Subir el archivo a la carpeta notebooks/ del proyecto")

Por favor, guarda manualmente el notebook en:
   /content/drive/MyDrive/churn_TelecomX/notebooks/01_extraccion_datos.ipynb

Pasos:
   1. Archivo → Descargar → Descargar .ipynb
   2. Subir el archivo a la carpeta notebooks/ del proyecto


In [17]:
# Verificar si el notebook existe en la ubicación correcta
!ls -la notebooks/

total 75
-rw------- 1 root root 66137 Dec 30 13:00  01_extraccion_datos.ipynb
-rw------- 1 root root     0 Dec 30 02:04  .gitkeep
-rw------- 1 root root  9625 Dec 30 12:13 'Notebook 00_Setup_del_Proyecto.ipynb'
