# 📊 1. - Extracción de Datos

Este notebook forma parte del desafío **Telecom X ETL Challenge**.  
Aquí se realiza la **extracción de datos** desde una fuente pública en formato JSON, seguida de su conversión a un DataFrame de Pandas para facilitar el análisis posterior.

---

## ✅ Objetivos

- Acceder a los datos desde una URL pública.
- Convertir los datos JSON en un DataFrame.
- Realizar una exploración inicial de la estructura de los datos.
- Guardar los datos crudos en formato JSON para su uso posterior.

---

### 1.1 Importación de librerías

In [None]:
# Importación de librerías necesarias
import pandas as pd
import requests

### 1.2 Definición de la URL y extracción de datos

In [None]:
# URL del archivo JSON en GitHub (formato raw)
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"

# Solicitud HTTP para obtener los datos
response = requests.get(url)

#  Verificación de estado
if response.status_code == 200:
    data_json = response.json()
    print("Datos cargados correctamente.")
else:
    raise Exception(f"Error al acceder a la URL: {response.status_code}")

Datos cargados correctamente.


### 1.3 Conversión a DataFrame

In [None]:
# Convertir los datos JSON en un DataFrame de Pandas
df = pd.DataFrame(data_json)

# Vista previa usando el metodo head()
df.head()


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


### 1.4 Exploración inicial

In [None]:
# Información general del DataFrame
df.info()

# Estadísticas descriptivas usando el metodo describe()
df.describe(include='all')


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


Unnamed: 0,customerID,Churn,customer,phone,internet,account
count,7267,7267,7267,7267,7267,7267
unique,7267,3,891,3,129,6931
top,9995-HOTOH,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'No', 'OnlineSecurity': 'N...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
freq,1,5174,223,3495,1581,6


### 1.5 Guardar los datos crudos

In [14]:
# Guardar el DataFrame como JSON estructurado
df.to_json('/content/drive/MyDrive/challenge-TelecomX-ETL/data/raw/telecomx_raw.json', orient='records', indent=2)
print("✅ Archivo JSON guardado correctamente.")



✅ Archivo JSON guardado correctamente.


### Conclusiones

- Los datos fueron cargados exitosamente desde GitHub (desde de la API de Telecom X.).
- Se identificaron las columnas disponibles para análisis posterior.
- El archivo fue guardado en formato JSON para facilitar la limpieza y transformación en el siguiente notebook.

---

➡️ **Siguiente paso**: Limpieza y transformación de los datos en `02_data_cleaning.ipynb`.
