<a href="https://colab.research.google.com/github/JorgeAccardi/cienciadedatos/blob/main/TelecomX_LATAM_ETL_v01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 📌 Extracción

## 🎯 Objetivo general

El objetivo del proyecto es comprender los factores que llevan a la pérdida de clientes (*churn*) en la empresa ficticia **Telecom X**. A través del análisis exploratorio de datos (EDA), se buscarán patrones y correlaciones para fundamentar decisiones de negocio y alimentar modelos predictivos.

## 🧩 Fase ETL - Extracción

### 🔹 Acciones realizadas
- Identificamos como fuente de datos el archivo `TelecomX_Data.json`.
- Cargamos el archivo usando la librería estándar `json`.
- Convertimos el contenido a una estructura Python (lista de diccionarios).
- Visualizamos un ejemplo para inspeccionar su estructura interna anidada.

> Esta etapa representa el inicio del proceso ETL: **Extracción** de los datos desde su fuente original.


In [2]:

import json
import pandas as pd

# Ruta del archivo JSON (ajustar si estás en otro entorno)
ruta = '/content/TelecomX_Data.json'

# Cargar el archivo como lista de diccionarios
with open(ruta, 'r') as f:
    datos = json.load(f)

# Visualizar un registro para entender la estructura
print("Ejemplo de un registro:")
print(json.dumps(datos[0], indent=2))


Ejemplo de un registro:
{
  "customerID": "0002-ORFBO",
  "Churn": "No",
  "customer": {
    "gender": "Female",
    "SeniorCitizen": 0,
    "Partner": "Yes",
    "Dependents": "Yes",
    "tenure": 9
  },
  "phone": {
    "PhoneService": "Yes",
    "MultipleLines": "No"
  },
  "internet": {
    "InternetService": "DSL",
    "OnlineSecurity": "No",
    "OnlineBackup": "Yes",
    "DeviceProtection": "No",
    "TechSupport": "Yes",
    "StreamingTV": "Yes",
    "StreamingMovies": "No"
  },
  "account": {
    "Contract": "One year",
    "PaperlessBilling": "Yes",
    "PaymentMethod": "Mailed check",
    "Charges": {
      "Monthly": 65.6,
      "Total": "593.3"
    }
  }
}



# 🔧 Transformación

## 🎯 Objetivo

Transformar los datos cargados desde el JSON, que tienen una estructura anidada (jerárquica), en un `DataFrame` plano con columnas simples. Esto es esencial para aplicar análisis estadístico y visualización.

## 🧠 Justificación

Las bibliotecas de análisis como `pandas` requieren estructuras tabulares. Por lo tanto, desanidar los campos es parte clave del subproceso de **Transformación** dentro del flujo ETL.

> Utilizaremos `pandas.json_normalize()` para aplanar la estructura, separando campos internos con un punto.


In [3]:

# Aplicamos json_normalize para transformar a DataFrame plano
df = pd.json_normalize(datos, sep='.')

# Vista preliminar del DataFrame
df.head()


Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [4]:
# Ver forma general del DataFrame
print("Dimensiones del dataset (filas, columnas):", df.shape)

# Nombres de las columnas
print("\nColumnas disponibles:")
print(df.columns.tolist())

# Tipos de datos
print("\nTipos de datos:")
print(df.dtypes)

# O bien, un resumen más completo
print("\nResumen general del DataFrame:")
df.info()


Dimensiones del dataset (filas, columnas): (7267, 21)

Columnas disponibles:
['customerID', 'Churn', 'customer.gender', 'customer.SeniorCitizen', 'customer.Partner', 'customer.Dependents', 'customer.tenure', 'phone.PhoneService', 'phone.MultipleLines', 'internet.InternetService', 'internet.OnlineSecurity', 'internet.OnlineBackup', 'internet.DeviceProtection', 'internet.TechSupport', 'internet.StreamingTV', 'internet.StreamingMovies', 'account.Contract', 'account.PaperlessBilling', 'account.PaymentMethod', 'account.Charges.Monthly', 'account.Charges.Total']

Tipos de datos:
customerID                    object
Churn                         object
customer.gender               object
customer.SeniorCitizen         int64
customer.Partner              object
customer.Dependents           object
customer.tenure                int64
phone.PhoneService            object
phone.MultipleLines           object
internet.InternetService      object
internet.OnlineSecurity       object
internet.Onli

#📊 Carga y análisis

#📄Informe final