# üßπ Clase 04: APIs y Data Wrangling
**Curso:** Data Science II: Machine Learning para la Ciencia de Datos  
**Docente:** Leandro Araque

---

## üöÄ Contexto del Rol Profesional: "La Realidad de los Datos"

¬°Hola de nuevo, equipo de Datos de **TechMarket**! üëã

La semana pasada logramos extraer datos de nuestras bases SQL y de APIs externas. Parec√≠a un √©xito rotundo, pero al revisar los archivos esta ma√±ana, el equipo de Marketing nos ha alertado de varios problemas graves:

1.  **Datos Fragmentados:** Las ventas de las sucursales "Norte" y "Sur" llegaron en archivos separados. Hay que unificarlos. (**Concatenaci√≥n**)
2.  **Informaci√≥n Incompleta:** Al cruzar las ventas con los clientes, faltan datos. (**Merges**)
3.  **Suciedad:** La API de usuarios nos envi√≥ datos anidados (JSON complejos) y hay muchos campos vac√≠os (`NaN`). No podemos hacer Machine Learning con huecos. (**Wrangling & Missing Values**)

Tu misi√≥n hoy es **limpiar, unir y estructurar** estos datos para dejarlos listos para el an√°lisis final.

¬°A limpiar se ha dicho! üßΩ‚ú®

In [1]:
# üõ†Ô∏è SETUP INICIAL: Generaci√≥n de Datos Fragmentados
import pandas as pd
import numpy as np
import json

# 1. Simulaci√≥n: Ventas Sucursal NORTE
df_norte = pd.DataFrame({
    'id_venta': [101, 102, 103],
    'producto': ['Laptop', 'Mouse', 'Teclado'],
    'cantidad': [2, 5, 3],
    'monto': [2000, 50, 150],
    'sucursal': ['Norte'] * 3
})

# 2. Simulaci√≥n: Ventas Sucursal SUR (Mismas columnas)
df_sur = pd.DataFrame({
    'id_venta': [201, 202],
    'producto': ['Monitor', 'Laptop'],
    'cantidad': [1, 1],
    'monto': [300, 1000],
    'sucursal': ['Sur'] * 2
})

# 3. Simulaci√≥n: Tabla de Descuentos (Para cruzar/Merge)
df_descuentos = pd.DataFrame({
    'producto': ['Laptop', 'Monitor', 'Teclado'], # Mouse no tiene descuento
    'descuento_pct': [0.10, 0.05, 0.15]
})

print("‚úÖ Datos de sucursales cargados en memoria.")

‚úÖ Datos de sucursales cargados en memoria.


## 1. üîÑ Recap: ¬øD√≥nde estamos?
En la clase anterior aprendimos a conectar fuentes (SQL/APIs). Hoy nos enfocaremos en **Pandas** como nuestra mesa de trabajo principal.

Recordemos que en la vida real, el **60-80% del tiempo** de un Data Scientist se va en limpiar y acomodar datos (Data Wrangling). Hoy aprender√°s por qu√©.

## 2. üß© Uniendo Piezas: Concat y Merge

**El Problema:** Tenemos dos reportes de ventas (Norte y Sur) separados. El Gerente Comercial quiere **UN solo reporte** total. Adem√°s, quiere aplicar los descuentos correspondientes a cada producto.

**Conceptos:**
1.  **`pd.concat` (Apilar):** Pone un DataFrame encima del otro (o al lado). √ötil cuando tienen las mismas columnas. (Analog√≠a: Pegar hojas de Excel una debajo de otra).
2.  **`pd.merge` (Cruzar):** Es el equivalente al `JOIN` de SQL. Une tablas bas√°ndose en una columna com√∫n (llave).

**Sintaxis:**
* `pd.concat([df1, df2], axis=0)` (Vertical)
* `pd.merge(df_izq, df_der, on='columna_clave', how='inner/left')`

In [None]:
#Codigo

In [None]:
#codigo

### üß† Desaf√≠o 1: Tu Turno
**Consigna:** Acaba de llegar un archivo con los **Costos de Env√≠o** por sucursal.
Debes cruzar (`merge`) tu tabla `df_consolidado` con la tabla `df_envios` para saber cu√°nto cuesta enviar cada producto seg√∫n su origen.

**Nota:** Usa la columna `sucursal` como llave.

In [8]:
# Datos para el desaf√≠o
df_envios = pd.DataFrame({
    'sucursal': ['Norte', 'Sur'],
    'costo_envio': [15.00, 25.50]
})

# üíª Tu c√≥digo aqu√≠:
# df_final = ...

**SOLUCION**

## 3. üï∏Ô∏è Data Wrangling: Domando JSONs complejos

**El Problema:** La API de clientes nos devolvi√≥ un JSON, pero no es una tabla plana. Tiene "diccionarios dentro de diccionarios" (ej. la direcci√≥n est√° anidada). Pandas no lee esto bien autom√°ticamente.

**Concepto:**
* **JSON Anidado:** Estructuras jer√°rquicas.
* **`pd.json_normalize`:** Una funci√≥n m√°gica de Pandas que "aplana" (flatten) los JSONs, convirtiendo las claves anidadas en columnas separadas (ej. `direccion.ciudad`).

**Uso Pr√°ctico:** Fundamental para trabajar con APIs de redes sociales, e-commerce o NoSQL (MongoDB).

In [23]:
# üë®‚Äçüè´ Ejercicio: Aplanar un JSON anidado.

# Simulemos la respuesta de una API (Lista de diccionarios anidados)
datos_api_raw = [
    {
        "id": 1,
        "nombre": "Ana",
        "contacto": {
            "email": "ana@test.com",
            "telefono": "555-1234"
        },
        "historial": [101, 102] # Lista dentro de un objeto
    },
    {
        "id": 2,
        "nombre": "Beto",
        "contacto": {
            "email": None, # Dato faltante
            "telefono": "555-9999"
        },
        "historial": []
    }
]

# Intento ingenuo (Se ve mal)
print("--- DataFrame Normal (Mal) ---")
display(pd.DataFrame(datos_api_raw))


--- DataFrame Normal (Mal) ---


Unnamed: 0,id,nombre,contacto,historial
0,1,Ana,"{'email': 'ana@test.com', 'telefono': '555-1234'}","[101, 102]"
1,2,Beto,"{'email': None, 'telefono': '555-9999'}",[]


In [24]:
# Soluci√≥n con json_normalize
print("\n--- DataFrame Normalizado (Bien) ---")
df_clientes = pd.json_normalize(datos_api_raw)
display(df_clientes)


--- DataFrame Normalizado (Bien) ---


Unnamed: 0,id,nombre,historial,contacto.email,contacto.telefono
0,1,Ana,"[101, 102]",ana@test.com,555-1234
1,2,Beto,[],,555-9999


### üß† Desaf√≠o 2: Tu Turno
**Consigna:** Observa el `df_clientes` que acabamos de generar.
1. La columna `historial` contiene listas. Crea una nueva columna llamada `cantidad_compras` que cuente cu√°ntos elementos hay en esa lista para cada usuario. (Tip: usa `.apply(len)`).
2. Muestra solo el nombre y la nueva columna.

In [None]:
# üíª Tu c√≥digo aqu√≠:

## 4. üïµÔ∏è‚Äç‚ôÄÔ∏è Datos Ausentes (Nulls) y Agregaciones

**El Problema:** Al unir tablas o traer datos de APIs, aparecieron `NaN` (Not a Number / Null).
* En `descuento_pct`: El Mouse no ten√≠a descuento -> `NaN`.
* En `contacto.email`: Beto no tiene email -> `None`.

**Manejo de Nulos:**
1.  **Identificar:** `.isna().sum()`
2.  **Rellenar:** `.fillna(valor)` (Ej. rellenar descuento con 0).
3.  **Eliminar:** `.dropna()`.

**Agregaciones (GroupBy en Pandas):**
Igual que en SQL, usamos `.groupby()` para sacar reportes finales.

### üß† Desaf√≠o Final: Limpieza de Clientes
**Consigna:** Volvamos al DataFrame `df_clientes`.
1. Detecta cu√°ntos nulos hay en la columna `contacto.email`.
2. Rellena los emails faltantes con el texto "no_email@techmarket.com".
3. Muestra el DataFrame limpio.

In [21]:
display (df_clientes)

Unnamed: 0,id,nombre,historial,contacto.email,contacto.telefono,cantidad_compras
0,1,Ana,"[101, 102]",ana@test.com,555-1234,2
1,2,Beto,[],,555-9999,0


In [20]:
# üíª Tu c√≥digo aqu√≠:

## üèÅ Misi√≥n Cumplida

¬°Excelente trabajo recuperando los datos! üõ°Ô∏è

Hoy lograste:
1.  **Unificar** archivos dispersos (`concat`).
2.  **Enriquecer** datos cruzando tablas (`merge`).
3.  **Estructurar** datos complejos de APIs (`json_normalize`).
4.  **Sanear** la base de datos eliminando huecos (`fillna`).

**Pr√≥xima Clase:** Con los datos limpios, pasaremos a la etapa creativa: **EDA y Visualizaci√≥n**. Aprenderemos a hacer gr√°ficos que cuenten la historia de estos datos.