# üìò Lectura desde la Web (APIs) y JSON ‚Üí pandas  
**Con persistencia en Parquet/Pickle y opciones SQLite/MongoDB**  

> Notebook orientado a *Ciencia de Datos*: consumir APIs web (JSON), normalizar y analizar con **pandas**, y **persistir** eficientemente para reutilizaci√≥n y performance.

## üéØ Objetivos
- Entender el flujo **API ‚Üí JSON ‚Üí Python ‚Üí DataFrame**.
- Consumir datos desde la web con **requests** (GET, headers, paginaci√≥n, manejo de errores y rate limits).
- Transformar JSON (incluyendo **anidado**) a **pandas DataFrame** con `json_normalize`.
- Realizar limpieza: tipado, faltantes, selecci√≥n de columnas, arrays con `explode`.
- Persistir resultados en **Parquet** (columnar) y **Pickle** (Python-only, con nota de seguridad).
- (Opcional) Guardar/leer en **SQLite** y **MongoDB**.
- Medir performance y aplicar buenas pr√°cticas.


## üß† Flujo general (mapa mental)

```
API (HTTP) ‚îÄ‚îÄ‚ñ∫ respuesta JSON (texto) ‚îÄ‚îÄ‚ñ∫ response.json() ‚îÄ‚îÄ‚ñ∫ dict/list (Python)
     ‚îÇ
     ‚îî‚îÄ‚îÄ‚ñ∫ status_code, headers, paginaci√≥n, rate limits

dict/list ‚îÄ‚îÄ‚ñ∫ pandas.json_normalize(...) ‚îÄ‚îÄ‚ñ∫ DataFrame ‚îÄ‚îÄ‚ñ∫ selecci√≥n/limpieza
                                                        ‚îî‚îÄ‚ñ∫ persistencia: Parquet / Pickle / SQLite / Mongo
```


## üßæ JSON r√°pido (equivalencias)
| JSON                          | Python            | Ejemplo                                 |
|------------------------------|-------------------|-----------------------------------------|
| `{ "clave": "valor" }`       | `dict`            | `{"id": 1, "title": "Mouse"}`           |
| `[ { ... }, { ... } ]`       | `list`            | `[{"id":1},{"id":2}]`                   |
| `"texto"`                    | `str`             | `"hola"`                                |
| `123`, `45.6`                | `int` / `float`   | `42` / `3.14`                           |
| `true`, `false`              | `bool`            | `True` / `False`                        |
| `null`                       | `None`            | `None`                                  |


## üß∞ Librer√≠as
> Ejecut√° la celda de instalaci√≥n si te falta algo (descoment√° las l√≠neas).

In [None]:
# !pip install requests pandas pyarrow fastparquet pymongo matplotlib
import json, time, math, sys, os
import requests
import pandas as pd
from pandas import json_normalize
print('Versions ‚Üí pandas:', pd.__version__)


## 1) GET a una API p√∫blica (con manejo de errores) + **fallback offline**
Usamos `https://dummyjson.com/products`. Si no hay internet, usamos un **JSON de ejemplo** embebido.

In [None]:
URL = 'https://dummyjson.com/products'

def fetch_json(url: str, timeout=10):
    try:
        r = requests.get(url, timeout=timeout)
        if r.status_code != 200:
            raise RuntimeError(f'HTTP {r.status_code}: {r.text[:120]}')
        return r.json()
    except Exception as e:
        print('‚ö†Ô∏è No se pudo descargar desde la web. Usando fallback offline.\nMotivo:', e)
        # Fallback m√≠nimo similar a dummyjson
        return {
            'products': [
                {'id':1,'title':'Phone','brand':'Acme','price':199.99,'rating':4.5,'tags':['tech','mobile']},
                {'id':2,'title':'Laptop','brand':'Acme','price':999.0,'rating':4.7,'tags':['tech','computer']},
                {'id':3,'title':'Headphones','brand':'Sonic','price':79.5,'rating':4.2,'tags':['audio','tech']}
            ],
            'total': 3,
            'skip': 0,
            'limit': 3
        }

data = fetch_json(URL)
type(data), list(data)[:5], (len(data['products']) if 'products' in data else None)


### Inspecci√≥n r√°pida del JSON

In [None]:
print('Claves de nivel 1:', list(data.keys()))
if 'products' in data:
    print('Total productos reportado:', data.get('total'))
    print('Ejemplo de primer producto:')
    print(json.dumps(data['products'][0], indent=2, ensure_ascii=False))


## 2) De JSON a DataFrame con `json_normalize`
- Si el JSON es **lista de objetos**: `pd.DataFrame(lista)`
- Si el JSON es **anidado**: `json_normalize` ayuda a **aplanar**.

In [None]:
items = data['products'] if 'products' in data else data
df = pd.DataFrame(items)
df.head()


In [None]:
# Si existieran subcampos anidados, json_normalize los aplanar√≠a con nombres jer√°rquicos 'a.b.c'
df_flat = json_normalize(items, sep='.')
df_flat.head()


## 3) Selecci√≥n y renombre de columnas
Elegimos un subconjunto **m√≠nimo viable** para an√°lisis.

In [None]:
keep = [c for c in ['id','title','brand','price','rating','tags'] if c in df_flat.columns]
df_view = df_flat[keep].copy()
df_view = df_view.rename(columns={'title':'name'})
df_view.head()


## 4) Tipado y valores faltantes
- Convertimos a num√©rico donde corresponde.
- Calculamos % de faltantes por columna.
- Creamos banderas de faltantes si hace falta.

In [None]:
for col in ['price','rating']:
    if col in df_view.columns:
        df_view[col] = pd.to_numeric(df_view[col], errors='coerce')
na_pct = df_view.isna().mean().round(3)
na_pct


In [None]:
# Bandera de faltantes opcional (tipo entero 0/1)
for col in df_view.columns:
    df_view[f'{col}_isna'] = df_view[col].isna().astype('Int8')
df_view.head()


## 5) Manejo de listas dentro del JSON (`explode`)
Cuando hay arrays (ej. `tags`), `explode` crea una fila por elemento.

In [None]:
if 'tags' in df_view.columns:
    df_tags = df_view[['id','name','tags']].explode('tags', ignore_index=True)
    df_tags.head()
else:
    print("No hay columna 'tags' en este dataset.")


## 6) Visualizaci√≥n r√°pida (opcional)
> Requiere `matplotlib`. No seteamos estilos ni colores.

In [None]:
import matplotlib.pyplot as plt

if 'brand' in df_view.columns:
    counts = df_view['brand'].value_counts()
    plt.figure()
    counts.plot(kind='bar', title='Cantidad por marca')
    plt.show()
else:
    print("No hay columna 'brand' para graficar.")


## 7) Paginaci√≥n y rate limits (patr√≥n general)
Muchas APIs devuelven resultados en p√°ginas. Patr√≥n t√≠pico:

In [None]:
def fetch_paginated(base_url, page_param='page', start=1, max_pages=3, per_page_param=None, per_page=50, delay=0.5):
    """Ejemplo gen√©rico de paginaci√≥n:
    - base_url: 'https://api.ejemplo.com/items'
    - page_param: 'page' o 'offset' seg√∫n la API
    - per_page_param: nombre del par√°metro de tama√±o de p√°gina si aplica
    - delay: para respetar l√≠mites de rate (evitar bloqueos)
    """
    all_items = []
    for p in range(start, start+max_pages):
        params = {page_param: p}
        if per_page_param:
            params[per_page_param] = per_page
        r = requests.get(base_url, params=params, timeout=10)
        if r.status_code != 200:
            print('P√°gina', p, 'HTTP', r.status_code)
            break
        payload = r.json()
        # ‚ö†Ô∏è Adaptar a c√≥mo venga la lista en tu API, p.ej. payload['results'] o payload['data']
        items = payload.get('results') or payload.get('data') or payload.get('products') or []
        all_items.extend(items)
        time.sleep(delay)
        if not items:
            break
    return all_items

# Ejemplo (no ejecutable si la API no existe): 
# items = fetch_paginated('https://dummyjson.com/products')  # dummyjson usa otros par√°metros
# len(items)


## 8) Autenticaci√≥n (Bearer/API-Key)
Us√° headers y nunca subas tu token al repo p√∫blico.

In [None]:
API_URL = 'https://api.ejemplo.com/data'
TOKEN = os.getenv('API_TOKEN')  # defin√≠ API_TOKEN en tu entorno

def get_with_auth(url):
    if not TOKEN:
        raise RuntimeError('Defin√≠ la variable de entorno API_TOKEN con tu token.')
    headers = {'Authorization': f'Bearer {TOKEN}'}
    r = requests.get(url, headers=headers, timeout=10)
    r.raise_for_status()
    return r.json()

# data_auth = get_with_auth(API_URL)
# data_auth


## 9) Persistencia eficiente: **Parquet**
- **Columnar**, **comprimido**, **portable** (Python, R, Spark).
- Permite **leer solo columnas** necesarias.

In [None]:
# Guardar
df_view.to_parquet('products.parquet', engine='pyarrow', compression='snappy')

# Leer solo algunas columnas
subset_cols = [c for c in ['id','name','price'] if c in df_view.columns]
subset = pd.read_parquet('products.parquet', columns=subset_cols if subset_cols else None)
subset.head()


## 10) Persistencia **Pickle** (solo Python)
- Guarda/recupera objetos de Python tal cual.
- Seguridad: **no** abras pickles de fuentes no confiables.

In [None]:
df_view.to_pickle('products.pkl')
df_back = pd.read_pickle('products.pkl')
df_back.head(3)


## 11) SQLite (SQL local en archivo `.db`)
Ideal para consultas r√°pidas sin montar un servidor.

In [None]:
import sqlite3

con = sqlite3.connect('products.db')
df_view.to_sql('products', con, if_exists='replace', index=False)
q = 'SELECT id, name, price FROM products ORDER BY price DESC LIMIT 5'
top5 = pd.read_sql(q, con)
con.close()
top5


## 12) MongoDB (documentos JSON)
√ötil para estructuras **muy anidadas** o cambiantes (*schema-less*).

In [None]:
# from pymongo import MongoClient  # requerir√≠a servidor de MongoDB
# client = MongoClient('mongodb://localhost:27017/')
# db = client['ejemplo_db']
# docs = df_view.to_dict(orient='records')
# db.libros.insert_many(docs)          # usar colecci√≥n adecuada (ej. 'libros')
# db.libros.find_one()


## 13) Validaciones b√°sicas de esquema y valores
Control m√≠nimo para garantizar calidad antes de persistir o publicar.

In [None]:
expected_cols = set(['id','name','brand','price','rating']) & set(df_view.columns)
missing = expected_cols - set(df_view.columns)
print('Columnas esperadas presentes:', expected_cols)
print('Faltan columnas:', missing)

if 'price' in df_view.columns:
    neg = (df_view['price'] < 0).sum()
    print('Precios negativos:', neg)


## 14) Medici√≥n de performance: Parquet (todas vs. subset de columnas)

In [None]:
import time

start = time.perf_counter()
_ = pd.read_parquet('products.parquet')  # todas las columnas
t_all = time.perf_counter() - start

cols = [c for c in ['id','name','price'] if c in df_view.columns]
start = time.perf_counter()
_ = pd.read_parquet('products.parquet', columns=cols if cols else None)
t_subset = time.perf_counter() - start

print(f'Leer todo: {t_all:.4f}s | Solo {len(cols)} cols: {t_subset:.4f}s')


## ‚úÖ Checklist r√°pido
- [ ] `requests.get(URL)` con `timeout` y chequeo de `status_code`.
- [ ] `response.json()` ‚Üí dict/list de Python.
- [ ] `json_normalize` para **aplanar** estructuras anidadas.
- [ ] Seleccionar columnas clave (subconjunto m√≠nimo viable).
- [ ] Tipar num√©ricos con `pd.to_numeric` y revisar faltantes.
- [ ] Manejar arrays con `explode`.
- [ ] Guardar en **Parquet** y, si hace falta, en **Pickle** (seguro).
- [ ] (Opcional) Persistir en **SQLite/Mongo** seg√∫n el caso.
- [ ] Medir tiempos de lectura para elegir la mejor estrategia.
- [ ] No subir **tokens** ni **pickles** no verificados a repos p√∫blicos.

## üß≠ Buenas pr√°cticas
- Document√° el contrato de la API (estructura de respuesta, paginaci√≥n, l√≠mites, autenticaci√≥n).
- Us√° variables de entorno para secretos (`os.getenv`).
- Version√° tus *notebooks* y export√° datasets intermedios en Parquet.
- Valid√° esquema (columnas obligatorias) y reglas de negocio antes de persistir.
