# Clase 5 — APIs + Web (requests, JSON) + scraping simple (BeautifulSoup)

1) entender qué es una API y cómo se usa desde Python,
2) hacer requests GET y leer respuestas JSON,
3) descargar datos de Kaggle usando la Kaggle API,
4) hacer scraping muy simple de una página HTML con BeautifulSoup,
5) entender cuándo *NO* sirve requests/BS4 y solo mencionaremos Selenium.

**Regla práctica del día:**
> Primero API (si existe). Si no hay API, recién considera scraping.


## 1. Setup

En Colab puedes instalar librerías con `pip` (por sesión).
En Jupyter local normalmente instalas una vez (conda/pip) y listo.


In [None]:
# Si estás en Colab, puedes correr estas líneas.
# Si ya está instalado, no pasa nada.
#!pip -q install requests beautifulsoup4 kaggle
#pip -q install requests beautifulsoup4 kaggle

In [1]:
import os
import json
import zipfile
import requests
import pandas as pd
from bs4 import BeautifulSoup


# 2. ¿Qué es una API?

Una API (Application Programming Interface) es una forma **estandarizada** de pedir datos/servicios a un sistema por internet.

En términos prácticos:
- tú haces un request (por ejemplo, GET)
- el servidor responde con datos (muy común: JSON)

### Vocabulario mínimo
- **Endpoint:** URL que recibe requests (ej: `https://api.../users`)
- **Método HTTP:** GET (leer), POST (crear), PUT/PATCH (modificar), DELETE (borrar)
- **Status code:** 200 OK, 404 no existe, 401 no autorizado, 429 demasiadas requests
- **JSON:** formato típico de respuesta (diccionarios/listas)

Hoy haremos casi solo **GET**.


# 3. Requests básico (GET)

Vamos a usar una API pública y gratuita: JSONPlaceholder (para practicar).
No requiere cuenta ni key.


In [2]:
url = "https://jsonplaceholder.typicode.com/posts/1"
r = requests.get(url)

print("status:", r.status_code)
print("content-type:", r.headers.get("Content-Type"))


status: 200
content-type: application/json; charset=utf-8


In [3]:
data = r.json()  # convierte JSON -> dict/list de Python
data


{'userId': 1,
 'id': 1,
 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit',
 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}

In [4]:
# Convertir a DataFrame (cuando tiene sentido)
df_api = pd.DataFrame([data])
df_api


Unnamed: 0,userId,id,title,body
0,1,1,sunt aut facere repellat provident occaecati e...,quia et suscipit\nsuscipit recusandae consequu...


### Errores comunes
- `r.status_code != 200` → algo salió mal (URL, permisos, rate limit, etc.)
- JSON malformado → `r.json()` falla (no siempre la respuesta es JSON)


# 4. Requests con parámetros

Muchos endpoints aceptan parámetros tipo filtro.
Ejemplo: pedir posts de un usuario específico.


In [5]:
url = "https://jsonplaceholder.typicode.com/posts"
params = {"userId": 3}
r = requests.get(url, params=params)

print("status:", r.status_code)
posts = r.json()
len(posts), posts[0]


status: 200


(10,
 {'userId': 3,
  'id': 21,
  'title': 'asperiores ea ipsam voluptatibus modi minima quia sint',
  'body': 'repellat aliquid praesentium dolorem quo\nsed totam minus non itaque\nnihil labore molestiae sunt dolor eveniet hic recusandae veniam\ntempora et tenetur expedita sunt'})

In [6]:
df_posts = pd.DataFrame(posts)
df_posts.head()


Unnamed: 0,userId,id,title,body
0,3,21,asperiores ea ipsam voluptatibus modi minima q...,repellat aliquid praesentium dolorem quo\nsed ...
1,3,22,dolor sint quo a velit explicabo quia nam,eos qui et ipsum ipsam suscipit aut\nsed omnis...
2,3,23,maxime id vitae nihil numquam,veritatis unde neque eligendi\nquae quod archi...
3,3,24,autem hic labore sunt dolores incidunt,enim et ex nulla\nomnis voluptas quia qui\nvol...
4,3,25,rem alias distinctio quo quis,ullam consequatur ut\nomnis quis sit vel conse...


# 5. Otro ejemplo gratuito: Open-Meteo (sin API key)

Este ejemplo muestra:
- endpoint real con parámetros numéricos
- respuesta JSON con varias secciones


In [7]:
url = "https://api.open-meteo.com/v1/forecast"
params = {
    "latitude": 48.137,     # Munich aprox
    "longitude": 11.575,
    "hourly": "temperature_2m",
    "forecast_days": 1
}

r = requests.get(url, params=params)
print("status:", r.status_code)

weather = r.json()
weather.keys()


status: 200


dict_keys(['latitude', 'longitude', 'generationtime_ms', 'utc_offset_seconds', 'timezone', 'timezone_abbreviation', 'elevation', 'hourly_units', 'hourly'])

In [8]:
# Extraer algo simple del JSON
hours = weather["hourly"]["time"][:5]
temps = weather["hourly"]["temperature_2m"][:5]
list(zip(hours, temps))[:5]


[('2026-01-09T00:00', 0.6),
 ('2026-01-09T01:00', 0.7),
 ('2026-01-09T02:00', 1.0),
 ('2026-01-09T03:00', 0.7),
 ('2026-01-09T04:00', 0.8)]