# Clase 5 ‚Äî Clases + APIs + Web (requests, JSON) + scraping simple (BeautifulSoup)

0) Clases en Python
1) entender qu√© es una API y c√≥mo se usa desde Python,
2) hacer requests GET y leer respuestas JSON,
3) descargar datos de Kaggle usando la Kaggle API,
4) hacer scraping muy simple de una p√°gina HTML con BeautifulSoup,
5) entender cu√°ndo *NO* sirve requests/BS4 y solo mencionaremos Selenium.



## Clases: organizar datos y funciones juntos

Hasta ahora hemos usado:
- **variables** para guardar datos
- **funciones** para reutilizar l√≥gica

A veces, esos dos elementos van naturalmente juntos.
Para eso existen las **clases**.

Una clase es una forma de **agrupar datos y funciones relacionadas**.

## ¬øCu√°ndo tiene sentido usar una clase?

No siempre necesitas clases.

Tiene sentido usar una clase cuando:
- trabajas con un ‚Äúobjeto‚Äù claro (pedido, usuario, dataset, modelo)
- ese objeto tiene **datos propios**
- y **acciones** que se aplican sobre esos datos


## La idea b√°sica

Piensa en un *dataset*:
- tiene un archivo (ruta)
- tiene datos cargados
- podemos limpiarlos
- podemos resumirlos

Con funciones, har√≠amos algo as√≠:
- `load_data(path)`
- `clean_data(df)`
- `summarize(df)`

Con clases, **todo eso vive junto**, como un solo objeto.

En lugar de pasar el DataFrame a muchas funciones,
podemos **guardar todo junto**.

## Qu√© es una clase (definici√≥n simple)

Una **clase** es una plantilla para crear objetos.

Un **objeto**:
- tiene datos (atributos),
- tiene funciones asociadas (m√©todos).

Ejemplo mental:
- Clase: `Dataset`


In [3]:
class Dataset:
    pass


Esto define una clase vac√≠a llamada `Dataset`.
Todav√≠a no hace nada, pero ya existe como tipo.
v

In [4]:
ds = Dataset()
ds
# ds es un objeto creado a partir de la clase `Dataset`.

<__main__.Dataset at 0x274c62ae840>

## `__init__`: inicializador de objetos

`__init__` es una funci√≥n especial que se ejecuta
**autom√°ticamente** cuando creamos un objeto.

Sirve para guardar datos iniciales.


In [5]:
class Dataset:
    def __init__(self, path):
        self.path = path


- `self` representa **el objeto mismo**
- `self.path` es una variable que pertenece al objeto
- cada objeto puede tener valores distintos


In [6]:
ds = Dataset("archivo.csv")
print(ds.path)  # Salida: archivo.csv

archivo.csv


In [7]:
print(type(ds))
print(type(ds.path))


<class '__main__.Dataset'>
<class 'str'>


In [8]:
dx = Dataset("x")

In [9]:
print(type(dx))  # Salida: <class '__main__.Dataset'>
print(type(ds.path))  # Salida: <class 'str'>
print(dx)
print(dx.path)  # Salida: x

<class '__main__.Dataset'>
<class 'str'>
<__main__.Dataset object at 0x00000274C62AE7E0>
x


In [10]:
dy = Dataset()

TypeError: Dataset.__init__() missing 1 required positional argument: 'path'

Claves importantes:
- `self` representa **el objeto mismo**
- `self.path` es una variable que pertenece al objeto
- cada objeto puede tener valores distintos


## M√©todos: funciones asociadas al objeto

Un **m√©todo** es simplemente una funci√≥n
que vive dentro de una clase.


In [None]:
import pandas as pd

class Dataset:
    def __init__(self, path):
        self.path = path
        self.df = None # Inicializa el atributo df como None

    def load(self): # m√©todo para cargar el DataFrame
        self.df = pd.read_csv(self.path)


In [None]:
ds = Dataset("Stata_Main.csv")
ds.load()
ds.df.head() # metodo de dataframe para ver las primeras filas


Unnamed: 0,id_n,restaurant_name,restaurant_yelp_price,restaurant_yelp_pricelevel,restaurant_yelp_cuisine,restaurant_main_cuisine,restaurant_address,restaurant_year_opened,restaurant_age,restaurant_yelp_av_rating,...,guide_dummy,menu_year2017,best_out_dc,control_1,trend_dc,trend_boston,price_matched,priorstanding,priorstanding_vs_control1,priorstanding_vs_control2
0,1,Alden & Harlow,$$$,3,"American (Traditional), Breakfast & Brunch",American (Traditional),"40 Brattle St Cambridge, MA 02138",2014,4,3.982,...,1,0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0
1,1,Alden & Harlow,$$$,3,"American (Traditional), Breakfast & Brunch",American (Traditional),"40 Brattle St Cambridge, MA 02138",2014,4,3.986,...,1,1,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0
2,3,Bergamot,$$$,3,"American (New), Cocktail Bars, Wine Bars",American (New),"118 Beacon St Somerville, MA 02143",2010,8,4.0,...,1,0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
3,3,Bergamot,$$$,3,"American (New), Cocktail Bars, Wine Bars",American (New),"118 Beacon St Somerville, MA 02143",2010,8,4.5,...,1,1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
4,5,Erbaluce,$$$,3,Italian,Italian,"69 Church St Boston, MA 02116",2008,10,4.5,...,1,0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0


Aqu√≠ pas√≥ lo siguiente:
- `ds` guarda la ruta del archivo
- `load()` usa esa ruta
- el DataFrame queda guardado dentro del objeto

üëâ El objeto **recuerda su estado**.


Atributos de un dataframe de pandas:
df.shape ‚Üí dimensiones (filas, columnas)

df.columns ‚Üí nombres de columnas

df.dtypes ‚Üí tipos de datos por columna

df.index ‚Üí √≠ndice de filas

## Funciones vs Clases

Con funciones:
- pasamos el DataFrame de una funci√≥n a otra
- el estado vive ‚Äúafuera‚Äù

Con clases:
- los datos viven dentro del objeto
- las funciones act√∫an sobre esos datos

No es mejor ni peor:
- funciones ‚Üí simples y directas
- clases ‚Üí m√°s orden cuando el proyecto crece


## Agregar l√≥gica sin complicar

Podemos a√±adir m√©todos que modifiquen los datos.


In [16]:
class Dataset:
    def __init__(self, path):
        self.path = path
        self.df = None

    def load(self):
        self.df = pd.read_csv(self.path)
        return self

    def filter_year(self, year):
        self.df = self.df[self.df["restaurant_year_opened"] == year]
        return self


In [59]:
ds = Dataset("Stata_Main.csv").load().filter_year(2015)
ds.df.head()


Unnamed: 0,id_n,restaurant_name,restaurant_yelp_price,restaurant_yelp_pricelevel,restaurant_yelp_cuisine,restaurant_main_cuisine,restaurant_address,restaurant_year_opened,restaurant_age,restaurant_yelp_av_rating,...,guide_dummy,menu_year2017,best_out_dc,control_1,trend_dc,trend_boston,price_matched,priorstanding,priorstanding_vs_control1,priorstanding_vs_control2
30,21,Ma Maison,$$,2,"French, Cocktail Bars, Wine Bars",French,"272 Cambridge St Boston, MA 02114",2015,3,4.154,...,1,0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
31,21,Ma Maison,$$,2,"French, Cocktail Bars, Wine Bars",French,"272 Cambridge St Boston, MA 02114",2015,3,4.308,...,1,1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
36,24,Select Oyster Bar,$$$,3,"Seafood, Bars",Seafood,"50 Gloucester St Boston, MA 02115",2015,3,3.621,...,1,0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0
37,24,Select Oyster Bar,$$$,3,"Seafood, Bars",Seafood,"50 Gloucester St Boston, MA 02115",2015,3,3.71,...,1,1,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0
42,29,Tiger Mama,$$$,3,"Thai, Vietnamese, Bars",Thai,"1363 Boylston St Boston, MA 02215",2015,3,3.585,...,1,0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0


In [60]:
help(Dataset)

Help on class Dataset in module __main__:

class Dataset(builtins.object)
 |  Dataset(path)
 |
 |  Methods defined here:
 |
 |  __init__(self, path)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |
 |  filter_year(self, year)
 |
 |  load(self)
 |
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |
 |  __dict__
 |      dictionary for instance variables (if defined)
 |
 |  __weakref__
 |      list of weak references to the object (if defined)



In [61]:
print(dir(Dataset))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'filter_year', 'load']


## Algunos topicos sobre funciones

# Funciones: algunos conceptos √∫tiles

Adem√°s de la forma b√°sica de las funciones, hay algunos conceptos que aparecen
frecuentemente en c√≥digo real. Aqu√≠ veremos los m√°s importantes, con ejemplos simples.


## Par√°metros con valores por defecto

Un par√°metro con valor por defecto es **opcional**.
Si no se lo das, Python usa el valor definido.


In [18]:
def add_tax(amount, tax_rate=0.18):
    return amount * (1 + tax_rate)

add_tax(100)
add_tax(100, tax_rate=0.10)


110.00000000000001

Idea clave:
- `amount` es obligatorio
- `tax_rate` es opcional


## *args (argumentos posicionales variables)

`*args` permite pasar **cualquier cantidad de argumentos posicionales**.
Dentro de la funci√≥n, `args` es una tupla.


In [None]:
def average(*args):
    return sum(args) / len(args)

average(10, 20, 30)
# util cuando no sabes cu√°ntos argumentos se pasar√°n a la funci√≥n

20.0

In [23]:
def f(*args):
    print(args)


In [24]:
f(1, 2, 3)


(1, 2, 3)


In [25]:
def total(*args):
    s = 0
    for x in args:
        s += x
    return s

total(5, 10, 15)


30

In [26]:
def max_value(*args):
    m = args[0]
    for x in args:
        if x > m:
            m = x
    return m

max_value(3, 7, 2, 9, 1)


9

## **kwargs (argumentos nombrados variables)

`**kwargs` captura argumentos nombrados adicionales
en forma de diccionario.


In [20]:
def print_info(**kwargs):
    for key, value in kwargs.items():
        print(key, ":", value)

print_info(name="Ana", city="Lima", age=25)


name : Ana
city : Lima
age : 25


In [27]:
def create_user(**kwargs):
    return kwargs

create_user(username="ana", role="admin", active=True)


{'username': 'ana', 'role': 'admin', 'active': True}

In [28]:
def plot_settings(**kwargs):
    title = kwargs.get("title", "Sin t√≠tulo")
    xlabel = kwargs.get("xlabel", "")
    ylabel = kwargs.get("ylabel", "")
    return title, xlabel, ylabel

plot_settings(title="Ventas", ylabel="Monto")


('Ventas', '', 'Monto')

√ötil cuando:
- quieres funciones flexibles
- no conoces todas las opciones de antemano


## Especificar tipos de par√°metros (type hints)

Los *type hints* indican **qu√© tipo de dato se espera**.
No obligan a Python, pero ayudan a:
- entender el c√≥digo
- detectar errores
- usar mejor editores (VS Code, PyCharm)


In [21]:
def multiply(a: float, b: float) -> float:
    return a * b

multiply(3, 4)


12

In [22]:
def multiply(a: float, b: float) -> float:
    return a * b

multiply('a', 4)

'aaaa'

- Valores por defecto ‚Üí hacen par√°metros opcionales
- `*args` ‚Üí varios argumentos posicionales
- `**kwargs` ‚Üí varios argumentos nombrados
- Type hints ‚Üí documentaci√≥n y ayuda, no control estricto

No necesitas usar todo esto siempre.
√ösalo cuando haga tu c√≥digo **m√°s claro**, no m√°s complicado.


## Breve sobre intalaci√≥n de librer√≠as externas
Si falta alguna, se instala con pip desde una celda de c√≥digo:
!pip install nombre_libreria
El ! indica que estamos ejecutando un comando del sistema, no Python puro

En Colab puedes instalar librer√≠as con `pip` (por sesi√≥n).
En Jupyter local normalmente instalas una vez (conda/pip) y listo.


In [None]:
# Si est√°s en Colab, puedes correr estas l√≠neas.
# Si ya est√° instalado, no pasa nada.
#!pip -q install requests beautifulsoup4 kaggle
#pip -q install requests beautifulsoup4 kaggle

# ¬øQu√© es una API?

Una API (Application Programming Interface) es una forma **estandarizada** de pedir datos/servicios a un sistema por internet.

En t√©rminos pr√°cticos:
- t√∫ haces un request (por ejemplo, GET)
- el servidor responde con datos (muy com√∫n: JSON)

### Vocabulario m√≠nimo
- **Endpoint:** URL que recibe requests (ej: `https://api.../users`)
- **M√©todo HTTP:** GET (leer), POST (crear), PUT/PATCH (modificar), DELETE (borrar)
- **Status code:** 200 OK, 404 no existe, 401 no autorizado, 429 demasiadas requests
- **JSON:** formato t√≠pico de respuesta (diccionarios/listas)

Hoy haremos casi solo **GET**.


# Requests b√°sico (GET)

Vamos a usar una API p√∫blica y gratuita: JSONPlaceholder (para practicar).
No requiere cuenta ni key.


In [29]:
import requests

In [31]:
url = "https://jsonplaceholder.typicode.com/posts/1"
response = requests.get(url)




¬øQu√© es response?

Es un objeto que contiene:

C√≥digo de estado (status code)

Contenido de la respuesta

Metadatos

In [32]:
print("status:", response.status_code)

status: 200


200 ‚Üí OK (todo bien)

404 ‚Üí No encontrado

500 ‚Üí Error del servidor

In [None]:
response.json()  # convierte JSON -> dict/list de Python
# JSON ‚âà diccionario / listas en Python

{'userId': 1,
 'id': 1,
 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit',
 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}

In [34]:
# Obtener varios posts
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)
posts = response.json()

In [35]:
print(len(posts))  # 100 posts
posts[0]  # primer post

100


{'userId': 1,
 'id': 1,
 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit',
 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}

In [36]:
posts[:2]  # primeros dos posts

[{'userId': 1,
  'id': 1,
  'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit',
  'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'},
 {'userId': 1,
  'id': 2,
  'title': 'qui est esse',
  'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'}]

In [37]:
type(posts[0])

dict

In [38]:
# Convertir a dataframe
df_posts = pd.DataFrame(posts)
df_posts.head()

Unnamed: 0,userId,id,title,body
0,1,1,sunt aut facere repellat provident occaecati e...,quia et suscipit\nsuscipit recusandae consequu...
1,1,2,qui est esse,est rerum tempore vitae\nsequi sint nihil repr...
2,1,3,ea molestias quasi exercitationem repellat qui...,et iusto sed quo iure\nvoluptatem occaecati om...
3,1,4,eum et est occaecati,ullam et saepe reiciendis voluptatem adipisci\...
4,1,5,nesciunt quas odio,repudiandae veniam quaerat sunt sed\nalias aut...


### Errores comunes
- `r.status_code != 200` ‚Üí algo sali√≥ mal (URL, permisos, rate limit, etc.)
- JSON malformado ‚Üí `r.json()` falla (no siempre la respuesta es JSON)


## URL con par√°metros

Muchos endpoints aceptan par√°metros tipo filtro.
Ejemplo: pedir posts de un usuario espec√≠fico.


In [40]:
url = "https://api.open-meteo.com/v1/forecast"
params = {
    "latitude": 48.137,     # Munich aprox
    "longitude": 11.575,
    "hourly": "temperature_2m",
    "forecast_days": 1
}

r = requests.get(url, params=params)
print("status:", r.status_code)




status: 200


In [43]:
weather = r.json()
print(weather)

{'latitude': 48.14, 'longitude': 11.58, 'generationtime_ms': 0.02849102020263672, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 524.0, 'hourly_units': {'time': 'iso8601', 'temperature_2m': '¬∞C'}, 'hourly': {'time': ['2026-01-10T00:00', '2026-01-10T01:00', '2026-01-10T02:00', '2026-01-10T03:00', '2026-01-10T04:00', '2026-01-10T05:00', '2026-01-10T06:00', '2026-01-10T07:00', '2026-01-10T08:00', '2026-01-10T09:00', '2026-01-10T10:00', '2026-01-10T11:00', '2026-01-10T12:00', '2026-01-10T13:00', '2026-01-10T14:00', '2026-01-10T15:00', '2026-01-10T16:00', '2026-01-10T17:00', '2026-01-10T18:00', '2026-01-10T19:00', '2026-01-10T20:00', '2026-01-10T21:00', '2026-01-10T22:00', '2026-01-10T23:00'], 'temperature_2m': [3.4, 2.7, 2.6, 2.6, 2.1, 1.9, 2.0, 1.3, 1.2, 1.4, 1.8, 1.7, 1.6, 1.2, 0.8, 0.7, 0.4, 0.1, 0.0, -0.3, -0.5, -0.5, -0.8, -0.8]}}


In [44]:
print(weather.keys())

dict_keys(['latitude', 'longitude', 'generationtime_ms', 'utc_offset_seconds', 'timezone', 'timezone_abbreviation', 'elevation', 'hourly_units', 'hourly'])


In [45]:
# Extraer algo simple del JSON
hours = weather["hourly"]["time"][:5]
temps = weather["hourly"]["temperature_2m"][:5]
list(zip(hours, temps))[:5]


[('2026-01-10T00:00', 3.4),
 ('2026-01-10T01:00', 2.7),
 ('2026-01-10T02:00', 2.6),
 ('2026-01-10T03:00', 2.6),
 ('2026-01-10T04:00', 2.1)]

In [46]:
url = (
    "https://api.open-meteo.com/v1/forecast"
    "?latitude=48.14"
    "&longitude=11.58"
    "&current_weather=true"
)


In [47]:
response = requests.get(url)
data = response.json()
print(data.keys())

dict_keys(['latitude', 'longitude', 'generationtime_ms', 'utc_offset_seconds', 'timezone', 'timezone_abbreviation', 'elevation', 'current_weather_units', 'current_weather'])


In [48]:
print(data["current_weather"])

{'time': '2026-01-10T12:15', 'interval': 900, 'temperature': 1.5, 'windspeed': 18.4, 'winddirection': 266, 'is_day': 1, 'weathercode': 71}


## Requests para obtener HTML (base del web scraping)

In [49]:
url = "https://example.com"
response = requests.get(url)

In [50]:
print(type(response))

<class 'requests.models.Response'>


In [52]:
html = response.text
html[:500] # ver las primeras 500 caracteres del HTML
# Esto es HTML, no JSON.

'<!doctype html><html lang="en"><head><title>Example Domain</title><meta name="viewport" content="width=device-width, initial-scale=1"><style>body{background:#eee;width:60vw;margin:15vh auto;font-family:system-ui,sans-serif}h1{font-size:1.5em}div{opacity:0.8}a:link,a:visited{color:#348}</style><body><div><h1>Example Domain</h1><p>This domain is for use in documentation examples without needing permission. Avoid use in operations.<p><a href="https://iana.org/domains/example">Learn more</a></div></'

## Web scraping b√°sico con BeautifulSoup
¬øQu√© es web scraping?

Extraer informaci√≥n directamente del HTML de una p√°gina web.
Respetar la web

In [53]:
from bs4 import BeautifulSoup

In [54]:
soup = BeautifulSoup(html, "html.parser")

In [55]:
print(soup)

<!DOCTYPE html>
<html lang="en"><head><title>Example Domain</title><meta content="width=device-width, initial-scale=1" name="viewport"/><style>body{background:#eee;width:60vw;margin:15vh auto;font-family:system-ui,sans-serif}h1{font-size:1.5em}div{opacity:0.8}a:link,a:visited{color:#348}</style><body><div><h1>Example Domain</h1><p>This domain is for use in documentation examples without needing permission. Avoid use in operations.<p><a href="https://iana.org/domains/example">Learn more</a></p></p></div></body></head></html>



In [56]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [58]:
print(dir(soup))



In [57]:
soup.find("h1")

<h1>Example Domain</h1>

In [62]:
links = soup.find_all("a")

for link in links:
    print(link.text, link.get("href"))

Learn more https://iana.org/domains/example


## Selenium
Una herramienta que:

Controla un navegador real

Hace clics, scroll, login

Ejecuta JavaScript

P√°ginas din√°micas

Contenido que aparece tras interacci√≥n

Scraping complejo

Requiere drivers

## Kaggle API
Crear cuenta en Kaggle

Crear API Token

Usar la API desde Python

In [63]:
!pip install kaggle

Collecting kaggle
  Downloading kaggle-1.8.3-py3-none-any.whl.metadata (16 kB)
Collecting black>=24.10.0 (from kaggle)
  Downloading black-25.12.0-cp312-cp312-win_amd64.whl.metadata (86 kB)
Collecting bleach (from kaggle)
  Downloading bleach-6.3.0-py3-none-any.whl.metadata (31 kB)
Collecting kagglesdk<1.0,>=0.1.14 (from kaggle)
  Downloading kagglesdk-0.1.14-py3-none-any.whl.metadata (13 kB)
Collecting mypy>=1.15.0 (from kaggle)
  Downloading mypy-1.19.1-cp312-cp312-win_amd64.whl.metadata (2.3 kB)
Collecting protobuf (from kaggle)
  Downloading protobuf-6.33.3-cp310-abi3-win_amd64.whl.metadata (593 bytes)
Collecting python-slugify (from kaggle)
  Downloading python_slugify-8.0.4-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting types-requests (from kaggle)
  Downloading types_requests-2.32.4.20260107-py3-none-any.whl.metadata (2.0 kB)
Collecting types-tqdm (from kaggle)
  Downloading types_tqdm-4.67.0.20250809-py3-none-any.whl.metadata (1.7 kB)
Collecting pathspec>=0.9.0 (from black>=