# üåê APIs REST y Web Scraping para Ingenier√≠a de Datos

## Objetivos de Aprendizaje

Al finalizar este notebook, ser√°s capaz de:

1. ‚úÖ Consumir **APIs REST** con `requests`
2. ‚úÖ Manejar **autenticaci√≥n** y headers
3. ‚úÖ Implementar **paginaci√≥n** y rate limiting
4. ‚úÖ Realizar **web scraping** con `BeautifulSoup`
5. ‚úÖ Extraer datos de HTML estructurado
6. ‚úÖ Aplicar **mejores pr√°cticas** y √©tica en scraping
7. ‚úÖ Construir un **pipeline de ingesta** desde APIs

---

## 1. Introducci√≥n a APIs REST

### ü§î ¬øQu√© es una API REST?

**API REST** (Representational State Transfer) es un estilo de arquitectura para servicios web que usa HTTP.

### M√©todos HTTP Comunes:

| M√©todo | Prop√≥sito | Ejemplo |
|--------|-----------|----------|
| **GET** | Obtener datos | `/api/usuarios` |
| **POST** | Crear recurso | `/api/usuarios` (con body) |
| **PUT** | Actualizar completo | `/api/usuarios/123` |
| **PATCH** | Actualizar parcial | `/api/usuarios/123` |
| **DELETE** | Eliminar recurso | `/api/usuarios/123` |

### C√≥digos de Estado HTTP:

- **2xx**: √âxito (200 OK, 201 Created)
- **4xx**: Error del cliente (400 Bad Request, 404 Not Found, 401 Unauthorized)
- **5xx**: Error del servidor (500 Internal Server Error, 503 Service Unavailable)

---

## 2. Configuraci√≥n Inicial

In [None]:
# Importaciones necesarias
import requests
import json
import pandas as pd
import time
from typing import List, Dict, Optional
from datetime import datetime
import warnings

# Para web scraping
from bs4 import BeautifulSoup
import re

warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as cargadas correctamente")
print(f"üì¶ Requests versi√≥n: {requests.__version__}")

### üìö Bibliotecas para APIs y Web Scraping

**Librer√≠as principales:**
- **requests:** Cliente HTTP para consumir APIs REST
- **json:** Parsing y manipulaci√≥n de datos JSON
- **BeautifulSoup:** Parser HTML/XML para web scraping
- **pandas:** Estructurar datos extra√≠dos en DataFrames

**Uso en ingenier√≠a de datos:**
- Ingesta desde APIs externas (redes sociales, servicios cloud)
- Extracci√≥n de datos de sitios web
- Integraci√≥n con fuentes de datos sin APIs formales

**Instalaci√≥n:** `pip install requests beautifulsoup4 lxml`

## 3. Consumir APIs REST P√∫blicas

### 3.1 Ejemplo B√°sico: JSONPlaceholder

In [None]:
# API p√∫blica para testing
url = "https://jsonplaceholder.typicode.com/posts"

# Realizar petici√≥n GET
response = requests.get(url)

# Verificar c√≥digo de estado
print(f"üì° Status Code: {response.status_code}")
print(f"‚úÖ Exitoso: {response.ok}")

# Obtener datos JSON
if response.ok:
    posts = response.json()
    print(f"\nüìä Total de posts: {len(posts)}")
    print(f"\nüîç Primer post:")
    print(json.dumps(posts[0], indent=2))

### üåê Petici√≥n GET B√°sica con Requests

**Concepto:** `requests.get()` env√≠a solicitud HTTP GET para obtener datos de una API.

**Flujo:**
1. **Enviar petici√≥n:** `response = requests.get(url)`
2. **Verificar estado:** `response.status_code` (200 = √©xito)
3. **Parsear JSON:** `response.json()` convierte a diccionario Python
4. **Validar:** `response.ok` = True si status 200-299

**Propiedades √∫tiles:**
- `response.text`: contenido como string
- `response.json()`: parsea JSON autom√°ticamente
- `response.headers`: headers de respuesta

**Buena pr√°ctica:** Siempre verificar `response.ok` antes de procesar datos.

### 3.2 Convertir Respuesta a DataFrame

In [None]:
# Convertir a DataFrame
df_posts = pd.DataFrame(posts)

print(f"üìä Shape: {df_posts.shape}")
print(f"\nüîç Vista previa:")
display(df_posts.head())

# Informaci√≥n del DataFrame
print("\nüìã Info:")
df_posts.info()

### üìä JSON a DataFrame: Estructurando Datos de API

**Concepto:** `pd.DataFrame()` convierte lista de diccionarios JSON en tabla estructurada.

**Ventajas:**
- An√°lisis con pandas (filtros, agregaciones)
- Exportaci√≥n a CSV, SQL, Parquet
- Integraci√≥n con pipelines ETL

**Conversi√≥n autom√°tica:**
- Claves JSON ‚Üí columnas DataFrame
- Lista de objetos ‚Üí filas
- Tipos inferidos autom√°ticamente

**Uso t√≠pico:** Primera transformaci√≥n tras ingestar datos desde API.

### 3.3 Par√°metros de Consulta (Query Parameters)

In [None]:
# Filtrar por userId
params = {'userId': 1}
response = requests.get(url, params=params)

if response.ok:
    posts_user1 = response.json()
    print(f"üìä Posts del usuario 1: {len(posts_user1)}")
    print(f"\nüîó URL completa: {response.url}")
    
    # Ver primeros 3
    for post in posts_user1[:3]:
        print(f"\nüìù Post {post['id']}: {post['title'][:50]}...")

### üîç Query Parameters: Filtrado en APIs

**Concepto:** Los query parameters permiten filtrar, paginar y personalizar respuestas de APIs.

**Sintaxis:**
```python
params = {'userId': 1, 'limit': 10}
requests.get(url, params=params)
```

**URL generada:** `https://api.com/posts?userId=1&limit=10`

**Casos comunes:**
- Filtros: `?category=tech&status=active`
- Paginaci√≥n: `?page=2&per_page=50`
- Ordenamiento: `?sort=date&order=desc`

**Ventaja:** Reduce transferencia de datos, obtiene solo lo necesario.

### 3.4 Headers Personalizados

In [None]:
# Definir headers
headers = {
    'User-Agent': 'Mozilla/5.0 (Data Pipeline v1.0)',
    'Accept': 'application/json',
    'Content-Type': 'application/json'
}

response = requests.get(url, headers=headers)

print(f"‚úÖ Status: {response.status_code}")
print(f"\nüìÑ Headers de la respuesta:")
for key, value in list(response.headers.items())[:5]:
    print(f"  {key}: {value}")

### üìÑ Headers HTTP: Metadata de Peticiones

**Concepto:** Headers env√≠an informaci√≥n adicional sobre la petici√≥n (autenticaci√≥n, formato, identidad).

**Headers importantes:**
- **User-Agent:** Identifica tu aplicaci√≥n/script
- **Accept:** Formato de respuesta deseado (application/json)
- **Authorization:** Token de autenticaci√≥n (Bearer, API Key)
- **Content-Type:** Tipo de datos enviados (POST/PUT)

**Ejemplo autenticaci√≥n:**
```python
headers = {'Authorization': 'Bearer YOUR_TOKEN'}
```

**Importancia:** Muchas APIs requieren User-Agent v√°lido o bloquean peticiones sin headers.

## 4. Trabajar con APIs Reales

### 4.1 GitHub API - Datos P√∫blicos

In [None]:
# Obtener informaci√≥n de un repositorio p√∫blico
repo_url = "https://api.github.com/repos/pandas-dev/pandas"

response = requests.get(repo_url)

if response.ok:
    repo_data = response.json()
    
    print("üì¶ INFORMACI√ìN DEL REPOSITORIO PANDAS")
    print("=" * 50)
    print(f"Nombre: {repo_data['name']}")
    print(f"Descripci√≥n: {repo_data['description'][:80]}...")
    print(f"‚≠ê Stars: {repo_data['stargazers_count']:,}")
    print(f"üç¥ Forks: {repo_data['forks_count']:,}")
    print(f"üëÅÔ∏è Watchers: {repo_data['watchers_count']:,}")
    print(f"üêõ Open Issues: {repo_data['open_issues_count']:,}")
    print(f"üìÖ Creado: {repo_data['created_at']}")
    print(f"üîÑ √öltima actualizaci√≥n: {repo_data['updated_at']}")
    print(f"üìù Lenguaje principal: {repo_data['language']}")
else:
    print(f"‚ùå Error: {response.status_code}")

### 4.2 Paginaci√≥n en APIs

In [None]:
def obtener_todos_los_commits(owner: str, repo: str, max_pages: int = 3) -> List[Dict]:
    """
    Obtiene commits de un repositorio con paginaci√≥n.
    """
    base_url = f"https://api.github.com/repos/{owner}/{repo}/commits"
    all_commits = []
    
    for page in range(1, max_pages + 1):
        params = {
            'page': page,
            'per_page': 10  # Registros por p√°gina
        }
        
        print(f"üìÑ Obteniendo p√°gina {page}...")
        response = requests.get(base_url, params=params)
        
        if response.ok:
            commits = response.json()
            if not commits:  # No hay m√°s p√°ginas
                break
            all_commits.extend(commits)
        else:
            print(f"‚ùå Error en p√°gina {page}: {response.status_code}")
            break
        
        # Respetar rate limits
        time.sleep(1)
    
    return all_commits

# Ejemplo: Obtener commits de un repo peque√±o
commits = obtener_todos_los_commits('octocat', 'Hello-World', max_pages=2)

print(f"\n‚úÖ Total commits obtenidos: {len(commits)}")

# Analizar commits
if commits:
    df_commits = pd.DataFrame([
        {
            'sha': c['sha'][:7],
            'author': c['commit']['author']['name'],
            'date': c['commit']['author']['date'],
            'message': c['commit']['message'][:50]
        }
        for c in commits
    ])
    
    print("\nüìä √öltimos commits:")
    display(df_commits.head(10))

### üìÑ Paginaci√≥n: Obtener Grandes Vol√∫menes de Datos

**Concepto:** Las APIs limitan resultados por petici√≥n, requiriendo m√∫ltiples requests para datasets completos.

**Estrategias comunes:**
1. **Offset/Limit:** `?offset=100&limit=50`
2. **Page-based:** `?page=3&per_page=100`
3. **Cursor-based:** `?cursor=next_token` (m√°s eficiente)

**Implementaci√≥n:**
- Loop hasta que respuesta est√© vac√≠a o alcance m√°ximo
- `time.sleep()` entre requests para respetar rate limits
- Acumular resultados en lista

**Buena pr√°ctica:** Implementar l√≠mite m√°ximo de p√°ginas para evitar loops infinitos.

### 4.3 Rate Limiting y Manejo de Errores

In [None]:
def api_request_con_retry(url: str, max_retries: int = 3, delay: float = 2.0) -> Optional[Dict]:
    """
    Realiza petici√≥n con reintentos autom√°ticos.
    """
    for attempt in range(1, max_retries + 1):
        try:
            response = requests.get(url, timeout=10)
            
            if response.ok:
                return response.json()
            
            # Rate limit excedido
            if response.status_code == 429:
                retry_after = int(response.headers.get('Retry-After', delay))
                print(f"‚è≥ Rate limit alcanzado. Esperando {retry_after}s...")
                time.sleep(retry_after)
                continue
            
            # Otros errores
            if response.status_code >= 500:
                print(f"‚ö†Ô∏è Error del servidor ({response.status_code}). Reintento {attempt}/{max_retries}")
                time.sleep(delay)
                continue
            
            # Error definitivo
            print(f"‚ùå Error {response.status_code}: {response.text[:100]}")
            return None
            
        except requests.exceptions.Timeout:
            print(f"‚è±Ô∏è Timeout. Reintento {attempt}/{max_retries}")
            time.sleep(delay)
        except requests.exceptions.ConnectionError:
            print(f"üîå Error de conexi√≥n. Reintento {attempt}/{max_retries}")
            time.sleep(delay)
        except Exception as e:
            print(f"‚ùå Error inesperado: {str(e)}")
            return None
    
    print(f"‚ùå M√°ximo de reintentos alcanzado ({max_retries})")
    return None

# Probar funci√≥n
data = api_request_con_retry("https://api.github.com/users/octocat")

if data:
    print(f"\n‚úÖ Usuario obtenido: {data['login']}")
    print(f"üë§ Nombre: {data['name']}")
    print(f"üìç Ubicaci√≥n: {data.get('location', 'N/A')}")
    print(f"üì¶ Repositorios p√∫blicos: {data['public_repos']}")

### ‚ö° Rate Limiting y Reintentos Autom√°ticos

**Concepto:** APIs limitan n√∫mero de peticiones por tiempo (ej: 100/hora) para prevenir abuso.

**Manejo de rate limits:**
- **Status 429:** Too Many Requests
- **Header `Retry-After`:** segundos a esperar
- **Backoff exponencial:** incrementar delay tras cada fallo

**Errores comunes:**
- **4xx:** Errores del cliente (request inv√°lido) ‚Üí no reintentar
- **5xx:** Errores del servidor ‚Üí reintentar con delay
- **Timeout/Connection:** problemas de red ‚Üí reintentar

**Estrategia robusta:** 3 reintentos con delays incrementales + captura de excepciones.

## 5. Autenticaci√≥n en APIs

### 5.1 API Key en Headers

In [None]:
# Ejemplo gen√©rico (NO ejecutar sin API key real)
def api_con_key(api_key: str, endpoint: str) -> Optional[Dict]:
    """
    Ejemplo de autenticaci√≥n con API Key.
    """
    headers = {
        'Authorization': f'Bearer {api_key}',
        'Accept': 'application/json'
    }
    
    response = requests.get(endpoint, headers=headers)
    
    if response.ok:
        return response.json()
    else:
        print(f"‚ùå Error: {response.status_code}")
        return None

print("""
üí° MEJORES PR√ÅCTICAS PARA API KEYS:

1. ‚ùå NUNCA hardcodear API keys en el c√≥digo
2. ‚úÖ Usar variables de entorno:
   import os
   api_key = os.getenv('MI_API_KEY')

3. ‚úÖ Archivo de configuraci√≥n (no versionado):
   import yaml
   with open('config/credentials.yaml') as f:
       creds = yaml.safe_load(f)
   api_key = creds['api_key']

4. ‚úÖ Agregar credentials.yaml a .gitignore
""")

### 5.2 OAuth 2.0 (Conceptual)

In [None]:
print("""
üîê FLUJO OAUTH 2.0:

1. Usuario autoriza aplicaci√≥n
2. API devuelve c√≥digo de autorizaci√≥n
3. Aplicaci√≥n intercambia c√≥digo por access token
4. Usar access token en peticiones

Ejemplo con Google API:

from google.oauth2.credentials import Credentials
from googleapiclient.discovery import build

creds = Credentials.from_authorized_user_file('token.json')
service = build('sheets', 'v4', credentials=creds)

üìö Librer√≠as √∫tiles:
  ‚Ä¢ requests-oauthlib
  ‚Ä¢ authlib
  ‚Ä¢ httpx (async)
""")

## 6. Web Scraping con BeautifulSoup

### 6.1 Conceptos B√°sicos

In [None]:
# Ejemplo con HTML simple
html_content = """
<html>
<head><title>Productos</title></head>
<body>
    <h1>Cat√°logo de Productos</h1>
    <div class="producto">
        <h2>Laptop</h2>
        <p class="precio">$1200</p>
        <p class="stock">En stock</p>
    </div>
    <div class="producto">
        <h2>Mouse</h2>
        <p class="precio">$25</p>
        <p class="stock">Agotado</p>
    </div>
    <div class="producto">
        <h2>Teclado</h2>
        <p class="precio">$75</p>
        <p class="stock">En stock</p>
    </div>
</body>
</html>
"""

# Parsear HTML
soup = BeautifulSoup(html_content, 'html.parser')

# Extraer t√≠tulo
titulo = soup.title.string
print(f"üìÑ T√≠tulo: {titulo}")

# Extraer encabezado
h1 = soup.find('h1').text
print(f"üìå Encabezado: {h1}")

### üç≤ BeautifulSoup: Parser HTML para Scraping

**Concepto:** BeautifulSoup convierte HTML en √°rbol navegable de objetos Python.

**Parsers disponibles:**
- `html.parser`: incluido en Python (est√°ndar)
- `lxml`: m√°s r√°pido, requiere instalaci√≥n
- `html5lib`: m√°s tolerante con HTML mal formado

**Operaciones b√°sicas:**
- `soup.find('tag')`: primer elemento que coincide
- `soup.find_all('tag')`: todos los elementos
- `soup.title.string`: acceso directo a elementos √∫nicos
- `.text`: extraer texto sin tags HTML

**Uso:** Extraer datos estructurados de p√°ginas web sin API.

### 6.2 Buscar Elementos

In [None]:
# Buscar todos los productos
productos = soup.find_all('div', class_='producto')

print(f"üì¶ Total productos encontrados: {len(productos)}\n")

# Extraer informaci√≥n de cada producto
datos_productos = []

for producto in productos:
    nombre = producto.find('h2').text
    precio = producto.find('p', class_='precio').text
    stock = producto.find('p', class_='stock').text
    
    datos_productos.append({
        'nombre': nombre,
        'precio': precio,
        'stock': stock
    })
    
    print(f"üõí {nombre}")
    print(f"   üí∞ Precio: {precio}")
    print(f"   üì¶ Stock: {stock}\n")

# Convertir a DataFrame
df_productos = pd.DataFrame(datos_productos)
display(df_productos)

### üîç Selectores CSS y B√∫squeda de Elementos

**Concepto:** Localizar elementos espec√≠ficos en HTML usando clases, IDs, tags y atributos.

**M√©todos principales:**
- `find('tag')`: primer elemento
- `find_all('tag')`: lista de todos los elementos
- `find('tag', class_='nombre')`: buscar por clase CSS
- `find('tag', id='nombre')`: buscar por ID
- `find('tag', attrs={'data-id': '123'})`: atributos personalizados

**Selectores CSS avanzados:**
```python
soup.select('.producto')  # por clase
soup.select('#main')      # por ID
soup.select('div > p')    # hijos directos
```

**Extracci√≥n:** `.text` para contenido, `.get('href')` para atributos.

### 6.3 Selectores CSS

In [None]:
# Usar selectores CSS (m√°s potente)
precios = soup.select('.producto .precio')

print("üí∞ Precios encontrados con selector CSS:")
for precio in precios:
    print(f"  {precio.text}")

# Productos en stock
en_stock = [p for p in soup.select('.producto') 
            if 'En stock' in p.select_one('.stock').text]

print(f"\n‚úÖ Productos en stock: {len(en_stock)}")

### 6.4 Scraping de Sitio Web Real (Ejemplo √âtico)

In [None]:
def scrape_quotes() -> pd.DataFrame:
    """
    Scrape de http://quotes.toscrape.com (sitio de prueba).
    """
    url = "http://quotes.toscrape.com/"
    
    # Headers para simular navegador
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    response = requests.get(url, headers=headers)
    
    if not response.ok:
        print(f"‚ùå Error: {response.status_code}")
        return pd.DataFrame()
    
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Encontrar todas las quotes
    quotes_elements = soup.find_all('div', class_='quote')
    
    quotes_data = []
    
    for quote_el in quotes_elements:
        text = quote_el.find('span', class_='text').text
        author = quote_el.find('small', class_='author').text
        tags = [tag.text for tag in quote_el.find_all('a', class_='tag')]
        
        quotes_data.append({
            'quote': text,
            'author': author,
            'tags': ', '.join(tags)
        })
    
    return pd.DataFrame(quotes_data)

# Ejecutar scraping
df_quotes = scrape_quotes()

if not df_quotes.empty:
    print(f"‚úÖ Quotes extra√≠das: {len(df_quotes)}\n")
    display(df_quotes.head())
    
    # An√°lisis
    print("\nüìä Autores m√°s citados:")
    print(df_quotes['author'].value_counts().head())

### üåê Scraping de Sitios Reales: Flujo Completo

**Concepto:** Extraer datos de sitios web p√∫blicos siguiendo mejores pr√°cticas √©ticas y t√©cnicas.

**Pasos esenciales:**
1. **Revisar robots.txt:** `sitio.com/robots.txt` - qu√© est√° permitido
2. **User-Agent v√°lido:** identificarse como navegador
3. **Parsear HTML:** BeautifulSoup convierte respuesta en objeto navegable
4. **Extraer datos:** usar selectores para localizar informaci√≥n
5. **Estructurar:** convertir a DataFrame para an√°lisis

**Sitios de pr√°ctica:**
- quotes.toscrape.com (dise√±ado para aprender)
- books.toscrape.com (cat√°logo de libros)

**√âtica:** Respetar t√©rminos de servicio, no sobrecargar servidores, usar datos responsablemente.

### 6.5 Extraer Tablas HTML

In [None]:
# HTML con tabla
html_tabla = """
<table>
    <tr>
        <th>Pa√≠s</th>
        <th>Capital</th>
        <th>Poblaci√≥n (M)</th>
    </tr>
    <tr>
        <td>M√©xico</td>
        <td>Ciudad de M√©xico</td>
        <td>126</td>
    </tr>
    <tr>
        <td>Colombia</td>
        <td>Bogot√°</td>
        <td>51</td>
    </tr>
    <tr>
        <td>Argentina</td>
        <td>Buenos Aires</td>
        <td>45</td>
    </tr>
</table>
"""

soup_tabla = BeautifulSoup(html_tabla, 'html.parser')
tabla = soup_tabla.find('table')

# Extraer headers
headers = [th.text for th in tabla.find_all('th')]

# Extraer filas
filas = []
for tr in tabla.find_all('tr')[1:]:  # Saltar header
    celdas = [td.text for td in tr.find_all('td')]
    filas.append(celdas)

# Crear DataFrame
df_paises = pd.DataFrame(filas, columns=headers)
df_paises['Poblaci√≥n (M)'] = df_paises['Poblaci√≥n (M)'].astype(int)

print("üåç Tabla extra√≠da:")
display(df_paises)

# Alternativa con pandas (m√°s simple)
print("\nüí° Con pandas.read_html():")
df_paises_pandas = pd.read_html(html_tabla)[0]
display(df_paises_pandas)

### üìä Extracci√≥n de Tablas HTML

**Concepto:** Las tablas HTML (`<table>`) son estructuras ideales para convertir directamente a DataFrames.

**Estrategia:**
1. Localizar `<table>` con `soup.find('table')`
2. Extraer headers de `<th>` en primera fila
3. Iterar sobre `<tr>` (filas) extrayendo `<td>` (celdas)
4. Crear DataFrame con headers y filas

**Alternativa r√°pida:**
```python
pd.read_html(url)  # Pandas detecta tablas autom√°ticamente
```

**Uso com√∫n:** Datos estad√≠sticos, rankings, resultados deportivos, precios hist√≥ricos.

## 7. Pipeline de Ingesta desde API

### 7.1 Clase APIExtractor

In [None]:
class APIExtractor:
    """
    Extractor gen√©rico para APIs REST con manejo de errores y paginaci√≥n.
    """
    
    def __init__(self, base_url: str, headers: Optional[Dict] = None, rate_limit: float = 1.0):
        self.base_url = base_url
        self.headers = headers or {}
        self.rate_limit = rate_limit
        self.session = requests.Session()
        self.session.headers.update(self.headers)
    
    def get(self, endpoint: str, params: Optional[Dict] = None) -> Optional[Dict]:
        """Realiza petici√≥n GET con manejo de errores."""
        url = f"{self.base_url}/{endpoint}"
        
        try:
            response = self.session.get(url, params=params, timeout=30)
            response.raise_for_status()
            time.sleep(self.rate_limit)  # Rate limiting
            return response.json()
        except requests.exceptions.HTTPError as e:
            print(f"‚ùå HTTP Error: {e}")
            return None
        except requests.exceptions.Timeout:
            print(f"‚è±Ô∏è Timeout al consultar {url}")
            return None
        except Exception as e:
            print(f"‚ùå Error inesperado: {str(e)}")
            return None
    
    def get_paginated(self, endpoint: str, page_param: str = 'page', 
                     max_pages: int = 10) -> List[Dict]:
        """Obtiene datos paginados."""
        all_data = []
        
        for page in range(1, max_pages + 1):
            print(f"üìÑ P√°gina {page}/{max_pages}")
            params = {page_param: page}
            data = self.get(endpoint, params)
            
            if not data:
                break
            
            # Asumiendo que data es una lista
            if isinstance(data, list):
                if not data:  # Lista vac√≠a
                    break
                all_data.extend(data)
            else:
                # Si es dict, agregar directamente
                all_data.append(data)
        
        return all_data
    
    def to_dataframe(self, data: List[Dict]) -> pd.DataFrame:
        """Convierte datos a DataFrame."""
        return pd.DataFrame(data)

print("‚úÖ Clase APIExtractor definida")

### üèóÔ∏è Pipeline de Ingesta: Clase APIExtractor

**Concepto:** Encapsular l√≥gica de extracci√≥n desde APIs en clase reutilizable.

**Componentes clave:**
- **Session:** `requests.Session()` reutiliza conexiones (m√°s eficiente)
- **Rate limiting:** `time.sleep()` entre peticiones
- **Manejo de errores:** try/except para HTTPError, Timeout, etc.
- **Paginaci√≥n autom√°tica:** itera hasta encontrar datos vac√≠os
- **Conversi√≥n:** m√©todo `.to_dataframe()` para an√°lisis

**Ventajas:**
- Reutilizable para m√∫ltiples APIs
- C√≥digo m√°s limpio y mantenible
- Configuraci√≥n centralizada (headers, rate limit)

**Uso:** Base para pipelines ETL de ingesta desde APIs externas.

### 7.2 Usar APIExtractor

In [None]:
# Crear extractor para JSONPlaceholder
extractor = APIExtractor(
    base_url="https://jsonplaceholder.typicode.com",
    rate_limit=0.5  # 0.5 segundos entre requests
)

# Extraer usuarios
print("üîç Extrayendo usuarios...\n")
usuarios = extractor.get('users')

if usuarios:
    df_usuarios = extractor.to_dataframe(usuarios)
    
    # Seleccionar columnas relevantes
    df_usuarios_clean = df_usuarios[['id', 'name', 'email', 'phone', 'website']].copy()
    
    print(f"‚úÖ Usuarios extra√≠dos: {len(df_usuarios_clean)}")
    display(df_usuarios_clean.head())
    
    # Guardar
    output_path = '../../outputs/usuarios_api.csv'
    df_usuarios_clean.to_csv(output_path, index=False)
    print(f"\nüíæ Datos guardados en: {output_path}")

## 8. Mejores Pr√°cticas y √âtica

### 8.1 Consideraciones Legales y √âticas

In [None]:
print("""
‚öñÔ∏è MEJORES PR√ÅCTICAS EN WEB SCRAPING:

1. üìú VERIFICAR LEGALIDAD
   ‚Ä¢ Revisar T√©rminos de Servicio
   ‚Ä¢ Consultar robots.txt
   ‚Ä¢ Respetar copyright

2. ü§ù SER RESPETUOSO
   ‚Ä¢ Usar rate limiting (delays)
   ‚Ä¢ No sobrecargar servidores
   ‚Ä¢ Scraping en horarios de bajo tr√°fico

3. üîí PRIVACIDAD
   ‚Ä¢ No extraer datos personales sensibles
   ‚Ä¢ Cumplir GDPR/CCPA si aplica
   ‚Ä¢ Anonimizar datos cuando sea posible

4. üéØ ALTERNATIVAS PREFERIBLES
   ‚Ä¢ Usar API oficial si existe
   ‚Ä¢ Contactar al propietario del sitio
   ‚Ä¢ Considerar datasets p√∫blicos

5. üõ°Ô∏è IDENTIFICARSE
   ‚Ä¢ User-Agent descriptivo
   ‚Ä¢ Email de contacto
   ‚Ä¢ Documentar prop√≥sito

6. üíæ CACH√â LOCAL
   ‚Ä¢ No repetir requests innecesarios
   ‚Ä¢ Almacenar resultados localmente
   ‚Ä¢ Actualizar solo cuando sea necesario

‚ùå NUNCA:
  ‚Ä¢ Ignorar robots.txt
  ‚Ä¢ Hacer requests masivos sin delays
  ‚Ä¢ Usar datos para spam o fraude
  ‚Ä¢ Redistribuir contenido con copyright
  ‚Ä¢ Evadir CAPTCHAs o medidas de seguridad
""")

### 8.2 Verificar robots.txt

In [None]:
def verificar_robots_txt(url: str) -> None:
    """
    Verifica el archivo robots.txt de un sitio.
    """
    from urllib.parse import urlparse
    
    parsed = urlparse(url)
    robots_url = f"{parsed.scheme}://{parsed.netloc}/robots.txt"
    
    try:
        response = requests.get(robots_url, timeout=10)
        if response.ok:
            print(f"ü§ñ robots.txt de {parsed.netloc}:\n")
            print(response.text[:500])  # Primeros 500 caracteres
        else:
            print(f"‚ö†Ô∏è No se encontr√≥ robots.txt (Status: {response.status_code})")
    except Exception as e:
        print(f"‚ùå Error al verificar robots.txt: {str(e)}")

# Ejemplo
verificar_robots_txt("https://github.com")

## üéØ Ejercicios Pr√°cticos

### Ejercicio 1: API de GitHub
Crea un script que:
1. Obtenga los √∫ltimos 50 repositorios de un usuario de GitHub
2. Extraiga: nombre, descripci√≥n, estrellas, lenguaje, fecha de creaci√≥n
3. Convierta a DataFrame y guarde en CSV
4. Genere estad√≠sticas (lenguaje m√°s usado, repo con m√°s estrellas)

In [None]:
# TU C√ìDIGO AQU√ç

### Ejercicio 2: Web Scraping
Scrape http://books.toscrape.com:
1. Extrae t√≠tulo, precio, disponibilidad y rating
2. Navega m√∫ltiples p√°ginas (al menos 3)
3. Limpia los datos (quitar s√≠mbolos de precio, convertir ratings)
4. Crea visualizaci√≥n de precio promedio por rating

In [None]:
# TU C√ìDIGO AQU√ç

### Ejercicio 3: Pipeline Completo
Implementa un pipeline que:
1. Extraiga datos de una API p√∫blica (elige una de [public-apis.io](https://public-apis.io))
2. Implemente manejo de errores robusto
3. Aplique transformaciones necesarias
4. Guarde resultados en formato Parquet
5. Genere un reporte con estad√≠sticas b√°sicas

In [None]:
# TU C√ìDIGO AQU√ç

## üìö Recursos Adicionales

### APIs P√∫blicas para Practicar
- [JSONPlaceholder](https://jsonplaceholder.typicode.com/) - API fake para testing
- [GitHub API](https://docs.github.com/en/rest) - Datos de repositorios
- [OpenWeatherMap](https://openweathermap.org/api) - Datos meteorol√≥gicos
- [NewsAPI](https://newsapi.org/) - Noticias globales
- [Public APIs](https://github.com/public-apis/public-apis) - Lista curada

### Sitios para Practicar Scraping (Legalmente)
- [Quotes to Scrape](http://quotes.toscrape.com/)
- [Books to Scrape](http://books.toscrape.com/)
- [Scrape This Site](https://www.scrapethissite.com/)

### Documentaci√≥n
- [Requests Documentation](https://requests.readthedocs.io/)
- [BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [Scrapy](https://scrapy.org/) - Framework avanzado de scraping

### Alternativas Avanzadas
- **Selenium**: Para sitios con JavaScript
- **Playwright**: Automatizaci√≥n de navegadores
- **httpx**: Cliente HTTP async
- **aiohttp**: Requests as√≠ncronos

---

## ‚úÖ Resumen

En este notebook aprendiste:

1. ‚úÖ **APIs REST**: M√©todos HTTP, c√≥digos de estado, requests
2. ‚úÖ **Biblioteca requests**: GET, POST, headers, par√°metros
3. ‚úÖ **Paginaci√≥n**: Obtener datos en m√∫ltiples p√°ginas
4. ‚úÖ **Rate limiting**: Respetar l√≠mites de APIs
5. ‚úÖ **Autenticaci√≥n**: API keys, OAuth
6. ‚úÖ **BeautifulSoup**: Parsear HTML, selectores CSS
7. ‚úÖ **Web scraping √©tico**: Robots.txt, mejores pr√°cticas
8. ‚úÖ **Pipeline de ingesta**: Clase reutilizable para APIs

**üéØ Pr√≥ximo paso**: Proyecto Integrador 1

---

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Git y Control de Versiones](07_git_control_versiones.ipynb)**Siguiente ‚Üí:** [Proyecto Integrador 1 ‚Üí](09_proyecto_integrador_1.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb)- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb)- [APIs y Web Scraping](08_apis_web_scraping.ipynb) ‚Üê üîµ Est√°s aqu√≠- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Git y Control de Versiones](07_git_control_versiones.ipynb)**Siguiente ‚Üí:** [Proyecto Integrador 1 ‚Üí](09_proyecto_integrador_1.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb)- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb)- [APIs y Web Scraping](08_apis_web_scraping.ipynb) ‚Üê üîµ Est√°s aqu√≠- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Git y Control de Versiones](07_git_control_versiones.ipynb)**Siguiente ‚Üí:** [Proyecto Integrador 1 ‚Üí](09_proyecto_integrador_1.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb)- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb)- [APIs y Web Scraping](08_apis_web_scraping.ipynb) ‚Üê üîµ Est√°s aqu√≠- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)