# 1.  **Título del Tema**


**Interacción con la Web: APIs y Web Scraping con Python**

# 2.  **Explicación Conceptual Detallada**


**1. Interacción con APIs (Interfaces de Programación de Aplicaciones)**

*   **Definición y Propósito:** Una API es un conjunto de reglas y herramientas que permiten que diferentes aplicaciones de software se comuniquen entre sí. Una API web expone datos y funcionalidades de un servidor a través de internet. Es una puerta de entrada formal que un servicio (como Twitter, Google Maps o un servicio meteorológico) te ofrece para que accedas a sus datos de forma controlada y estructurada.
*   **¿Cuándo y por qué se utiliza?** Cuando un proveedor de servicios *quiere* que uses sus datos. Es el método preferido siempre que esté disponible. Es rápido, fiable y los datos ya vienen en un formato limpio (normalmente JSON).
*   **Conceptos Clave:**
    *   **Endpoint:** Una URL específica a la que envías una solicitud para obtener un tipo de dato concreto (ej: `/users/123` podría ser el endpoint para obtener datos del usuario con ID 123).
    *   **Request (Solicitud):** La petición que tu código envía al servidor. El método más común es `GET` (para obtener datos).
    *   **Response (Respuesta):** Lo que el servidor te devuelve. Contiene un **código de estado** y los **datos**.
    *   **Códigos de Estado:** Números que indican el resultado de tu solicitud. Los más importantes son:
        *   `200 OK`: Todo salió bien.
        *   `404 Not Found`: El recurso que pediste no existe.
        *   `403 Forbidden` / `401 Unauthorized`: No tienes permiso para ver esto (quizás necesitas una clave de API).
        *   `500 Internal Server Error`: El problema está en el servidor, no en tu código.
    *   **JSON (JavaScript Object Notation):** El formato de texto estándar para intercambiar datos en la web. Se parece mucho a los diccionarios y listas de Python, lo que lo hace muy fácil de usar.
    *   **Clave de API (API Key):** Una "contraseña" que te identifica y te da permiso para usar la API.


**2. Web Scraping (Raspado Web)**

*   **Definición y Propósito:** Es el proceso de extraer información directamente del código HTML de una página web. Se usa cuando no existe una API para obtener los datos que necesitas.
*   **¿Cuándo y por qué se utiliza?** Para extraer precios de productos de e-commerce, noticias de portales, listados de propiedades inmobiliarias, etc., cuando estos sitios no ofrecen una API pública.
*   **Cómo funciona:**
    1.  Tu programa (usando `requests`) descarga el contenido HTML completo de una URL, como lo haría un navegador.
    2.  Luego, una librería de "parsing" (como `BeautifulSoup`) analiza esa "sopa" de código HTML.
    3.  Tú le das instrucciones a la librería para que encuentre y extraiga las etiquetas específicas que contienen la información que buscas (ej: "encuentra todas las etiquetas `<h2>` con la clase `post-title`").
*   **Ventajas y Limitaciones:**
    *   **Ventaja:** Puedes obtener casi cualquier dato que sea visible en una página web.
    *   **Limitación (¡MUY IMPORTANTE!):** Es frágil. Si el sitio web cambia su diseño (por ejemplo, cambia el nombre de una clase de `post-title` a `entry-title`), tu scraper dejará de funcionar. Requiere mantenimiento constante.
*   **Buenas Prácticas y Ética:**
    *   **Sé respetuoso:** No hagas miles de peticiones por segundo a un sitio web. Podrías sobrecargar su servidor y hacer que se caiga (esto podría considerarse un ataque de denegación de servicio). Introduce pausas (`time.sleep()`) entre tus peticiones.
    *   **Revisa `robots.txt`:** Muchos sitios tienen un archivo en `www.sitio.com/robots.txt` que indica qué partes del sitio no quieren que sean rastreadas por bots. ¡Respétalo!
    *   **Identifícate:** Envía una cabecera `User-Agent` en tus peticiones para que el servidor sepa quién eres (o al menos que eres un bot amigable).
    *   **Sitios Dinámicos (un problema común):** Muchas webs modernas cargan su contenido usando JavaScript *después* de que la página inicial se haya cargado. `requests` solo obtiene el HTML inicial, por lo que no verá el contenido cargado dinámicamente. Para esto, necesitamos herramientas que actúen como un navegador real, como `Selenium`.

# 3.  **Sintaxis y Ejemplos Básicos**


In [None]:
# !pip install requests  
# !pip install beautifulsoup4 
# !pip install pandas
# !pip install selenium webdriver-manager


In [3]:
# --- API (requests) ---
import requests

# 1. Definir el endpoint de la API
url = "https://jsonplaceholder.typicode.com/todos/1"

# 2. Hacer la solicitud GET
response = requests.get(url)

# 3. Comprobar si la solicitud fue exitosa y ver los datos
if response.status_code == 200:
    data = response.json() # Convierte la respuesta JSON a un diccionario de Python
    print(data)
else:
    print(f"Error: {response.status_code}")

{'userId': 1, 'id': 1, 'title': 'delectus aut autem', 'completed': False}


In [4]:
# --- Web Scraping (requests + BeautifulSoup) ---
from bs4 import BeautifulSoup
import requests

# 1. Obtener el HTML de una página
url = "http://books.toscrape.com/"
response = requests.get(url)

# 2. Crear un objeto BeautifulSoup para parsear el HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 3. Encontrar un elemento. Por ejemplo, el título de la página.
title = soup.find('title').text
print(f"El título de la página es: {title}")

El título de la página es: 
    All products | Books to Scrape - Sandbox



# 4.  **Documentación y Recursos Clave**


*   **Documentación Oficial:**
    *   [Requests Documentation](https://requests.readthedocs.io/en/latest/)
    *   [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
    *   [Selenium with Python Documentation](https://selenium-python.readthedocs.io/)
*   **Recursos Externos de Alta Calidad:**
    *   [books.toscrape.com](http://books.toscrape.com/) y [quotes.toscrape.com](http://quotes.toscrape.com/): Sitios web diseñados explícitamente para que practiques web scraping de forma legal y segura.
    *   [JSONPlaceholder](https://jsonplaceholder.typicode.com/): Una API falsa gratuita, perfecta para practicar solicitudes GET, POST, etc.

# 5.  **Ejemplos de Código Prácticos**


#### Ejemplo 1: Usando una API Real (Pokémon API)

Vamos a obtener información sobre un Pokémon. Es divertido y la API es gratuita y no requiere clave.

In [11]:
# Celda 1: Obtener datos de un Pokémon
import requests
import pandas as pd
from IPython.display import Image, display

pokemon_nombre = "ditto" # Puedes cambiar esto por tu Pokémon favorito
url = f"https://pokeapi.co/api/v2/pokemon/{pokemon_nombre}"

response = requests.get(url)

if response.status_code == 200:
    data = response.json()
    print(data)
    
    # Extraemos la información que nos interesa
    nombre = data['name'].capitalize()
    altura = data['height'] / 10  # La altura viene en decímetros
    peso = data['weight'] / 10    # El peso viene en hectogramos
    tipos = [t['type']['name'] for t in data['types']]
    sprite_url = data['sprites']['front_default']
    sprite_url2 = data['sprites']['front_shiny']
    
    print(f"Nombre: {nombre}")
    print(f"Altura: {altura} m")
    print(f"Peso: {peso} kg")
    print(f"Tipos: {', '.join(tipos)}")
    
    # Mostramos la imagen del Pokémon en Jupyter Notebook
    display(Image(url=sprite_url))
    display(Image(url=sprite_url2))
    
else:
    print(f"No se pudo encontrar el Pokémon. Código de error: {response.status_code}")

{'abilities': [{'ability': {'name': 'limber', 'url': 'https://pokeapi.co/api/v2/ability/7/'}, 'is_hidden': False, 'slot': 1}, {'ability': {'name': 'imposter', 'url': 'https://pokeapi.co/api/v2/ability/150/'}, 'is_hidden': True, 'slot': 3}], 'base_experience': 101, 'cries': {'latest': 'https://raw.githubusercontent.com/PokeAPI/cries/main/cries/pokemon/latest/132.ogg', 'legacy': 'https://raw.githubusercontent.com/PokeAPI/cries/main/cries/pokemon/legacy/132.ogg'}, 'forms': [{'name': 'ditto', 'url': 'https://pokeapi.co/api/v2/pokemon-form/132/'}], 'game_indices': [{'game_index': 76, 'version': {'name': 'red', 'url': 'https://pokeapi.co/api/v2/version/1/'}}, {'game_index': 76, 'version': {'name': 'blue', 'url': 'https://pokeapi.co/api/v2/version/2/'}}, {'game_index': 76, 'version': {'name': 'yellow', 'url': 'https://pokeapi.co/api/v2/version/3/'}}, {'game_index': 132, 'version': {'name': 'gold', 'url': 'https://pokeapi.co/api/v2/version/4/'}}, {'game_index': 132, 'version': {'name': 'silver

#### Ejemplo 2: Scrapeando los Títulos de los Libros de una Página

Usaremos `books.toscrape.com` para extraer los títulos de todos los libros de la primera página.

In [14]:
# Celda 2: Scrapeo básico de títulos
import requests
from bs4 import BeautifulSoup

url = "http://books.toscrape.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Para encontrar los títulos, usamos "Inspeccionar Elemento" en el navegador.
# Vemos que cada libro está en un <article class="product_pod">
# y su título está en una etiqueta <h3> dentro de un <a>.
book_articles = soup.find_all('article', class_='product_pod')

titulos = []
for article in book_articles:
    # Navegamos dentro de cada 'article' para encontrar el título
    # El título está en el atributo 'title' de la etiqueta <a> dentro de <h3>
    titulo = article.h3.a['title']
    titulos.append(titulo)

print(f"Se encontraron {len(titulos)} libros en la página:")
for t in titulos:
    print(f"- {t}")

Se encontraron 20 libros en la página:
- A Light in the Attic
- Tipping the Velvet
- Soumission
- Sharp Objects
- Sapiens: A Brief History of Humankind
- The Requiem Red
- The Dirty Little Secrets of Getting Your Dream Job
- The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
- The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
- The Black Maria
- Starving Hearts (Triangular Trade Trilogy, #1)
- Shakespeare's Sonnets
- Set Me Free
- Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
- Rip it Up and Start Again
- Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
- Olio
- Mesaerion: The Best Science Fiction Stories 1800-1849
- Libertarianism for Beginners
- It's Only the Himalayas


#### Ejemplo 3: Scrapeo Avanzado (Título, Precio y Rating) en un DataFrame

Ahora, para cada libro, extraeremos más datos y los guardaremos en un DataFrame de Pandas.

In [15]:
# Celda 3: Scrapeo avanzado a un DataFrame
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "http://books.toscrape.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

book_articles = soup.find_all('article', class_='product_pod')

libros_data = []
for article in book_articles:
    titulo = article.h3.a['title']
    precio = article.find('p', class_='price_color').text
    # El rating está en la clase del <p> (ej: <p class="star-rating Three">)
    rating_clase = article.find('p', class_='star-rating')['class'] # ['star-rating', 'Three']
    rating = rating_clase[1] # Nos quedamos con 'Three'
    
    libros_data.append({'Titulo': titulo, 'Precio': precio, 'Rating': rating})

df_libros = pd.DataFrame(libros_data)
display(df_libros)

Unnamed: 0,Titulo,Precio,Rating
0,A Light in the Attic,Â£51.77,Three
1,Tipping the Velvet,Â£53.74,One
2,Soumission,Â£50.10,One
3,Sharp Objects,Â£47.82,Four
4,Sapiens: A Brief History of Humankind,Â£54.23,Five
5,The Requiem Red,Â£22.65,One
6,The Dirty Little Secrets of Getting Your Dream...,Â£33.34,Four
7,The Coming Woman: A Novel Based on the Life of...,Â£17.93,Three
8,The Boys in the Boat: Nine Americans and Their...,Â£22.60,Four
9,The Black Maria,Â£52.15,One


#### Ejemplo 4: El Problema de las Webs Dinámicas

Vamos a intentar scrapear una web que carga su contenido con JavaScript. Usaremos `quotes.toscrape.com/js/`. `requests` no podrá ver las citas.

In [16]:
# Celda 4: Intentando scrapear una web con JS
import requests
from bs4 import BeautifulSoup

url = "http://quotes.toscrape.com/js/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Buscamos las citas. La clase es 'quote'.
citas = soup.find_all('div', class_='quote')

print(f"Número de citas encontradas con requests y BeautifulSoup: {len(citas)}")
# El resultado será 0, porque las citas se cargan con JS y requests no lo ejecuta.

Número de citas encontradas con requests y BeautifulSoup: 0


#### Ejemplo 5: La Solución con Selenium

Ahora resolveremos el problema anterior usando `Selenium` para controlar un navegador real que sí ejecuta JavaScript.

In [17]:
# Celda 5: Usando Selenium para una web con JS
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time

# --- Configuración de Selenium ---
# webdriver-manager se encarga de descargar el driver correcto para tu versión de Chrome
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

url = "http://quotes.toscrape.com/js/"
driver.get(url) # Selenium abre la página en una ventana de Chrome

# Esperamos un poco para que el JavaScript tenga tiempo de cargar el contenido
time.sleep(3) 

# --- Extracción con BeautifulSoup ---
# Ahora obtenemos el HTML *después* de que Selenium haya dejado que JS se ejecute
page_source = driver.page_source
soup = BeautifulSoup(page_source, 'html.parser')

# Cerramos el navegador para liberar recursos
driver.quit()

# Ahora la búsqueda sí funciona
citas = soup.find_all('div', class_='quote')
print(f"Número de citas encontradas con Selenium y BeautifulSoup: {len(citas)}")

# Imprimimos la primera cita para verificar
if citas:
    primera_cita_texto = citas[0].find('span', class_='text').text
    print(f"\nPrimera cita encontrada: {primera_cita_texto}")

Número de citas encontradas con Selenium y BeautifulSoup: 10

Primera cita encontrada: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”


# 6.  **Ejercicio Práctico**


Tu misión es convertirte en un coleccionista de sabiduría. Vas a scrapear el sitio `quotes.toscrape.com` (la versión estática, no la `/js/`).

**Tu Tarea:**
1.  Escribe un script que extraiga **todas** las citas de la **primera página**. Para cada cita, debes obtener:
    *   El texto de la cita.
    *   El nombre del autor.
    *   Una lista de las "etiquetas" (tags) asociadas a la cita.
2.  Almacena toda esta información en una lista de diccionarios. Cada diccionario debe representar una cita.
3.  **Desafío Adicional:** Modifica tu script para que no solo scrapee la primera página, sino que navegue automáticamente a la página siguiente y continúe scrapeando hasta que no haya más páginas.

**Pista:** Para el desafío, inspecciona el botón "Next" en la parte inferior de la página. ¿Cómo puedes obtener la URL de la página siguiente? Un bucle `while` podría ser muy útil aquí.

In [91]:
import requests
from bs4 import BeautifulSoup

quotes = []
page = 1

while True:
    url = f"https://quotes.toscrape.com/page/{page}/"
    response = requests.get(url)
    # print(response)
    print(f"Accediendo a la pagina {page}")

    soup = BeautifulSoup(response.text, "html.parser") 
    quotes_articles = soup.find_all(class_ = 'quote')
    # print(quotes_articles)
    print(f"Hay {len(quotes_articles)} en la pagina {page}")

    if not quotes_articles:
        print(f"Total de notas: {len(quotes)}")
        break
    for quote in quotes_articles:
        texto = quote.find(class_ = "text").text
        # print(texto)
        autor = quote.find(class_ = "author").text
        # print(autor)
        tags = quote.find(class_ = "keywords")["content"].split(",")
        # print(tags)
        quotes.append({'texto': texto, 'autor':autor, 'tags':tags})
    page += 1

for i in range(5):
    print(f"Nota {i+1}: {quotes[i]}")

Accediendo a la pagina 1
Hay 10 en la pagina 1
Accediendo a la pagina 2
Hay 10 en la pagina 2
Accediendo a la pagina 3
Hay 10 en la pagina 3
Accediendo a la pagina 4
Hay 10 en la pagina 4
Accediendo a la pagina 5
Hay 10 en la pagina 5
Accediendo a la pagina 6
Hay 10 en la pagina 6
Accediendo a la pagina 7
Hay 10 en la pagina 7
Accediendo a la pagina 8
Hay 10 en la pagina 8
Accediendo a la pagina 9
Hay 10 en la pagina 9
Accediendo a la pagina 10
Hay 10 en la pagina 10
Accediendo a la pagina 11
Hay 0 en la pagina 11
Total de notas: 100
Nota 1: {'texto': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”', 'autor': 'Albert Einstein', 'tags': ['change', 'deep-thoughts', 'thinking', 'world']}
Nota 2: {'texto': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”', 'autor': 'J.K. Rowling', 'tags': ['abilities', 'choices']}
Nota 3: {'texto': '“There are only two ways to live your life. One is a

In [None]:
# Corrección por IA
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd

# --- Configuración ---
BASE_URL = "https://quotes.toscrape.com"
page = 1
quotes_data = [] # Cambié el nombre para mayor claridad
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# --- Bucle de Scraping ---
while True:
    # Construcción de la URL de la página actual
    current_url = f"{BASE_URL}/page/{page}/"
    print(f"Scrapeando: {current_url}")

    # Petición GET con manejo de errores y cabeceras
    try:
        response = requests.get(current_url, headers=headers)
        response.raise_for_status() # Lanza una excepción para errores 4xx/5xx
    except requests.exceptions.RequestException as e:
        print(f"Error en la petición: {e}")
        break

    # Parseo del HTML
    soup = BeautifulSoup(response.text, "html.parser")
    
    # Encontrar todos los contenedores de citas
    quote_containers = soup.find_all('div', class_='quote')

    # Condición de salida: si no se encuentran citas, es la última página
    if not quote_containers:
        print("No se encontraron más citas. Fin del scraping.")
        break
    
    # Iterar sobre las citas encontradas en la página
    for container in quote_containers:
        text = container.find('span', class_='text').text
        author = container.find('small', class_='author').text
        
        # Un enfoque alternativo y más explícito para las etiquetas
        tags_elements = container.find_all('a', class_='tag')
        tags = [tag.text for tag in tags_elements]
        
        quotes_data.append({
            'texto': text,
            'autor': author,
            'tags': tags
        })
    
    # Incrementar el número de página y esperar
    page += 1
    time.sleep(1) # Pausa de 1 segundo para ser respetuosos

# --- Resultados ---
print(f"\nScraping completado. Total de citas extraídas: {len(quotes_data)}")

# Convertimos el resultado a un DataFrame de Pandas para una mejor visualización
df_quotes = pd.DataFrame(quotes_data)

print("\nPrimeras 5 citas extraídas:")
display(df_quotes.head())

print("\nÚltimas 5 citas extraídas:")
display(df_quotes.tail())

Scrapeando: https://quotes.toscrape.com/page/1/
Scrapeando: https://quotes.toscrape.com/page/2/
Scrapeando: https://quotes.toscrape.com/page/3/
Scrapeando: https://quotes.toscrape.com/page/4/
Scrapeando: https://quotes.toscrape.com/page/5/
Scrapeando: https://quotes.toscrape.com/page/6/
Scrapeando: https://quotes.toscrape.com/page/7/
Scrapeando: https://quotes.toscrape.com/page/8/
Scrapeando: https://quotes.toscrape.com/page/9/
Scrapeando: https://quotes.toscrape.com/page/10/
Scrapeando: https://quotes.toscrape.com/page/11/
No se encontraron más citas. Fin del scraping.

Scraping completado. Total de citas extraídas: 100

Primeras 5 citas extraídas:


Unnamed: 0,texto,autor,tags
0,“The world as we have created it is a process ...,Albert Einstein,"[change, deep-thoughts, thinking, world]"
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling,"[abilities, choices]"
2,“There are only two ways to live your life. On...,Albert Einstein,"[inspirational, life, live, miracle, miracles]"
3,"“The person, be it gentleman or lady, who has ...",Jane Austen,"[aliteracy, books, classic, humor]"
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe,"[be-yourself, inspirational]"



Últimas 5 citas extraídas:


Unnamed: 0,texto,autor,tags
95,“You never really understand a person until yo...,Harper Lee,[better-life-empathy]
96,“You have to write the book that wants to be w...,Madeleine L'Engle,"[books, children, difficult, grown-ups, write,..."
97,“Never tell the truth to people who are not wo...,Mark Twain,[truth]
98,"“A person's a person, no matter how small.”",Dr. Seuss,[inspirational]
99,“... a mind needs books as a sword needs a whe...,George R.R. Martin,"[books, mind]"


# 7.  **Conexión con Otros Temas**


*   **Conceptos Previos Necesarios:**
    *   **Pandas:** Es el destino natural de tus datos scrapeados. Una vez que tienes una lista de diccionarios, `pd.DataFrame(mi_lista)` la convierte en una tabla perfecta para analizar.
    *   **Diccionarios y Listas de Python:** El formato JSON de las APIs se traduce directamente a diccionarios y listas, y son la estructura ideal para almacenar temporalmente tus datos scrapeados antes de pasarlos a un DataFrame.
    *   **Bucles y Condicionales:** Indispensables para iterar sobre los resultados (ej: `for article in articles: ...`) y para manejar errores o la paginación (`while next_page_url: ...`).

*   **Temas Futuros Relacionados:**
    *   **Bases de Datos (SQL/NoSQL):** En proyectos grandes, no guardarás los datos en un CSV, los insertarás directamente en una base de datos para un almacenamiento persistente y eficiente.
    *   **Data Engineering:** La extracción de datos (vía API o scraping) es el primer paso ("Extract") en cualquier pipeline de ETL (Extract, Transform, Load).
    *   **Automatización y Tareas Programadas:** Puedes programar tus scripts de scraping para que se ejecuten automáticamente todos los días (usando `cron` en Linux/Mac o el Programador de Tareas en Windows) y así monitorizar cambios de precios, nuevas noticias, etc.

# 8.  **Aplicaciones en el Mundo Real**


1.  **Agregadores de Precios:** Sitios como Google Shopping, Kayak o Skyscanner scrapean docenas de webs de aerolíneas, hoteles y tiendas para encontrar el mejor precio y mostrártelo en un solo lugar.
2.  **Análisis de Sentimiento y Monitoreo de Marca:** Las empresas usan las APIs de redes sociales (como Twitter o Reddit) para obtener menciones de su marca en tiempo real y analizar si los comentarios son positivos, negativos o neutros, permitiéndoles reaccionar rápidamente a crisis o a oportunidades.

# 9.  **Cheat Sheet**


#### **Requests (`requests`) - El Mensajero**

In [None]:
import requests

# Hacer una solicitud GET
response = requests.get('https://api.example.com/data', params={'key': 'value'}, headers={'User-Agent': 'My-Cool-App/1.0'})

# Hacer una solicitud POST (enviar datos)
payload = {'user': 'leo', 'action': 'login'}
response = requests.post('https://example.com/login', data=payload)

# Atributos de la Respuesta (response)
response.status_code  # Código de estado (200, 404, etc.)
response.text         # Contenido de la respuesta como texto (HTML, XML, texto plano)
response.json()       # Decodifica la respuesta JSON en un diccionario/lista de Python
response.content      # Contenido de la respuesta en bytes (para imágenes, archivos)
response.headers      # Diccionario con las cabeceras de la respuesta
response.url          # URL final después de posibles redirecciones
response.raise_for_status() # Lanza una excepción si el status_code indica un error (4xx o 5xx)

#### **Beautiful Soup (`bs4`) - El Intérprete de HTML**

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_string, 'html.parser')

# --- Encontrar un solo elemento ---
# Por etiqueta
first_p = soup.find('p')
# Por etiqueta y clase CSS
header = soup.find('div', class_='header-class')
# Por etiqueta y ID
main_content = soup.find('div', id='main-content')
# Por etiqueta y atributos
link = soup.find('a', attrs={'data-id': '123'})

# --- Encontrar múltiples elementos (devuelve una lista) ---
all_paragraphs = soup.find_all('p')
all_list_items = soup.find_all('li', class_='item')

# --- Navegar por el árbol ---
element.parent       # El elemento padre directo
element.find_parent('div') # El primer padre que es un <div>
element.find_next_sibling('p') # El siguiente hermano que es un <p>

# --- Extraer información de un elemento encontrado ---
element.text         # Obtiene el texto visible del elemento y sus hijos
element.get('href')  # Obtiene el valor de un atributo (ej: el link de una etiqueta <a>)
element['href']      # Forma alternativa de hacer lo mismo

#### **Selenium (`selenium`) - El Navegador Robot**

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# --- Configuración e Inicio ---
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

# --- Acciones Básicas ---
driver.get("https://example.com") # Abrir una URL
driver.quit()                     # Cerrar el navegador y el proceso
driver.refresh()                  # Refrescar la página
driver.save_screenshot('screenshot.png')
page_source = driver.page_source  # Obtener el HTML de la página (para BeautifulSoup)

# --- Encontrar Elementos (método moderno y preferido) ---
# Devuelve el primer elemento que coincida, o lanza una excepción si no lo encuentra.
element = driver.find_element(By.ID, 'element-id')
element = driver.find_element(By.CLASS_NAME, 'element-class')
element = driver.find_element(By.CSS_SELECTOR, '#main > div.content')
element = driver.find_element(By.XPATH, '//div[@id="main"]/a')
element = driver.find_element(By.LINK_TEXT, 'Click Here')

# Para encontrar múltiples elementos (devuelve una lista)
elements = driver.find_elements(By.CLASS_NAME, 'item')

# --- Interactuar con Elementos ---
element.click()                   # Hacer clic en un elemento
element.send_keys("texto a escribir") # Escribir en un input
element.clear()                   # Borrar el texto de un input
element.text                      # Obtener el texto visible del elemento
element.get_attribute('href')     # Obtener el valor de un atributo

# --- Esperas Explícitas (¡MUY IMPORTANTE para webs dinámicas!) ---
# Es la mejor práctica. Espera hasta 10 segundos a que una condición se cumpla.
wait = WebDriverWait(driver, 10)
# Esperar a que un elemento sea visible
element = wait.until(EC.visibility_of_element_located((By.ID, 'dynamic-content')))
# Esperar a que un elemento sea clickeable
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'button.submit')))