<a href="https://colab.research.google.com/github/alexlobin/Python-Web-Scraping/blob/main/repositorio1%20.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [22]:
from nbformat import v4 as nbf
import json

# Crear celdas del notebook
cells = []

# Título
cells.append(nbf.new_markdown_cell("# Web Scraping de Reseñas de Amazon\nEste notebook realiza scraping de reseñas de productos de Amazon utilizando `requests` y `BeautifulSoup`. Solo funciona con páginas públicas y sin CAPTCHA."))

# Instalación de librerías
cells.append(nbf.new_code_cell("!pip install requests beautifulsoup4 pandas"))

# Imports
cells.append(nbf.new_code_cell("""import requests
from bs4 import BeautifulSoup
import pandas as pd
import time"""))

# Headers
cells.append(nbf.new_code_cell("""HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Accept-Language': 'es-ES,es;q=0.9,en;q=0.8'
}"""))

# Función para obtener BeautifulSoup
cells.append(nbf.new_code_cell("""def get_soup(url):
    response = requests.get(url, headers=HEADERS)
    if response.status_code != 200:
        print(f"Error al acceder: {response.status_code}")
        return None
    return BeautifulSoup(response.text, 'html.parser')"""))

# Función para extraer reseñas
cells.append(nbf.new_code_cell("""def extraer_resenas(soup):
    reseñas = []
    bloques = soup.select("div[data-hook='review']")
    for b in bloques:
        try:
            autor = b.select_one("span.a-profile-name").get_text(strip=True)
            titulo = b.select_one("a.review-title").get_text(strip=True)
            texto = b.select_one("span.review-text-content").get_text(strip=True)
            calificacion = b.select_one("i[data-hook='review-star-rating']").get_text(strip=True)
            fecha = b.select_one("span.review-date").get_text(strip=True)
            reseñas.append({
                "autor": autor,
                "titulo": titulo,
                "texto": texto,
                "calificación": calificacion,
                "fecha": fecha
            })
        except:
            continue
    return reseñas"""))

# Scraping de varias páginas
cells.append(nbf.new_code_cell("""url_base = "https://www.amazon.com/product-reviews/B08N5WRWNW/?pageNumber="
todas_reseñas = []

for i in range(1, 4):  # 3 páginas de ejemplo
    print(f"Procesando página {i}...")
    soup = get_soup(url_base + str(i))
    if not soup:
        break
    reseñas = extraer_resenas(soup)
    todas_reseñas.extend(reseñas)
    time.sleep(2)  # Respetar servidor

print(f"Total reseñas extraídas: {len(todas_reseñas)}")"""))

# Guardar en CSV
cells.append(nbf.new_code_cell("""df = pd.DataFrame(todas_reseñas)
df.to_csv("reseñas_amazon.csv", index=False)
df.head()"""))

# Crear notebook
notebook = nbf.new_notebook(cells=cells)

# Guardar
output_path = "/content/Amazon_Scraper_Notebook.ipynb"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(notebook, f)

output_path

'/content/Amazon_Scraper_Notebook.ipynb'