# Curso de Web Scraping

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

## 0) Dependencias

In [1]:
import requests
from bs4 import BeautifulSoup

import csv
import json

import time
import random

## 1) Paginación y scraping de múltiples páginas

In [2]:
BASE_URL = "http://books.toscrape.com/"
CATALOGUE = "catalogue/category/books_1/"
PAGE = "page-{}.html"

In [3]:
product_list = []

URL_BOOKS = BASE_URL + CATALOGUE + PAGE

def count_stars(stars):
  if stars == "One":
    return 1
  elif stars == "Two":
    return 2
  elif stars == "Three":
    return 3
  elif stars == "Four":
    return 4
  elif stars == "Five":
    return 5
  else:
    return 0

# Recorrer las primeras 3 páginas
for page in range(1, 51):
    url = URL_BOOKS.format(page)
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    products = soup.select("article.product_pod")

    for product in products:
        title = product.find("h3").find("a")["title"]
        price = product.find("p", class_="price_color").get_text()
        image_rel = product.find("div", class_="image_container").find("img")["src"]
        image_url = BASE_URL + image_rel.replace("../", "")
        stars = count_stars(product.find("p")['class'][1])
        in_stock = product.find("p", class_="instock").get_text(strip=True)

        if in_stock == "In stock":
          in_stock = 1
        else:
          in_stock = 0

        product_list.append({
            "title": title,
            "price": price,
            "image_url": image_url,
            "starts": stars,
            "in_stock": in_stock
            })

    # Espera breve entre páginas para simular navegación real
    time.sleep(1)
    print(f"Página {page} procesada.")

Página 1 procesada.
Página 2 procesada.
Página 3 procesada.
Página 4 procesada.
Página 5 procesada.
Página 6 procesada.
Página 7 procesada.
Página 8 procesada.
Página 9 procesada.
Página 10 procesada.
Página 11 procesada.
Página 12 procesada.
Página 13 procesada.
Página 14 procesada.
Página 15 procesada.
Página 16 procesada.
Página 17 procesada.
Página 18 procesada.
Página 19 procesada.
Página 20 procesada.
Página 21 procesada.
Página 22 procesada.
Página 23 procesada.
Página 24 procesada.
Página 25 procesada.
Página 26 procesada.
Página 27 procesada.
Página 28 procesada.
Página 29 procesada.
Página 30 procesada.
Página 31 procesada.
Página 32 procesada.
Página 33 procesada.
Página 34 procesada.
Página 35 procesada.
Página 36 procesada.
Página 37 procesada.
Página 38 procesada.
Página 39 procesada.
Página 40 procesada.
Página 41 procesada.
Página 42 procesada.
Página 43 procesada.
Página 44 procesada.
Página 45 procesada.
Página 46 procesada.
Página 47 procesada.
Página 48 procesada.
P

In [5]:
!touch 'resultados/productos_multi.csv'

In [7]:
with open("resultados/productos_multi.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["name", "price", "image_url","starts", "in_stock"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Scraping multipágina completado: {len(product_list)} productos guardados en productos_multi.csv")

Scraping multipágina completado: 1000 productos guardados en productos_multi.csv


## 2) Manejando errores y excepciones comunes

In [8]:
product_list = []

for page in range(1, 55):  # Probar con 6 páginas
    url = URL_BOOKS.format(page)
    try:
        response = requests.get(url)
        response.raise_for_status()  # Lanza error para códigos 400 o 500
        soup = BeautifulSoup(response.text, "html.parser")
        products = soup.select("article.product_pod")

    except requests.RequestException as e:
        print(f"Error en la página {page}: {e}")
        continue  # Sigue con la siguiente iteración

    for product in products:
      try:
        title = product.find("h3").find("a")["title"]
        price = product.find("p", class_="price_color").get_text()
        image_rel = product.find("div", class_="image_container").find("img")["src"]
        image_url = BASE_URL + image_rel.replace("../", "")
        stars = count_stars(product.find("p")['class'][1])
        in_stock = product.find("p", class_="instock").get_text(strip=True)

        if in_stock == "In stock":
          in_stock = 1
        else:
          in_stock = 0

        product_list.append({
            "title": title,
            "price": price,
            "image_url": image_url,
            "starts": stars,
            "in_stock": in_stock
            })
      except Exception as ex:
        print("Error extrayendo datos de un producto:", ex)

    time.sleep(1)
    print(f"Página {page} procesada.")

Página 1 procesada.
Página 2 procesada.
Página 3 procesada.
Página 4 procesada.
Página 5 procesada.
Página 6 procesada.
Página 7 procesada.
Página 8 procesada.
Página 9 procesada.
Página 10 procesada.
Página 11 procesada.
Página 12 procesada.
Página 13 procesada.
Página 14 procesada.
Página 15 procesada.
Página 16 procesada.
Página 17 procesada.
Página 18 procesada.
Página 19 procesada.
Página 20 procesada.
Página 21 procesada.
Página 22 procesada.
Página 23 procesada.
Página 24 procesada.
Página 25 procesada.
Página 26 procesada.
Página 27 procesada.
Página 28 procesada.
Página 29 procesada.
Página 30 procesada.
Página 31 procesada.
Página 32 procesada.
Página 33 procesada.
Página 34 procesada.
Página 35 procesada.
Página 36 procesada.
Página 37 procesada.
Página 38 procesada.
Página 39 procesada.
Página 40 procesada.
Página 41 procesada.
Página 42 procesada.
Página 43 procesada.
Página 44 procesada.
Página 45 procesada.
Página 46 procesada.
Página 47 procesada.
Página 48 procesada.
P

In [9]:
with open("resultados/productos_con_errores.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["title", "price", "image_url", "starts","in_stock"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Scraping completado con manejo de errores: {len(product_list)} productos guardados en productos_con_errores.csv")

Scraping completado con manejo de errores: 1000 productos guardados en productos_con_errores.csv


## 3) Buenas prácticas: headers, tiempos y ética del scraping

**📜 ¿Qué es robots.txt?**

Es un archivo que los sitios web colocan en su raíz (https://sitio.com/robots.txt) para indicar qué **partes del sitio pueden o no ser exploradas por bots**. Aunque no es una "ley" (no lo impide técnicamente), es una norma ética respetarla.

In [10]:
# Definir una cabecera
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"
}

In [12]:
product_list = []

for page in range(1, 55):  # Probar con 6 páginas
    url = URL_BOOKS.format(page)
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # Lanza error para códigos 400 o 500
        soup = BeautifulSoup(response.text, "html.parser")
        products = soup.select("article.product_pod")

    except requests.RequestException as e:
        print(f"Error en la página {page}: {e}")
        continue  # Sigue con la siguiente iteración

    for product in products:
      try:
        title = product.find("h3").find("a")["title"]
        price = product.find("p", class_="price_color").get_text()
        image_rel = product.find("div", class_="image_container").find("img")["src"]
        image_url = BASE_URL + image_rel.replace("../", "")
        stars = count_stars(product.find("p")['class'][1])
        in_stock = product.find("p", class_="instock").get_text(strip=True)

        if in_stock == "In stock":
          in_stock = 1
        else:
          in_stock = 0

        product_list.append({
            "title": title,
            "price": price,
            "image_url": image_url,
            "starts": stars,
            "in_stock": in_stock
            })
      except Exception as ex:
        print("Error extrayendo datos de un producto:", ex)

    # Pausa aleatoria para imitar comportamiento humano
    sleep_time = random.uniform(1, 3)
    time.sleep(sleep_time)
    print(f"Página {page} procesada con una pausa de {sleep_time:.2f} segundos.")

Página 1 procesada con una pausa de 1.64 segundos.
Página 2 procesada con una pausa de 1.94 segundos.
Página 3 procesada con una pausa de 1.04 segundos.
Página 4 procesada con una pausa de 2.61 segundos.
Página 5 procesada con una pausa de 2.11 segundos.
Página 6 procesada con una pausa de 1.17 segundos.
Página 7 procesada con una pausa de 2.94 segundos.
Página 8 procesada con una pausa de 1.47 segundos.
Página 9 procesada con una pausa de 1.66 segundos.
Página 10 procesada con una pausa de 1.86 segundos.
Página 11 procesada con una pausa de 2.02 segundos.
Página 12 procesada con una pausa de 1.19 segundos.
Página 13 procesada con una pausa de 2.81 segundos.
Página 14 procesada con una pausa de 1.62 segundos.
Página 15 procesada con una pausa de 1.01 segundos.
Página 16 procesada con una pausa de 2.07 segundos.
Página 17 procesada con una pausa de 1.78 segundos.
Página 18 procesada con una pausa de 2.21 segundos.
Página 19 procesada con una pausa de 2.54 segundos.
Página 20 procesada c

## 4) Guardar como CSV y JSON

### **Guardar en CSV**

In [13]:
with open("resultados/productos_eticos.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["title", "price", "image_url","starts","in_stock"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Scraping ético completado: {len(product_list)} productos guardados en productos_eticos.csv")

Scraping ético completado: 1000 productos guardados en productos_eticos.csv


### **Guardar en JSON**

In [14]:
with open("resultados/productos_final.json", "w", encoding="utf-8") as jsonfile:
    json.dump(product_list, jsonfile, indent=4, ensure_ascii=False)

print(f"Datos exportados: {len(product_list)} productos en productos_final.json")

Datos exportados: 1000 productos en productos_final.json


### **Guardar en un Excel**

In [15]:
!pip install pandas openpyxl



In [16]:
import pandas as pd

In [17]:
# Convertir en Excel
df = pd.DataFrame(product_list)

# Guardar como archivo Excel
df.to_excel("resultados/productos_eticos.xlsx", index=False)

print(f"Scraping ético completado: {len(product_list)} productos guardados en productos_eticos.xlsx")

Scraping ético completado: 1000 productos guardados en productos_eticos.xlsx


### **Guardar en un Google Form**

In [None]:
import requests
import time

Ejemplo de la estructura de URL de un formulario:
<br>https://docs.google.com/forms/d/e/1FAIpQLSfwOqkiwDrLLMyi8-YllxysuERDhsaXsu6oo1398y5b4Vl85A/viewform?usp=pp_url&entry.1649230915=Pinocho&entry.80026608=1500&entry.1487693205=www.pinocho.com

In [None]:
# URL del formulario
url = "https://docs.google.com/forms/d/e/xxx/formResponse"

# Encabezados para evitar error 401
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",
    "Referer": "https://docs.google.com/forms/d/e/xxx/viewform"
}

# Recorrer y enviar cada producto
for i, product in enumerate(product_list[0:5], start=1):
    payload = {
        "entry.xxx": product["title"],        # campo 1: título
        "entry.xxx": product["price"],       # campo 2: precio
        "entry.xxx": product["image_url"]    # campo 3: imagen
    }

    response = requests.post(url, data=payload, headers=headers)

    if response.status_code == 200:
        print(f"✅ Producto {i} enviado: {product['title']}")
    else:
        print(f"❌ Error al enviar producto {i} - Código: {response.status_code}")

    time.sleep(1)  # espera 1 segundo entre envíos para evitar bloqueos

✅ Producto 1 enviado: A Light in the Attic
✅ Producto 2 enviado: Tipping the Velvet
✅ Producto 3 enviado: Soumission
✅ Producto 4 enviado: Sharp Objects
✅ Producto 5 enviado: Sapiens: A Brief History of Humankind
