# Curso de Web Scraping

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

## 0) Dependencias

In [1]:
import requests
from bs4 import BeautifulSoup

import csv
import json

import time
import random

## 1) Paginaci√≥n y scraping de m√∫ltiples p√°ginas

In [2]:
BASE_URL = "http://books.toscrape.com/"
CATALOGUE = "catalogue/category/books_1/"
PAGE = "page-{}.html"

In [3]:
product_list = []

URL_BOOKS = BASE_URL + CATALOGUE + PAGE

def count_stars(stars):
  if stars == "One":
    return 1
  elif stars == "Two":
    return 2
  elif stars == "Three":
    return 3
  elif stars == "Four":
    return 4
  elif stars == "Five":
    return 5
  else:
    return 0

# Recorrer las primeras 3 p√°ginas
for page in range(1, 51):
    url = URL_BOOKS.format(page)
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    products = soup.select("article.product_pod")

    for product in products:
        title = product.find("h3").find("a")["title"]
        price = product.find("p", class_="price_color").get_text()
        image_rel = product.find("div", class_="image_container").find("img")["src"]
        image_url = BASE_URL + image_rel.replace("../", "")
        stars = count_stars(product.find("p")['class'][1])
        in_stock = product.find("p", class_="instock").get_text(strip=True)

        if in_stock == "In stock":
          in_stock = 1
        else:
          in_stock = 0

        product_list.append({
            "title": title,
            "price": price,
            "image_url": image_url,
            "starts": stars,
            "in_stock": in_stock
            })

    # Espera breve entre p√°ginas para simular navegaci√≥n real
    time.sleep(1)
    print(f"P√°gina {page} procesada.")

P√°gina 1 procesada.
P√°gina 2 procesada.
P√°gina 3 procesada.
P√°gina 4 procesada.
P√°gina 5 procesada.
P√°gina 6 procesada.
P√°gina 7 procesada.
P√°gina 8 procesada.
P√°gina 9 procesada.
P√°gina 10 procesada.
P√°gina 11 procesada.
P√°gina 12 procesada.
P√°gina 13 procesada.
P√°gina 14 procesada.
P√°gina 15 procesada.
P√°gina 16 procesada.
P√°gina 17 procesada.
P√°gina 18 procesada.
P√°gina 19 procesada.
P√°gina 20 procesada.
P√°gina 21 procesada.
P√°gina 22 procesada.
P√°gina 23 procesada.
P√°gina 24 procesada.
P√°gina 25 procesada.
P√°gina 26 procesada.
P√°gina 27 procesada.
P√°gina 28 procesada.
P√°gina 29 procesada.
P√°gina 30 procesada.
P√°gina 31 procesada.
P√°gina 32 procesada.
P√°gina 33 procesada.
P√°gina 34 procesada.
P√°gina 35 procesada.
P√°gina 36 procesada.
P√°gina 37 procesada.
P√°gina 38 procesada.
P√°gina 39 procesada.
P√°gina 40 procesada.
P√°gina 41 procesada.
P√°gina 42 procesada.
P√°gina 43 procesada.
P√°gina 44 procesada.
P√°gina 45 procesada.
P√°gina 46 procesad

In [5]:
!touch 'resultados/productos_multi.csv'

In [7]:
with open("resultados/productos_multi.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["name", "price", "image_url","starts", "in_stock"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Scraping multip√°gina completado: {len(product_list)} productos guardados en productos_multi.csv")

Scraping multip√°gina completado: 1000 productos guardados en productos_multi.csv


## 2) Manejando errores y excepciones comunes

In [8]:
product_list = []

for page in range(1, 55):  # Probar con 6 p√°ginas
    url = URL_BOOKS.format(page)
    try:
        response = requests.get(url)
        response.raise_for_status()  # Lanza error para c√≥digos 400 o 500
        soup = BeautifulSoup(response.text, "html.parser")
        products = soup.select("article.product_pod")

    except requests.RequestException as e:
        print(f"Error en la p√°gina {page}: {e}")
        continue  # Sigue con la siguiente iteraci√≥n

    for product in products:
      try:
        title = product.find("h3").find("a")["title"]
        price = product.find("p", class_="price_color").get_text()
        image_rel = product.find("div", class_="image_container").find("img")["src"]
        image_url = BASE_URL + image_rel.replace("../", "")
        stars = count_stars(product.find("p")['class'][1])
        in_stock = product.find("p", class_="instock").get_text(strip=True)

        if in_stock == "In stock":
          in_stock = 1
        else:
          in_stock = 0

        product_list.append({
            "title": title,
            "price": price,
            "image_url": image_url,
            "starts": stars,
            "in_stock": in_stock
            })
      except Exception as ex:
        print("Error extrayendo datos de un producto:", ex)

    time.sleep(1)
    print(f"P√°gina {page} procesada.")

P√°gina 1 procesada.
P√°gina 2 procesada.
P√°gina 3 procesada.
P√°gina 4 procesada.
P√°gina 5 procesada.
P√°gina 6 procesada.
P√°gina 7 procesada.
P√°gina 8 procesada.
P√°gina 9 procesada.
P√°gina 10 procesada.
P√°gina 11 procesada.
P√°gina 12 procesada.
P√°gina 13 procesada.
P√°gina 14 procesada.
P√°gina 15 procesada.
P√°gina 16 procesada.
P√°gina 17 procesada.
P√°gina 18 procesada.
P√°gina 19 procesada.
P√°gina 20 procesada.
P√°gina 21 procesada.
P√°gina 22 procesada.
P√°gina 23 procesada.
P√°gina 24 procesada.
P√°gina 25 procesada.
P√°gina 26 procesada.
P√°gina 27 procesada.
P√°gina 28 procesada.
P√°gina 29 procesada.
P√°gina 30 procesada.
P√°gina 31 procesada.
P√°gina 32 procesada.
P√°gina 33 procesada.
P√°gina 34 procesada.
P√°gina 35 procesada.
P√°gina 36 procesada.
P√°gina 37 procesada.
P√°gina 38 procesada.
P√°gina 39 procesada.
P√°gina 40 procesada.
P√°gina 41 procesada.
P√°gina 42 procesada.
P√°gina 43 procesada.
P√°gina 44 procesada.
P√°gina 45 procesada.
P√°gina 46 procesad

In [9]:
with open("resultados/productos_con_errores.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["title", "price", "image_url", "starts","in_stock"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Scraping completado con manejo de errores: {len(product_list)} productos guardados en productos_con_errores.csv")

Scraping completado con manejo de errores: 1000 productos guardados en productos_con_errores.csv


## 3) Buenas pr√°cticas: headers, tiempos y √©tica del scraping

**üìú ¬øQu√© es robots.txt?**

Es un archivo que los sitios web colocan en su ra√≠z (https://sitio.com/robots.txt) para indicar qu√© **partes del sitio pueden o no ser exploradas por bots**. Aunque no es una "ley" (no lo impide t√©cnicamente), es una norma √©tica respetarla.

In [10]:
# Definir una cabecera
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"
}

In [12]:
product_list = []

for page in range(1, 55):  # Probar con 6 p√°ginas
    url = URL_BOOKS.format(page)
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # Lanza error para c√≥digos 400 o 500
        soup = BeautifulSoup(response.text, "html.parser")
        products = soup.select("article.product_pod")

    except requests.RequestException as e:
        print(f"Error en la p√°gina {page}: {e}")
        continue  # Sigue con la siguiente iteraci√≥n

    for product in products:
      try:
        title = product.find("h3").find("a")["title"]
        price = product.find("p", class_="price_color").get_text()
        image_rel = product.find("div", class_="image_container").find("img")["src"]
        image_url = BASE_URL + image_rel.replace("../", "")
        stars = count_stars(product.find("p")['class'][1])
        in_stock = product.find("p", class_="instock").get_text(strip=True)

        if in_stock == "In stock":
          in_stock = 1
        else:
          in_stock = 0

        product_list.append({
            "title": title,
            "price": price,
            "image_url": image_url,
            "starts": stars,
            "in_stock": in_stock
            })
      except Exception as ex:
        print("Error extrayendo datos de un producto:", ex)

    # Pausa aleatoria para imitar comportamiento humano
    sleep_time = random.uniform(1, 3)
    time.sleep(sleep_time)
    print(f"P√°gina {page} procesada con una pausa de {sleep_time:.2f} segundos.")

P√°gina 1 procesada con una pausa de 1.64 segundos.
P√°gina 2 procesada con una pausa de 1.94 segundos.
P√°gina 3 procesada con una pausa de 1.04 segundos.
P√°gina 4 procesada con una pausa de 2.61 segundos.
P√°gina 5 procesada con una pausa de 2.11 segundos.
P√°gina 6 procesada con una pausa de 1.17 segundos.
P√°gina 7 procesada con una pausa de 2.94 segundos.
P√°gina 8 procesada con una pausa de 1.47 segundos.
P√°gina 9 procesada con una pausa de 1.66 segundos.
P√°gina 10 procesada con una pausa de 1.86 segundos.
P√°gina 11 procesada con una pausa de 2.02 segundos.
P√°gina 12 procesada con una pausa de 1.19 segundos.
P√°gina 13 procesada con una pausa de 2.81 segundos.
P√°gina 14 procesada con una pausa de 1.62 segundos.
P√°gina 15 procesada con una pausa de 1.01 segundos.
P√°gina 16 procesada con una pausa de 2.07 segundos.
P√°gina 17 procesada con una pausa de 1.78 segundos.
P√°gina 18 procesada con una pausa de 2.21 segundos.
P√°gina 19 procesada con una pausa de 2.54 segundos.
P√

## 4) Guardar como CSV y JSON

### **Guardar en CSV**

In [13]:
with open("resultados/productos_eticos.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["title", "price", "image_url","starts","in_stock"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Scraping √©tico completado: {len(product_list)} productos guardados en productos_eticos.csv")

Scraping √©tico completado: 1000 productos guardados en productos_eticos.csv


### **Guardar en JSON**

In [14]:
with open("resultados/productos_final.json", "w", encoding="utf-8") as jsonfile:
    json.dump(product_list, jsonfile, indent=4, ensure_ascii=False)

print(f"Datos exportados: {len(product_list)} productos en productos_final.json")

Datos exportados: 1000 productos en productos_final.json


### **Guardar en un Excel**

In [15]:
!pip install pandas openpyxl



In [16]:
import pandas as pd

In [17]:
# Convertir en Excel
df = pd.DataFrame(product_list)

# Guardar como archivo Excel
df.to_excel("resultados/productos_eticos.xlsx", index=False)

print(f"Scraping √©tico completado: {len(product_list)} productos guardados en productos_eticos.xlsx")

Scraping √©tico completado: 1000 productos guardados en productos_eticos.xlsx


### **Guardar en un Google Form**

In [None]:
import requests
import time

Ejemplo de la estructura de URL de un formulario:
<br>https://docs.google.com/forms/d/e/1FAIpQLSfwOqkiwDrLLMyi8-YllxysuERDhsaXsu6oo1398y5b4Vl85A/viewform?usp=pp_url&entry.1649230915=Pinocho&entry.80026608=1500&entry.1487693205=www.pinocho.com

In [None]:
# URL del formulario
url = "https://docs.google.com/forms/d/e/xxx/formResponse"

# Encabezados para evitar error 401
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",
    "Referer": "https://docs.google.com/forms/d/e/xxx/viewform"
}

# Recorrer y enviar cada producto
for i, product in enumerate(product_list[0:5], start=1):
    payload = {
        "entry.xxx": product["title"],        # campo 1: t√≠tulo
        "entry.xxx": product["price"],       # campo 2: precio
        "entry.xxx": product["image_url"]    # campo 3: imagen
    }

    response = requests.post(url, data=payload, headers=headers)

    if response.status_code == 200:
        print(f"‚úÖ Producto {i} enviado: {product['title']}")
    else:
        print(f"‚ùå Error al enviar producto {i} - C√≥digo: {response.status_code}")

    time.sleep(1)  # espera 1 segundo entre env√≠os para evitar bloqueos

‚úÖ Producto 1 enviado: A Light in the Attic
‚úÖ Producto 2 enviado: Tipping the Velvet
‚úÖ Producto 3 enviado: Soumission
‚úÖ Producto 4 enviado: Sharp Objects
‚úÖ Producto 5 enviado: Sapiens: A Brief History of Humankind
