# Curso de Web Scraping

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

## 0) Dependencias

In [None]:
#!pip install requests beautifulsoup4

In [None]:
import requests
from bs4 import BeautifulSoup
import csv

## 1) Hacer peticiones HTTP

### 1.1) Conceptos

**HTTP:** 
- 🌎 Hypertext Transfer Protocol.
- Es el protocolo de comunicación que permite las transferencias de información a través de archivos en la World Wide Web.
---

**GET:**
- 🔍 Recupera datos del servidor.
- Se usa para leer o consultar información. No modifica nada.

**POST:**
- ✉️ Envía datos al servidor.
- Se usa para crear nuevos recursos (por ejemplo, enviar un formulario).

**PUT:**
- 🛠️ Actualiza un recurso existente.
- Reemplaza por completo el recurso con la nueva información enviada.

**DELETE:**
- ❌ Elimina un recurso del servidor.
- Se usa para borrar datos específicos.

### 1.2) Implementación

In [None]:
url = "http://books.toscrape.com/"
# url = "http://books.toscrape.com/libros_ficcion/"

In [None]:
# Realizar la petición GET
response = requests.get(url)

In [None]:
# Verificar el código de estado
print(response)

In [None]:
print(response.text)

In [None]:
if response.status_code == 200:
    print("Conexión exitosa. Código de estado:", response.status_code)
    # Imprimir los primeros 500 caracteres del HTML
    print(response.text[0:500])
else:
    print("Error en la conexión. Código de estado:", response.status_code)

## 2) Explorar la estructura HTML con BeautifulSoup

### 2.1) Conceptos

#### 🧱 ¿Qué es el DOM?

**DOM** (Document Object Model) es una **representación estructurada del contenido HTML** de una página web, en forma de un **árbol jerárquico** de nodos.

---

#### 🧠 ¿Para qué sirve?

El DOM permite que **lenguajes de programación como JavaScript o Python (con BeautifulSoup, por ejemplo)** puedan:

- Acceder a elementos del HTML (`<div>`, `<h1>`, `<p>`, etc.)
- Leer o modificar contenido.
- Navegar entre elementos (padres, hijos, hermanos).
- Automatizar la extracción o manipulación de datos.

---

#### 🌳 ¿Cómo luce el DOM?

Por ejemplo, este HTML:

```html
<html>
  <body>
    <h1>Curso de Scraping</h1>
    <p>Aprende a extraer datos web</p>
  </body>
</html>
```

Se representa en el DOM como este árbol:

```
html
└── body
    ├── h1 → "Curso de Scraping"
    └── p → "Aprende a extraer datos web"
```

Cada etiqueta es un **nodo**, y puede contener texto u otros nodos.

---

#### ✨ ¿Por qué es importante en scraping?

Porque para **extraer información de una página web**, necesitas saber **dónde está ubicada en el DOM** (por ejemplo, seleccionar todos los productos dentro de un `<div class="producto">`).

### 2.2) Implementación

In [None]:
url = "http://books.toscrape.com/"

In [None]:
# Realizar la petición GET
response = requests.get(url)

In [None]:
soup = BeautifulSoup(response.text, "html.parser")

In [None]:
print(soup)

In [None]:
# Extraer el head
head = soup.find("title")
print(head.get_text(strip=True))

In [None]:
# Extraer el título principal
titulo = soup.find("div", class_="col-sm-8 h1")
print(titulo.get_text(strip=True))

## 3) Extracción completa de productos: nombre, precio e imagen

In [54]:
url = "http://books.toscrape.com/"

In [55]:
# Realizar la petición GET
response = requests.get(url)

In [56]:
soup = BeautifulSoup(response.text, "html.parser")

In [57]:
# Buscar todos los productos
products = soup.select("article.product_pod")

In [58]:
print(products)

[<article class="product_pod">
<div class="image_container">
<a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
</div>
<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
<div class="product_price">
<p class="price_color">Â£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>, <article class="product_pod">
<div class="image_container">
<a href="catalogue/tipping-the-velvet_999/index.html"><img alt="Tipping the Velvet" class="thumbnail" src="media/cache/2

In [77]:
# Lista para almacenar la información
product_list = []

for product in products:
    # Nombre del libro
    nombre = product.find("h3").find("a")["title"]
    #print(nombre)
    
    # Precio
    precio = product.find("p", class_="price_color").get_text()
    #print(precio)
    
    # Imagen
    imagen = product.find("div", class_="image_container").find("img")["src"]
    imagen_url = "http://books.toscrape.com/" + imagen
    
    product_list.append(
        {
            "nombre": nombre,
            "precio": precio,
            "imagen_url": imagen_url,
            }
    )

In [81]:
# Guardar los datos en CSV
path_csv = "resultados/productos.csv"

with open(path_csv, "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["nombre", "precio", "imagen_url"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Extracción completa: {len(product_list)} productos guardados en productos.csv")

Extracción completa: 20 productos guardados en productos.csv
