# Curso de Web Scraping

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

## 0) Dependencias

In [None]:
#!pip install requests beautifulsoup4

In [None]:
import requests
from bs4 import BeautifulSoup
import csv

## 1) Hacer peticiones HTTP

### 1.1) Conceptos

**HTTP:** 
- üåé Hypertext Transfer Protocol.
- Es el protocolo de comunicaci√≥n que permite las transferencias de informaci√≥n a trav√©s de archivos en la World Wide Web.
---

**GET:**
- üîç Recupera datos del servidor.
- Se usa para leer o consultar informaci√≥n. No modifica nada.

**POST:**
- ‚úâÔ∏è Env√≠a datos al servidor.
- Se usa para crear nuevos recursos (por ejemplo, enviar un formulario).

**PUT:**
- üõ†Ô∏è Actualiza un recurso existente.
- Reemplaza por completo el recurso con la nueva informaci√≥n enviada.

**DELETE:**
- ‚ùå Elimina un recurso del servidor.
- Se usa para borrar datos espec√≠ficos.

### 1.2) Implementaci√≥n

In [None]:
url = "http://books.toscrape.com/"
# url = "http://books.toscrape.com/libros_ficcion/"

In [None]:
# Realizar la petici√≥n GET
response = requests.get(url)

In [None]:
# Verificar el c√≥digo de estado
print(response)

In [None]:
print(response.text)

In [None]:
if response.status_code == 200:
    print("Conexi√≥n exitosa. C√≥digo de estado:", response.status_code)
    # Imprimir los primeros 500 caracteres del HTML
    print(response.text[0:500])
else:
    print("Error en la conexi√≥n. C√≥digo de estado:", response.status_code)

## 2) Explorar la estructura HTML con BeautifulSoup

### 2.1) Conceptos

#### üß± ¬øQu√© es el DOM?

**DOM** (Document Object Model) es una **representaci√≥n estructurada del contenido HTML** de una p√°gina web, en forma de un **√°rbol jer√°rquico** de nodos.

---

#### üß† ¬øPara qu√© sirve?

El DOM permite que **lenguajes de programaci√≥n como JavaScript o Python (con BeautifulSoup, por ejemplo)** puedan:

- Acceder a elementos del HTML (`<div>`, `<h1>`, `<p>`, etc.)
- Leer o modificar contenido.
- Navegar entre elementos (padres, hijos, hermanos).
- Automatizar la extracci√≥n o manipulaci√≥n de datos.

---

#### üå≥ ¬øC√≥mo luce el DOM?

Por ejemplo, este HTML:

```html
<html>
  <body>
    <h1>Curso de Scraping</h1>
    <p>Aprende a extraer datos web</p>
  </body>
</html>
```

Se representa en el DOM como este √°rbol:

```
html
‚îî‚îÄ‚îÄ body
    ‚îú‚îÄ‚îÄ h1 ‚Üí "Curso de Scraping"
    ‚îî‚îÄ‚îÄ p ‚Üí "Aprende a extraer datos web"
```

Cada etiqueta es un **nodo**, y puede contener texto u otros nodos.

---

#### ‚ú® ¬øPor qu√© es importante en scraping?

Porque para **extraer informaci√≥n de una p√°gina web**, necesitas saber **d√≥nde est√° ubicada en el DOM** (por ejemplo, seleccionar todos los productos dentro de un `<div class="producto">`).

### 2.2) Implementaci√≥n

In [None]:
url = "http://books.toscrape.com/"

In [None]:
# Realizar la petici√≥n GET
response = requests.get(url)

In [None]:
soup = BeautifulSoup(response.text, "html.parser")

In [None]:
print(soup)

In [None]:
# Extraer el head
head = soup.find("title")
print(head.get_text(strip=True))

In [None]:
# Extraer el t√≠tulo principal
titulo = soup.find("div", class_="col-sm-8 h1")
print(titulo.get_text(strip=True))

## 3) Extracci√≥n completa de productos: nombre, precio e imagen

In [54]:
url = "http://books.toscrape.com/"

In [55]:
# Realizar la petici√≥n GET
response = requests.get(url)

In [56]:
soup = BeautifulSoup(response.text, "html.parser")

In [57]:
# Buscar todos los productos
products = soup.select("article.product_pod")

In [58]:
print(products)

[<article class="product_pod">
<div class="image_container">
<a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
</div>
<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
<div class="product_price">
<p class="price_color">√Ç¬£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>, <article class="product_pod">
<div class="image_container">
<a href="catalogue/tipping-the-velvet_999/index.html"><img alt="Tipping the Velvet" class="thumbnail" src="media/cache

In [77]:
# Lista para almacenar la informaci√≥n
product_list = []

for product in products:
    # Nombre del libro
    nombre = product.find("h3").find("a")["title"]
    #print(nombre)
    
    # Precio
    precio = product.find("p", class_="price_color").get_text()
    #print(precio)
    
    # Imagen
    imagen = product.find("div", class_="image_container").find("img")["src"]
    imagen_url = "http://books.toscrape.com/" + imagen
    
    product_list.append(
        {
            "nombre": nombre,
            "precio": precio,
            "imagen_url": imagen_url,
            }
    )

In [81]:
# Guardar los datos en CSV
path_csv = "resultados/productos.csv"

with open(path_csv, "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["nombre", "precio", "imagen_url"])
    writer.writeheader()
    writer.writerows(product_list)

print(f"Extracci√≥n completa: {len(product_list)} productos guardados en productos.csv")

Extracci√≥n completa: 20 productos guardados en productos.csv
