<a href="https://colab.research.google.com/github/itssofiarce/NLP-2024/blob/main/BeautifulSoup-Domeno.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introducción al Web Scraping**
El Web Scraping permite extraer información de sitios web de manera automática. Es útil cuando:

* No hay una API disponible.
* Se necesita obtener datos actualizados regularmente.
* Se quiere extraer información específica de una página web.

Importante: Antes de hacer scraping, revisa los términos de uso del sitio y su archivo `robots.txt`.

_Por ejemplo [Robots.txt de Facebook](https://facebook.com/robots.txt)_

## 1.Instalar y Configurar BeautifulSoup

In [1]:
!pip install beautifulsoup4 requests



## 2.Extraer el HTML de una página con requests

In [3]:
import requests
from bs4 import BeautifulSoup

# URL de la página a scrapear
url = "https://misutmeeple.com/2024/09/resena-domemo-stonehenge/"

# Enviar una solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    html_content = response.text
    print("Página obtenida con éxito")
else:
    print(f"Error {response.status_code}")


Página obtenida con éxito


## 3.Parsear el HTML con BeautifulSoup

In [None]:
# Crear el objeto BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")

# Imprimir el HTML formateado
print(soup.prettify()[:1000])  # Solo mostramos una parte para no saturar el output

<!DOCTYPE html>
<html class="no-js" dir="ltr" itemscope="" itemtype="https://schema.org/Blog" lang="es" prefix="og: https://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, minimum-scale=1" name="viewport"/>
  <title>
   Reseña: Azul | Misut Meeple
  </title>
  <style>
   img:is([sizes="auto" i], [sizes^="auto," i]){contain-intrinsic-size:3000px 1500px}
  </style>
  <meta content="Reseña de Azul, diseñado por Michael Kiesling, ilustrado por Chris Quilliams" name="description"/>
  <meta content="max-image-preview:large" name="robots"/>
  <meta content="iMisut" name="author"/>
  <meta content="iJfWzcPgmmN6dvYJQ8mK43UT2fGrqwfgHRHBzpHTkzc" name="google-site-verification"/>
  <meta content="3adf79b746734dc795e741979ac11b7c" name="msvalidate.01"/>
  <meta content="7a8e0d54755436f4" name="yandex-verification"/>
  <meta content="chris quilliams,colecciones,colocación de losetas,construcción de patrones,draft,eurogames,juegos de tablero,michae

## 4.Encontrar elementos HTML

### Método 1: `find()` (Encuentra el primer elemento)

In [None]:
titulo = soup.find("title").text
print(f"Título de la página: {titulo}")

Título de la página: Reseña: Azul | Misut Meeple


### Método 2: `find_all()` (Encuentra múltiples elementos)

In [None]:
# Extraer todos los títulos de las secciones
titulos_libros = soup.find_all("h2")

for i, libro in enumerate(titulos_libros[:5], 1):
    print(f"{i}. {libro.text}")

1. Introducción
2. Contenido
3. Mecánica
4. Opinión Personal
5. Navegación de entradas


## 5.Extraer datos específicos usando `select()` (CSS Selectors)

In [None]:
# Extraer todos los comentarios
comentarios = soup.select(".comment-body")

for i, comentario in enumerate(comentarios[:5], 1):
    print(f"{i} {comentario.find(class_='comment-content').text}")

1 Gracias, totalmente de acuerdo con la opinión personal, aunque el tablero de construcción personal no es tan aburrido como dices más bien un nuevo reto que plantea el creador, no es tan fácil…tiene su dificultad. Lo hemos probado y tienes que estar más atento a las restricciones del juego, no puedes ponerlo donde tú quieras a base que vas avanzando. Y en cuanto a su expansión le aporta su punto de mejora y novedad respecto a la partida inicial, no excesivamente pero si un punto extra al juego. Una pena que no sea para 5/6 jugadores pero eso incrementaría el precio.
2 Tienes razón en que no es tan simple como tal vez lo he pintado, pero te da la libertad de ir escogiendo el color para formar bloques, mientras que con el patron original estás obligado a seguir unos colores. Y son para todos los mismos.
3 Gracias por la reseña:)
Has probado el otro abstracto de Essen que tenía mucho bombo? El Dragón Castle?
Sin haber jugado ninguno me atrae más el segundo, aunque viendo las reglas de am

## 6.Scraping de Imágenes

### Extraer URLs de imágenes

In [None]:
# Extraer todas las imágenes de la página
imagenes = soup.find(class_="entry-content-wrap").find_all("img")

for i, img in enumerate(imagenes, 1):  # Mostramos solo 5 imágenes
    print(f"Imagen {i}: {img.get('src')}")

Imagen 1: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_portada.jpg?resize=1200%2C801&ssl=1
Imagen 2: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_contraportada.jpg?resize=1200%2C801&ssl=1
Imagen 3: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_contenido.jpg?resize=1200%2C365&ssl=1
Imagen 4: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_azulejos.jpg?resize=1200%2C240&ssl=1
Imagen 5: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_factorias.jpg?resize=1200%2C313&ssl=1
Imagen 6: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_marcadores.jpg?resize=1200%2C397&ssl=1
Imagen 7: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_tablero.jpg?resize=1200%2C775&ssl=1
Imagen 8: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_jugador_inicial.jpg?resize=1200%2C657&ssl=1
Imagen 9: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2017/12/azul_partid

### Descargar imágenes y guardarlas

In [None]:
import os

# Crear carpeta para guardar imágenes
os.makedirs("imagenes_scrapeadas", exist_ok=True)

# Descargar las primeras 5 imágenes
for i, img in enumerate(imagenes, 1):
    img_url = img.get("src")

    # Algunas URLs son relativas, convertirlas en absolutas
    if img_url.startswith("/"):
        img_url = url + img_url

    # Descargar imagen
    img_data = requests.get(img_url).content

    # Guardar la imagen
    with open(f"imagenes_scrapeadas/imagen_{i}.jpg", "wb") as f:
        f.write(img_data)

    print(f"✅ Imagen {i} descargada")

✅ Imagen 1 descargada
✅ Imagen 2 descargada
✅ Imagen 3 descargada
✅ Imagen 4 descargada
✅ Imagen 5 descargada
✅ Imagen 6 descargada
✅ Imagen 7 descargada
✅ Imagen 8 descargada
✅ Imagen 9 descargada
✅ Imagen 10 descargada
✅ Imagen 11 descargada
✅ Imagen 12 descargada
✅ Imagen 13 descargada
✅ Imagen 14 descargada
✅ Imagen 15 descargada
✅ Imagen 16 descargada
✅ Imagen 17 descargada
✅ Imagen 18 descargada
✅ Imagen 19 descargada


## 7.Scraping de Hipervínculos

In [None]:
# Extración de tags
related_posts = soup.find(class_="tags-links").find_all('a')

for post in related_posts:
    print(post.text)
    print(post.attrs['href'])

#Chris Quilliams
https://misutmeeple.com/tag/chris-quilliams/
#Colecciones
https://misutmeeple.com/tag/colecciones/
#Colocación de Losetas
https://misutmeeple.com/tag/colocacion-de-losetas/
#Construcción de Patrones
https://misutmeeple.com/tag/construccion-de-patrones/
#Draft
https://misutmeeple.com/tag/draft/
#Eurogames
https://misutmeeple.com/tag/eurogames/
#Juegos de Tablero
https://misutmeeple.com/tag/juegos-de-tablero/
#Michael Kiesling
https://misutmeeple.com/tag/michael-kiesling/
#Reseñas
https://misutmeeple.com/tag/resenas/
