<a href="https://colab.research.google.com/github/itssofiarce/NLP-2024/blob/main/beautifulsoup_domeno.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introducción al Web Scraping**
El Web Scraping permite extraer información de sitios web de manera automática. Es útil cuando:

* No hay una API disponible.
* Se necesita obtener datos actualizados regularmente.
* Se quiere extraer información específica de una página web.

Importante: Antes de hacer scraping, revisa los términos de uso del sitio y su archivo `robots.txt`.

_Por ejemplo [Robots.txt de Facebook](https://facebook.com/robots.txt)_

## 1.Instalar y Configurar BeautifulSoup

In [2]:
!pip install beautifulsoup4 requests



## 2.Extraer el HTML de una página con requests

In [3]:
import requests
from bs4 import BeautifulSoup

# https://misutmeeple.com/2022/12/resena-cat-in-the-box/

# URL de la página a scrapear
url = "https://misutmeeple.com/2024/09/resena-domemo-stonehenge/"

# Enviar una solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    html_content = response.text
    print("Página obtenida con éxito")
else:
    print(f"Error {response.status_code}")


Página obtenida con éxito


## 3.Parsear el HTML con BeautifulSoup

In [4]:
# Crear el objeto BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")

# Imprimir el HTML formateado
print(soup.prettify()[:1000])  # Solo mostramos una parte para no saturar el output

<!DOCTYPE html>
<html class="no-js" dir="ltr" itemscope="" itemtype="https://schema.org/Blog" lang="es" prefix="og: https://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, minimum-scale=1" name="viewport"/>
  <title>
   Reseña: Domemo – Stonehenge | Misut Meeple
  </title>
  <style>
   img:is([sizes="auto" i], [sizes^="auto," i]){contain-intrinsic-size:3000px 1500px}
  </style>
  <meta content="Adivina los números en tus fichas. El asunto es que no puedes ver tus propias fichas. ¡Solo los demás jugadores podrán hacerlo! En cada turno, intentarás adivinar un número que crees que está en uno de monolitos. La primera persona que adivine todos sus monolitos gana. Así se nos presenta Domemo: Stonehenge, un diseño de" name="description"/>
  <meta content="max-image-preview:large" name="robots"/>
  <meta content="iMisut" name="author"/>
  <meta content="iJfWzcPgmmN6dvYJQ8mK43UT2fGrqwfgHRHBzpHTkzc" name="google-site-verification"/>
  <meta c

## 4.Encontrar elementos HTML

### Método 1: `find()` (Encuentra el primer elemento)

In [5]:
titulo = soup.find("title").text
print(f"Título de la página: {titulo}")

Título de la página: Reseña: Domemo – Stonehenge | Misut Meeple


In [6]:
soup.title

<title>Reseña: Domemo – Stonehenge | Misut Meeple</title>

In [14]:
soup.find_all(class_="comment-notes")

[<p class="comment-notes"><span id="email-notes">Tu dirección de correo electrónico no será publicada.</span> <span class="required-field-message">Los campos obligatorios están marcados con <span class="required">*</span></span></p>]

In [15]:
soup.css.select("title")

[<title>Reseña: Domemo – Stonehenge | Misut Meeple</title>,
 <title>Buscar</title>,
 <title>X</title>,
 <title>Facebook</title>,
 <title>Instagram</title>,
 <title>Threads</title>,
 <title>TikTok</title>,
 <title>Telegram</title>,
 <title>Alternar el menú</title>,
 <title>Horas</title>,
 <title>Comentarios</title>,
 <title>Anterior</title>,
 <title>Continuar</title>,
 <title>X</title>,
 <title>Facebook</title>,
 <title>Instagram</title>,
 <title>Threads</title>,
 <title>TikTok</title>,
 <title>Scroll hacia arriba</title>,
 <title>Scroll hacia arriba</title>,
 <title>Buscar</title>,
 <title>Twitter</title>,
 <title>Facebook</title>,
 <title>Instagram</title>,
 <title>Threads</title>,
 <title>TikTok</title>,
 <title>Telegram</title>,
 <title>Alternar cerrar menú</title>,
 <title>Buscar</title>]

In [24]:
import re
#This code finds the <title> tags whose .string contains "Domemo"
soup.find_all("title", string=re.compile("Domemo"))

[<title>Reseña: Domemo – Stonehenge | Misut Meeple</title>]

### Método 2: `find_all()` (Encuentra múltiples elementos)

In [None]:
# Extraer todos los títulos de las secciones
titulos_libros = soup.find_all("h2")

for i, libro in enumerate(titulos_libros[:5], 1):
    print(f"{i}. {libro.text}")

1. Introducción
2. Contenido
3. Mecánica
4. Opinión Personal
5. Navegación de entradas


In [None]:
soup.h2

<h2>Introducción</h2>

In [None]:
import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)

body
button
button
br
button
br
br
br
br
br
br
br
br
button
button
button
button
button
button
button


In [None]:
# Tienen la letra 't'

for tag in soup.find_all(re.compile("t")):
    print(tag.name)

## 5.Extraer datos específicos usando `select()` (CSS Selectors)

In [None]:
# Extraer todos los comentarios
comentarios = soup.select(".comment-body")

for i, comentario in enumerate(comentarios[:5], 1):
    print(f"{i} {comentario.find(class_='comment-content').text}")

## 6.Scraping de Imágenes

### Extraer URLs de imágenes

In [None]:
# Extraer todas las imágenes de la página
imagenes = soup.find(class_="entry-content-wrap").find_all("img")

for i, img in enumerate(imagenes, 1):  # Mostramos solo 5 imágenes
    print(f"Imagen {i}: {img.get('src')}")

Imagen 1: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_portada.jpg?resize=1200%2C801&ssl=1
Imagen 2: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_contraportada.jpg?resize=1200%2C801&ssl=1
Imagen 3: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_contenido.jpg?resize=1200%2C279&ssl=1
Imagen 4: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_piezas.jpg?resize=1200%2C434&ssl=1
Imagen 5: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_detalle_mano.jpg?resize=1200%2C620&ssl=1
Imagen 6: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_detalle_fichas_generales.jpg?resize=1200%2C699&ssl=1
Imagen 7: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2024/09/domemo_detalle_fichas_2.jpg?resize=1200%2C766&ssl=1
Imagen 8: https://i0.wp.com/misutmeeple.com/wp-content/uploads/2018/09/Misut-Meeple-Sello-Notable-2.0-380.png?w=1200&ssl=1


### Descargar imágenes y guardarlas

In [None]:
import os

# Crear carpeta para guardar imágenes
os.makedirs("imagenes_scrapeadas", exist_ok=True)

# Descargar las primeras 5 imágenes
for i, img in enumerate(imagenes, 1):
    img_url = img.get("src")

    # Algunas URLs son relativas, convertirlas en absolutas
    if img_url.startswith("/"):
        img_url = url + img_url

    # Descargar imagen
    img_data = requests.get(img_url).content

    # Guardar la imagen
    with open(f"imagenes_scrapeadas/imagen_{i}.jpg", "wb") as f:
        f.write(img_data)

    print(f"✅ Imagen {i} descargada")

✅ Imagen 1 descargada
✅ Imagen 2 descargada
✅ Imagen 3 descargada
✅ Imagen 4 descargada
✅ Imagen 5 descargada
✅ Imagen 6 descargada
✅ Imagen 7 descargada
✅ Imagen 8 descargada


## 7.Scraping de Hipervínculos

In [None]:
# Extración de tags
related_posts = soup.find(class_="tags-links").find_all('a')

for post in related_posts:
    print(post.text)
    print(post.attrs['href'])

#Alex Randolph
https://misutmeeple.com/tag/alex-randolph/
#Deducción
https://misutmeeple.com/tag/deduccion/
#Juegos de Cartas
https://misutmeeple.com/tag/juegos-de-cartas/
#Memoria
https://misutmeeple.com/tag/memoria/
#Reseñas
https://misutmeeple.com/tag/resenas/
#Wanjin Gill
https://misutmeeple.com/tag/wanjin-gill/
