<a href="https://colab.research.google.com/github/gmauricio-toledo/NLP-LCC/blob/main/Notebooks/04-Web_Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Introducción al Web Scraping</h1>

## ¿Qué es Web Scraping?

El **web scraping** es una técnica para extraer información de sitios web de forma automatizada. En lugar de copiar y pegar manualmente datos de una página, escribimos código que lo hace por nosotros.

## ¿Para qué sirve?

- **Análisis de precios**: Comparar precios de productos en diferentes tiendas
- **Recopilación de noticias**: Agregar artículos de múltiples fuentes
- **Investigación**: Recolectar datos para estudios académicos
- **Datos para Machine Learning**: Crear datasets personalizados

---

## Consideraciones Legales y Éticas

Antes de hacer scraping, ten en cuenta:

### Buenas prácticas:
- Revisa el archivo `robots.txt` del sitio (ejemplo: `sitio.com/robots.txt`)
- Respeta los Términos de Servicio del sitio web
- No sobrecargues el servidor: añade delays entre peticiones
- Usa los datos de forma responsable: respeta la privacidad

### Evita:
- Scraping de datos personales sensibles
- Sobrecargar servidores con miles de peticiones simultáneas
- Usar los datos para propósitos ilegales o no éticos
- Ignorar las restricciones explícitas del sitio

**Importante**: Si el sitio ofrece una [API](en.wikipedia.org/wiki/API), úsala en lugar de hacer scraping.

---

## Herramientas que Usaremos

Para este tutorial trabajaremos con:

1. **requests** - Para hacer peticiones HTTP y obtener el HTML
2. **BeautifulSoup** - Para analizar y extraer datos del HTML



Primero necesitamos instalar las librerías que usaremos:
- **requests**: para hacer peticiones HTTP
- **beautifulsoup4**: para analizar HTML
- **lxml**: parser para BeautifulSoup (más rápido)

In [None]:
!pip install requests beautifulsoup4 lxml

In [None]:
import requests
from bs4 import BeautifulSoup

print("requests versión:", requests.__version__)

## Ejemplo 1

Vamos a crear nuestro primer scraper extrayendo información de una página web sencilla.

In [None]:
# Hacer una petición a una página web
url = "https://www.unison.mx"
response = requests.get(url)

Verificar que la petición fue exitosa

In [None]:
print(f"Status code: {response.status_code}")
print(f"Content type: {response.headers['Content-Type']}")

Status code 200 significa que todo salió bien. Códigos de estado HTTP comunes:
- **200**: OK - Todo bien
- **404**: Not Found - Página no encontrada
- **403**: Forbidden - Acceso denegado
- **500**: Server Error - Error del servidor

Inspeccionar el HTML recibido

In [None]:
print("Primeros 600 caracteres del HTML:")
print("-" * 50)
print(response.text[:600])

Ahora usemos BeautifulSoup para analizar el HTML y extraer información:

In [None]:
soup = BeautifulSoup(response.text, 'lxml')

# Extraer el título de la página
titulo = soup.find('title')

print("Título de la página:")
print(titulo.text)

# También podemos extraer el encabezado principal
h1 = soup.find('h1')
if h1:
    print(f"\nEncabezado H1: {h1.text}")

In [None]:
response.text

Ahora que sabemos cómo obtener el HTML, el objetivo principal es **extraer el texto limpio** para usarlo en tareas de procesamiento de lenguaje natural.

In [None]:
# Usemos un artículo de ejemplo
# url = "https://en.wikipedia.org/wiki/Web_scraping"
url = "https://www.unison.mx/nota/?idnoti=38125"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')

# FORMA INCORRECTA: Obtener TODO el texto
texto_sucio = soup.get_text()
print("TEXTO SUCIO (primeros 500 caracteres):")
print(texto_sucio[:500])

In [None]:
texto_sucio

## Ejemplo 2

[`find_all`](https://beautiful-soup-4.readthedocs.io/en/latest/#find-all)

In [None]:
url = "http://books.toscrape.com/catalogue/category/books/travel_2/index.html"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')

# Obtener todos los enlaces a libros
libros = soup.find_all('article', class_='product_pod')

datos_libros = []

for libro in libros[:5]:  # Solo los primeros 5 para el ejemplo
    # Extraer título
    titulo = libro.find('h3').find('a')['title']

    # Extraer precio
    precio = libro.find('p', class_='price_color').text

    # Extraer disponibilidad
    disponibilidad = libro.find('p', class_='instock availability').text.strip()

    datos_libros.append({
        'titulo': titulo,
        'precio': precio,
        'disponibilidad': disponibilidad
    })

    print(f"{titulo}")
    print(f"\t{precio} - {disponibilidad}\n")

print(f"Se extrajeron {len(datos_libros)} libros")

## Ejemplo 3

In [None]:
!pip install wikipedia-api

In [None]:
import wikipediaapi

USER_AGENT = "TutorialWebScraping"  # <tarjeta de presentación> cuando haces peticiones al servidor
en_wiki = wikipediaapi.Wikipedia(USER_AGENT, language='en')
es_wiki = wikipediaapi.Wikipedia(USER_AGENT, language='es')

tema = ... # Pon el tema que prefieras
page = en_wiki.page(tema)
if page.exists():
    text = page.text  # Puedes usar page.summary si solo quieres el resumen

print(text)

# #--- También podríamos buscar en español ---
# page = es_wiki.page(tema)
# if page.exists():
#     text = page.text

In [None]:
text

## Guardar el texto extraido

Guardamos el texto extraido en un archivo de texto

In [None]:
fname = "texto_extraido.txt"
with open(fname, 'w', encoding='utf-8') as f:
    f.write(text)

## Actividad en clase

1. Extrae el contenido de una página de tu preferencia (puede ser académico, noticia, etc.). Realiza una limpieza básica y guarda el texto en un archivo de texto con el nombre:

`apellido_nombre_1.txt`

2. Extrae el contenido de un artículo de wikipedia de tu preferencia. Realiza una limpieza básica y guarda el texto en un archivo de texto con el nombre:

`apellido_nombre_2.txt`