# **Taller de Web Scraping**

## **Parte 1: Introducción a Web Scraping**
En este taller, aprenderás a realizar web scraping utilizando Python y la librería `BeautifulSoup`.



### **Ejercicio 1: Explorar el archivo robots.txt**

1. Busca el archivo `robots.txt` de una página web y analiza sus reglas.
   - Ejemplo: [https://www.wikipedia.org/robots.txt](https://www.wikipedia.org/robots.txt)
   - Identifica qué partes están permitidas para el scraping.

## Explorar el archivo Robot.txt

Dentro del archivo `robot.txt` podemos encontrar e identificar las partes que estan permitidas y cuales, para poder realizar los procesos de WebScraping. En este formato encontramos diferentes reglas relacionadas tales que:

* **User-agent:** Indica a que rastreadores(como Googlebot o scrapers personalizados) se aplican las reglas.
* **Disallow:** Especifica que partes del sitio estan prohibidas para el web scraping.
* **Allow:** Especifica que partes del sitio estan permitidas para el scraping.

### Preguntas reflexivas
+ ¿Por qué algunos sitios web bloquean el Web Scraping?
    + El bloqueo del web scraping se da por diferentes razones, como sobrecarga del servidor, violacion de los terminos de servicio, o uso excesivo de recursos.
    + **Sobrecarga del servidor**
        + Los robots mal disenados pueden provocar el servidor al realizar solicitudes excesivas.
    + **Violacion de los terminos de servicio**
        + Los sitios web pueden bloquear los raspadores web por que violan los terminos de servicio de los sitios web.
    + **Medidas anti-scraping**
        +Los sitios web pueden implementar CAPTCHA para diferencia entre usuarios humanos y robot de scraping.

+ ¿Cuándo es preferible usar una API en lugar de Web Scraping?
    + El uso de una API o de web scraping depende de la necesidad de los datos, el presupuesto, los recursos tecnologicos, y si el sitio web tiene un API.
    + **API**
        + Es una opcion para tener los datos estrucuturados y confiables
        + Podemos integrar servicios de otros proveedores, como redes sociales, sistemas de pago, y geolocalizacion.
        + Acelera el desarrollo de aplicaciones y facilita la automatizacion de tareas.

    + **Web Scraping**
        + Ofrece mayor flexibilidad y cobertura
        + Permite extraer datos de sitios web que no tiene APIs
        + Permite extraer informacion extra que no nos ofrece una API
            
+ Herramientas populares para Web Scraping en Python.
    + La principal herramienta para el web Scraping en Python es la libreria de `Beautiful Soup`. Esta nos facilita el analisis y extraccion de datos, documentos tanto HTML y XML.

### **robots.txt for www.mercadolibre.com.co**

```Python
User-agent: Amazonbot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: FacebookExternalHit
User-agent: FacebookBot
User-agent: Twitterbot
User-agent: LinkedInBot
Disallow: 

User-agent: *
Disallow: /HOME/
Disallow: /gz/merch/
Disallow: /gz/menu
Disallow: /gz/webdevice/config
Disallow: /gz/referidos
Disallow: /*www.siteinfo.cf
Disallow: /gz/cart/
Disallow: /gz/checkout/
Disallow: /gz/user-logged
Disallow: /gz/shipping-selector
Disallow: /gz/navigation/searches/last
Disallow: /perfil/vendedor/
Disallow: /perfil/comprador/
Disallow: /perfil/profile/
Disallow: /perfil/jm/profile
Disallow: /perfil/ALEXSETHMS
Disallow: /noindex/
Disallow: /navigation/
Disallow: /*itemid
Disallow: /*/jm/item
Disallow: /recommendations*
Disallow: /*attributes=
Disallow: /*quantity=
Disallow: /org-img/html/
Disallow: /registration?confirmation_url*
Disallow: /home/recommendations
Disallow: /social/
Disallow: /adn/api*
Disallow: /product-fe-recommendations/recommendations*
Disallow: /*.js
Disallow: /finditem.ml
```

### Analisis del archivo `robots.txt` de Mercado Libre

1. **Bloqueo de bots especificos**
```
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /

```
+ **Amazonbot** y **ClaudeBot** esta bloqueado, lo que significa que no puede rasrear ninguna parte del sitio.

2. **Bots de redes sociales permitidos**
```
User-agent: FacebookExternalHit
User-agent: FacebookBot
User-agent: Twitterbot
User-agent: LinkedInBot
Disallow: 
```
3. **Restricciones generales para todos los robots**
```
User-agent: *
Disallow: /HOME/
Disallow: /gz/merch/
Disallow: /gz/menu
Disallow: /gz/webdevice/config
Disallow: /gz/referidos
Disallow: /*www.siteinfo.cf
Disallow: /gz/cart/
Disallow: /gz/checkout/
Disallow: /gz/user-logged
Disallow: /gz/shipping-selector
Disallow: /gz/navigation/searches/last
Disallow: /perfil/vendedor/
Disallow: /perfil/comprador/
Disallow: /perfil/profile/
Disallow: /perfil/jm/profile
Disallow: /perfil/ALEXSETHMS
Disallow: /noindex/
Disallow: /navigation/
Disallow: /*itemid
Disallow: /*/jm/item
Disallow: /recommendations*
Disallow: /*attributes=
Disallow: /*quantity=
Disallow: /org-img/html/
Disallow: /registration?confirmation_url*
Disallow: /home/recommendations
Disallow: /social/
Disallow: /adn/api*
Disallow: /product-fe-recommendations/recommendations*
Disallow: /*.js
Disallow: /finditem.ml
```
+ Se prohible el acceso a secciones sensibles como:
    + Carrito de compras y checkout(`/gz/cart/`, `/gz/checkout/`)
    + Paginas de usuarios (`/perfil/vendedor/`, `/perfil/comprador/`, etc)
    + Paginas de navegacion y busqueda interna (`/navigation/`,`/gz/navigation/searchez/last`)
    + Recomendaciones y API internas  (`/recommendations*`, `/adn/api*`, `/product-fe-recommendations/recommendations*`)

+ Mercado libre restringe el acceso a datos sensibles y dinamicos
+ Los bots de redes sociales tienen acceso total, lo que facilita compartir y promocionar productos
+ El bloqueo de robots especificos como Amazon o Claude, posiblemente sera para evitar que lean y analisen el mercado con esta informacion.
+ Al estar bloqueado el acceso a los archivos `.js` y las URLs de configuracion interna, se protegen de que el sitio sea replicado o que se analize con profundidad.

## **Parte 2: Implementación de Web Scraping en Python**

### **Ejercicio 2: Extraer datos de una página web**

1. Utiliza `requests` y `BeautifulSoup` para extraer contenido de una página web.
2. Identifica elementos HTML relevantes (como etiquetas `<div>`, `<p>`, `<a>`).
3. Extrae y almacena la información en un formato estructurado (CSV o JSON).

**Código base:**
```python
import requests
from bs4 import BeautifulSoup

url = "https://ejemplo.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extraer información relevante
data = soup.find_all("p")
for item in data:
    print(item.text)
```
Vamos a realizar la extraccion de la informacion de la pagina de noticias `elpais.com` previa revision del documento `robots.txt` y no encontrar ninguna restriccion frente a esta practica a los robots de pruebas.

In [52]:
pip install requests beautifulsoup4
pip install pandas

SyntaxError: invalid syntax (3551064998.py, line 1)

In [None]:
pip install pandas

In [None]:
import requests
from bs4 import BeautifulSoup

# URL de la pagina de noticias
url = "https://elpais.com/tecnologia/"
headers = {"User-Agent": "Chrome/120.0.0.0"}
response = requests.get(url, headers=headers)

if response.status_code == 200:
    print(f"✅ Conexion exitosa a {url}")


✅ Conexion exitosa a https://elpais.com/tecnologia/


In [None]:
# Parseamos el contenido de la pagina con BeatifulSoup
soup = BeautifulSoup(response.text, "html.parser")

# Tras previa busqueda de los elementos HTML que contienen los titulos de las noticias
# Estraemos los titulos con el tag h2
titulos = soup.find_all("h2") # nos devuelve una lista con todos los titulos

print(f"👽 Cantidad de noticias extraidas {len(titulos)}")
# Iteramos la lista de titulos
for i,titulo in enumerate(titulos,start=1):
    print(f"{i}. {titulo.text.strip()}") # Strip() nos ayuda a eliminar espacios al inico y al final

👽 Cantidad de noticias extraidas 21
1. Descifrando el consumo de agua de la IA: así oculta Amazon cuánto bebe su nube en España
2. El Gobierno propone blindar a los actores contra la inteligencia artificial
3. Por qué Deepseek y Bluesky son las primeras grietas en el poder de la tecnocasta
4. Las mafias del cibercrimen cuentan con un ejército de más de 250.000 esclavos sometidos a torturas, extorsiones y violaciones
5. Un portátil solar, lentillas inteligentes y otras extravagancias del MWC
6. Samsung expone cómo la IA cambiará la forma de usar el ‘smartphone’
7. Emilio Carrizosa, matemático: “El liderazgo de la inteligencia artificial no lo tienen ahora mismo los gobiernos, sino empresas privadas”
8. Protección de Datos impone una multa de un millón de euros a LaLiga por recoger datos biométricos de los espectadores
9. Cómo la política de Trump sobre IA beneficiará a las grandes empresas
10. Los memes son una herramienta fundamental para las comunidades extremistas y para teorías de l

In [None]:
print(f"🤖 Extraemos las noticias que contengan algo relacionado a la IA")
i = 0
for titulo in titulos:
    if " IA " in titulo.text.upper() or "inteligencia artificial" in titulo.text.upper():
        i += 1
        print(f"{i}. {titulo.text.strip()}")

🤖 Extraemos las noticias que contengan algo relacionado a la IA
1. Samsung expone cómo la IA cambiará la forma de usar el ‘smartphone’
2. Cómo la política de Trump sobre IA beneficiará a las grandes empresas
3. ¿Quién va ganando la carrera de la IA generativa?


## **Parte 3: Scraping de Datos en Tablas**

### Conceptos clave

- **Uso de `find_all` para extraer datos tabulares**: En esta sección, aprenderás a extraer datos de tablas HTML utilizando la función `find_all` de BeautifulSoup. Las tablas en HTML están estructuradas con etiquetas como `<table>`, `<tr>` (filas), `<th>` (encabezados) y `<td>` (celdas de datos).

### Ejercicio 3: Extraer datos de una tabla de Wikipedia

1. **Busca una página de Wikipedia con una tabla de datos**: Por ejemplo, puedes usar la página de la lista de países por PIB nominal: [Lista de países por PIB (nominal)](https://es.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_PIB_(nominal)).

2. **Modifica el siguiente código para extraer los datos de una tabla específica**:

   ```python
   import requests
   from bs4 import BeautifulSoup

   # URL de la página de Wikipedia con la tabla
   url = "https://es.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_PIB_(nominal)"
   
   # Realizar la solicitud HTTP
   response = requests.get(url)
   
   # Parsear el contenido HTML con BeautifulSoup
   soup = BeautifulSoup(response.text, "html.parser")
   
   # Encontrar la tabla por su clase (en este caso, "wikitable")
   tabla = soup.find("table", {"class": "wikitable"})
   
   # Extraer todas las filas de la tabla
   filas = tabla.find_all("tr")
   
   # Iterar sobre cada fila y extraer los datos de las celdas
   for fila in filas:
       columns = fila.find_all("td")
       datos = [col.text.strip() for col in columns]
       print(datos)

In [None]:
# URL de la pagina de wikipedia
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
headers = {"User-Agent": "Chrome/120.0.0.0"}
response = requests.get(url, headers=headers)

if response.status_code == 200:
    print(f"✅ Conexion exitosa a {url}")


✅ Conexion exitosa a https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial


In [None]:
import pandas as pd
# Parseamos el contenido de la pagina con BeatifulSoup
soup = BeautifulSoup(response.text, "html.parser")

tablas = soup.find_all("table",{"class":"wikitable"}) 

print(f"👽 Cantidad de tablas extraidas {len(tablas)}")

tabla_objetivo = tablas[3]

titulos = tabla_objetivo.find_all("th")
filas = tabla_objetivo.find_all("tr")

datos = []

fila_titulos = [tl.text.strip() for tl in titulos]
datos.append(fila_titulos)

for fila in filas:
    columnas = fila.find_all("td")
    fila_datos = [col.text.strip() for col in columnas]
    if fila_datos:
        datos.append(fila_datos)

df = pd.DataFrame(datos)

df.to_csv("paises_sur_america.csv", index=False, encoding="utf-8")

# Para este caso practico traemos los 10 paises con mas poblacion
df.head(10)


👽 Cantidad de tablas extraidas 19


Unnamed: 0,0,1,2
0,Puesto,País o territorio dependiente,Población (proyección 2024)[15]​
1,1.º,India,1 450 935 779
2,2.º,China,1 419 321 279
3,3.º,Estados Unidos,345 426 567
4,4.º,Indonesia,283 487 932
5,5.º,Pakistán,251 269 158
6,6.º,Nigeria,232 679 482
7,7.º,Brasil,211 998 564
8,8.º,Bangladés,173 562 367
9,9.º,Rusia,144 820 423


## **Parte 4: Buenas Prácticas y Ética en Web Scraping**

### Conceptos clave

- **Respetar `robots.txt`**: El archivo `robots.txt` es un estándar utilizado por los sitios web para indicar a los bots (como los de Web Scraping) qué partes del sitio pueden o no pueden ser accedidas. Es importante respetar estas reglas para evitar problemas legales o técnicos.

- **No sobrecargar servidores con muchas solicitudes en poco tiempo**: Realizar demasiadas solicitudes en un corto período de tiempo puede sobrecargar el servidor del sitio web, lo que puede llevar a bloqueos o incluso a la denegación de servicio. Es recomendable implementar pausas entre solicitudes.

- **Usar cabeceras HTTP adecuadas (`User-Agent`)**: El `User-Agent` es una cabecera HTTP que identifica el navegador o herramienta que está realizando la solicitud. Es importante usar un `User-Agent` válido para evitar ser bloqueado por el servidor.

- **Preferir APIs oficiales cuando estén disponibles**: Si el sitio web ofrece una API oficial, es preferible usarla en lugar de realizar Web Scraping. Las APIs están diseñadas para proporcionar datos de manera estructurada y suelen ser más eficientes y legales.

### Ejercicio 4: Rotación de User-Agent

Modifica tu código de BeautifulSoup para incluir un `User-Agent` diferente en cada solicitud. Aquí tienes un ejemplo de cómo hacerlo:


In [57]:
import requests
from bs4 import BeautifulSoup
import random

# Lista de User-Agents para rotar
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 14_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0 Mobile/15E148 Safari/604.1"
]

# Seleccionar un User-Agent aleatorio
headers = {
    "User-Agent": random.choice(user_agents)
}

# URL de la página a scrapear
url = "https://elpais.com/tecnologia/"

# Realizar la solicitud HTTP con el User-Agent rotado

for i in range(5):
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        print(f"{i}.✅ Conexion exitosa a {url}")
    else:
        print(f"{i}.⚠️ Conexion codigo a {response.status_code}")
        
# Parsear el contenido HTML con BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")



0.✅ Conexion exitosa a https://elpais.com/tecnologia/
1.✅ Conexion exitosa a https://elpais.com/tecnologia/
2.✅ Conexion exitosa a https://elpais.com/tecnologia/
3.✅ Conexion exitosa a https://elpais.com/tecnologia/
4.✅ Conexion exitosa a https://elpais.com/tecnologia/


### Preguntas
+ ¿Por qué es importante rotar User-Agents?

    + Rotar el `User-Agent` es imporante para evitar que el servidor detecte que el webscraping que estamos realizando proviene de un robot y no nos vaya a bloquear los servicios o el acceso. Al cambiar de `User Agent` Simulamos que las solicitudes provienen de navegadores diferentes en cada peticion. 


+ ¿Qué pasa si realizamos muchas solicitudes a un sitio sin control?

    +Si Realizamos muchas solicitudes a un sitio en un corto tiempo podemos afectar negativamente el servicio que estamos consultando.

    - Podemos resultar con un bloqueo temporal o que nos beten permantente desde nuestra IP
    - Puede resultar en un ataque de denegacion de servicios (DoS) para otros usuarios.
    - Si la pagina o servicio consultado lo detecta como un ataque real pueden emprender acciones legales contra el ejecutante.

## **Parte 5: Uso de IA en Web Scraping**

### Conceptos clave

- **¿Cómo puede ayudar la IA en el análisis de datos obtenidos mediante Web Scraping?**
  La Inteligencia Artificial (IA) puede ser de gran ayuda para procesar y analizar grandes volúmenes de datos extraídos mediante Web Scraping. Algunas aplicaciones incluyen:
  - **Resumen automático de texto**: La IA puede resumir artículos o noticias largas en pocas frases.
  - **Clasificación de contenido**: La IA puede clasificar datos en categorías específicas, como noticias por temática.
  - **Análisis de sentimientos**: La IA puede determinar el tono emocional de un texto (positivo, negativo, neutral).
  - **Extracción de entidades**: La IA puede identificar nombres, lugares, fechas y otros elementos clave en un texto.

- **Introducción a herramientas de IA**:
  - **GPT (Generative Pre-trained Transformer)**: Modelos de lenguaje como GPT-4 pueden generar texto, resumir contenido y realizar tareas de procesamiento de lenguaje natural (NLP).
  - **Hugging Face**: Una plataforma que ofrece modelos preentrenados para tareas de NLP, como clasificación de texto y generación de resúmenes.
  - **Google Vision API**: Herramienta de Google para análisis de imágenes, que puede ser útil si el scraping incluye contenido visual.

### Ejercicio 5: Resumen Automático de Contenido Web

1. **Extraer el texto de un artículo de noticias usando Web Scraping**.
2. **Enviar el texto a la API de OpenAI (GPT-4) o Google Gemini para obtener un resumen**.
3. **Comparar el resumen generado por IA con el contenido original**.


In [1]:
pip install --upgrade openai


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [4]:
import requests
from bs4 import BeautifulSoup
import openai
import random
from dotenv import load_dotenv
import os

# Cargar las variables de entorno desde el archivo .env
load_dotenv()


user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 14_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0 Mobile/15E148 Safari/604.1"
]

# Seleccionar un User-Agent aleatorio
headers = {
    "User-Agent": random.choice(user_agents)
}

url = "https://elpais.com/tecnologia/2025-03-04/los-memes-son-una-herramienta-fundamental-para-las-comunidades-extremistas-y-para-teorias-de-la-conspiracion.html"

response = requests.get(url, headers=headers)

if response.status_code == 200:
    print(f"✅ Conexion exitosa a {url}")
    
soup = BeautifulSoup(response.text, "html.parser")

parrafos = soup.find_all("p")
texto = " ".join([p.text for p in parrafos])

openai.api_key = os.getenv("OPENAI_API_KEY")

# Realiza la solicitud al modelo de chat
respuesta = openai.ChatCompletion.create(
    model='gpt-3.5-turbo',
    messages=[
        {'role': 'system', 'content': 'Eres un periodista que resume noticias'},
        {'role': 'user', 'content': texto}
    ]
)

# Imprime la respuesta del modelo
print(respuesta.choices[0].message['content'])

✅ Conexion exitosa a https://elpais.com/tecnologia/2025-03-04/los-memes-son-una-herramienta-fundamental-para-las-comunidades-extremistas-y-para-teorias-de-la-conspiracion.html


APIRemovedInV1: 

You tried to access openai.ChatCompletion, but this is no longer supported in openai>=1.0.0 - see the README at https://github.com/openai/openai-python for the API.

You can run `openai migrate` to automatically upgrade your codebase to use the 1.0.0 interface. 

Alternatively, you can pin your installation to the old version, e.g. `pip install openai==0.28`

A detailed migration guide is available here: https://github.com/openai/openai-python/discussions/742
