# **Taller de Web Scraping**

## **Parte 1: Introducci√≥n a Web Scraping**
En este taller, aprender√°s a realizar web scraping utilizando Python y la librer√≠a `BeautifulSoup`.



### **Ejercicio 1: Explorar el archivo robots.txt**

1. Busca el archivo `robots.txt` de una p√°gina web y analiza sus reglas.
   - Ejemplo: [https://www.wikipedia.org/robots.txt](https://www.wikipedia.org/robots.txt)
   - Identifica qu√© partes est√°n permitidas para el scraping.

## Explorar el archivo Robot.txt

Dentro del archivo `robot.txt` podemos encontrar e identificar las partes que estan permitidas y cuales, para poder realizar los procesos de WebScraping. En este formato encontramos diferentes reglas relacionadas tales que:

* **User-agent:** Indica a que rastreadores(como Googlebot o scrapers personalizados) se aplican las reglas.
* **Disallow:** Especifica que partes del sitio estan prohibidas para el web scraping.
* **Allow:** Especifica que partes del sitio estan permitidas para el scraping.

### Preguntas reflexivas
+ ¬øPor qu√© algunos sitios web bloquean el Web Scraping?
    + El bloqueo del web scraping se da por diferentes razones, como sobrecarga del servidor, violacion de los terminos de servicio, o uso excesivo de recursos.
    + **Sobrecarga del servidor**
        + Los robots mal disenados pueden provocar el servidor al realizar solicitudes excesivas.
    + **Violacion de los terminos de servicio**
        + Los sitios web pueden bloquear los raspadores web por que violan los terminos de servicio de los sitios web.
    + **Medidas anti-scraping**
        +Los sitios web pueden implementar CAPTCHA para diferencia entre usuarios humanos y robot de scraping.

+ ¬øCu√°ndo es preferible usar una API en lugar de Web Scraping?
    + El uso de una API o de web scraping depende de la necesidad de los datos, el presupuesto, los recursos tecnologicos, y si el sitio web tiene un API.
    + **API**
        + Es una opcion para tener los datos estrucuturados y confiables
        + Podemos integrar servicios de otros proveedores, como redes sociales, sistemas de pago, y geolocalizacion.
        + Acelera el desarrollo de aplicaciones y facilita la automatizacion de tareas.

    + **Web Scraping**
        + Ofrece mayor flexibilidad y cobertura
        + Permite extraer datos de sitios web que no tiene APIs
        + Permite extraer informacion extra que no nos ofrece una API
            
+ Herramientas populares para Web Scraping en Python.
    + La principal herramienta para el web Scraping en Python es la libreria de `Beautiful Soup`. Esta nos facilita el analisis y extraccion de datos, documentos tanto HTML y XML.

### **robots.txt for www.mercadolibre.com.co**

```Python
User-agent: Amazonbot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: FacebookExternalHit
User-agent: FacebookBot
User-agent: Twitterbot
User-agent: LinkedInBot
Disallow: 

User-agent: *
Disallow: /HOME/
Disallow: /gz/merch/
Disallow: /gz/menu
Disallow: /gz/webdevice/config
Disallow: /gz/referidos
Disallow: /*www.siteinfo.cf
Disallow: /gz/cart/
Disallow: /gz/checkout/
Disallow: /gz/user-logged
Disallow: /gz/shipping-selector
Disallow: /gz/navigation/searches/last
Disallow: /perfil/vendedor/
Disallow: /perfil/comprador/
Disallow: /perfil/profile/
Disallow: /perfil/jm/profile
Disallow: /perfil/ALEXSETHMS
Disallow: /noindex/
Disallow: /navigation/
Disallow: /*itemid
Disallow: /*/jm/item
Disallow: /recommendations*
Disallow: /*attributes=
Disallow: /*quantity=
Disallow: /org-img/html/
Disallow: /registration?confirmation_url*
Disallow: /home/recommendations
Disallow: /social/
Disallow: /adn/api*
Disallow: /product-fe-recommendations/recommendations*
Disallow: /*.js
Disallow: /finditem.ml
```

### Analisis del archivo `robots.txt` de Mercado Libre

1. **Bloqueo de bots especificos**
```
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /

```
+ **Amazonbot** y **ClaudeBot** esta bloqueado, lo que significa que no puede rasrear ninguna parte del sitio.

2. **Bots de redes sociales permitidos**
```
User-agent: FacebookExternalHit
User-agent: FacebookBot
User-agent: Twitterbot
User-agent: LinkedInBot
Disallow: 
```
3. **Restricciones generales para todos los robots**
```
User-agent: *
Disallow: /HOME/
Disallow: /gz/merch/
Disallow: /gz/menu
Disallow: /gz/webdevice/config
Disallow: /gz/referidos
Disallow: /*www.siteinfo.cf
Disallow: /gz/cart/
Disallow: /gz/checkout/
Disallow: /gz/user-logged
Disallow: /gz/shipping-selector
Disallow: /gz/navigation/searches/last
Disallow: /perfil/vendedor/
Disallow: /perfil/comprador/
Disallow: /perfil/profile/
Disallow: /perfil/jm/profile
Disallow: /perfil/ALEXSETHMS
Disallow: /noindex/
Disallow: /navigation/
Disallow: /*itemid
Disallow: /*/jm/item
Disallow: /recommendations*
Disallow: /*attributes=
Disallow: /*quantity=
Disallow: /org-img/html/
Disallow: /registration?confirmation_url*
Disallow: /home/recommendations
Disallow: /social/
Disallow: /adn/api*
Disallow: /product-fe-recommendations/recommendations*
Disallow: /*.js
Disallow: /finditem.ml
```
+ Se prohible el acceso a secciones sensibles como:
    + Carrito de compras y checkout(`/gz/cart/`, `/gz/checkout/`)
    + Paginas de usuarios (`/perfil/vendedor/`, `/perfil/comprador/`, etc)
    + Paginas de navegacion y busqueda interna (`/navigation/`,`/gz/navigation/searchez/last`)
    + Recomendaciones y API internas  (`/recommendations*`, `/adn/api*`, `/product-fe-recommendations/recommendations*`)

+ Mercado libre restringe el acceso a datos sensibles y dinamicos
+ Los bots de redes sociales tienen acceso total, lo que facilita compartir y promocionar productos
+ El bloqueo de robots especificos como Amazon o Claude, posiblemente sera para evitar que lean y analisen el mercado con esta informacion.
+ Al estar bloqueado el acceso a los archivos `.js` y las URLs de configuracion interna, se protegen de que el sitio sea replicado o que se analize con profundidad.

## **Parte 2: Implementaci√≥n de Web Scraping en Python**

### **Ejercicio 2: Extraer datos de una p√°gina web**

1. Utiliza `requests` y `BeautifulSoup` para extraer contenido de una p√°gina web.
2. Identifica elementos HTML relevantes (como etiquetas `<div>`, `<p>`, `<a>`).
3. Extrae y almacena la informaci√≥n en un formato estructurado (CSV o JSON).

**C√≥digo base:**
```python
import requests
from bs4 import BeautifulSoup

url = "https://ejemplo.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extraer informaci√≥n relevante
data = soup.find_all("p")
for item in data:
    print(item.text)
```
Vamos a realizar la extraccion de la informacion de la pagina de noticias `elpais.com` previa revision del documento `robots.txt` y no encontrar ninguna restriccion frente a esta practica a los robots de pruebas.

In [None]:
pip install requests beautifulsoup4
pip install pandas

In [None]:
pip install pandas

In [11]:
import requests
from bs4 import BeautifulSoup

# URL de la pagina de noticias
url = "https://elpais.com/tecnologia/"
headers = {"User-Agent": "Chrome/120.0.0.0"}
response = requests.get(url, headers=headers)

if response.status_code == 200:
    print(f"‚úÖ Conexion exitosa a {url}")


‚úÖ Conexion exitosa a https://elpais.com/tecnologia/


In [19]:
# Parseamos el contenido de la pagina con BeatifulSoup
soup = BeautifulSoup(response.text, "html.parser")

# Tras previa busqueda de los elementos HTML que contienen los titulos de las noticias
# Estraemos los titulos con el tag h2
titulos = soup.find_all("h2") # nos devuelve una lista con todos los titulos

print(f"üëΩ Cantidad de noticias extraidas {len(titulos)}")
# Iteramos la lista de titulos
for i,titulo in enumerate(titulos,start=1):
    print(f"{i}. {titulo.text.strip()}") # Strip() nos ayuda a eliminar espacios al inico y al final

üëΩ Cantidad de noticias extraidas 21
1. Descifrando el consumo de agua de la IA: as√≠ oculta Amazon cu√°nto bebe su nube en Espa√±a
2. El Gobierno propone blindar a los actores contra la inteligencia artificial
3. Por qu√© Deepseek y Bluesky son las primeras grietas en el poder de la tecnocasta
4. Las mafias del cibercrimen cuentan con un ej√©rcito de m√°s de 250.000 esclavos sometidos a torturas, extorsiones y violaciones
5. Un port√°til solar, lentillas inteligentes y otras extravagancias del MWC
6. Samsung expone c√≥mo la IA cambiar√° la forma de usar el ‚Äòsmartphone‚Äô
7. Emilio Carrizosa, matem√°tico: ‚ÄúEl liderazgo de la inteligencia artificial no lo tienen ahora mismo los gobiernos, sino empresas privadas‚Äù
8. Protecci√≥n de Datos impone una multa de un mill√≥n de euros a LaLiga por recoger datos biom√©tricos de los espectadores
9. C√≥mo la pol√≠tica de Trump sobre IA beneficiar√° a las grandes empresas
10. Los memes son una herramienta fundamental para las comunidades extr

In [23]:
print(f"ü§ñ Extraemos las noticias que contengan algo relacionado a la IA")
i = 0
for titulo in titulos:
    if " IA " in titulo.text.upper() or "inteligencia artificial" in titulo.text.upper():
        i += 1
        print(f"{i}. {titulo.text.strip()}")

ü§ñ Extraemos las noticias que contengan algo relacionado a la IA
1. Samsung expone c√≥mo la IA cambiar√° la forma de usar el ‚Äòsmartphone‚Äô
2. C√≥mo la pol√≠tica de Trump sobre IA beneficiar√° a las grandes empresas
3. ¬øQui√©n va ganando la carrera de la IA generativa?


## **Parte 3: Scraping de Datos en Tablas**

### Conceptos clave

- **Uso de `find_all` para extraer datos tabulares**: En esta secci√≥n, aprender√°s a extraer datos de tablas HTML utilizando la funci√≥n `find_all` de BeautifulSoup. Las tablas en HTML est√°n estructuradas con etiquetas como `<table>`, `<tr>` (filas), `<th>` (encabezados) y `<td>` (celdas de datos).

### Ejercicio 3: Extraer datos de una tabla de Wikipedia

1. **Busca una p√°gina de Wikipedia con una tabla de datos**: Por ejemplo, puedes usar la p√°gina de la lista de pa√≠ses por PIB nominal: [Lista de pa√≠ses por PIB (nominal)](https://es.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_PIB_(nominal)).

2. **Modifica el siguiente c√≥digo para extraer los datos de una tabla espec√≠fica**:

   ```python
   import requests
   from bs4 import BeautifulSoup

   # URL de la p√°gina de Wikipedia con la tabla
   url = "https://es.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_PIB_(nominal)"
   
   # Realizar la solicitud HTTP
   response = requests.get(url)
   
   # Parsear el contenido HTML con BeautifulSoup
   soup = BeautifulSoup(response.text, "html.parser")
   
   # Encontrar la tabla por su clase (en este caso, "wikitable")
   tabla = soup.find("table", {"class": "wikitable"})
   
   # Extraer todas las filas de la tabla
   filas = tabla.find_all("tr")
   
   # Iterar sobre cada fila y extraer los datos de las celdas
   for fila in filas:
       columns = fila.find_all("td")
       datos = [col.text.strip() for col in columns]
       print(datos)

In [33]:
# URL de la pagina de wikipedia
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
headers = {"User-Agent": "Chrome/120.0.0.0"}
response = requests.get(url, headers=headers)

if response.status_code == 200:
    print(f"‚úÖ Conexion exitosa a {url}")


‚úÖ Conexion exitosa a https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial


In [None]:
import pandas as pd
# Parseamos el contenido de la pagina con BeatifulSoup
soup = BeautifulSoup(response.text, "html.parser")

tablas = soup.find_all("table",{"class":"wikitable"}) 

print(f"üëΩ Cantidad de tablas extraidas {len(tablas)}")

tabla_objetivo = tablas[3]

titulos = tabla_objetivo.find_all("th")
filas = tabla_objetivo.find_all("tr")

datos = []

fila_titulos = [tl.text.strip() for tl in titulos]
datos.append(fila_titulos)

for fila in filas:
    columnas = fila.find_all("td")
    fila_datos = [col.text.strip() for col in columnas]
    if fila_datos:
        datos.append(fila_datos)

df = pd.DataFrame(datos)

df.to_csv("paises_sur_america.csv", index=False, encoding="utf-8")

# Para este caso practico traemos los 10 paises con mas poblacion
df.head(10)


üëΩ Cantidad de tablas extraidas 19


Unnamed: 0,0,1,2
0,Puesto,Pa√≠s o territorio dependiente,Poblaci√≥n (proyecci√≥n 2024)[15]‚Äã
1,1.¬∫,India,1 450 935 779
2,2.¬∫,China,1 419 321 279
3,3.¬∫,Estados Unidos,345 426 567
4,4.¬∫,Indonesia,283 487 932
5,5.¬∫,Pakist√°n,251 269 158
6,6.¬∫,Nigeria,232 679 482
7,7.¬∫,Brasil,211 998 564
8,8.¬∫,Banglad√©s,173 562 367
9,9.¬∫,Rusia,144 820 423



### **Ejercicio 3: Scraping avanzado con Selenium**

1. Usa `Selenium` para interactuar con p√°ginas din√°micas.
2. Extrae informaci√≥n que se carga mediante JavaScript.
3. Simula acciones de usuario, como clics y desplazamientos.

**C√≥digo base:**
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# Configurar el driver
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(options=options)

driver.get("https://ejemplo.com")
time.sleep(5)  # Esperar carga de la p√°gina

data = driver.find_element(By.TAG_NAME, "p").text
print(data)

driver.quit()
```

## **Parte 3: √âtica y buenas pr√°cticas en Web Scraping**

### **Ejercicio 4: Respetar los t√©rminos de uso y evitar bloqueos**
- Revisar el `robots.txt` antes de hacer scraping.
- Implementar tiempos de espera (`time.sleep()`) para no sobrecargar servidores.
- Usar `headers` para simular una petici√≥n leg√≠tima.
- Preferir APIs cuando est√©n disponibles.

**Ejemplo de petici√≥n con `headers`:**
```python
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)
```

### **Ejercicio 5: Guardar y analizar los datos extra√≠dos**
1. Almacenar los datos en CSV o JSON.
2. Analizar la informaci√≥n con `pandas`.

**Ejemplo de almacenamiento en CSV:**
```python
import pandas as pd

df = pd.DataFrame({"Datos": data})
df.to_csv("datos.csv", index=False)
```

## **Conclusi√≥n**
Este taller proporciona una introducci√≥n a Web Scraping con Python, cubriendo desde la exploraci√≥n de `robots.txt` hasta la implementaci√≥n con `BeautifulSoup` y `Selenium`. ¬°Ahora es tu turno de practicar! üöÄ


# Estructura de un Documento Markdown

Markdown es un lenguaje de marcado ligero que permite formatear texto de manera sencilla. A continuaci√≥n, se presenta la estructura b√°sica de un documento en Markdown.

## 1. Encabezados

Se utilizan `#` para definir encabezados de distintos niveles:

```markdown
# Encabezado de nivel 1
## Encabezado de nivel 2
### Encabezado de nivel 3
#### Encabezado de nivel 4
##### Encabezado de nivel 5
###### Encabezado de nivel 6
```

## 2. P√°rrafos y Saltos de L√≠nea

Para crear un p√°rrafo, simplemente escribe el texto dejando una l√≠nea en blanco entre p√°rrafos.
Para forzar un salto de l√≠nea dentro de un p√°rrafo, a√±ade dos espacios al final de la l√≠nea.

## 3. Estilos de Texto

Puedes aplicar diferentes estilos al texto:

```markdown
**Negrita** (doble asterisco o doble guion bajo): **Ejemplo** o __Ejemplo__
*Cursiva* (un asterisco o un guion bajo): *Ejemplo* o _Ejemplo_
~~Tachado~~ (doble tilde): ~~Ejemplo~~
```

## 4. Listas

### Listas no ordenadas
Se crean usando `-`, `*` o `+`:

```markdown
- Elemento 1
- Elemento 2
  - Subelemento 2.1
  - Subelemento 2.2
```

### Listas ordenadas
Se crean usando n√∫meros seguidos de un punto:

```markdown
1. Elemento 1
2. Elemento 2
   1. Subelemento 2.1
   2. Subelemento 2.2
```

## 5. Enlaces

```markdown
[Texto del enlace](https://ejemplo.com)
```

Ejemplo: [Visitar Google](https://www.google.com)

## 6. Im√°genes

```markdown
![Texto alternativo](https://via.placeholder.com/150 "T√≠tulo opcional")
```

## 7. Citas

Se crean usando `>` al inicio de la l√≠nea:

```markdown
> Esto es una cita en Markdown.
```

## 8. C√≥digo

Para incluir c√≥digo en l√≠nea, usa comillas invertidas `` `c√≥digo` ``.
Para bloques de c√≥digo, usa triple comilla invertida:

```markdown
```
print("Hola, Markdown!")
```
```

## 9. Tablas

```markdown
| Encabezado 1 | Encabezado 2 | Encabezado 3 |
|-------------|-------------|-------------|
| Dato 1      | Dato 2      | Dato 3      |
| Dato 4      | Dato 5      | Dato 6      |
```

## 10. L√≠neas Horizontales

Se crean con tres guiones `---`, tres asteriscos `***` o tres guiones bajos `___`.

```markdown
---
```

## 11. Checkbox (Listas de Tareas)

```markdown
- [ ] Tarea pendiente
- [x] Tarea completada
```

## Conclusi√≥n

Markdown es una herramienta poderosa y f√°cil de usar para formatear texto de manera eficiente. Con esta gu√≠a, puedes comenzar a escribir documentos en Markdown de manera estructurada y organizada.

