# **Taller de Web Scraping**

## **Parte 1: Introducción a Web Scraping**
En este taller, aprenderás a realizar web scraping utilizando Python y la librería `BeautifulSoup`.



### **Ejercicio 1: Explorar el archivo robots.txt**

1. Busca el archivo `robots.txt` de una página web y analiza sus reglas.
   - Ejemplo: [https://www.wikipedia.org/robots.txt](https://www.wikipedia.org/robots.txt)
   - Identifica qué partes están permitidas para el scraping.

## Explorar el archivo Robot.txt

Dentro del archivo `robot.txt` podemos encontrar e identificar las partes que estan permitidas y cuales, para poder realizar los procesos de WebScraping. En este formato encontramos diferentes reglas relacionadas tales que:

* **User-agent:** Indica a que rastreadores(como Googlebot o scrapers personalizados) se aplican las reglas.
* **Disallow:** Especifica que partes del sitio estan prohibidas para el web scraping.
* **Allow:** Especifica que partes del sitio estan permitidas para el scraping.

### Preguntas reflexivas
+ ¿Por qué algunos sitios web bloquean el Web Scraping?
    + El bloqueo del web scraping se da por diferentes razones, como sobrecarga del servidor, violacion de los terminos de servicio, o uso excesivo de recursos.
    + **Sobrecarga del servidor**
        + Los robots mal disenados pueden provocar el servidor al realizar solicitudes excesivas.
    + **Violacion de los terminos de servicio**
        + Los sitios web pueden bloquear los raspadores web por que violan los terminos de servicio de los sitios web.
    + **Medidas anti-scraping**
        +Los sitios web pueden implementar CAPTCHA para diferencia entre usuarios humanos y robot de scraping.

+ ¿Cuándo es preferible usar una API en lugar de Web Scraping?
    + El uso de una API o de web scraping depende de la necesidad de los datos, el presupuesto, los recursos tecnologicos, y si el sitio web tiene un API.
    + **API**
        + Es una opcion para tener los datos estrucuturados y confiables
        + Podemos integrar servicios de otros proveedores, como redes sociales, sistemas de pago, y geolocalizacion.
        + Acelera el desarrollo de aplicaciones y facilita la automatizacion de tareas.

    + **Web Scraping**
        + Ofrece mayor flexibilidad y cobertura
        + Permite extraer datos de sitios web que no tiene APIs
        + Permite extraer informacion extra que no nos ofrece una API
            
+ Herramientas populares para Web Scraping en Python.
    + La principal herramienta para el web Scraping en Python es la libreria de `Beautiful Soup`. Esta nos facilita el analisis y extraccion de datos, documentos tanto HTML y XML.


### **robots.txt for www.mercadolibre.com.co**

```Python
User-agent: Amazonbot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: FacebookExternalHit
User-agent: FacebookBot
User-agent: Twitterbot
User-agent: LinkedInBot
Disallow: 

User-agent: *
Disallow: /HOME/
Disallow: /gz/merch/
Disallow: /gz/menu
Disallow: /gz/webdevice/config
Disallow: /gz/referidos
Disallow: /*www.siteinfo.cf
Disallow: /gz/cart/
Disallow: /gz/checkout/
Disallow: /gz/user-logged
Disallow: /gz/shipping-selector
Disallow: /gz/navigation/searches/last
Disallow: /perfil/vendedor/
Disallow: /perfil/comprador/
Disallow: /perfil/profile/
Disallow: /perfil/jm/profile
Disallow: /perfil/ALEXSETHMS
Disallow: /noindex/
Disallow: /navigation/
Disallow: /*itemid
Disallow: /*/jm/item
Disallow: /recommendations*
Disallow: /*attributes=
Disallow: /*quantity=
Disallow: /org-img/html/
Disallow: /registration?confirmation_url*
Disallow: /home/recommendations
Disallow: /social/
Disallow: /adn/api*
Disallow: /product-fe-recommendations/recommendations*
Disallow: /*.js
Disallow: /finditem.ml
```

### Analisis del archivo `robots.txt` de Mercado Libre

1. **Bloqueo de bots especificos**
```
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /

```
+ **Amazonbot** y **ClaudeBot** esta bloqueado, lo que significa que no puede rasrear ninguna parte del sitio.

2. **Bots de redes sociales permitidos**
```
User-agent: FacebookExternalHit
User-agent: FacebookBot
User-agent: Twitterbot
User-agent: LinkedInBot
Disallow: 
```
3. **Restricciones generales para todos los robots**
```
User-agent: *
Disallow: /HOME/
Disallow: /gz/merch/
Disallow: /gz/menu
Disallow: /gz/webdevice/config
Disallow: /gz/referidos
Disallow: /*www.siteinfo.cf
Disallow: /gz/cart/
Disallow: /gz/checkout/
Disallow: /gz/user-logged
Disallow: /gz/shipping-selector
Disallow: /gz/navigation/searches/last
Disallow: /perfil/vendedor/
Disallow: /perfil/comprador/
Disallow: /perfil/profile/
Disallow: /perfil/jm/profile
Disallow: /perfil/ALEXSETHMS
Disallow: /noindex/
Disallow: /navigation/
Disallow: /*itemid
Disallow: /*/jm/item
Disallow: /recommendations*
Disallow: /*attributes=
Disallow: /*quantity=
Disallow: /org-img/html/
Disallow: /registration?confirmation_url*
Disallow: /home/recommendations
Disallow: /social/
Disallow: /adn/api*
Disallow: /product-fe-recommendations/recommendations*
Disallow: /*.js
Disallow: /finditem.ml
```
+ Se prohible el acceso a secciones sensibles como:
    + Carrito de compras y checkout(`/gz/cart/`, `/gz/checkout/`)
    + Paginas de usuarios (`/perfil/vendedor/`, `/perfil/comprador/`, etc)
    + Paginas de navegacion y busqueda interna (`/navigation/`,`/gz/navigation/searchez/last`)
    + Recomendaciones y API internas  (`/recommendations*`, `/adn/api*`, `/product-fe-recommendations/recommendations*`)

+ Mercado libre restringe el acceso a datos sensibles y dinamicos
+ Los bots de redes sociales tienen acceso total, lo que facilita compartir y promocionar productos
+ El bloqueo de robots especificos como Amazon o Claude, posiblemente sera para evitar que lean y analisen el mercado con esta informacion.
+ Al estar bloqueado el acceso a los archivos `.js` y las URLs de configuracion interna, se protegen de que el sitio sea replicado o que se analize con profundidad.

# **Taller de Web Scraping**

## **Parte 1: Introducción a Web Scraping**

### **Ejercicio 1: Explorar el archivo robots.txt**

1. Busca el archivo `robots.txt` de una página web y analiza sus reglas.
   - Ejemplo: [https://www.wikipedia.org/robots.txt](https://www.wikipedia.org/robots.txt)
   - Identifica qué partes están permitidas para el scraping.

2. Explicación de las reglas:
   - **User-agent**: Indica a qué rastreadores (como Googlebot o scrapers personalizados) se aplican las reglas.
   - **Disallow**: Especifica qué partes del sitio están prohibidas para el web scraping.
   - **Allow**: Especifica qué partes del sitio están permitidas para el scraping.

### **Preguntas reflexivas**
- ¿Por qué algunos sitios web bloquean el Web Scraping?
- ¿Cuándo es preferible usar una API en lugar de Web Scraping?
- Herramientas populares para Web Scraping en Python.

## **Parte 2: Implementación de Web Scraping en Python**

### **Ejercicio 2: Extraer datos de una página web**

1. Utiliza `requests` y `BeautifulSoup` para extraer contenido de una página web.
2. Identifica elementos HTML relevantes (como etiquetas `<div>`, `<p>`, `<a>`).
3. Extrae y almacena la información en un formato estructurado (CSV o JSON).

**Código base:**
```python
import requests
from bs4 import BeautifulSoup

url = "https://ejemplo.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extraer información relevante
data = soup.find_all("p")
for item in data:
    print(item.text)
```

### **Ejercicio 3: Scraping avanzado con Selenium**

1. Usa `Selenium` para interactuar con páginas dinámicas.
2. Extrae información que se carga mediante JavaScript.
3. Simula acciones de usuario, como clics y desplazamientos.

**Código base:**
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# Configurar el driver
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(options=options)

driver.get("https://ejemplo.com")
time.sleep(5)  # Esperar carga de la página

data = driver.find_element(By.TAG_NAME, "p").text
print(data)

driver.quit()
```

## **Parte 3: Ética y buenas prácticas en Web Scraping**

### **Ejercicio 4: Respetar los términos de uso y evitar bloqueos**
- Revisar el `robots.txt` antes de hacer scraping.
- Implementar tiempos de espera (`time.sleep()`) para no sobrecargar servidores.
- Usar `headers` para simular una petición legítima.
- Preferir APIs cuando estén disponibles.

**Ejemplo de petición con `headers`:**
```python
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)
```

### **Ejercicio 5: Guardar y analizar los datos extraídos**
1. Almacenar los datos en CSV o JSON.
2. Analizar la información con `pandas`.

**Ejemplo de almacenamiento en CSV:**
```python
import pandas as pd

df = pd.DataFrame({"Datos": data})
df.to_csv("datos.csv", index=False)
```

## **Conclusión**
Este taller proporciona una introducción a Web Scraping con Python, cubriendo desde la exploración de `robots.txt` hasta la implementación con `BeautifulSoup` y `Selenium`. ¡Ahora es tu turno de practicar! 🚀


# Estructura de un Documento Markdown

Markdown es un lenguaje de marcado ligero que permite formatear texto de manera sencilla. A continuación, se presenta la estructura básica de un documento en Markdown.

## 1. Encabezados

Se utilizan `#` para definir encabezados de distintos niveles:

```markdown
# Encabezado de nivel 1
## Encabezado de nivel 2
### Encabezado de nivel 3
#### Encabezado de nivel 4
##### Encabezado de nivel 5
###### Encabezado de nivel 6
```

## 2. Párrafos y Saltos de Línea

Para crear un párrafo, simplemente escribe el texto dejando una línea en blanco entre párrafos.
Para forzar un salto de línea dentro de un párrafo, añade dos espacios al final de la línea.

## 3. Estilos de Texto

Puedes aplicar diferentes estilos al texto:

```markdown
**Negrita** (doble asterisco o doble guion bajo): **Ejemplo** o __Ejemplo__
*Cursiva* (un asterisco o un guion bajo): *Ejemplo* o _Ejemplo_
~~Tachado~~ (doble tilde): ~~Ejemplo~~
```

## 4. Listas

### Listas no ordenadas
Se crean usando `-`, `*` o `+`:

```markdown
- Elemento 1
- Elemento 2
  - Subelemento 2.1
  - Subelemento 2.2
```

### Listas ordenadas
Se crean usando números seguidos de un punto:

```markdown
1. Elemento 1
2. Elemento 2
   1. Subelemento 2.1
   2. Subelemento 2.2
```

## 5. Enlaces

```markdown
[Texto del enlace](https://ejemplo.com)
```

Ejemplo: [Visitar Google](https://www.google.com)

## 6. Imágenes

```markdown
![Texto alternativo](https://via.placeholder.com/150 "Título opcional")
```

## 7. Citas

Se crean usando `>` al inicio de la línea:

```markdown
> Esto es una cita en Markdown.
```

## 8. Código

Para incluir código en línea, usa comillas invertidas `` `código` ``.
Para bloques de código, usa triple comilla invertida:

```markdown
```
print("Hola, Markdown!")
```
```

## 9. Tablas

```markdown
| Encabezado 1 | Encabezado 2 | Encabezado 3 |
|-------------|-------------|-------------|
| Dato 1      | Dato 2      | Dato 3      |
| Dato 4      | Dato 5      | Dato 6      |
```

## 10. Líneas Horizontales

Se crean con tres guiones `---`, tres asteriscos `***` o tres guiones bajos `___`.

```markdown
---
```

## 11. Checkbox (Listas de Tareas)

```markdown
- [ ] Tarea pendiente
- [x] Tarea completada
```

## Conclusión

Markdown es una herramienta poderosa y fácil de usar para formatear texto de manera eficiente. Con esta guía, puedes comenzar a escribir documentos en Markdown de manera estructurada y organizada.

