## **Clase 1: Fundamentos y Panorama General del Web Scraping** 

### **1. Introducción:**

"¿Alguna vez te has preguntado cómo compañías como Amazon o Airbnb obtienen millones de datos de productos o precios en tiempo real? La respuesta es: Web Scraping."

"En un mundo donde los datos son el nuevo petróleo, el Web Scraping es la herramienta que nos permite extraerlos de la web."

---

### **2. Definición de "Scraping":**

El scraping se define como el acto de extraer datos de cualquier fuente.

**Definición General**: La copia manual de datos desde un documento PDF a una hoja de cálculo es una forma de scraping no automatizado.

**Definición Específica (Web Scraping)**: Se refiere al **proceso automatizado de extraer datos específicamente de sitios web**. Se construye un script (un "bot") que navega por un sitio web, interpreta su estructura y extrae únicamente los elementos de interés.

El web scraping se encuentra en la intersección de **recolección de datos, tecnologías web y automatización**. Es una técnica para transformar el **contenido visible de internet** — que a menudo está destinado para humanos — en **conjuntos de datos legibles por máquinas** adecuados para análisis computacional.

--- 

### **3. Justificación y Aplicaciones:**

La necesidad del scraping radica en que los conjuntos de datos más relevantes para un problema específico a menudo no existen de forma predeterminada. Es necesario generarlos. El web scraping funciona como el mecanismo para acortar la brecha entre las preguntas y los datos requeridos para responderlas.

Particularmente, el web scraping es una competencia fundamental en el conjunto de herramientas del científico de datos porque conecta el proceso de ciencia de datos con el mundo real, donde los datos sin procesar rara vez están ordenados.

| Dimension                  | Importance                                                                                                                            |
| -------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- |
| **Accesibilidad de Datos** | Muchas fuentes de datos valiosas (tendencias de mercado, comportamiento social, corpus de texto) solo son accesibles a través de la web. El scraping cierra esa brecha. |
| **Creación de Datos Personalizados** | Permite a investigadores y analistas generar sus propios conjuntos de datos adaptados a hipótesis o proyectos específicos.                           |
| **Automatización y Pipelines** | Se integra perfectamente con los procesos ETL (Extract–Transform–Load) para la recolección continua de datos.                                     |
| **Integración de Habilidades** | Involucra programación, comprensión de redes (HTTP) y análisis de datos — fortaleciendo habilidades interdisciplinarias.                        |
| **Impacto en el Mundo Real** | Habilita proyectos como monitoreo de precios, análisis de desinformación y seguimiento del sentimiento público.                                       |


**Ejemplo 1**: Monitoreo de Precios

- **Cuestionamiento:** ¿Cuál es el precio promedio de un apartamento en La Habana tomando los apartmentos publicados en Revolico?

- **Método (Scraping):** Se implementa un script que visita Revolico diariamente para recoilar la infomación de los precios.

**Ejemplo 2:** Análisis de Sentimiento

- **Cuestionamiento:** ¿Cuál es la percepción pública predominante sobre un nuevo producto tecnológico?

- **Método (Scraping):** Se extraen las últimas 5,000 reseñas de usuarios de un portal de e-commerce.

**Otros Ejemplos**:
- Reunir ofertas de trabajo para un análisis del mercado.

- Extraer publicaciones académicas para investigación.

- Rastrear noticias en trends de redes sociales.


---

### **4. Arquitecturas Web Estáticas vs Dinámicas:**

#### **Página Estática** (Renderizado en Servidor)

- **Cómo funciona:** El servidor web envía un documento HTML completo y pre-renderizado. Todo el contenido textual y estructural está presente en la respuesta inicial.

- **Analogía:** Se asemeja a un documento impreso; el contenido es fijo y completo desde el momento de la enterga.

- **Herramienta Principal:** requests + BeautifulSoup .


#### **Página Dinámica** (Renderizado en Cliente)

- **Cómo funciona:** El servidor envía un documento HTML mínimo (un "esqueleto"). Posteriormente, el navegador del cliente ejecuta código JavaScript que solicita los datos de forma asíncrona (a menudo a una API) y modifica el DOM (Document Object Model) para renderizar el contenido final.

- **Analogía:** El contenido se "construye" o "ensambla" en el lado del cliente después de la carga inicial.

- **El Problema:** Una petición HTTP simple (vía requests) solo recuperará el HTML inicial, carente de los datos de interés.

- **Herramienta Principal:** Selenium .

**Criterio de Diferenciación:**
Una técnica consiste en comparar el "código fuente" de la página (lo que recibe requests) con el contenido inspeccionado por las "Herramientas de Desarrollador" del navegador (el DOM final, visto por Selenium). Discrepancias significativas sugieren contenido dinámico.

---





### **5. El Protocolo de Comunicación Web (HTTP):**

Para solicitar estos recursos (estáticos o dinámicos), es necesario utilizar el protocolo estándar de la web: HTTP (Hypertext Transfer Protocol).

**La interacción se basa en un modelo Cliente-Servidor:**

**El Cliente:** Su navegador o, en este caso, su script de Python.

**El Servidor:** El sistema donde se aloja el recurso web solicitado.

#### **A. Las Peticiones (Métodos HTTP)**

- **GET (El más común):** Solicita una representación de un recurso específico (ej. "TRÁEME la página de inicio"). Es una operación de solo lectura.

- **POST:** Envía datos a un servidor para crear o actualizar un recurso (ej. "TOMA estos datos de formulario de login").

#### **B. Las Respuestas y sus Códigos de Estado**

Un script de scraping robusto debe siempre verificar el código de estado HTTP de la respuesta antes de intentar procesarla.

- **200 OK (Éxito):** La solicitud ha tenido éxito. Es el código esperado para una extracción exitosa.

- **404 Not Found (Error del Cliente):** El servidor no pudo encontrar el recurso solicitado.

- **403 Forbidden (Error del Cliente):** El cliente no posee los permisos necesarios para acceder al recurso. El servidor ha identificado y denegado la solicitud.

- **429 Too Many Requests (Error del Cliente):** El usuario ha enviado demasiadas solicitudes en un período de tiempo determinado (Rate Limiting). El script debe pausar su ejecución.

- **500 Internal Server Error (Error del Servidor):** El servidor encontró una condición inesperada que le impidió completar la solicitud.

---

### **6. Herramientas de Extracción:**

##### **Habiendo comprendido el problema (Estático vs. Dinámico) y el protocolo (HTTP), las siguientes herramientas pueden ser evaluadas:**

**wget / requests (El Cliente HTTP)**

- **Función:** Son clientes HTTP que ejecutan peticiones (ej. GET). Su única función es solicitar un recurso y recibir la respuesta (generalmente el HTML).

- **Caso de uso principal:** Páginas Estáticas.

**Beautiful Soup (El Parser)**

- **Función:** Una vez que requests obtiene el HTML, BeautifulSoup lo parsea (interpreta) y crea un árbol de objetos, permitiendo la navegación y extracción de elementos mediante selectores.

- **Caso de uso principal:** Leer y navegar cualquier documento HTML/XML.

**Selenium (El Controlador de Navegador)**

- **Función:** Automatiza y controla un navegador web real. Al hacerlo, ejecuta el JavaScript de la página, permitiendo el acceso al DOM final renderizado.

- **Caso de uso principal:** Páginas Dinámicas (renderizadas en cliente: cargan más resultados al scrolear o requieren clicks para relevelar la información).

---
### **Ejemplo de scraping estático**

In [1]:
# Se requiere el uso de VPN 

#Importar librerías
import requests 
from bs4 import BeautifulSoup
import csv

url = "https://books.toscrape.com/"

# realizar la petición GET 
response = requests.get(url)


# verificar que la petición fue exitosa
if response.status_code == 200:
    print("la petición fue exitosa")
else:
    print(f"la petición falló, error{response.status_code}")

soup = BeautifulSoup(response.text,"html.parser")

# Extraer el head 
head =soup.find("title")
print(head.get_text(strip=True))

# Extraer el título principal
titulo  = soup.find("div", class_="col-sm-8 h1")
print(titulo.get_text(strip=True))

# Buscar todos los productos
productos=soup.select("article.product_pod")

lista_productos = []

for producto in productos:
    nombre = producto.find("h3").find("a")["title"]
    precio = producto.find("p", class_="price_color").get_text()
    numero_estrellas =producto.find("p",class_="star-rating")
    disponibilidad = producto.find("p", class_="instock availability").get_text(strip=True)
    
    producto_info = {
        "nombre": nombre,
        "precio": precio,
        "disponibilidad": disponibilidad
    }
    
    lista_productos.append(producto_info)

print(f"Se encontraron {len(lista_productos)} productos")

# Guardar los datos en un archivo CSV
with open('productos.csv', 'w', newline='', encoding='utf-8') as archivo_csv:
    campos = ['nombre', 'precio', 'disponibilidad']
    
    escritor = csv.DictWriter(archivo_csv, fieldnames=campos)
    
    escritor.writeheader()
    escritor.writerows(lista_productos)

print("Datos guardados exitosamente en 'productos.csv'")


ConnectTimeout: HTTPSConnectionPool(host='books.toscrape.com', port=443): Max retries exceeded with url: / (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001E217881E80>, 'Connection to books.toscrape.com timed out. (connect timeout=None)'))


### **7. Comparativa de Métodos: Scraping vs. Consumo de API**

#### **Scraping :**

- **Analogía:** Se asemeja a interpretar la vitrina de una tienda (el HTML) para deducir el inventario.

- **Problema:** Alta fragilidad. Modificaciones en la estructura del DOM (rediseños web) invalidan el extractor y requieren mantenimiento.

#### **Consumir una API :**

- **Analogía:** Solicitar formalmente al gerente de la tienda (la API) el inventario (los datos) en un formato estructurado (ej. JSON).

- **Definición:** Una API (Application Programming Interface) provee un punto de acceso diseñado para la comunicación máquina-a-máquina, entregando datos limpios.

**Principio Rector**: Se debe priorizar el uso de una API oficial siempre que esté disponible. El scraping es un método secundario para cuando no existen APIs.

### **8. Consideraciones Éticas y Legales:**

La práctica del web scraping debe adherirse a principios éticos estrictos. El objetivo es la recolección de datos, no la disrupción del servicio.

**Consultar robots.txt:**

Todo dominio debe tener un archivo tusitio.com/robots.txt que especifica las directrices para bots. Es mandatorio respetarlo.

**Implementar Limitación de Tasa (Rate Limiting):**

Evitar la saturación del servidor. No se deben realizar miles de peticiones simultáneas.

Implementar pausas deliberadas **(ej. time.sleep(2))** entre peticiones es una práctica estándar.

**Revisar los Términos de Servicio (ToS):**

Muchos sitios prohíben explícitamente el scraping en sus Términos de Servicio. Su violación puede tener implicaciones legales.

**Identificación (User-Agent):**

Es una buena práctica identificar a su bot mediante un User-Agent descriptivo, en lugar de enmascararlo como un navegador estándar.


## Tarea
Hacer un programa que scrapee cubadebate y obtenga los títulos de 30 noticias.