# Pr√°ctica D√≠a 1 - Scraper Din√°mico

## Finalidad

Este scraper din√°mico est√° dise√±ado para extraer contenido de p√°ginas web avanzadas que utilizan tecnolog√≠as como JavaScript para generar din√°micamente su contenido. A diferencia de los scrapers tradicionales que solo procesan HTML est√°tico, este enfoque utiliza Selenium para controlar un navegador web real, permitiendo cargar y extraer informaci√≥n de sitios que requieren interacci√≥n con scripts o verificaciones adicionales.

### Celda 1: Importaci√≥n de dependencias base
**Descripci√≥n:** Importa m√≥dulos esenciales para el manejo de dependencias, instalaci√≥n de librer√≠as y control de procesos.

In [None]:
import sys
import subprocess
import importlib.metadata
import time

### Celda 2: Lista de librer√≠as necesarias
**Descripci√≥n:** Define una lista de las librer√≠as requeridas para ejecutar el proyecto de scraping din√°mico.

In [None]:
# Lista de librer√≠as necesarias
required_libraries = [
    "selenium",
    "beautifulsoup4",
    "python-dotenv",
    "openai",
    "ipython"
]

### Celda 3: Funci√≥n para instalar librer√≠as
**Descripci√≥n:** Verifica si las librer√≠as necesarias est√°n instaladas y las instala si es necesario.

In [None]:
# Funci√≥n para comprobar e instalar librer√≠as
def install_libraries(libraries):
    print("üîÑ Comprobando e instalando librer√≠as necesarias...\n")
    
    for i, lib in enumerate(libraries, 1):
        try:
            # Comprobar si la librer√≠a ya est√° instalada
            importlib.metadata.version(lib)
            print(f"‚úÖ ({i}/{len(libraries)}) La librer√≠a '{lib}' ya est√° instalada. Se omite.\n")
        except importlib.metadata.PackageNotFoundError:
            # Instalar la librer√≠a si no est√° instalada
            try:
                print(f"üëâ ({i}/{len(libraries)}) Instalando '{lib}'...")
                subprocess.check_call([sys.executable, "-m", "pip", "install", lib], stdout=subprocess.DEVNULL)
                print(f"‚úÖ '{lib}' instalada correctamente.\n")
            except Exception as e:
                print(f"‚ö†Ô∏è Error instalando la librer√≠a '{lib}': {e}\n")

    print("‚ú® Todas las librer√≠as necesarias est√°n instaladas. Puedes continuar ejecutando la siguiente celda.")

### Celda 4: Instalaci√≥n de librer√≠as
**Descripci√≥n:** Ejecuta la funci√≥n para instalar todas las librer√≠as requeridas y asegura que el entorno est√° configurado.

In [None]:
# Instalar librer√≠as con mensajes
install_libraries(required_libraries)

### Celda 5: Importaci√≥n de todas las dependencias
**Descripci√≥n:** Importa todas las dependencias necesarias para el funcionamiento del scraper, incluyendo Selenium, BeautifulSoup y OpenAI.

In [None]:
# Importaci√≥n de dependencias necesarias
import sys
import subprocess
import importlib.metadata
import os
import requests
from dotenv import load_dotenv
from bs4 import BeautifulSoup
from IPython.display import Markdown, display
from openai import OpenAI
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
import time

### Celda 6: Carga de variables de entorno
**Descripci√≥n:** Carga las variables de entorno desde un archivo `.env` para acceder a la clave de la API de OpenAI.

In [None]:
# Carga las variables del archivo .env
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")

### Celda 7: Verificaci√≥n de la clave API
**Descripci√≥n:** Comprueba que la clave de API de OpenAI est√© presente y sea v√°lida.

In [None]:
# Comprueba que la clave API sea v√°lida
if not api_key or not api_key.startswith("sk-"):
    print("‚ùå No se encontr√≥ una clave API v√°lida. Revisa el archivo .env.")
else:
    print("‚úÖ Clave API cargada correctamente.")

### Celda 8: Configuraci√≥n de OpenAI
**Descripci√≥n:** Configura la biblioteca de OpenAI con la clave API cargada para realizar las solicitudes necesarias.

In [None]:
# Configuraci√≥n de OpenAI
openai = OpenAI(api_key=api_key)

### Celda 9: Clase `DynamicWebsiteScraper`
**Descripci√≥n:** Implementa una clase para manejar el navegador, cargar p√°ginas din√°micas y extraer contenido relevante.

In [None]:
# Clase que utiliza Selenium para cargar y extraer el contenido de p√°ginas web din√°micas.
class DynamicWebsiteScraper:
    def __init__(self, driver_path):
        try:
            print("üîÑ Creando instancia de DynamicWebsiteScraper...")
            options = Options()
            options.add_argument("--disable-gpu")
            options.add_argument("--no-sandbox")
            options.add_argument("--disable-dev-shm-usage")
            self.driver_service = Service(driver_path)
            self.driver = webdriver.Chrome(service=self.driver_service, options=options)
            print("‚úÖ DynamicWebsiteScraper inicializado correctamente.\n")
        except Exception as e:
            print(f"‚ùå Error al inicializar DynamicWebsiteScraper: {e}")

    def scrape(self, url, wait_time=5):
        try:
            self.driver.get(url)
            time.sleep(wait_time)
            page_source = self.driver.page_source
            soup = BeautifulSoup(page_source, 'html.parser')
            title = soup.title.string if soup.title else "No tiene t√≠tulo"
            for tag in soup(["script", "style", "img", "input"]):
                tag.decompose()
            content = soup.get_text(separator="\n", strip=True)
            return {"title": title, "content": content}
        except Exception as e:
            print(f"‚ùå Error durante el scraping: {e}")
            return {"title": "Error", "content": ""}

    def close(self):
        try:
            self.driver.quit()
            print("‚úÖ Navegador cerrado correctamente.\n")
        except Exception as e:
            print(f"‚ùå Error al cerrar el navegador: {e}")

### Celda 10: Funci√≥n `user_prompt_for`
**Descripci√≥n:** Genera el mensaje de usuario basado en el t√≠tulo y contenido del sitio web extra√≠do, que se utiliza como entrada para la API de OpenAI.

In [None]:
# Genera el mensaje de usuario para el modelo GPT.
def user_prompt_for(website):
    try:
        print("üîÑ Generando el mensaje de usuario para el modelo GPT...")
        user_prompt = f"Est√°s viendo un sitio web titulado {website['title']}\n"
        user_prompt += (
            "El contenido de este sitio web es el siguiente:\n\n"
            f"{website['content']}\n\n"
            "Por favor, proporciona un breve resumen en espa√±ol de este sitio web en formato Markdown."
        )
        print("‚úÖ Mensaje de usuario generado correctamente.\n")
        return user_prompt
    except Exception as e:
        print(f"‚ùå Error al generar el mensaje de usuario: {e}")
        return ""

### Celda 11: Funci√≥n `messages_for`
**Descripci√≥n:** Genera los mensajes requeridos para la API de OpenAI, incluyendo un mensaje del sistema y el mensaje del usuario generado en la funci√≥n `user_prompt_for`.

In [None]:
# Genera los mensajes requeridos para la API de OpenAI.
def messages_for(website):
    try:
        print("üîÑ Generando los mensajes para la API de OpenAI...")
        system_prompt = (
            "Eres un asistente que analiza el contenido de un sitio web "
            "y proporciona un breve resumen en espa√±ol, ignorando el texto relacionado con la navegaci√≥n. "
            "Responde en Markdown."
        )
        messages = [
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt_for(website)}
        ]
        print("‚úÖ Mensajes generados correctamente para la API de OpenAI.\n")
        return messages
    except Exception as e:
        print(f"‚ùå Error al generar los mensajes: {e}")
        return []

### Celda 12: Funci√≥n `summarize`
**Descripci√≥n:** Realiza el scraping del sitio web, genera mensajes y solicita un resumen utilizando la API de OpenAI.

In [None]:
# Funci√≥n para generar un resumen
def summarize(url, scraper):
    """
    Realiza el scraping del sitio web y utiliza la API de OpenAI para generar un resumen.
    :param url: URL del sitio web
    :param scraper: Instancia de DynamicWebsiteScraper
    :return: Resumen en Markdown
    """
    try:
        print(f"üîÑ Realizando scraping en la URL: {url}")
        website = scraper.scrape(url)  # Usamos el scraper para obtener el contenido din√°mico
        print(f"‚úÖ Scraping completado con √©xito en la URL: {url}\n")

        print("üîÑ Generando el resumen a trav√©s de la API de OpenAI...")
        response = openai.chat.completions.create(
            model="gpt-4o-mini",  # Modelo a usar
            messages=messages_for(website)  # Mensajes generados a partir del contenido scrapeado
        )
        print("‚úÖ Resumen generado correctamente.\n")
        return response.choices[0].message.content
    except Exception as e:
        print(f"‚ùå Error al generar el resumen: {e}")
        return "Error al generar el resumen."

### Celda 13: Funci√≥n `display_summary`
**Descripci√≥n:** Llama a la funci√≥n `summarize`, obtiene el resumen del sitio web y lo muestra en formato Markdown.

In [None]:
# Genera y muestra el resumen de un sitio web en formato Markdown utilizando un scraper.
def display_summary(url, scraper):
    try:
        print(f"üîÑ Iniciando el proceso para generar el resumen del sitio web: {url}")
        summary = summarize(url, scraper)  # Llamada a summarize con url y scraper
        
        if summary.startswith("Error"):
            print(f"‚ùå No se pudo generar el resumen para: {url}")
        else:
            print(f"‚úÖ Resumen generado correctamente para: {url}\n")
            display(Markdown(summary))  # Mostrar el resumen en Markdown
    except Exception as e:
        print(f"‚ùå Ocurri√≥ un error durante la visualizaci√≥n del resumen: {e}")

## Configuraci√≥n inicial para el Scraper Din√°mico

Para que el scraper din√°mico funcione correctamente, es necesario configurar **ChromeDriver**, un controlador que permite a Selenium interactuar con el navegador Google Chrome. En esta secci√≥n, aprender√°s a descargar, configurar y agregar ChromeDriver al PATH del sistema para garantizar la compatibilidad y el correcto funcionamiento del scraper. Sigue los pasos indicados para preparar tu entorno de trabajo.

## 1. Descarga de ChromeDriver

1. Ve a la p√°gina oficial de ChromeDriver:  
   [https://chromedriver.chromium.org/downloads](https://chromedriver.chromium.org/downloads)

2. Descarga la versi√≥n de **ChromeDriver** que sea compatible con la versi√≥n de tu navegador Google Chrome:
   - **En Google Chrome**, verifica tu versi√≥n desde:
     - `Configuraci√≥n > Acerca de Google Chrome`.

3. Una vez descargado el archivo, extrae el contenido en una carpeta de tu sistema. Algunos ejemplos de ubicaciones comunes:
   - En **Windows**: `C:\chromedriver\chromedriver.exe`
   - En **Linux/Mac**: `/usr/local/bin/chromedriver`

---

‚ö†Ô∏è **Nota importante**: Aseg√∫rate de que la versi√≥n de ChromeDriver coincida con tu navegador Google Chrome, de lo contrario, podr√≠an ocurrir errores de compatibilidad.

## 2. Configuraci√≥n en el c√≥digo

Para que tu script pueda encontrar el ejecutable de ChromeDriver, debes establecer correctamente su **ruta**. Aqu√≠ tienes algunos ejemplos dependiendo de tu sistema operativo:

```python
# En Windows
CHROME_DRIVER_PATH = "C:\\chromedriver\\chromedriver.exe"

# En Linux o Mac
CHROME_DRIVER_PATH = "/usr/local/bin/chromedriver"


## 3. Agregar ChromeDriver al PATH (opcional)

Si prefieres no especificar la ruta completa cada vez, puedes agregar **ChromeDriver** al **PATH** de tu sistema operativo. Esto har√° que sea accesible globalmente desde cualquier script.

### En Windows:
1. Abre `Configuraci√≥n > Sistema > Acerca de > Configuraci√≥n avanzada del sistema`.
2. Haz clic en el bot√≥n **Variables de entorno**.
3. Selecciona la variable `PATH` y haz clic en **Editar**.
4. A√±ade la ruta donde se encuentra `chromedriver.exe`, por ejemplo:  
   `C:\chromedriver`.

---

### En Linux/Mac:
1. Abre el archivo de configuraci√≥n de tu terminal (`.bashrc` o `.zshrc`).
2. A√±ade la siguiente l√≠nea al final del archivo:  
   ```bash
   export PATH=$PATH:/usr/local/bin
3. Guarda el archivo y recarga el terminal ejecutando:
4. ````bash
   source ~/.bashrc  # o source ~/.zshrc


## 4. Conclusi√≥n

Con ChromeDriver correctamente configurado y accesible, puedes usarlo en tus proyectos de **web scraping** con Selenium. Si sigues teniendo problemas, revisa que:
- La versi√≥n de ChromeDriver coincida con la versi√≥n de tu navegador Google Chrome.
- La ruta al ejecutable est√© correctamente definida.

¬°Ahora est√°s listo para continuar con el c√≥digo de scraping!

### Celda 15: Ejecuci√≥n del scraper
**Descripci√≥n:** Configura el scraper con el camino al ChromeDriver, realiza el scraping del sitio web y genera un resumen, cerrando el navegador al finalizar.

In [None]:
CHROME_DRIVER_PATH = "C:\\tmp\\chromedriver-win64\\chromedriver.exe"  # Ruta a tu ChromeDriver

try:
    print("üîÑ Iniciando la configuraci√≥n del scraper...")
    scraper = DynamicWebsiteScraper(CHROME_DRIVER_PATH)
    print("‚úÖ Scraper configurado correctamente.\n")
    
    url = "https://openai.com"
    print(f"üîÑ Generando resumen para el sitio web: {url}...\n")
    display_summary(url, scraper)

except Exception as e:
    print(f"‚ùå Ocurri√≥ un error durante el proceso: {e}")
    
finally:
    try:
        print("üîÑ Cerrando el scraper...")
        scraper.close()
        print("‚úÖ Scraper cerrado correctamente.")
    except Exception as close_error:
        print(f"‚ùå Error al cerrar el scraper: {close_error}")
