# Trabajo Final - Lenguaje de Programaci√≥n 2
### T√≠tulo del Proyecto
**Sistema de Monitoreo y Comparaci√≥n de Precios de Hardware (Smarth Shop)**

### Nota

Todo el desarrollo del proyecto se ha realizado respetando las directivas del archivo robots.txt y los t√©rminos de servicio de las p√°ginas web y APIs consultadas. Asimismo, se implementaron tiempos de espera (delays) entre las solicitudes para evitar la sobrecarga de los servidores externos y asegurar una extracci√≥n responsable de la informaci√≥n.

### Introducci√≥n y Relevancia del Proyecto

En un contexto econ√≥mico marcado por la inflaci√≥n y la constante variaci√≥n de precios, los consumidores peruanos enfrentan dificultades para identificar ofertas reales en productos tecnol√≥gicos como laptops y componentes de hardware. Muchas veces, las promociones mostradas en tiendas virtuales no reflejan un verdadero ahorro, lo que genera desinformaci√≥n y decisiones de compra poco √≥ptimas.

El proyecto **Smart Shop** surge como una soluci√≥n tecnol√≥gica orientada a centralizar, comparar y normalizar precios de productos de hardware provenientes de distintas tiendas, permitiendo a los usuarios identificar el precio m√°s bajo disponible en el mercado al momento de la consulta. De esta manera, el sistema contribuye al ahorro econ√≥mico, fomenta decisiones de compra informadas y protege el poder adquisitivo de personas que dependen de la tecnolog√≠a para estudiar, trabajar o emprender.

### Objetivos del Proyecto
#### Objetivo General

Desarrollar un sistema automatizado en Python que permita monitorear y comparar precios de productos tecnol√≥gicos entre diferentes retailers, presentando la informaci√≥n de forma estructurada y estandarizada.

#### Objetivos Espec√≠ficos

- Desarrollar un bot en Python capaz de extraer diariamente precios de laptops y componentes de hardware desde tiendas reconocidas.
- Implementar la normalizaci√≥n de moneda (USD a PEN) en tiempo real mediante el consumo de una API de tipo de cambio.
- Generar un dataset estructurado en formato CSV que permita analizar y visualizar la dispersi√≥n de precios de un mismo producto.
- Facilitar la identificaci√≥n del producto m√°s econ√≥mico disponible en la fecha de ejecuci√≥n del sistema.

### Fuentes de Datos y Estrategia de Extracci√≥n

El proyecto utiliza **tres tipos de fuentes de datos**, cumpliendo con los requisitos del curso y aplicando distintas t√©cnicas de adquisici√≥n de informaci√≥n:

#### Fuente 1: Web Scraping Est√°tico
- **Amazon**
- Se emplea la librer√≠a **BeautifulSoup** para extraer informaci√≥n de cat√°logos de laptops.
- Los datos recolectados incluyen: nombre del producto, precio, descripci√≥n y vendedor.
- Esta fuente permite obtener informaci√≥n estructurada directamente desde el HTML est√°tico.

#### Fuente 2: Web Scraping Din√°mico
- **Plaza Vea, Coolbox y Falabella**
- Se utiliza **Selenium** para renderizar contenido din√°mico generado mediante JavaScript.
- Se extraen precios y ofertas exclusivas disponibles √∫nicamente en la web.
- Esta t√©cnica permite acceder a informaci√≥n que no est√° disponible mediante scraping tradicional.

#### Fuente 3: API P√∫blica
- **ExchangeRate-API**
- Se consume una API REST para obtener el tipo de cambio actualizado entre d√≥lares estadounidenses (USD) y soles peruanos (PEN).
- Esta informaci√≥n es clave para estandarizar todos los precios recolectados y permitir una comparaci√≥n precisa entre tiendas.

### Integraci√≥n y Tratamiento de Datos

Una vez obtenidos los datos desde las distintas fuentes, el sistema realiza un proceso de integraci√≥n y limpieza que incluye:
- Conversi√≥n de todos los precios a moneda local (PEN).
- Normalizaci√≥n de nombres de productos para facilitar la comparaci√≥n.
- Eliminaci√≥n de registros duplicados.
- Manejo de valores nulos o inconsistentes.

El resultado de este proceso es un dataset limpio y estructurado, listo para su an√°lisis posterior.

### Producto Final

El producto final del proyecto consiste en:
- Un **repositorio en GitHub** que contiene todo el c√≥digo fuente, documentado y organizado por m√≥dulos.
- Un **archivo CSV/Excel** que presenta la comparaci√≥n de precios de los productos analizados.
- Un reporte que permite identificar claramente cu√°l es el producto m√°s barato del mercado en la fecha de ejecuci√≥n del sistema.

Este sistema puede servir como base para futuras extensiones, como visualizaciones interactivas, alertas de precios o una aplicaci√≥n web orientada al consumidor final.

### Tecnolog√≠as Utilizadas
- **Lenguaje:** Python 3.x
- **Librer√≠as principales:**
    - Requests
    - BeautifulSoup4
    - Selenium
    - Pandas

- **Formato de salida:** CSV / Excel
- **Control de versiones:** Git y GitHub

### Importaci√≥n de librer√≠as necesarias para la extracci√≥n, procesamiento y almacenamiento de datos

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json
import time
import os

### Configuraci√≥n de par√°metros para Amazon y definici√≥n de funci√≥n de limpieza de precios
En esta secci√≥n se definen los par√°metros base para realizar el scraping de productos desde Amazon, incluyendo el t√©rmino de b√∫squeda, la cantidad de p√°ginas a recorrer y las cabeceras HTTP necesarias para simular un navegador real. Asimismo, se implementa una funci√≥n auxiliar para la limpieza y normalizaci√≥n de precios, la cual ser√° utilizada en etapas posteriores del proceso de extracci√≥n y an√°lisis de datos.

In [None]:
# --- 1. CONFIGURACI√ìN INICIAL PARA AMAZON ---
TERMINO_BUSQUEDA = "computadores"
URL_INICIAL = f"https://www.amazon.com/s?k={TERMINO_BUSQUEDA}" 
NUMERO_DE_PAGINAS = 5  # Extracci√≥n de 5 p√°ginas


# Headers avanzados para simular un navegador genuino y reducir
# la probabilidad de bloqueos durante el scraping
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Referer': 'https://www.amazon.com/', 
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'es-ES,es;q=0.9',
    'Cookie': 'custom_cookie=true',
    'Connection': 'keep-alive',
}


# --- FUNCI√ìN AUXILIAR PARA LIMPIEZA DE PRECIOS ---
# Esta funci√≥n permite transformar los precios extra√≠dos desde
# la web (en formato texto) a un formato num√©rico est√°ndar,
# eliminando s√≠mbolos monetarios, separadores de miles y texto
# irrelevante, con el fin de permitir c√°lculos y comparaciones.
def limpiar_precio(precio_str):
    """
    Limpia y normaliza el precio extra√≠do como texto, eliminando
    s√≠mbolos monetarios, texto adicional y separadores innecesarios,
    garantizando un formato num√©rico adecuado para an√°lisis posterior.

    Par√°metros:
    precio_str (str): Precio en formato texto obtenido durante el scraping.

    Retorna:
    float | None: Precio convertido a tipo float o None si la conversi√≥n falla.
    """
    if isinstance(precio_str, str):
        # 1. Eliminar caracteres no deseados y texto de referencia
        precio_limpio = precio_str.replace('\u00a0', ' ').replace('USD', '').replace('PEN', '').replace('S/', '').replace('$', '').replace('PVPR:', '').replace('Lista:', '').strip()
        
        # 2. Manejar separadores: eliminar comas utilizadas como separadores de miles
        precio_limpio = precio_limpio.replace(',', '') 
        
        # 3. Forzar formato de un solo punto decimal, eliminando puntos adicionales
        if precio_limpio.count('.') > 1:
            partes = precio_limpio.rsplit('.', 1) 
            entero = partes[0].replace('.', '') 
            decimal = partes[1] if len(partes) > 1 else '00'
            precio_limpio = f"{entero}.{decimal}"
        
        # 4. Asegurar que no exista doble punto residual
        precio_limpio = precio_limpio.replace('..', '.')
        
        try:
            # 5. Conversi√≥n final a tipo float
            return float(precio_limpio.strip())
        except ValueError:
            return None
    return None

### FUNCI√ìN DE SOLICITUD HTTP Y PARSEO DEL CONTENIDO HTML
Esta funci√≥n centraliza el proceso de conexi√≥n a la p√°gina web, realizando la solicitud HTTP y transformando la respuesta en un objeto BeautifulSoup. De esta manera, se desacopla la l√≥gica de descarga del contenido de la l√≥gica de extracci√≥n de datos, facilitando la reutilizaci√≥n del c√≥digo y el mantenimiento del sistema.

In [None]:
# --- 2. FUNCI√ìN DE SOLICITUD HTTP Y PARSEO ---
def obtener_contenido_pagina(url):
    """
    Realiza una solicitud HTTP GET a la URL indicada y devuelve el
    contenido HTML parseado como un objeto BeautifulSoup.

    Esta funci√≥n incorpora manejo de errores y validaci√≥n del c√≥digo
    de estado HTTP, asegurando que solo se procese contenido v√°lido
    durante la etapa de scraping.

    Par√°metros:
    url (str): Direcci√≥n web de la p√°gina a consultar.

    Retorna:
    BeautifulSoup | None: Objeto BeautifulSoup con el HTML parseado
    o None si ocurre un error durante la solicitud.
    """
    try:
        response = requests.get(url, headers=HEADERS, timeout=15)
        
        # Mostrar el c√≥digo de estado HTTP para fines de monitoreo
        print(f"    - C√≥digo de estado HTTP recibido: {response.status_code}") 
        
        # Lanza una excepci√≥n si la respuesta HTTP indica error
        response.raise_for_status() 

        # Parseo del contenido HTML con BeautifulSoup
        return BeautifulSoup(response.content, "html.parser")

    except requests.exceptions.RequestException as e:
        # Manejo de errores de conexi√≥n, timeout o respuesta inv√°lida
        print(f"‚ùå Error al realizar la solicitud a {url}: {e}")
        return None

### FUNCI√ìN DE EXTRACCI√ìN, FILTRADO Y PROCESAMIENTO DE OFERTAS
Esta funci√≥n se encarga de recorrer el contenido HTML previamente parseado de Amazon y extraer informaci√≥n relevante √∫nicamente de productos que presentan una oferta real (precio anterior y precio actual). Se aplica un filtrado estricto para garantizar que los datos obtenidos sean consistentes y √∫tiles para el an√°lisis comparativo de precios.

In [None]:
# --- 3. FUNCI√ìN DE EXTRACCI√ìN Y FILTRADO ESTRICTO ---
def extraer_datos_amazon_ofertas(soup):
    """
    Extrae informaci√≥n de productos en oferta desde el HTML de Amazon,
    aplicando un filtrado estricto para conservar √∫nicamente aquellos
    productos que cuentan con nombre, precio anterior y precio actual.

    La funci√≥n tambi√©n calcula el porcentaje de descuento utilizando
    valores num√©ricos normalizados, garantizando consistencia para
    an√°lisis posteriores.

    Par√°metros:
    soup (BeautifulSoup): Objeto BeautifulSoup con el HTML parseado
    de la p√°gina de resultados de Amazon.

    Retorna:
    list: Lista de diccionarios con la informaci√≥n estructurada de
    cada producto v√°lido encontrado.
    """
    datos_productos = []

    # Selector principal de contenedores de productos
    contenedores_productos = soup.find_all('div', {'data-component-type': 's-search-result'})
    
    # Mensaje informativo sobre la cantidad de productos encontrados
    print(f"    -> Productos encontrados para extraer: {len(contenedores_productos)}")

    for contenedor in contenedores_productos:
        
        # Inicializaci√≥n de variables con valores por defecto
        nombre = 'N/A'
        precio_antes = 'N/A'
        precio_despues = 'N/A'
        url_image = 'N/A'
        
        # --- Extracci√≥n del nombre del producto ---
        titulo_h2 = contenedor.find('h2')
        if titulo_h2:
            span_titulo = titulo_h2.find('span')
            nombre = span_titulo.text.strip() if span_titulo else titulo_h2.text.strip()
        
        # --- Extracci√≥n del precio actual (precio_despues) ---
        precio_span = contenedor.find('span', class_='a-price')
        if precio_span:
            p_entero = precio_span.find('span', class_='a-price-whole')
            p_fraccion = precio_span.find('span', class_='a-price-fraction')
            moneda = precio_span.find('span', class_='a-price-symbol')
            
            p_entero_str = p_entero.text.strip() if p_entero else ''
            p_fraccion_str = p_fraccion.text.strip() if p_fraccion else ''
            moneda_str = moneda.text.strip() if moneda else 'USD'
            
            if p_entero_str or p_fraccion_str:
                # Construcci√≥n del precio en formato texto limpio
                precio_despues = f"{moneda_str} {p_entero_str}.{p_fraccion_str}".replace('\xa0', ' ').replace('..', '.') 

        # --- Extracci√≥n del precio anterior (precio_antes) ---
        precio_antes_tag = contenedor.find('span', class_='a-price', attrs={'data-a-strike': 'true'})
        
        if precio_antes_tag:
            offscreen_price = precio_antes_tag.find('span', class_='a-offscreen')
            if offscreen_price:
                precio_antes = offscreen_price.text.strip().replace('\u00a0', ' ')
            else:
                precio_antes = precio_antes_tag.text.strip().replace('\u00a0', ' ')
            
            # Limpieza adicional del texto del precio anterior
            precio_antes = precio_antes.replace('PVPR:', '').replace('Lista:', '').strip().replace('..', '.')
        
        # --- Extracci√≥n de la URL de la imagen del producto ---
        imagen_tag = contenedor.find('img', class_='s-image')
        url_image = imagen_tag.get('src') if imagen_tag and imagen_tag.get('src') else 'N/A'
        
        # --- C√°lculo del descuento ---
        descuento = '0%'
        
        # Conversi√≥n de precios a formato num√©rico para el c√°lculo
        num_despues = limpiar_precio(precio_despues)
        num_antes = limpiar_precio(precio_antes) 
        
        if num_antes and num_despues and num_antes > num_despues:
            calc_descuento = ((num_antes - num_despues) / num_antes) * 100
            descuento = f"{calc_descuento:.0f}%" 
        
        # --- FILTRO ESTRICTO ---
        # Solo se agregan productos con nombre, precio actual y precio anterior v√°lidos
        if nombre != 'N/A' and precio_despues != 'N/A' and precio_antes != 'N/A':
            datos_productos.append({
                "nombre": nombre.replace('\u00a0', ' '),
                "precio_antes": precio_antes.replace('\u00a0', ' '),
                "precio_despues": precio_despues.replace('\u00a0', ' '), 
                "descuento": descuento,
                "url_image": url_image
            })
        
    return datos_productos

### FUNCI√ìN PRINCIPAL DE ORQUESTACI√ìN Y PAGINACI√ìN DIN√ÅMICA
Esta funci√≥n act√∫a como el controlador principal del scraper, coordinando la descarga de m√∫ltiples p√°ginas de resultados, la extracci√≥n de datos de cada p√°gina y la navegaci√≥n din√°mica entre p√°ginas mediante enlaces "Siguiente". Adem√°s, incorpora validaciones y mensajes de control para detectar errores cr√≠ticos durante el proceso de scraping.

In [None]:
# --- 4. ORQUESTACI√ìN Y PAGINACI√ìN DIN√ÅMICA ---
def ejecutar_scraper_amazon_ofertas(url_inicial, num_paginas):
    """
    Ejecuta el proceso completo de scraping de ofertas desde Amazon,
    gestionando la paginaci√≥n din√°mica y centralizando la l√≥gica de
    descarga, extracci√≥n y acumulaci√≥n de los datos recolectados.

    Par√°metros:
    url_inicial (str): URL inicial de b√∫squeda en Amazon.
    num_paginas (int): N√∫mero m√°ximo de p√°ginas a recorrer.

    Retorna:
    list: Lista consolidada de diccionarios con los datos de todas
    las ofertas v√°lidas encontradas durante la ejecuci√≥n.
    """
    total_datos = []
    url_actual = url_inicial
    
    # Bucle principal de paginaci√≥n
    for pagina_actual in range(1, num_paginas + 1):
        if url_actual is None:
            print("‚ö†Ô∏è No se encontr√≥ el enlace a la p√°gina siguiente. Finalizando.")
            break
            
        # Mensaje informativo de progreso
        print(f"\nüì¢ Procesando p√°gina {pagina_actual}/{num_paginas}. URL actual: {url_actual}")
        
        # Obtenci√≥n y parseo del contenido HTML
        soup = obtener_contenido_pagina(url_actual)
        
        if soup is None:
            print("üõë Error al obtener la p√°gina. Deteniendo el scraper.")
            break
            
        # Extracci√≥n de datos de productos en oferta
        nuevos_datos = extraer_datos_amazon_ofertas(soup) 
        
        # Validaci√≥n cr√≠tica en la primera p√°gina
        if not nuevos_datos and pagina_actual == 1:
            print("‚ö†Ô∏è ¬°FALLO CR√çTICO! No se encontraron productos con oferta en la p√°gina 1.")
            break
        
        # Acumulaci√≥n de los datos extra√≠dos
        total_datos.extend(nuevos_datos)
        
        # B√∫squeda del enlace a la siguiente p√°gina
        enlace_siguiente = soup.find('a', class_='s-pagination-next')

        if enlace_siguiente:
            url_actual = "https://www.amazon.com" + enlace_siguiente.get('href')
        else:
            url_actual = None 

        # Delay para respetar los servidores y evitar bloqueos
        time.sleep(3) 

    return total_datos

### EJECUCI√ìN FINAL DEL SCRAPER Y PRESENTACI√ìN DE RESULTADOS
Esta secci√≥n ejecuta el scraper completo cuando el archivo se ejecuta como programa principal. Adem√°s, se encarga de:
- Mostrar mensajes de estado del proceso
- Imprimir una muestra de los datos obtenidos
- Convertir los resultados a un DataFrame
- Guardar la informaci√≥n final en un archivo CSV para an√°lisis posterior o trabajo colaborativo

In [None]:
# --- 5. EJECUCI√ìN E IMPRESI√ìN COMO LISTA DE DICCIONARIOS ---
if __name__ == "__main__":
    
    # Ejecutar el proceso de extracci√≥n
    resultados_finales_diccionario = ejecutar_scraper_amazon_ofertas(URL_INICIAL, NUMERO_DE_PAGINAS)
    
    # ... (c√≥digo de impresi√≥n y muestra) ...
    
    # Verificar si se obtuvieron resultados v√°lidos
    if resultados_finales_diccionario:
        print(f"\n‚úÖ Extracci√≥n de Amazon completada. Total de productos filtrados: {len(resultados_finales_diccionario)}.")
        
        # Imprimir la salida final en formato de lista de diccionarios
        print("\n--- SALIDA FINAL: LISTA DE DICCIONARIOS (Muestra de Ofertas Reales) ---")
        
        if len(resultados_finales_diccionario) > 0:
            # Imprimir solo una muestra para evitar saturar la consola
            print(json.dumps(resultados_finales_diccionario[:5], indent=4))
            print(f"\n... Se omiten {len(resultados_finales_diccionario) - 5} productos m√°s para la vista previa. Total: {len(resultados_finales_diccionario)}.")
        
        # Conversi√≥n de los resultados a DataFrame para an√°lisis
        df = pd.DataFrame(resultados_finales_diccionario)
        
        # Definici√≥n del nombre del archivo CSV de salida
        NOMBRE_ARCHIVO_CSV = 'amazon_ofertas_filtradas.csv'
        
        # Guardar los datos en formato CSV
        df.to_csv(NOMBRE_ARCHIVO_CSV, index=False, encoding='utf-8')
        print(f"\nüíæ Datos guardados en CSV: {NOMBRE_ARCHIVO_CSV}")
        
    else:
        # Mensaje informativo cuando no se obtienen resultados
        print("\n‚ö†Ô∏è La extracci√≥n de Amazon no produjo resultados con los filtros aplicados.")

### IMPORTACI√ìN DE LIBRER√çAS PARA WEB SCRAPING DIN√ÅMICO

Este bloque importa todas las librer√≠as necesarias para realizar web scraping din√°mico utilizando Selenium.
El objetivo es automatizar la navegaci√≥n web, esperar la carga din√°mica de contenido, extraer informaci√≥n estructurada y almacenarla para su posterior an√°lisis.


Este c√≥digo ser√° utilizado para el scraping de p√°ginas como Coolbox y Falabella, que cargan contenido v√≠a JavaScript


In [None]:
#Necesario para usar selenium webdriver y pandas
!pip install selenium webdriver-manager pandas

Collecting selenium
  Using cached selenium-4.39.0-py3-none-any.whl.metadata (7.5 kB)
Collecting webdriver-manager
  Using cached webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting urllib3<3.0,>=2.5.0 (from urllib3[socks]<3.0,>=2.5.0->selenium)
  Downloading urllib3-2.6.2-py3-none-any.whl.metadata (6.6 kB)
Collecting trio<1.0,>=0.31.0 (from selenium)
  Using cached trio-0.32.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket<1.0,>=0.12.2 (from selenium)
  Using cached trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting certifi>=2025.10.5 (from selenium)
  Downloading certifi-2025.11.12-py3-none-any.whl.metadata (2.5 kB)
Collecting typing_extensions<5.0,>=4.15.0 (from selenium)
  Using cached typing_extensions-4.15.0-py3-none-any.whl.metadata (3.3 kB)
Collecting outcome (from trio<1.0,>=0.31.0->selenium)
  Using cached outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket<1.0,>=0.12.2->s

In [1]:
import time                    
import json                   
import pandas as pd           
import os                      # Operaciones con el sistema de archivos
import re                      # Expresiones regulares para limpieza de texto

# Librer√≠as principales de Selenium para automatizaci√≥n web
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# Herramientas para esperas expl√≠citas (carga din√°mica de elementos)
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Gestor autom√°tico del ChromeDriver
from webdriver_manager.chrome import ChromeDriverManager

### CONFIGURACI√ìN INCIAL PARA SCRAPING DIN√ÅMICO
En esta secci√≥n se definen los par√°metros generales que ser√°n utilizados durante el scraping din√°mico mediante Selenium.

Incluye el t√©rmino de busqueda y los tiempos de espera necesarios para interactuar con las p√°ginas web din√°micas como Coolbox y Falabella

In [2]:
# --- 1. CONFIGURACI√ìN INICIAL PARA SCRAPING DIN√ÅMICO ---

TERMINO_BUSQUEDA = "laptop"   # Producto a buscar en las tiendas
TIEMPO_ESPERA = 20            # Tiempo m√°ximo de espera expl√≠cita (segundos)

# --- FUNCI√ìN AUXILIAR PARA LIMPIEZA Y NORMALIZACI√ìN DE PRECIOS ---
# Esta funci√≥n permite transformar los precios extra√≠dos desde
# p√°ginas web din√°micas (en formato texto) a un formato num√©rico
# est√°ndar, eliminando s√≠mbolos monetarios y caracteres
# innecesarios, con el fin de permitir c√°lculos de descuentos
# y comparaciones de precios.

def limpiar_texto_precio(texto_sucio):
    if not isinstance(texto_sucio, str):
        return None, "N/A"
    
    # 1. Quitar saltos de l√≠nea y espacios innecesarios
    texto_plano = texto_sucio.replace('\n', '').replace('\r', '').replace('\t', '').strip()
    
    # 2. Eliminar s√≠mbolos de moneda y caracteres no num√©ricos
    # (Se conservan √∫nicamente d√≠gitos y puntos decimales)
    solo_numeros = re.sub(r'[^\d.]', '', texto_plano.replace(',', '')) 
    
    valor_float = None
    try:
        valor_float = float(solo_numeros)
    except ValueError:
        pass
        
    # Retorna el valor num√©rico (para c√°lculos) y el texto limpio (para visualizaci√≥n)
    return valor_float, texto_plano


# --- FUNCI√ìN DE INICIALIZACI√ìN DEL NAVEGADOR (SELENIUM) ---
# ==========================================================
# Esta funci√≥n configura e inicia el navegador Google Chrome
# utilizando Selenium, simulando un navegador real mediante
# el uso de User-Agent y deshabilitando ciertos indicadores
# de automatizaci√≥n.
# ==========================================================
def iniciar_driver():
    options = webdriver.ChromeOptions()
    options.add_argument('--start-maximized')
    options.add_argument('--disable-blink-features=AutomationControlled')
    options.add_argument(
        "user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
        "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    )
    service = Service(ChromeDriverManager().install())
    return webdriver.Chrome(service=service, options=options)


# ==========================================================
# --- FUNCI√ìN AUXILIAR PARA CIERRE AUTOM√ÅTICO DE POPUPS ---
# ==========================================================
# Durante el scraping din√°mico, muchas p√°ginas presentan
# ventanas emergentes (cookies, anuncios o promociones)
# que bloquean la interacci√≥n. Esta funci√≥n intenta
# cerrarlas autom√°ticamente utilizando selectores comunes.
# ==========================================================
def intentar_cerrar_popups(driver):
    print("    üßπ Intentando cerrar popups...")
    
    selectores = [
        "button#onetrust-accept-btn-handler",
        "div.crs-close",
        "div#cookies-consent button",
        "button[class*='closeButton']",
        "div[class*='modal'] button",
        "div#dy-modal-contents button.close",  # Popup t√≠pico de Falabella
        "span[class*='close-icon']"
    ]
    
    for sel in selectores:
        try:
            btns = driver.find_elements(By.CSS_SELECTOR, sel)
            for btn in btns:
                if btn.is_displayed():
                    driver.execute_script("arguments[0].click();", btn)
                    time.sleep(0.5)
        except:
            pass


# ==========================================================
# --- FUNCI√ìN AUXILIAR PARA B√öSQUEDA SEGURA DE TEXTO ---
# ==========================================================
# Esta funci√≥n intenta extraer texto desde un elemento web
# probando m√∫ltiples selectores CSS, lo que permite manejar
# variaciones en la estructura HTML de los productos.
# ==========================================================
def buscar_texto(elemento, selectores):
    for sel in selectores:
        try:
            etiqueta = elemento.find_element(By.CSS_SELECTOR, sel)
            texto = etiqueta.text.strip()
            if texto:
                return texto
        except:
            continue
    return "N/A"


### FUNCI√ìN DE INICIALIZACI√ìN DEL NAVEGADOR (SELENIUM)

Esta funci√≥n configura e inicia el navegador Google Chrome utilizando Selenium, simulando un navegador real mediante el uso de User-Agent y deshabilitando ciertos indicadores de automatizaci√≥n.


In [3]:
def iniciar_driver():
    options = webdriver.ChromeOptions()
    options.add_argument('--start-maximized')
    options.add_argument('--disable-blink-features=AutomationControlled')
    options.add_argument(
        "user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
        "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    )
    service = Service(ChromeDriverManager().install())
    return webdriver.Chrome(service=service, options=options)


# --- FUNCI√ìN AUXILIAR PARA CIERRE AUTOM√ÅTICO DE POPUPS ---
# Durante el scraping din√°mico, muchas p√°ginas presentan
# ventanas emergentes (cookies, anuncios o promociones)
# que bloquean la interacci√≥n. Esta funci√≥n intenta
# cerrarlas autom√°ticamente utilizando selectores comunes.

def intentar_cerrar_popups(driver):
    print("    üßπ Intentando cerrar popups...")
    
    selectores = [
        "button#onetrust-accept-btn-handler",
        "div.crs-close",
        "div#cookies-consent button",
        "button[class*='closeButton']",
        "div[class*='modal'] button",
        "div#dy-modal-contents button.close",  # Popup t√≠pico de Falabella
        "span[class*='close-icon']"
    ]
    
    for sel in selectores:
        try:
            btns = driver.find_elements(By.CSS_SELECTOR, sel)
            for btn in btns:
                if btn.is_displayed():
                    driver.execute_script("arguments[0].click();", btn)
                    time.sleep(0.5)
        except:
            pass


# --- FUNCI√ìN AUXILIAR PARA B√öSQUEDA SEGURA DE TEXTO ---
# Esta funci√≥n intenta extraer texto desde un elemento web
# probando m√∫ltiples selectores CSS, lo que permite manejar
# variaciones en la estructura HTML de los productos.

def buscar_texto(elemento, selectores):
    for sel in selectores:
        try:
            etiqueta = elemento.find_element(By.CSS_SELECTOR, sel)
            texto = etiqueta.text.strip()
            if texto:
                return texto
        except:
            continue
    return "N/A"

### L√ìGICA DE EXTRACCI√ìN DE PRODUCTOS
Esta funci√≥n centraliza la l√≥gica de extracci√≥n de productos desde tiendas con contenido din√°mico utilizando Selenium.

Permite procesar m√∫ltiples tiendas (Coolbox, Falabella), manejando scroll din√°mico, detecci√≥n de estructuras HTML variables, limpieza de precios y c√°lculo de descuentos.

In [4]:
def extraer_tienda(driver, nombre_tienda, url):
    datos = []
    
    print(f"\nüì¢ Procesando {nombre_tienda}... URL: {url}")
    driver.get(url)
    
    # Espera inicial para permitir la carga completa del contenido din√°mico
    time.sleep(6) 
    
    # Intentar cerrar ventanas emergentes que bloqueen la interacci√≥n
    intentar_cerrar_popups(driver)
    
    # SCROLL AUTOM√ÅTICO PARA ACTIVAR CARGA DE PRODUCTOS
    print("    ‚¨áÔ∏è Bajando (Scroll) para activar carga...")
    for i in range(5): 
        driver.execute_script(f"window.scrollTo(0, {(i+1)*800});")
        time.sleep(1.5)

    # DETECCI√ìN DE CONTENEDORES DE PRODUCTOS
    # Se prueban m√∫ltiples selectores CSS para soportar
    # distintas estructuras HTML utilizadas por Falabella
    # y Coolbox (incluyendo versiones modernas y cl√°sicas).
    selectores_contenedor = [
        "div[id^='testId-pod-display']",            # Falabella (ID espec√≠fico)
        "div.pod-item",                             # Falabella (Clase gen√©rica)
        "div.vtex-product-summary-2-x-container",   # Coolbox Moderno
        "div.product-item",                         # Coolbox Cl√°sico
        "div.Showcase__item",                       # Otros layouts VTEX
        "div[class*='galleryItem']",
    ]
    
    productos = []
    for selector in selectores_contenedor:
        elems = driver.find_elements(By.CSS_SELECTOR, selector)
        if len(elems) > 0:
            print(f"    ‚úÖ Estructura detectada: '{selector}' ({len(elems)} items)")
            productos = elems
            break
            
    # PLAN B: B√öSQUEDA MEDIANTE XPATH
    # Si no se detectan productos mediante selectores CSS,
    # se utiliza una estrategia alternativa basada en XPath.
    if not productos:
        try:
            productos = driver.find_elements(
                By.XPATH,
                "//div[contains(., 'S/') and string-length(.) < 400 and count(descendant::img)=1]"
            )
        except:
            pass

    if not productos:
        print(f"‚ùå No se encontraron productos en {nombre_tienda}.")
        return []

    # EXTRACCI√ìN Y AN√ÅLISIS DE PRODUCTOS
    print(f"    ‚öôÔ∏è Analizando precios de los primeros 15 productos...")
    contador = 0
    
    for item in productos:
        if contador >= 15:
            break
        
        try:
            # 1. NOMBRE DEL PRODUCTO
            nombre = buscar_texto(item, [
                "b[id^='testId-pod-display-product-title']",  # Falabella T√≠tulo
                "b[class*='pod-subTitle']",                   # Falabella Subt√≠tulo
                "span[class*='productBrand']",                # Coolbox
                "h3",
                ".product-item-link", 
                "div[class*='name']"
            ])
            
            # 2. PRECIOS (TEXTO CRUDO)
            precio_actual_raw = buscar_texto(item, [
                "span[id^='testId-pod-display-price']",       # Falabella Precio
                "div[class*='sellingPrice']",                 # Coolbox
                "span[class*='sellingPrice']",
                ".price",
                ".Showcase__salePrice"
            ])
            
            # Precio anterior (tachado o lista)
            precio_antes_raw = buscar_texto(item, [
                "span[class*='copy10']",                      # Falabella Tachado
                "ol li[class*='price-old']",                  # Falabella Lista antigua
                "div[class*='listPrice']",                    # Coolbox
                "span[class*='listPrice']", 
                ".old-price", 
                "span[style*='line-through']"
            ])
            
            # 3. LIMPIEZA Y NORMALIZACI√ìN DE PRECIOS
            val_actual, txt_actual_limpio = limpiar_texto_precio(precio_actual_raw)
            val_antes, txt_antes_limpio = limpiar_texto_precio(precio_antes_raw)
            
            # PARCHE ESPEC√çFICO PARA FALABELLA
            # En algunos casos, Falabella presenta m√∫ltiples precios
            # en un solo bloque de texto. Se extraen y ordenan
            # para inferir precio actual y precio anterior.
            if val_actual is None:
                numeros = re.findall(r'S/\s*[\d,]+(?:\.\d+)?', item.text)
                if numeros:
                    precios_limpios = []
                    for n in numeros:
                        v, t = limpiar_texto_precio(n)
                        if v:
                            precios_limpios.append(v)
                    
                    if precios_limpios:
                        precios_limpios.sort(reverse=True)
                        if len(precios_limpios) > 1:
                            val_antes = precios_limpios[0]
                            val_actual = precios_limpios[-1]
                            txt_antes_limpio = f"S/ {val_antes:,.2f}"
                            txt_actual_limpio = f"S/ {val_actual:,.2f}"
                        else:
                            val_actual = precios_limpios[0]
                            txt_actual_limpio = f"S/ {val_actual:,.2f}"

            # Si no existe precio anterior, se asume igual al actual
            if val_antes is None:
                val_antes = val_actual
                txt_antes_limpio = txt_actual_limpio

            # 4. C√ÅLCULO DEL DESCUENTO
            descuento = "0%"
            if val_antes and val_actual and val_antes > val_actual:
                diff = val_antes - val_actual
                porc = (diff / val_antes) * 100
                descuento = f"{porc:.0f}%"

            # 5. URL DEL PRODUCTO E IMAGEN
            try:
                link = item.find_element(By.TAG_NAME, "a").get_attribute("href")
            except:
                link = "N/A"
                
            try:
                img = item.find_element(By.TAG_NAME, "img").get_attribute("src")
            except:
                img = "N/A"

            # FILTRO FINAL Y ALMACENAMIENTO
            if nombre != "N/A" and val_actual is not None:
                datos.append({
                    "nombre": nombre.replace('\n', ' '), 
                    "precio_antes": txt_antes_limpio,    
                    "precio_despues": txt_actual_limpio, 
                    "descuento": descuento,
                    "url_image": img,
                    "tienda": nombre_tienda,
                    "url": link
                })
                contador += 1

        except Exception:
            continue
            
    return datos


### ORQUESTACI√ìN FINAL Y ALMACENAMIENTO DE RESULTADOS
Este bloque ejecuta el flujo completo del scraping din√°mico:
1. Inicializa el navegador automatizado (Selenium).
2. Ejecuta la extracci√≥n de productos desde m√∫ltiples tiendas (Coolbox y Falabella).
3. Consolida la informaci√≥n extra√≠da en una sola estructura.
4. Exporta los resultados en formatos CSV y JSON para an√°lisis posterior y trabajo colaborativo.

In [5]:
if __name__ == "__main__":
    
    # Inicializaci√≥n del driver de Selenium
    driver = iniciar_driver()
    
    # Estructura para almacenar todos los productos extra√≠dos
    all_data = []
    
    # 1. EXTRACCI√ìN DESDE COOLBOX
    # Se utiliza la b√∫squeda directa por t√©rmino, manteniendo
    # la l√≥gica previamente definida para scraping din√°mico.
    all_data.extend(
        extraer_tienda(
            driver,
            "Coolbox",
            f"https://www.coolbox.pe/{TERMINO_BUSQUEDA}"
        )
    )
    
    # 2. EXTRACCI√ìN DESDE FALABELLA
    # Se emplea una URL de categor√≠a directa, la cual resulta
    # m√°s estable que las b√∫squedas internas del sitio.
    url_falabella = "https://www.falabella.com.pe/falabella-pe/category/cat40712/Laptops"
    all_data.extend(
        extraer_tienda(
            driver,
            "Falabella",
            url_falabella
        )
    )
    
    # Cierre controlado del navegador
    driver.quit()
    
    # VALIDACI√ìN Y EXPORTACI√ìN DE RESULTADOS
    if all_data:
        print(f"\n‚úÖ √âXITO TOTAL: {len(all_data)} productos extra√≠dos.")
        
        # Crear carpeta de salida si no existe
        if not os.path.exists('data'):
            os.makedirs('data')
        
        # Conversi√≥n a DataFrame para an√°lisis estructurado
        df = pd.DataFrame(all_data)
        
        # Exportaci√≥n a CSV (formato principal para an√°lisis)
        df.to_csv(
            'data/dinamico_ofertas_filtradas.csv',
            index=False,
            encoding='utf-8'
        )
        
        # Exportaci√≥n a JSON 
        with open('data/dinamico_ofertas.json', 'w', encoding='utf-8') as f:
            json.dump(all_data, f, ensure_ascii=False, indent=4)
            
        print("üíæ Datos guardados y LIMPIOS en carpeta 'data/'")
        
        # Vista previa de los primeros registros
        print(df.head())
        
    else:
        print("\n‚ùå Error. Revisa las capturas de pantalla.")


üì¢ Procesando Coolbox... URL: https://www.coolbox.pe/laptop
    üßπ Intentando cerrar popups...
    ‚¨áÔ∏è Bajando (Scroll) para activar carga...
    ‚úÖ Estructura detectada: 'div[class*='galleryItem']' (24 items)
    ‚öôÔ∏è Analizando precios de los primeros 15 productos...

üì¢ Procesando Falabella... URL: https://www.falabella.com.pe/falabella-pe/category/cat40712/Laptops
    üßπ Intentando cerrar popups...
    ‚¨áÔ∏è Bajando (Scroll) para activar carga...
    ‚öôÔ∏è Analizando precios de los primeros 15 productos...

‚úÖ √âXITO TOTAL: 30 productos extra√≠dos.
üíæ Datos guardados y LIMPIOS en carpeta 'data/'
   nombre precio_antes precio_despues descuento  \
0   APPLE     S/ 2,999       S/ 2,799        7%   
1   APPLE     S/ 4,599       S/ 3,599       22%   
2   APPLE     S/ 5,299       S/ 3,779       29%   
3    ASUS     S/ 3,799       S/ 3,499        8%   
4  LENOVO     S/ 2,599       S/ 1,812       30%   

                                           url_image   tienda  \
0