In [1]:
import time
import random
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Lista de proxies SOCKS5 disponibles
ips = [
    "socks5://103.35.108.206:1080",
    "socks5://199.188.93.214:1080",
    "socks5://152.32.186.145:1080",
    "socks5://119.8.111.196:1080",
    "socks5://213.5.17.84:1080"
]

# Ruta del archivo Excel donde se guardarán los resultados
excel_path = r"C:\Users\constanza.perez\OneDrive - Colgram\Escritorio\MONAS.xlsx"

# Función para configurar el navegador con una IP SOCKS5 específica
def get_driver_with_ip(ip):
    chrome_options = Options()
    chrome_options.add_argument("--disable-notifications")
    chrome_options.add_argument(f"--proxy-server={ip}")
    chrome_options.add_argument("--proxy-bypass-list=*")
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
    return driver

# Función para cerrar los pop-ups que aparecen en la página
def close_popups(driver):
    try:
        # Esperar a que el pop-up aparezca y cerrarlo
        WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.CLASS_NAME, "modal-close"))).click()
    except Exception as e:
        print("No pop-up found or could not close pop-up:", e)

# Función para extraer los productos de la página
def scrape_products(url, driver):
    driver.get(url)
    
    # Cerrar los pop-ups si aparecen
    close_popups(driver)

    # Esperar un tiempo para que los productos se carguen
    time.sleep(random.uniform(3, 6))

    # Obtener los elementos que contienen los productos
    products = driver.find_elements(By.CSS_SELECTOR, "div.one-third.column.medium-down--one-half.small-down--one-half.thumbnail.quick-shop-style--popup.product__details")
    
    product_data = []
    
    # Extraer el nombre, precio, URL del producto y URL de la imagen de cada producto
    for product in products:
        product_info = {}
        try:
            # Nombre del producto
            name = product.find_element(By.CSS_SELECTOR, "span.title").text
            product_info['Name'] = name
        except Exception as e:
            print("Error al extraer el nombre de un producto:", e)
            product_info['Name'] = ''
        
        try:
            # Precio del producto
            price = product.find_element(By.CSS_SELECTOR, "span.current_price .money").text
            product_info['Price'] = price
        except Exception as e:
            # Si no se encuentra el precio, lo dejamos vacío
            print("Error al extraer el precio de un producto:", e)
            product_info['Price'] = ''
        
        try:
            # URL del producto
            product_url = product.find_element(By.CSS_SELECTOR, "a.hidden-product-link").get_attribute('href')
            product_info['Product URL'] = f"https://monarch.cl{product_url}"
        except Exception as e:
            print("Error al extraer la URL del producto:", e)
            product_info['Product URL'] = ''
        
        try:
            # URL de la imagen
            image_url = product.find_element(By.CSS_SELECTOR, "img").get_attribute('data-src')
            product_info['Image URL'] = f"https:{image_url}"
        except Exception as e:
            print("Error al extraer la URL de la imagen:", e)
            product_info['Image URL'] = ''
        
        product_data.append(product_info)
    
    return product_data

# Main function
def main():
    # Seleccionamos un proxy aleatorio de la lista
    proxy = random.choice(ips)
    
    # Configuramos el driver con el proxy
    driver = get_driver_with_ip(proxy)

    all_product_data = []

    try:
        # Recorrer las páginas de la 1 a la 7
        for page_num in range(1, 8):
            print(f"Scrapeando la página {page_num}...")

            # URL de la página a scrapear
            url = f"https://monarch.cl/collections/escolar?page={page_num}"
            
            # Scrapeamos los productos
            product_data = scrape_products(url, driver)
            
            # Agregar los datos de la página a la lista principal
            all_product_data.extend(product_data)

            # Esperar un tiempo entre cada página para evitar bloqueos
            time.sleep(random.uniform(3, 6))

        # Imprimimos los resultados
        print("Datos de los productos:")
        for data in all_product_data:
            print(f"Nombre: {data['Name']}, Precio: {data['Price']}, URL del Producto: {data['Product URL']}, URL de la Imagen: {data['Image URL']}")

        # Opcional: Guardar los datos en un archivo Excel
        df = pd.DataFrame(all_product_data)
        df.to_excel(excel_path, index=False)
        print(f"Datos guardados en: {excel_path}")
    
    finally:
        # Cerramos el driver
        driver.quit()

if __name__ == "__main__":
    main()


Scrapeando la página 1...
No pop-up found or could not close pop-up: Message: 
Stacktrace:
	GetHandleVerifier [0x00A1EC13+23731]
	(No symbol) [0x009AC394]
	(No symbol) [0x0088BE63]
	(No symbol) [0x008CFCE6]
	(No symbol) [0x008CFF2B]
	(No symbol) [0x0090D892]
	(No symbol) [0x008F1EA4]
	(No symbol) [0x0090B46E]
	(No symbol) [0x008F1BF6]
	(No symbol) [0x008C3F35]
	(No symbol) [0x008C4EBD]
	GetHandleVerifier [0x00CFF0D3+3039603]
	GetHandleVerifier [0x00D12DEA+3120778]
	GetHandleVerifier [0x00D0B592+3089970]
	GetHandleVerifier [0x00AB43B0+635984]
	(No symbol) [0x009B4DCD]
	(No symbol) [0x009B2068]
	(No symbol) [0x009B2205]
	(No symbol) [0x009A4FD0]
	BaseThreadInitThunk [0x75687BA9+25]
	RtlInitializeExceptionChain [0x7751C0CB+107]
	RtlClearBits [0x7751C04F+191]

Scrapeando la página 2...
No pop-up found or could not close pop-up: Message: 
Stacktrace:
	GetHandleVerifier [0x00A1EC13+23731]
	(No symbol) [0x009AC394]
	(No symbol) [0x0088BE63]
	(No symbol) [0x008CFCE6]
	(No symbol) [0x008CFF2B]
