In [2]:
import pandas as pd
import numpy as np
import matplotlib as plt

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import requests
import time
from datetime import date

In [3]:
## JUAN DE LA ROSA - BEBIDAS

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=chrome_options
)

productos_list = []

try:
    driver.get("https://www.hipermaxi.com/cochabamba/hipermaxi-juan-de-la-rosa/categoria/bebidas")
    
    # 1. Esperar a que cargue el contenido inicial
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, 'article.w-full'))
    )

    # 2. Simular scroll hasta el final para cargar todos los productos
    ultima_altura = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(5)  # Esperar a que cargue nuevo contenido
        nueva_altura = driver.execute_script("return document.body.scrollHeight")
        
        # Si la altura no cambia, significa que no hay más contenido
        if nueva_altura == ultima_altura:
            break
        
        ultima_altura = nueva_altura
    
    # 3. Parsear el HTML después del scroll completo
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    articulos = soup.find_all('article', class_='w-full')

    # 4. Extraer datos
    for articulo in articulos:
        try:
            # Capturar el enlace y el nombre
            enlace = articulo.find('a', class_='hover:underline h-full leading-tight text-gray-700')
            if enlace:
                nombre = enlace.text.strip()
                url = enlace['href']
                
                # Capturar el precio
                precio_span = articulo.find('span', class_='text-black font-bold')
                precio = precio_span.text.strip() if precio_span else 'No disponible'
                
                productos_list.append({
                    'name': nombre,
                    'url': url,
                    'price': precio
                })
        except Exception as e:
            print(f"Error procesando artículo: {e}")

    # Crear DataFrame
    df_bebidas = pd.DataFrame(productos_list)
    print(f"\nProductos encontrados: {len(df_bebidas)}")
    print(df_bebidas.head())

except Exception as e:
    print(f"Error general: {e}")

finally:
    driver.quit()


Productos encontrados: 1383
                                     name  \
0   MAS+ BY MESSI BERRY COPA CRUSH 500 ML   
1  MAS+ BY MESSI LIMON LIME LEAGUE 500 ML   
2         MAS+ BY MESSI ORANGE D OR 500ML   
3         Hielo en Cubos Hipermaxi 1.5 kg   
4          Gaseosa Coca Cola Two Pack 3 L   

                                                 url      price  
0  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 24.90  
1  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 24.90  
2  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 24.90  
3  /cochabamba/hipermaxi-juan-de-la-rosa/producto...   Bs. 5.50  
4  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 30.00  


In [4]:
## JUAN DE LA ROSA - BEBIDAS

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=chrome_options
)

productos_list = []

try:
    driver.get("https://www.hipermaxi.com/cochabamba/hipermaxi-juan-de-la-rosa/categoria/carnes")
    
    # 1. Esperar a que cargue el contenido inicial
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, 'article.w-full'))
    )

    # 2. Simular scroll hasta el final para cargar todos los productos
    ultima_altura = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(5)  # Esperar a que cargue nuevo contenido
        nueva_altura = driver.execute_script("return document.body.scrollHeight")
        
        # Si la altura no cambia, significa que no hay más contenido
        if nueva_altura == ultima_altura:
            break
        
        ultima_altura = nueva_altura
    
    # 3. Parsear el HTML después del scroll completo
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    articulos = soup.find_all('article', class_='w-full')

    # 4. Extraer datos
    for articulo in articulos:
        try:
            # Capturar el enlace y el nombre
            enlace = articulo.find('a', class_='hover:underline h-full leading-tight text-gray-700')
            if enlace:
                nombre = enlace.text.strip()
                url = enlace['href']
                
                # Capturar el precio
                precio_span = articulo.find('span', class_='text-black font-bold')
                precio = precio_span.text.strip() if precio_span else 'No disponible'
                
                productos_list.append({
                    'name': nombre,
                    'url': url,
                    'price': precio
                })
        except Exception as e:
            print(f"Error procesando artículo: {e}")

    # Crear DataFrame
    df_carnes = pd.DataFrame(productos_list)
    print(f"\nProductos encontrados: {len(df_carnes)}")
    print(df_carnes.head())

except Exception as e:
    print(f"Error general: {e}")

finally:
    driver.quit()


Productos encontrados: 73
                         name  \
0          Picaña Especial kg   
1     Carne Molida de Segunda   
2  Bollo Grande Especial 1 kg   
3         Cuadril Especial kg   
4   Pollerita Pura Carne 1 kg   

                                                 url      price  
0  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 69.00  
1  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 49.00  
2  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 72.00  
3  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 69.00  
4  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 50.00  


In [5]:
df_carnes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73 entries, 0 to 72
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    73 non-null     object
 1   url     73 non-null     object
 2   price   73 non-null     object
dtypes: object(3)
memory usage: 1.8+ KB


In [6]:
today = date.today()

df_carnes['price'] = df_carnes['price'].str.replace('Bs. ', '', regex=False)
df_carnes['price'] = pd.to_numeric(df_carnes['price'], errors='coerce')

df_carnes['product_id'] = df_carnes['url'].str.extract(r'\/producto\/(\d+)')
df_carnes['supermarket'] = "Hipermaxi"
df_carnes['city'] = "Cochabamba"
df_carnes['branch'] = "Juan de la Rosa"
df_carnes['category'] = "Carnes"
df_carnes['date'] = today

orden = ['date', 'city', 'supermarket', 'branch', 'category', 'name', 'product_id', 'price']
df_carnes[orden]

Unnamed: 0,date,city,supermarket,branch,category,name,product_id,price
0,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Picaña Especial kg,414069,69.0
1,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Carne Molida de Segunda,835267,49.0
2,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Bollo Grande Especial 1 kg,835247,72.0
3,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Cuadril Especial kg,835439,69.0
4,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Pollerita Pura Carne 1 kg,835445,50.0
...,...,...,...,...,...,...,...,...
68,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Colita de Cuadril kg,835292,77.0
69,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Pollo Frial Entero Sofia kg,076015,13.0
70,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Cowboy Steak kg,851363,75.0
71,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Cola de Res kg,676859,35.0


In [7]:
df_carnes[orden].to_csv('../data/carnes_16.csv', index=False, encoding='utf-8')

In [8]:
today = date.today()

df_bebidas['price'] = df_bebidas['price'].str.replace('Bs. ', '', regex=False)
df_bebidas['price'] = pd.to_numeric(df_bebidas['price'], errors='coerce')

df_bebidas['product_id'] = df_bebidas['url'].str.extract(r'\/producto\/(\d+)')
df_bebidas['supermarket'] = "Hipermaxi"
df_bebidas['city'] = "Cochabamba"
df_bebidas['branch'] = "Juan de la Rosa"
df_bebidas['category'] = "Carnes"
df_bebidas['date'] = today

orden = ['date', 'city', 'supermarket', 'branch', 'category', 'name', 'product_id', 'price']
df_bebidas[orden]

Unnamed: 0,date,city,supermarket,branch,category,name,product_id,price
0,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,MAS+ BY MESSI BERRY COPA CRUSH 500 ML,629750,24.9
1,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,MAS+ BY MESSI LIMON LIME LEAGUE 500 ML,629749,24.9
2,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,MAS+ BY MESSI ORANGE D OR 500ML,629751,24.9
3,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Hielo en Cubos Hipermaxi 1.5 kg,658434,5.5
4,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Gaseosa Coca Cola Two Pack 3 L,658233,30.0
...,...,...,...,...,...,...,...,...
1378,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Bebida Vitam Melissa Calm Naranja Lima 1 L,016678,18.5
1379,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Agua Fentimans Pink Grapefruit 200 ml,658877,15.5
1380,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Four Loko Sandia 355 ml,062718,15.0
1381,2025-03-31,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Bicervecina El Inca con Alcohol 620 cc,069548,15.0


In [9]:
df_bebidas[orden].to_csv('../data/bebidas_16.csv', index=False, encoding='utf-8')