In [2]:
import pandas as pd
import numpy as np
import matplotlib as plt

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import requests
import time
from datetime import date

In [3]:
## JUAN DE LA ROSA - BEBIDAS

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=chrome_options
)

productos_list = []

try:
    driver.get("https://www.hipermaxi.com/cochabamba/hipermaxi-juan-de-la-rosa/categoria/bebidas")
    
    # 1. Esperar a que cargue el contenido inicial
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, 'article.w-full'))
    )

    # 2. Simular scroll hasta el final para cargar todos los productos
    ultima_altura = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(5)  # Esperar a que cargue nuevo contenido
        nueva_altura = driver.execute_script("return document.body.scrollHeight")
        
        # Si la altura no cambia, significa que no hay más contenido
        if nueva_altura == ultima_altura:
            break
        
        ultima_altura = nueva_altura
    
    # 3. Parsear el HTML después del scroll completo
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    articulos = soup.find_all('article', class_='w-full')

    # 4. Extraer datos
    for articulo in articulos:
        try:
            # Capturar el enlace y el nombre
            enlace = articulo.find('a', class_='hover:underline h-full leading-tight text-gray-700')
            if enlace:
                nombre = enlace.text.strip()
                url = enlace['href']
                
                # Capturar el precio
                precio_span = articulo.find('span', class_='text-black font-bold')
                precio = precio_span.text.strip() if precio_span else 'No disponible'
                
                productos_list.append({
                    'name': nombre,
                    'url': url,
                    'price': precio
                })
        except Exception as e:
            print(f"Error procesando artículo: {e}")

    # Crear DataFrame
    df_bebidas = pd.DataFrame(productos_list)
    print(f"\nProductos encontrados: {len(df_bebidas)}")
    print(df_bebidas.head())

except Exception as e:
    print(f"Error general: {e}")

finally:
    driver.quit()


Productos encontrados: 1434
                                                name  \
0   Hidratante Mas+ By Messi Berry Copa Crush 500 ml   
1  Hidratante Mas+ By Messi Limon Lime League 500 ml   
2      Hidratante Mas+ By Messi Orange de Oro 500 ml   
3                     Gaseosa Coca Cola Two Pack 3 L   
4                    Hielo en Cubos Hipermaxi 1.5 kg   

                                                 url      price  
0  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 27.90  
1  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 27.90  
2  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 27.90  
3  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 33.90  
4  /cochabamba/hipermaxi-juan-de-la-rosa/producto...   Bs. 5.50  


In [4]:
## JUAN DE LA ROSA - BEBIDAS

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=chrome_options
)

productos_list = []

try:
    driver.get("https://www.hipermaxi.com/cochabamba/hipermaxi-juan-de-la-rosa/categoria/carnes")
    
    # 1. Esperar a que cargue el contenido inicial
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, 'article.w-full'))
    )

    # 2. Simular scroll hasta el final para cargar todos los productos
    ultima_altura = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(5)  # Esperar a que cargue nuevo contenido
        nueva_altura = driver.execute_script("return document.body.scrollHeight")
        
        # Si la altura no cambia, significa que no hay más contenido
        if nueva_altura == ultima_altura:
            break
        
        ultima_altura = nueva_altura
    
    # 3. Parsear el HTML después del scroll completo
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    articulos = soup.find_all('article', class_='w-full')

    # 4. Extraer datos
    for articulo in articulos:
        try:
            # Capturar el enlace y el nombre
            enlace = articulo.find('a', class_='hover:underline h-full leading-tight text-gray-700')
            if enlace:
                nombre = enlace.text.strip()
                url = enlace['href']
                
                # Capturar el precio
                precio_span = articulo.find('span', class_='text-black font-bold')
                precio = precio_span.text.strip() if precio_span else 'No disponible'
                
                productos_list.append({
                    'name': nombre,
                    'url': url,
                    'price': precio
                })
        except Exception as e:
            print(f"Error procesando artículo: {e}")

    # Crear DataFrame
    df_carnes = pd.DataFrame(productos_list)
    print(f"\nProductos encontrados: {len(df_carnes)}")
    print(df_carnes.head())

except Exception as e:
    print(f"Error general: {e}")

finally:
    driver.quit()


Productos encontrados: 76
                         name  \
0     Carne Molida de Segunda   
1  Bollo Grande Especial 1 kg   
2   Pollerita Pura Carne 1 kg   
3         Cuadril Especial kg   
4          Picaña Especial kg   

                                                 url      price  
0  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 53.00  
1  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 79.00  
2  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 60.00  
3  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 79.00  
4  /cochabamba/hipermaxi-juan-de-la-rosa/producto...  Bs. 73.00  


In [5]:
df_carnes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76 entries, 0 to 75
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    76 non-null     object
 1   url     76 non-null     object
 2   price   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [6]:
today = date.today()

df_carnes['price'] = df_carnes['price'].str.replace('Bs. ', '', regex=False)
df_carnes['price'] = pd.to_numeric(df_carnes['price'], errors='coerce')

df_carnes['product_id'] = df_carnes['url'].str.extract(r'\/producto\/(\d+)')
df_carnes['supermarket'] = "Hipermaxi"
df_carnes['city'] = "Cochabamba"
df_carnes['branch'] = "Juan de la Rosa"
df_carnes['category'] = "Carnes"
df_carnes['date'] = today

orden = ['date', 'city', 'supermarket', 'branch', 'category', 'name', 'product_id', 'price']
df_carnes[orden]

Unnamed: 0,date,city,supermarket,branch,category,name,product_id,price
0,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Carne Molida de Segunda,835267,53.0
1,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Bollo Grande Especial 1 kg,835247,79.0
2,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Pollerita Pura Carne 1 kg,835445,60.0
3,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Cuadril Especial kg,835439,79.0
4,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Picaña Especial kg,414069,73.0
...,...,...,...,...,...,...,...,...
71,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Grueso de Azotillo kg,835405,48.5
72,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Colita de Cuadril kg,835292,82.0
73,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Librillo de Res Inducarne kg,404026,41.0
74,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Carne Para Sopa kg,835767,47.5


In [7]:
df_carnes[orden].to_csv('../data/carnes_2025-05-17.csv', index=False, encoding='utf-8')

In [8]:
today = date.today()

df_bebidas['price'] = df_bebidas['price'].str.replace('Bs. ', '', regex=False)
df_bebidas['price'] = pd.to_numeric(df_bebidas['price'], errors='coerce')

df_bebidas['product_id'] = df_bebidas['url'].str.extract(r'\/producto\/(\d+)')
df_bebidas['supermarket'] = "Hipermaxi"
df_bebidas['city'] = "Cochabamba"
df_bebidas['branch'] = "Juan de la Rosa"
df_bebidas['category'] = "Carnes"
df_bebidas['date'] = today

orden = ['date', 'city', 'supermarket', 'branch', 'category', 'name', 'product_id', 'price']
df_bebidas[orden]

Unnamed: 0,date,city,supermarket,branch,category,name,product_id,price
0,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Hidratante Mas+ By Messi Berry Copa Crush 500 ml,629750,27.9
1,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Hidratante Mas+ By Messi Limon Lime League 500 ml,629749,27.9
2,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Hidratante Mas+ By Messi Orange de Oro 500 ml,629751,27.9
3,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Gaseosa Coca Cola Two Pack 3 L,658233,33.9
4,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Hielo en Cubos Hipermaxi 1.5 kg,658434,5.5
...,...,...,...,...,...,...,...,...
1429,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Vino Cordero Piel de Lobo Cabernet 750 ml,016176,93.5
1430,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Vino Familia Gascon Syrah 750 ml,203581,93.0
1431,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Vino Familia Gascon Tempranillo 750 ml,203582,93.0
1432,2025-05-17,Cochabamba,Hipermaxi,Juan de la Rosa,Carnes,Jugo V8 Splash Beey Blend 64 oz,322237,39.9


In [9]:
df_bebidas[orden].to_csv('../data/bebidas_2025-05-17.csv', index=False, encoding='utf-8')