# **Scrapping de Supermercados**

# Abstract
El acceso a alimentos básicos a precios accesibles es un desafío constante para las familias, especialmente en un contexto donde el pais sufre de cambios economicos bruscos. En la vida cotidiana, decidir dónde realizar las compras se vuelve una cuestión clave, ya que la variación de precios entre diferentes supermercados y regiones puede impactar significativamente en el poder adquisitivo. Este informe se centra en el análisis de los precios de los principales alimentos utilizados en el desayuno argentino, un momento fundamental en la alimentación diaria, considerando la importancia social y cultural de este hábito.
En la actualidad, la proliferación de plataformas de comercio electrónico permite comparar precios de manera más eficiente. Es por eso que decidimos realizar una pequeña comparacion entre los supermercados de la ciudad y los que se encuentran en basto territorio de la provincia de Buenos Aires.
La idea es ver si existe diferencias notables de precios y productos en ambas regiones y como eso puede afectar al ciudadano de estas.

Los resultados de este estudio permitirán comprender mejor la dinámica de precios en la región geografica de Buenos Aires y ofrecerán un insumo valioso para el diseño de estrategias de consumo más eficientes en un contexto económico desafiante

#Objetivo
El objetivo principal de este análisis es identificar si existen diferencias notables en los precios y la variedad de productos destinados al desayuno argentino entre ambas regiones y analizar cómo estas diferencias pueden afectar a los ciudadanos de cada área. Se busca, así, aportar datos relevantes que permitan visibilizar posibles desigualdades y brindar herramientas para que los consumidores puedan tomar decisiones informadas a la hora de realizar sus compras.

#Preguntas de Interés

*   ¿Existen diferencias entre los productos que se venden en los supermercados? ¿Y entre zonas?
*   ¿Existen diferencias de precios entre zonas o entre supermercados?
*   ¿Donde podría adquirir los productos abonando lo menos posible?
*   ¿Cual de estos supermercados posee los productos mas exclusivos?






# Método Utilizado
La recolección de datos se realizará sobre cinco supermercados: tres ubicados en la Ciudad de Buenos Aires (COTO, Carrefour y Disco) y dos en distintas localidades del interior de la provincia de Buenos Aires (La Anónima y La Cooperativa Obrera).

El método consiste en scrapear los sitios web de cada supermercado utilizando Python, con la librería Selenium. Para el desarrollo y la ejecución de los scripts se emplearán Visual Studio Code y Jupyter Notebook.

Los productos seleccionados para el análisis serán: Manteca, Pan, Café, Té, Mate, Yogur, Mermelada y Queso Crema.

Una vez recolectados los datos, se realizará un proceso de limpieza y transformación para adecuarlos al análisis, utilizando R. Finalmente, la visualización de los resultados se llevará a cabo en Looker Studio.

queriamos concretar el uso de todas las herramientass que aprendimos en la materia

#Data Adquisition
Se procede a mostrar las querys que sirvieron para scrapear cada supermercado. Cada uno de ellos tiene su particularidad debido a que las paginas son diferentes. Por lo cual necesito armar un scrapping individual para cada caso.
Para realizar el scrapping de la forma en como lo realicé se deben tener instalados en la computadora los siguientes programas:


*   Navegador Firefox con el GekkoDriver
*   Visual Studio Code con la extencion de Jupyter Notebook
*   Jupyter Notebook
*   Python

In [None]:
#Librerias a Utilizar en el scrapping
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.service import Service
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import random
import os
from unidecode import unidecode

Estas librerías permiten que Selenium pueda abrir un navegador, buscar elementos de diferentes maneras, esperar que se carguen, y tener control avanzado para hacer scrapping o automatizar tareas en la web.

*   webdriver: Importa el núcleo de Selenium para poder abrir y controlar navegadores web en nuestro caso utilizo firefox. De esta libreria se desprenden varias librerias que nos ayudan a configurar la busqueda correspondiente.
*   By: sirve para decirle a Selenium cómo va a buscar un elemento en la página (por ID, por clase, por CSS selector, etc).
*   Service: es el puente entre python y firefox, en nuestro caso indica la ruta del ejecutable de GeckoDriver
*   Options: Sirve para configurar las opciones especiales del navegador Firefox
*   WebDriverWait: Sirve para esperar a que suceda algo en la página (por ejemplo, que cargue un botón antes de hacer click). Es útil para evitar errores por cargar muy rápido.
*   expected_conditions as EC: Se usa junto a web driver para definir las condiciones de espera.






**Scrapping de Disco**

In [None]:
# Configuración para Firefox
service = Service(executable_path=r"C:\tools\geckodriver\geckodriver.exe")
firefox_options = Options()
firefox_options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe"
driver = webdriver.Firefox(service=service, options=firefox_options)

# Lista de productos para buscar
productos_a_buscar = [
    {"nombre": "cafe", "base_url": "https://www.disco.com.ar/cafe?_q=cafe&map=ft&page="},
    {"nombre": "te", "base_url": "https://www.disco.com.ar/te?_q=te&map=ft&page="},
    {"nombre": "mate", "base_url": "https://www.disco.com.ar/mate?_q=mate&map=ft&page="},
    {"nombre": "pan", "base_url": "https://www.disco.com.ar/pan?_q=pan&map=ft&page="},
    {"nombre": "yogur", "base_url": "https://www.disco.com.ar/yogur?_q=yogur&map=ft&page="},
    {"nombre": "mermelada", "base_url": "https://www.disco.com.ar/mermelada?_q=mermelada&map=ft&page="},
    {"nombre": "queso", "base_url": "https://www.disco.com.ar/queso%20crema?_q=queso%20crema&map=ft&page="},
    {"nombre": "manteca", "base_url": "https://www.disco.com.ar/manteca?_q=manteca&map=ft&page="},
]

resultados = []
for prod in productos_a_buscar:
    pagina = 1
    while True:
        url = prod["base_url"] + str(pagina)
        driver.get(url)
        print(f"\n== {prod['nombre']} | Página {pagina} ({url}) ==")
        time.sleep(5)

        # Aceptar cookies (solo en la primera página)
        if pagina == 1:
            try:
                btn_cookies = driver.find_element(By.CSS_SELECTOR, 'button#onetrust-accept-btn-handler')
                btn_cookies.click()
                print("Cookies aceptadas.")
                time.sleep(1)
            except:
                pass

        productos = []
        for _ in range(10):
            productos = driver.find_elements(By.CSS_SELECTOR, "article.vtex-product-summary-2-x-element")
            if productos:
                break
            time.sleep(2)

        if not productos:
            print("No se encontraron productos en la página. Fin para", prod['nombre'])
            break

        for art in productos:
            try:
                nombre = art.find_element(By.CSS_SELECTOR, 'span.vtex-product-summary-2-x-productBrand').text
            except:
                nombre = "N/A"
            try:
                # Cambiado el selector para Disco (precio)
                precio = art.find_element(By.CSS_SELECTOR, "div[id^='priceContainer']").text
            except:
                precio = "N/A"
            resultados.append({
                "Producto": nombre,
                "Precio": precio,
                "Página": pagina,
                "Busqueda": prod["nombre"]
            })
        print(f"Página {pagina}: {len(productos)} productos extraídos.")

        # Intentar ir a la siguiente página cambiando la URL (incrementa hasta que no encuentre productos)
        pagina += 1
        time.sleep(1)

driver.quit()

# Crear DataFrame y guardar resultados en un excel
disco_df = pd.DataFrame(resultados)
disco_df.to_excel(r'C:\Users\Cristian\Documents\productos_Disco.xlsx', index=False)

**Scrapping de Carrefour**
Al scrapear Carrefour me di cuenta que tenia una estructura parecida a la pagina de Disco por lo que fue copiar el modelo de scrapping anterior.

In [None]:
# Configuración para Firefox (ajusta las rutas si hace falta)
service = Service(executable_path=r"C:\tools\geckodriver\geckodriver.exe")
firefox_options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe"

# Lista de productos a buscar con su URL base
productos = [
    {"nombre_busqueda": "cafe", "url": "https://www.carrefour.com.ar/Desayuno-y-merienda/Cafe?order="},
    {"nombre_busqueda": "te", "url": "https://www.carrefour.com.ar/Desayuno-y-merienda/Te-e-Infusiones?order="},
    {"nombre_busqueda": "mate", "url": "https://www.carrefour.com.ar/mate?_q=mate&map=ft"},
    {"nombre_busqueda": "pan", "url": "https://www.carrefour.com.ar/Panaderia/Panificados?order="},
    {"nombre_busqueda": "yogur", "url": "https://www.carrefour.com.ar/Lacteos-y-productos-frescos/Yogures?order="},
    {"nombre_busqueda": "mermelada", "url": "https://www.carrefour.com.ar/Desayuno-y-merienda/Mermeladas-y-otros-dulces/Mermeladas-dulces-y-jaleas?order="},
    {"nombre_busqueda": "queso", "url": "https://www.carrefour.com.ar/Lacteos-y-productos-frescos/Quesos/Quesos-cremas-y-untables?order="},
    {"nombre_busqueda": "manteca", "url": "https://www.carrefour.com.ar/lacteos-y-productos-frescos?map=category-1,tipo-de-producto&order=&query=/lacteos-y-productos-frescos/manteca&searchState"},

]

options = webdriver.FirefoxOptions()
options.add_argument('--width=1200')
options.add_argument('--height=900')
driver = webdriver.Firefox(options=options)
wait = WebDriverWait(driver, 35)

resultados = []

for producto in productos:
    nombre_producto = producto["nombre_busqueda"]
    base_url = producto["url"]
    pagina = 1
    while True:
        url = base_url + f"&page={pagina}"
        driver.get(url)
        print(f"\n== Buscando: {nombre_producto} - Página {pagina} ({url}) ==")

        # Sólo aceptar cookies la primera vez
        if pagina == 1 and producto == productos[0]:
            try:
                btn_cookies = wait.until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, 'button#onetrust-accept-btn-handler'))
                )
                btn_cookies.click()
                print("Cookies aceptadas.")
                time.sleep(2)
            except Exception:
                pass

        # Esperar productos
        productos_encontrados = []
        for _ in range(10):
            productos_encontrados = driver.find_elements(By.CSS_SELECTOR, "article.vtex-product-summary-2-x-element")
            if productos_encontrados:
                break
            time.sleep(2)

        if not productos_encontrados:
            print("No se encontraron productos en la página. Fin de la búsqueda de", nombre_producto)
            break

        for prod in productos_encontrados:
            try:
                nombre = prod.find_element(By.CSS_SELECTOR, 'span.vtex-product-summary-2-x-productBrand').text
            except:
                nombre = "N/A"
            try:
                precio = prod.find_element(By.CSS_SELECTOR, 'span.valtech-carrefourar-product-price-0-x-sellingPriceValue').text
            except:
                precio = "N/A"
            resultados.append({
                "busqueda": nombre_producto,
                "nombre": nombre,
                "precio": precio
            })

        pagina += 1
        time.sleep(2)

driver.quit()

carrefour_DF = pd.DataFrame(resultados)
print(carrefour_DF.head())
carrefour_DF.to_excel(r'C:\Users\Cristian\Documents\carrefour_productos.xlsx', index=False)

In [None]:
#El archivo que generaba el scrapping es el siguiente
import pandas as pd
carrefour_DF = pd.read_excel('carrefour_productos.xlsx')
print(carrefour_DF.head())


**Scrappig de COTO**
Se modifica un poco el esquema de busqueda debido a que la estructura de la pagina es diferente a las anteriores.


In [None]:
service = Service(executable_path=r"C:\tools\geckodriver\geckodriver.exe")
firefox_options = Options()
firefox_options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe"

driver = webdriver.Firefox(service=service, options=firefox_options)

# Lista de productos y URLs de Coto Digital (agregá los que quieras)
productos_a_buscar = [
    {"nombre": "cafe", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=cafe"},
    {"nombre": "te", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=te"},
    {"nombre": "mate", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=mate"},
    {"nombre": "pan", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=pan"},
    {"nombre": "yogur", "url": "https://www.cotodigital.com.ar/sitios/cdigi/sitios/cdigi/categoria/catalogo-frescos-l%C3%A1cteos-yogures/_/N-rfedtp%3FNf%3Dproduct.endDate%257CGTEQ%2B1.7400096E12%257C%257Cproduct.startDate%257CLTEQ%2B1.7400096E12&Nr%3DAND%2528product.language%253Aespa%25C3%25B1ol%252Cproduct.sDisp_200%253A1004%252COR%2528product.siteId%253ACotoDigital%2529%2529&Ns%3Dproduct.TOTALDEVENTAS%257C1&format%3Djson"},
    {"nombre": "mermelada", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=mermelada"},
    {"nombre": "queso", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=queso%20crema"},
    {"nombre": "manteca", "url": "https://www.cotodigital.com.ar/sitios/cdigi/categoria?_dyncharset=utf-8&Dy=1&Ntt=manteca"}
]

resultados = []

for prod in productos_a_buscar:
    driver.get(prod["url"])
    time.sleep(8)
    pagina = 1
    while True:
        time.sleep(2)
        try:
            aside = driver.find_element(By.CSS_SELECTOR, "aside.mt-3")
        except:
            print(f"No se encontró el contenedor principal en la página {pagina} de {prod['nombre']}.")
            break

        # Scrappear productos de la página actual
        cards = aside.find_elements(By.CSS_SELECTOR, "div.producto-card")
        for card in cards:
            try:
                nombre = card.find_element(By.CSS_SELECTOR, "h3.nombre-producto").text
            except:
                nombre = "N/A"
            try:
                precio = card.find_element(By.CSS_SELECTOR, "h4.card-title").text
            except:
                precio = "N/A"
            resultados.append({
                "Producto": nombre,
                "Precio": precio,
                "Página": pagina,
                "Busqueda": prod["nombre"]
            })

        print(f"{prod['nombre']} | Página {pagina}: {len(cards)} productos extraídos.")

        # Buscar el paginador y el botón "Siguiente"
        try:
            paginador = aside.find_element(By.CSS_SELECTOR, "ul.pagination")
            siguiente = paginador.find_element(By.XPATH, ".//a[contains(text(), 'Siguiente')]")
            if "disabled" in siguiente.get_attribute("class"):
                print(f"Fin de las páginas para {prod['nombre']}.")
                break
            driver.execute_script("arguments[0].scrollIntoView();", siguiente)
            time.sleep(1)
            siguiente.click()
            pagina += 1
            time.sleep(4)
        except Exception as e:
            print(f"No se encontró el botón Siguiente o error para {prod['nombre']}: {e}")
            break

driver.quit()

# Guardar DataFrame y exportar a excel la  informacion
coto_df = pd.DataFrame(resultados)
coto_df.to_excel(r'C:\Users\Cristian\Documents\coto_productos.xlsx', index=False)


In [None]:
#El archivo que generaba el scrapping es el siguiente
import pandas as pd
coto_DF = pd.read_excel('coto_productos.xlsx')
print(coto_DF.head())

**Scrapping de la Cooperativa Obrera**

In [None]:
# Configuración para Firefox
service = Service(executable_path=r"C:\tools\geckodriver\geckodriver.exe")
firefox_options = Options()
firefox_options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe"
driver = webdriver.Firefox(service=service, options=firefox_options)

productos_a_buscar = [
    "cafe", "te", "mate", "pan", "yogur", "mermelada", "queso crema", "manteca"
]

resultados = []

for producto in productos_a_buscar:
    pagina = 1
    while True:
        # Construcción de URL: ?busqueda=PRODUCTO&p=1
        url = f"https://www.lacoopeencasa.coop/listado/busqueda-avanzada/{producto}?p={pagina}"
        driver.get(url)
        print(f"\n== Producto: {producto} | Página {pagina} ({url}) ==")
        time.sleep(15)

        # Scroll humano
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight/2);")
        time.sleep(1.5)
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(1.5)
        driver.execute_script("window.scrollTo(0, 0);")
        time.sleep(1.5)

        # Buscar productos
        productos = driver.find_elements(By.CSS_SELECTOR, "div.card-content")
        if not productos:
            print(f"No se encontraron productos para {producto} en página {pagina}. Paso al siguiente producto.")
            break

        for prod in productos:
            # Nombre
            try:
                nombre = prod.find_element(By.CSS_SELECTOR, 'div.card-descripcion').text
            except:
                nombre = "N/A"
            # Precio entero y decimal (el precio está dividido)
            try:
                precio_entero = prod.find_element(By.CSS_SELECTOR, 'div.precio-entero').text
            except:
                precio_entero = ""
            try:
                precio_decimal = prod.find_element(By.CSS_SELECTOR, 'div.precio-decimal').text
            except:
                precio_decimal = ""
            precio = f"${precio_entero},{precio_decimal}" if precio_entero else "N/A"

            resultados.append({
                "Producto": nombre,
                "Precio": precio,
                "Página": pagina,
                "Busqueda": producto
            })

        print(f"Página {pagina}: {len(productos)} productos extraídos.")

        # Si no hay un botón ">" habilitado, cortá el bucle
        try:
            btn_sig = driver.find_element(By.CSS_SELECTOR, 'li.pagination-next:not(.disabled) a')
            pagina += 1
        except:
            break

        time.sleep(12)

driver.quit()

# Guardar resultados en Excel
# Admeas le creo una columna con el nombre del supermercado
coope_df = pd.DataFrame(resultados)
coope_df["Supermercado"] = "Cooperativa Obrera"
coope_df.to_excel(r'C:\Users\Cristian\Documents\productos_coope.xlsx', index=False)

In [None]:
#El archivo que generaba el scrapping es el siguiente
coope_DF = pd.read_excel('productos_LaCoope.xlsx')
print(coope_DF.head())

                                            Producto      Precio Busqueda  \
0  CafE Torrado InstantANeo La Virginia ClASico F...  $$5.990,00     cafe   
1  CafE Torrado InstantANeo La Virginia Suave Fra...  $$5.990,00     cafe   
2  Cafe InstantANeo Nescafe TradiciON Doypack 100grs  $$6.989,00     cafe   
3  CafE Torrado Molido Morenita Intenso En Saquit...  $$4.851,00     cafe   
4  CafE Torrado Molido La Virginia Equilibrado En...  $$5.026,00     cafe   

         Supermercado  
0  Cooperativa Obrera  
1  Cooperativa Obrera  
2  Cooperativa Obrera  
3  Cooperativa Obrera  
4  Cooperativa Obrera  


**Scrapping de La Anonima**
El nivel de scrapping en esta pagina se pone un poco mas complicado debido a que la pagina bloquea a los robots que acceden a ella. Una vez dentro de la misma logre tomar la informacion de 3 productos antes de que se bloquee y muestre la pagina en blanco o lance un error. Se logra realizar la tarea dividiendo el scrapping cada 3 productos y que luego cuando se bloquee guarde lo que se logro hasta ese momento en un excel. Luego espero un tiempo y vuelvo a ejecutar el scrib, primero el mismo consulta la base y si no encuentra el producto empieza a scrapear por el primer producto que falte. Para que no me detecte tan rapido le cree una breve simulacion humana y le indique tiempos de espera por pagina mas largos ya sea para que cargue toda la pagina y ademas que no lo detecte como una actividad de un robot.

In [None]:
archivo_salida = "productos_anonima.xlsx"

# Lee el Excel existente si hay, sino crea lista vacía
if os.path.exists(archivo_salida):
    anonima_df = pd.read_excel(archivo_salida)
    resultados = anonima_df.to_dict(orient='records')
    print(f"Archivo existente: {len(anonima_df)} filas previas.")
else:
    resultados = []

# Configuración Selenium
service = Service(executable_path=r"C:\tools\geckodriver\geckodriver.exe")
firefox_options = Options()
firefox_options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe"
driver = webdriver.Firefox(service=service, options=firefox_options)

#  Lista de productos a buscar (tanda)
productos_a_buscar = [ "cafe", "te", "mate", "pan", "yogur", "mermelada", "queso+crema+", "manteca"]

# Detecta cuáles productos faltan (no scrapeados antes)
productos_hechos = set([r["Busqueda"] for r in resultados])
productos_a_scrapear = [p for p in productos_a_buscar if p not in productos_hechos]

# Cambiá el número para la tanda deseada
TANDA = 3  # cuántos productos scrapeás por tanda

for producto in productos_a_scrapear[:TANDA]:
    pagina = 1
    while True:
        url = f"https://supermercado.laanonimaonline.com/buscar?pag={pagina}&clave={producto}"
        driver.get(url)
        print(f"\n== Producto: {producto} | Página {pagina} ({url}) ==")

        # Scroll humano
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight/2);")
        time.sleep(random.uniform(1.5, 5.5))
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(random.uniform(1.5, 5.5))
        driver.execute_script("window.scrollTo(0, 0);")
        time.sleep(random.uniform(1.5, 5.5))

        # Intentos para cargar productos
        intentos = 0
        productos = []
        while not productos and intentos < 8:
            productos = driver.find_elements(By.CSS_SELECTOR, "div[class*='producto item']")
            if productos:
                break
            time.sleep(random.uniform(6, 15))
            intentos += 1

        if not productos:
            print(f"No hay productos para '{producto}' en página {pagina} (o la página no carga). Paso al próximo producto.")
            break

        for prod in productos:
            # Nombre del producto
            try:
                nombre = prod.find_element(By.CSS_SELECTOR, "a[id^='btn_nombre_imetrics_']").text.strip()
            except:
                nombre = "N/A"
            # Precio del producto
            try:
                precio = prod.find_element(By.CSS_SELECTOR, "div.precio-promo").text.strip()
            except:
                precio = "N/A"
            resultados.append({
                "Producto": nombre,
                "Precio": precio,
                "Página": pagina,
                "Busqueda": producto
            })

        print(f"Página {pagina}: {len(productos)} productos extraídos.")
        pagina += 1
        time.sleep(random.uniform(8, 18))

    # **Guarda el archivo después de cada producto**
    # Ademas le creo una columna con el nombre del supermercado
    anonima_df["Supermercado"] = "La Anónima"
    anonima_df = pd.DataFrame(resultados)
    anonima_df.drop_duplicates(subset=["Producto", "Precio", "Busqueda"], inplace=True)
    anonima_df.to_excel(archivo_salida, index=False)
    print(f"Guardado: {len(anonima_df)} filas hasta ahora.")

driver.quit()
#Para Exportar al excel
anonima_df.to_excel(r'C:\Users\Cristian\Documents\productos_LaAnonima.xlsx', index=False)


In [None]:
#El archivo que generaba el scrapping es el siguiente
Anonima_DF = pd.read_excel('productos_LaAnonima.xlsx')
print(Anonima_DF.head())

**¿Que es lo que queda luego del scrapping?**
En nuestro caso para cada supermercado se formó una tabla conformada por las siguientes columnas:

Producto: Contiene toda la informacion acerca del producto (nombre, marca y cantidad/peso) Tipo: String

Precio : Precio del producto expresado en pesos y con decimales. Tipo: String

Página: Número  de la pagina donde se encontró el producto( sirve para realizar un pequeño control al scraping). Tipo: Integer

Búsqueda: Nombre generico  del producto objetivo buscado en el scrapping. Sirve para controlar si se realizo correctamente la busqueda. Tipo: String

Supermercado: Nombre del supermercado que fue scrapeado. Tipo: String

#Data Wrangling
Una vez obtenido los datos a travez de cada scrapping realizado se procede a limpiar, transformar y organizar datos en bruto para que sean útiles y esten listos para el análisis y la visualización

Se realizaran tres acciones principales:

*   Transformacion de datos: Al no venir la informacion del todo clara se utilizan diferentes herramientas para transformar los datos y nos sirvan para el analisis. Se crea un nuevo dataframe y un nuevo excel con todos los datos de todos los supermercados.
*   Control de Datos: Con el objetivo de analizar los productos obtenidos; se verifica la informacion tomando algunos registros de prueba y comparandolos con el original de la pagina web. En esta parte son necesarias para el analisis las columnas Busqueda y Pagina.
*   Eliminacion de Datos: Eliminamos datos innecesarios de productos que no entran en nuestro analisis. Eliminacion de nulos y eliminacion de columnas que ya no interesan para el analisis final.



In [None]:
#Librerias a utilizar
import pandas as pd
import re
from unidecode import unidecode

**Modificaciones a La Anonima**

In [None]:
#Eliminar Filas Nulas
anonima_df = anonima_df.dropna()
#Eliminar las filas donde alguna columna tenga "N/A"
anonima_df_F = anonima_df[~anonima_df.isin(["N/A"]).any(axis=1)]
#Palabras a excluir del analisis por no pertenecer al mismo
palabras_excluir = [
    "Endulzante", "Crema", "Matero", "Bolsa", "Rallado", "Pancho", "Hamburguesas", "Viena", "Levadura",
    "Jabon", "Harina", "Margarina", "Untar y Cocinar", "Premezcla", "Pañal", "Rollo", "Caldo",
    "Pañales", "Pañuelos", "Panceta", "Paño", "Acondicionador", "Panzerottis", "Salchichas",
    "Ropa", "Confitura", "Chizitos", "Papel","Pochoclo"
]
# Filtrá el DataFrame eliminando las filas que contengan esas palabras en la columna "Producto"
#Se une todas las palabras en un mismo registro insencible a tamaño de letra. Lugo se filtra y me quedo solo con las filas que NO contengan esas palabras en la columna producto
regex_excluir = "|".join([re.escape(palabra)for palabra in palabras_excluir])
anonima_df_F = anonima_df_F[~anonima_df_F["Producto"].str.contains(regex_excluir, case=False, na=False)]

#Creamos una funcion para crear una columna de gramajes
def extraer_gramaje(texto):
    patron = r'(\d+(?:[\.,]\d+)?\s?(?:kg|g|grs?|ml|l|cc|un|kgs|gr|lts?|u))'
   # match = re.search(r'(\d+([.,]\d+)?\s?(kg|g|gr|ml|u))', texto.lower())
    resultado = re.findall(patron,texto.lower())
    return resultado[0] if resultado else ""

#Aplico la funcion a la columna Producto
anonima_df_F["Gramaje"] = anonima_df_F["Producto"].apply(extraer_gramaje)

#Creo una funcion para limpiar la columna producto.
def quitar_gramaje(texto, gramaje):
    if pd.isna(gramaje) or gramaje == "":
        return texto
    # Busca el gramaje y lo elimina (con o sin espacio antes)
    return re.sub(r'\s*' + re.escape(gramaje) + r'\b', '', texto)

anonima_df_F['Producto'] = [
    quitar_gramaje(prod, gram) for prod, gram in zip(anonima_df_F['Producto'], anonima_df_F['Gramaje'])
]

#Transformacion para dejar a la columna precios con formato Float
def limpiar_precio(precio):
    if pd.isna(precio):
        return None
    precio = str(precio)
    precio = precio.replace('$', '').replace('.', '').replace(',', '.').strip()
    try:
        return float(precio)
    except:
        return None

anonima_df_F['Precio'] = anonima_df_F['Precio'].apply(limpiar_precio)

#Elimino columna Página
anonima_df_F.drop(columns=["Página"], inplace=True)

#Reordenar las columnas
nuevo_orden = ['Busqueda', 'Producto', 'Gramaje', 'Precio', 'Supermercado']
anonima_df_F = anonima_df_F[nuevo_orden]

# Guardar el resultado a un nuevo archivo Excel
anonima_df_F.to_excel(r'C:\Users\Cristian\Documents\productos_LaAnonimaFinal.xlsx', index=False)


**Modificaciones a la Cooperativa Obrera**

In [None]:
# cargar excel usando doble barra invertida
df = pd.read_excel("C:\\Users\\Cristian\\Documents\\productos_LaCoope.xlsx")

# Función para limpiar caracteres especiales de un string
def limpiar_especiales(texto):
    if pd.isna(texto):
        return texto
    return unidecode(str(texto))

# Limpiar acentos y caracteres especiales en la columna 'Producto'
df["Producto"] = df["Producto"].apply(lambda x: unidecode(str(x)) if pd.notna(x) else x)

# Definir una función para extraer el gramaje (número + unidad)
def extraer_gramaje(texto):
    # Busca patrones como '500 Gr', '1 Kg', '250 Ml', etc.
    patron = r'(\d+[\.,]?\d*\s?(grs|kg|ml|l|g|gr))'
    match = re.search(patron, texto, re.IGNORECASE)
    if match:
        return match.group(0).strip()
    return None

# Aplicar la función para crear la columna de Gramaje
df["Gramaje"] = df["Producto"].apply(extraer_gramaje)

# Eliminar el gramaje del nombre del producto
def limpiar_producto(texto):
    gramaje = extraer_gramaje(texto)
    if gramaje:
        return texto.replace(gramaje, "").replace("  ", " ").strip()
    return texto

df["Producto"] = df["Producto"].apply(limpiar_producto)

# Lista de palabras clave
palabras = [
    "Acondicionador", "Alfajor", "Aceites", "Aceite", "Shampoo", "Margarina",
    "Mascarilla", "Crema", "Protector Labial", "Papas Fritas", "Paño", "Pañales",
    "Pancetta", "Panzottis", "Hamburguesas", "Hamburguesa", "Rallado", "Panchos",
    "Tomate", "Licor", "Crema", "Pañuelos", "Batidor", "Panceta", "Edulcorante", "Cerá", "Mate De ", "Autocebante", "Bombilla", "PaNAles",
    "PaNO", "PaNUelos", "Superpancho", "CerAMica", "Minnie"
]

# Unir las palabras con | para usar en regex (para búsqueda OR)
patron = r'|'.join([re.escape(palabra) for palabra in palabras])

# Filtrar filas donde 'Producto' contiene cualquiera de las palabras (ignora mayúsculas/minúsculas)
filtro = df["Producto"].str.contains(patron, case=False, na=False)

# Quedarse SOLO con los registros que NO cumplen el filtro (los que NO tienen esas palabras)
df_filtrado = df[~filtro]

#Cambio Formato de Precio de String a Float
def limpiar_precio(precio):
    if pd.isna(precio):
        return None
    precio = str(precio)
    precio = precio.replace('$', '').replace('.', '').replace(',', '.').strip()
    try:
        return float(precio)
    except:
        return None

df_filtrado['Precio'] = df_filtrado['Precio'].apply(limpiar_precio)
nuevo_orden = ['Busqueda', 'Producto', 'Gramaje', 'Precio', 'Supermercado']
df_filtrado = df_filtrado[nuevo_orden]

# Guardar el resultado a un nuevo archivo Excel
df_filtrado.to_excel(r'C:\Users\Cristian\Documents\productos_LaCoope2.xlsx', index=False)


Union de ambos supermercados que pertenecen a Buenos Aires en un mismo dataframe y excel

In [None]:
# Cargo ambos excels
dfAnonima = pd.read_excel("C:\\Users\\Cristian\\Desktop\\Archivos_Finales\\productos_LaAnonimaF.xlsx")
dfCoope = pd.read_excel("C:\\Users\\Cristian\\Desktop\\Archivos_Finales\\productos_LaCoope2.xlsx")

# Unilos (uno debajo del otro)al tener las mismas columnas no hay problema
df_BsAs = pd.concat([dfAnonima, dfCoope], ignore_index=True)

# Listo, ahora df_unido tiene todos los datos juntos
print(df_BsAs.head())

Le realizo una pequeña transformacion de datos

In [None]:
import re
df_BsAs['Producto'] = df_BsAs['Producto'].str.replace(
    r'\bx\.|\bx\b|x\s|\sx\s|\bx', '', regex=True, case=False
).str.replace(r'\s+', ' ', regex=True).str.strip()

def limpiar_producto(row):
    texto = row['Producto']
    gramaje = str(row['Gramaje']).strip() if pd.notnull(row['Gramaje']) else ''

    # 1. Eliminar gramaje literal si existe
    if gramaje and gramaje.lower() != 'nan':
        texto = texto.replace(gramaje, '')

    # 2. Eliminar x, x., x,, x , kg., un., kg, un (con espacios, punto, coma)
    patron = r'\b(x[\.,]?\s*|kg\.?\s*|un\.?\s*)\b'
    texto = re.sub(patron, '', texto, flags=re.IGNORECASE)

    # 3. Eliminar si queda solo número(s) y punto o solo punto al final o al principio
    texto = re.sub(r'^\d+\.\s*', '', texto)    # al principio
    texto = re.sub(r'\d+\.\s*$', '', texto)    # al final
    texto = re.sub(r'^\.\s*', '', texto)       # punto al principio
    texto = re.sub(r'\.\s*$', '', texto)       # punto al final

    # 4. Quitar dobles espacios y espacios extremos
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto

df_BsAs['Producto'] = df_BsAs.apply(limpiar_producto, axis=1)

def eliminar_numero_final(texto):
    # Elimina cualquier número (con o sin espacio antes) al final de la cadena
    return re.sub(r'\s*\d+\s*$', '', texto).strip()

# Si tu DataFrame se llama df_unido:
df_BsAs['Producto'] = df_BsAs.apply(limpiar_producto, axis=1)
df_BsAs[['Cantidad', 'Unidad']] = df_BsAs['Gramaje'].str.extract(r'(\d+(?:[\.,]\d+)?)([a-zA-Z]+)', expand=True)

# Convertir cantidad a float (maneja decimales con coma o punto)
df_BsAs['Cantidad'] = df_BsAs['Cantidad'].str.replace(',', '.').astype(float)

# Eliminar la columna "Gramaje"
df_BsAs = df_BsAs.drop(columns=['Gramaje'])

# Reordenar columnas (opcional)
df_BsAs = df_BsAs[['Busqueda', 'Producto', 'Cantidad', 'Unidad', 'Precio', 'Supermercado']]

# Guardar el resultado a un nuevo archivo Excel
df_BsAs.to_excel(r'C:\Users\Cristian\Desktop\Archivos_Finales\productos_BsAs.xlsx', index=False)


La transformacion de Datos de los supermercados Coto, Disco, Carrefour y la correspondiente transformacion final de datos se realizó en R.

Con la limpieza de datos se buscó extraer cantidad, unidad de medida y precio con descuento (para los casos que aplicaba), al mismo tiempo que filtrar todos los productos que no nos servirían para el análisis. Acá fue donde nos dimos cuenta de la dificultad de la limpieza post-scraping, ya que para hacerlo de una manera eficiente hay que tener un gran conocimiento de la base de datos con la que se trabaja. En vez de hacer la extracción y la limpieza separados, nos resultó más conveniente hacer un ida y vuelta entre los dos y chequear cómo iba quedando el output. La creación de variables nos ayudó a distinguir patrones que permitieron pensar nuevas reglas para eliminar los datos no deseados.

A la hora de considerar el escalado de proyecto, estimamos que esto es algo que siempre va a estar presente, porque ya sea por nuevos productos o por el formato de otros supermercados siempre se va a tener que repensar las reglas.

Cabe mencionar que en este trabajo decidimos convertir todo a kilogramos para que la información sea comparable, utilizando en algunos casos supuestos sobre algunos productos (ej: todas las capsulas de café son 6 gr). De todas formas, sentimos que esta gran generalización le quita un poco de especificidad al estudio, mostrando productos en dimensiones en los que no se los ve normalmente (no es lo mismo hablar de un kilo de yerba que de un kilo de te) y omitiendo hallazgos que se podrían apreciar mejor examinándolos particularmente.




In [None]:
# Limpieza de datos

# ===== CARGAR LIBRERÍAS =====
library(readxl)     # leer Excel
library(dplyr)      # manipulación de datos
library(stringr)    # manejo de strings
library(janitor)    # limpieza general
library(tidyr)      # para separate()
library(ggplot2)    # visualización
library(writexl)
library(purrr)

# ===== CARGAR DATOS =====
datos_raw <- read_excel("productos.xlsx")

# ===== LIMPIEZA INICIAL =====
# Limpiar nombres de columnas
datos <- datos_raw %>%
  janitor::clean_names()

# Eliminar filas sin datos
datos <- datos %>%
  filter(precio != "N/A",
         producto != "N/A") %>%
  drop_na()

# Función para extraer información del producto
datos <- datos %>%
  mutate(
    # Limpiar texto
    producto_clean = producto %>%
      str_to_lower() %>%                    # todo a minúsculas
      str_remove_all("[®]") %>%
      str_replace_all("á", "a") %>%         # quitar tildes
      str_replace_all("é", "e") %>%
      str_replace_all("í", "i") %>%
      str_replace_all("ó", "o") %>%
      str_replace_all("ú", "u") %>%
      str_replace_all("ñ", "n") %>%
      str_trim() %>%                        # espacios al inicio/final
      str_squish(),                         # espacios múltiples

    # Extraer cantidad y unidad
    # Primero: buscar al final
    cantidad_final = str_extract(producto_clean, "\\d+[.,]?\\d*\\s*[a-zA-Z.]+$"),

    # Segundo: buscar la última aparición si no hay al final
    todas_cantidades = str_extract_all(producto_clean, "\\d+[.,]?\\d*\\s*[a-zA-Z.]+"),
    ultima_cantidad = map_chr(todas_cantidades, ~ifelse(length(.x) > 0, .x[length(.x)], NA_character_)),

    # Tercero: cualquier aparición como último recurso
    primera_cantidad = str_extract(producto_clean, "\\d+[.,]?\\d*\\s*[a-zA-Z.]+"),

    # Elegir en orden de prioridad
    cantidad_unidad = case_when(
      !is.na(cantidad_final) ~ cantidad_final,
      !is.na(ultima_cantidad) ~ ultima_cantidad,
      !is.na(primera_cantidad) ~ primera_cantidad,
      TRUE ~ NA_character_
    ),
    # Limpiar variables auxiliares
    cantidad_unidad = ifelse(cantidad_unidad == "NA", NA_character_, cantidad_unidad)
  ) %>%
  select(-cantidad_final, -todas_cantidades, -ultima_cantidad, -primera_cantidad) %>%
  mutate(
    cantidad = str_extract(cantidad_unidad, "\\d+[.,]?\\d*"),
    unidad = str_extract(cantidad_unidad, "[a-zA-Z]+"),
    cantidad_num = as.numeric(str_replace(cantidad, ",", "."))
  )

# Estandarizacion de unidad
datos <- datos %>%
  mutate(
      unidad_std = case_when(
      str_detect(producto_clean, "capsula|capsulas|nespresso|dolce gusto") ~ "capsulas",
      unidad %in% c("u", "un", "uni", "unidades") &
        str_detect(producto_clean, "\\bte\\b|mate cocido") ~ "saquitos",
      unidad %in% c("gr", "g", "grs", "grm") ~ "g",
      unidad %in% c("k", "kg", "kgm") ~ "kg",
      unidad %in% c("saq", "saquitos","s","sob", "sobres") ~ "saquitos",
      unidad %in% c("l", "lt", "lts", "ltr") ~ "l",
      unidad %in% c("ml") ~ "ml",
      unidad %in% c("u", "un", "uni") ~ "unidades",
      TRUE ~ NA_character_
    )
  )

# Limpieza específica para cápsulas
datos <- datos %>%
  mutate(
    # Para cápsulas: si cantidad_num > 20 o es NA, cambiar a 10
    cantidad_num = case_when(
      unidad_std == "capsulas" & (cantidad_num > 20 | is.na(cantidad_num)) ~ 10,
      TRUE ~ cantidad_num
    )
  ) %>%
  # Eliminar filas de cápsulas con cantidad < 6
  filter(
    !(unidad_std == "capsulas" & cantidad_num < 6),      # cápsulas < 6
    !(unidad_std == "saquitos" & (cantidad_num < 10 | cantidad_num > 100)),  # saquitos fuera de rango
    !(unidad_std %in% c("ml", "l") & busqueda != "yogur"),          # ml y l que no sean yogur
    !(unidad_std == "kg" & busqueda %in% c("mermelada", "te")),  # kg de mermelada y té
    !is.na(unidad_std), # eliminar filas sin unidad_std
    unidad_std != "unidades",  # eliminar unidades
    !str_detect(producto_clean, "rebozador|pan rallado|horno|jugo|hamburguesa|pancho|jabon|galletitas|smart|aromatizante|pochoclo|enduido|alfajor|torta|protector|desodorante|coffe|coffee")  # palabras no deseadas
  )

datos <- datos %>%
  mutate(
    # Convertir todo a kg para estandarizar
    cantidad_num = case_when(
      unidad_std == "capsulas" ~ (cantidad_num * 6) / 1000,    # 6g por cápsula → kg
      unidad_std == "saquitos" ~ (cantidad_num * 2) / 1000,    # 2g por saquito → kg
      unidad_std == "kg" ~ cantidad_num,                        # ya está en kg
      unidad_std == "g" ~ cantidad_num / 1000,                 # g a kg
      unidad_std == "ml" ~ cantidad_num / 1000,                # ml a kg (1ml ≈ 1g)
      unidad_std == "l" ~ cantidad_num,                        # l a kg (1l ≈ 1kg)
      TRUE ~ NA_real_
    ),

    # Actualizar unidad_std y cantidad_num para que sea consistente
    unidad_std = case_when(
      unidad_std %in% c("capsulas", "saquitos", "kg", "g", "ml", "l") ~ "kg",
      TRUE ~ unidad_std  # mantener otras unidades como están
    )
  )

datos <- datos %>%
  filter(
    # Si la búsqueda es "te", entonces el producto tiene que contener "te" o "infusion"
    !(busqueda == "te" & !str_detect(producto_clean, "\\bte\\b|infusion"))
  )

# Limpieza de precios
datos <- datos %>%
  mutate(
    # Extraer descuento si existe
    descuento = str_extract(precio, "\\d+%"),
    descuento_num = as.numeric(str_remove(descuento, "%")),

    # Limpiar precio de forma más flexible
    precio_limpio = precio %>%
      str_remove("\\s*c/u\\s*") %>%                    # quitar "c/u"
      str_remove("\\s*-\\s*\\d+%.*") %>%               # quitar descuento y lo que sigue
      str_extract("\\$?[\\d.,]+") %>%                  # extraer números con $ opcional
      str_remove("\\$") %>%                            # quitar $
      str_replace_all("\\.", "") %>%                   # quitar puntos de miles
      str_replace(",", ".") %>%                        # cambiar coma decimal por punto
      str_trim(),                                      # quitar espacios

    # Convertir a numérico
    precio_base = as.numeric(precio_limpio),

    # Calcular precio final con descuento si existe
    precio_final = case_when(
      !is.na(descuento_num) ~ precio_base * (1 - descuento_num/100),
      TRUE ~ precio_base
    )
  )

# ===== CREAR DATASET FINAL =====
datos_finales <- datos %>%
  select(
    busqueda,
    producto = producto_clean,
    cantidad = cantidad_num,
    unidad = unidad_std,
    precio = precio_final,
    supermercado = super
  ) %>%
  # Opcional: reordenar por supermercado y búsqueda
  arrange(supermercado, busqueda, producto)

# ===== CARGAR DATOS BS AS =====
datos_ba_raw <- read_excel("productos_BsAs.xlsx")

# ===== LIMPIEZA INICIAL =====
# Limpiar nombres de columnas
datos_ba <- datos_ba_raw %>%
  janitor::clean_names()

# Eliminar filas sin datos
datos_ba <- datos_ba %>%
  filter(precio != "N/A",
         producto != "N/A") %>%
  drop_na()

# Función para extraer información del producto
datos_ba <- datos_ba %>%
  mutate(
    # Limpiar texto
    producto_clean = producto %>%
      str_to_lower() %>%                    # todo a minúsculas
      str_remove_all("[®]") %>%
      str_replace_all("á", "a") %>%         # quitar tildes
      str_replace_all("é", "e") %>%
      str_replace_all("í", "i") %>%
      str_replace_all("ó", "o") %>%
      str_replace_all("ú", "u") %>%
      str_replace_all("ñ", "n") %>%
      str_trim() %>%                        # espacios al inicio/final
      str_squish(),
    cantidad = str_extract(gramaje, "\\d+[.,]?\\d*"),
    unidad = str_extract(gramaje, "[a-zA-Z]+"),
    cantidad_num = as.numeric(str_replace(cantidad, ",", "."))
  )

datos_ba <- datos_ba %>%
  mutate(
    unidad_std = case_when(
      str_detect(producto_clean, "capsula|capsulas|nespresso|dolce gusto") ~ "capsulas",
      str_detect(producto_clean, "saquitos") ~ "saquitos",
      unidad %in% c("u", "un", "uni", "unidades") &
        str_detect(producto_clean, "\\bte\\b|mate cocido") ~ "saquitos",
      unidad %in% c("gr", "g", "grs", "grm") ~ "g",
      unidad %in% c("k", "kg", "kgm") ~ "kg",
      unidad %in% c("saq", "saquitos","s","sob", "sobres") ~ "saquitos",
      unidad %in% c("l", "lt", "lts", "ltr") ~ "l",
      unidad %in% c("ml") ~ "ml",
      unidad %in% c("u", "un", "uni") ~ "unidades",
      TRUE ~ NA_character_
    )
  )

# Limpieza específica para cápsulas
datos_ba <- datos_ba %>%
  mutate(
    # Para cápsulas: si cantidad_num > 20 o es NA, cambiar a 10
    cantidad_num = case_when(
      unidad_std == "capsulas" & (cantidad_num > 20 | is.na(cantidad_num)) ~ 10,
      TRUE ~ cantidad_num
    )
  ) %>%
  # Eliminar filas de cápsulas con cantidad < 6
  filter(
    !(unidad_std == "capsulas" & cantidad_num < 6),      # cápsulas < 6
    !(unidad_std == "saquitos" & (cantidad_num < 10 | cantidad_num > 100)),  # saquitos fuera de rango
    !(unidad_std %in% c("ml", "l") & busqueda != "yogur"),          # ml y l que no sean yogur
    !(unidad_std == "kg" & busqueda %in% c("mermelada", "te")),  # kg de mermelada y té
    !is.na(unidad_std), # eliminar filas sin unidad_std
    unidad_std != "unidades",  # eliminar unidades
    !str_detect(producto_clean, "rebozador|pan rallado|horno|jugo|hamburguesa|pancho|jabon|galletitas|smart|aromatizante|pochoclo|enduido|alfajor|torta|protector|desodorante|coffe|coffee")  # palabras no deseadas
  )

datos_ba <- datos_ba %>%
  mutate(
    # Convertir todo a kg para estandarizar
    cantidad_num = case_when(
      unidad_std == "capsulas" ~ (cantidad_num * 6) / 1000,    # 6g por cápsula → kg
      unidad_std == "saquitos" ~ (cantidad_num * 2) / 1000,    # 2g por saquito → kg
      unidad_std == "kg" ~ cantidad_num,                        # ya está en kg
      unidad_std == "g" ~ cantidad_num / 1000,                 # g a kg
      TRUE ~ NA_real_
    ),

    # Actualizar unidad_std y cantidad_num para que sea consistente
    unidad_std = case_when(
      unidad_std %in% c("capsulas", "saquitos", "kg", "g") ~ "kg",
      TRUE ~ unidad_std  # mantener otras unidades como están
    )
  )

# ===== CREAR DATASET FINAL =====
datos_ba_finales <- datos_ba %>%
  select(
    busqueda,
    producto = producto_clean,
    cantidad = cantidad_num,
    unidad = unidad_std,
    precio,
    supermercado
  ) %>%
  # Opcional: reordenar por supermercado y búsqueda
  arrange(supermercado, busqueda, producto)

# Unir los dos datasets
datos_completos <- bind_rows(datos_finales, datos_ba_finales)

# Ultima limpieza
datos_completos <- datos_completos %>%
  mutate(
    busqueda = ifelse(busqueda == "queso", "queso crema", busqueda)
  )

datos_completos <- datos_completos %>%
  filter(precio != 0)

# Exportar Excel y CSV
library(writexl)
write_xlsx(datos_completos, "datos_limpios.xlsx")
write_csv(datos_completos, "productos_completos.csv")


# Tablero Dinámico
Optamos por el uso del tablero dinámico para visualizar la información dado que tiene una gran facilidad de ajuste a las preferencias del consumidor. El filtro de supermercados permite sortear el hecho de que todas las personas no tienen la misma posibilidad de acceso a los distintos supermercados (distancia geográfica) y el filtro por categoría permite seleccionar solo los productos en los cuales uno está interesado.
Por otro lado, si uno piensa en el escalado a futuro del trabajo, es fácil adaptarlo a la introducción de más data, ya sea por un aumento de observaciones (inclusión de nuevos productos) o de variables (fecha, marca).

# Conclusiones
Durante el filtrado, encontramos dificultades porque los productos eran muy variados y presentaban diferentes formas de nombrado y presentación. Sin embargo, logramos generalizar la información para facilitar el análisis. Finalmente, a partir de las preguntas planteadas, construimos gráficos que nos permitieron visualizar nuestras hipótesis. Los resultados muestran que, en general, vivir en la provincia de Buenos Aires resulta más barato que en la capital, ya que el precio promedio de los supermercados es menor. La desventaja es que la variedad de productos es más reducida en la provincia, en comparación con los supermercados que se encuentran en la capital. En conclusión, este trabajo no solo nos permitió comparar precios, sino también entender la importancia de limpiar y preparar los datos para obtener resultados confiables y útiles para la toma de decisiones.


# Limitaciones y trabajo futuro
Este trabajo es un primer acercamiento al uso de scraping en páginas web de supermercados por lo que se usó una única extracción de una canasta reducida, pero se puede expandir el análisis agregando más productos/categorías.

Igualmente esto impacta en una de las mayores dificultades: la limpieza de datos. La complejidad surge de las discrepancias en la forma de catalogar y las especificidades de cada producto, por lo que hay que tener un gran conocimiento de la base de datos para crear reglas que permitan filtrar elementos no deseados y estandarizar la información.

Otra forma de escalar el análisis es realizar una extracción mensual de los datos con el objetivo de agregar una componente temporal al análisis y estudiar los patrones inflacionarios por categoría y/o supermercado.