In [3]:
from IPython.display import display, clear_output
from pathlib import Path
from math import ceil
import matplotlib.dates as mdates
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as ipw
import random
import functools
import glob
import os
import datetime
import subprocess
import webbrowser
import time

In [4]:
def graficar_descuentos(fecha_inicio, fecha_fin, tipo_grafico='cantidad', **supermercados_checkbox):
    supermercados_seleccionados = [
        nombre for nombre, checked in supermercados_checkbox.items() if checked
    ]

    if not supermercados_seleccionados:
        print("Selecciona al menos un supermercado.")
        return

    plt.figure(figsize=(12, 6))

    for nombre in supermercados_seleccionados:
        ruta = carpetas[nombre]
        csv_files = sorted(
            glob.glob(os.path.join(ruta, '*.csv')),
            key=lambda x: datetime.datetime.strptime(os.path.splitext(os.path.basename(x))[0], '%d-%m-%Y')
        )

        # Filtrar archivos en el rango de fechas
        csv_files_filtrados = []
        for archivo in csv_files:
            try:
                fecha_archivo = datetime.datetime.strptime(os.path.splitext(os.path.basename(archivo))[0], '%d-%m-%Y').date()
                if fecha_inicio <= fecha_archivo <= fecha_fin:
                    csv_files_filtrados.append(archivo)
            except Exception as e:
                print(f"Error procesando {archivo}: {e}")
                continue

        if not csv_files_filtrados:
            print(f"No hay archivos disponibles entre {fecha_inicio} y {fecha_fin} para {nombre}.")
            continue

        fechas = []
        valores = []

        for archivo in csv_files_filtrados:
            try:
                fecha = datetime.datetime.strptime(os.path.splitext(os.path.basename(archivo))[0], '%d-%m-%Y')
                df = pd.read_csv(archivo)
                df['price'] = pd.to_numeric(df['price'], errors='coerce')
                df['pre_discount'] = pd.to_numeric(df['pre_discount'], errors='coerce')
                df = df.dropna(subset=['price', 'pre_discount'])
                df['descuento'] = df['price'] - df['pre_discount']

                if tipo_grafico == 'Cantidad':
                    if nombre == 'acuenta':
                        bodegazo = ((df['price'] == 1000) | (df['price'] == 2000) | (df['price'] == 3000)).sum()
                        descuentos = len(df[df['descuento'] < 0]) + bodegazo
                    else:
                        descuentos = len(df[df['descuento'] < 0])
                    valor = descuentos

                elif tipo_grafico == 'Promedio':
                    descuentos = len(df[df['descuento'] < 0])
                    if descuentos == 0:
                        valor = 0
                    else:
                        total = -df['descuento'].sum()
                        valor = total / descuentos

                else:
                    print("Tipo de gráfico no reconocido.")
                    return

                fechas.append(fecha)
                valores.append(valor)

            except Exception as e:
                print(f"Error procesando {archivo}: {e}")
                continue

        if fechas:
            plt.plot(fechas, valores, marker='o', label=nombre.capitalize())

    plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%d-%m-%y'))
    plt.xticks(rotation=45)
    plt.xlabel('Fecha')

    if tipo_grafico == 'Cantidad':
        plt.ylabel('Cantidad de Descuentos')
        plt.title(f'Cantidad de Descuentos entre {fecha_inicio} y {fecha_fin}')
    else:
        plt.ylabel('Valor Promedio de Descuentos')
        plt.title(f'Promedio de Descuentos entre {fecha_inicio} y {fecha_fin}')

    plt.grid(True)
    plt.legend()
    plt.tight_layout()
    plt.show()

In [5]:
def graficar_prom(n_archivos, **supermercados_checkbox):
    supermercados_seleccionados = [
        nombre for nombre, checked in supermercados_checkbox.items() if checked
    ]

    if not supermercados_seleccionados:
        print("Selecciona al menos un supermercado.")
        return

    fechas_usar = fechas_disponibles[-n_archivos:]
    df_total = pd.DataFrame()

    for nombre in supermercados_seleccionados:
        ruta = Path(carpetas[nombre])
        archivos = sorted(ruta.glob('*.csv'), key=lambda x: datetime.datetime.strptime(x.stem, '%d-%m-%Y'))
        archivos_usar = archivos[-n_archivos:]

        fechas = []
        promedios = []

        for archivo in archivos_usar:
            try:
                fecha = datetime.datetime.strptime(archivo.stem, '%d-%m-%Y').date()
                df = pd.read_csv(archivo)
                df['price'] = pd.to_numeric(df['price'], errors='coerce')
                df = df.dropna(subset=['price'])
                fechas.append(fecha)
                promedios.append(df['price'].mean())
            except Exception as e:
                print(f"Error en {archivo.name}: {e}")
                continue

        if fechas:
            df_super = pd.DataFrame({
                'fecha': fechas,
                'promedio': promedios,
                'supermercado': nombre.capitalize()
            })
            df_total = pd.concat([df_total, df_super])

    if df_total.empty:
        print("No hay datos disponibles para esta selección.")
        return
        

    df_total = df_total.sort_values('fecha')

    for supermercado, grupo in df_total.groupby('supermercado'):
        plt.plot(grupo['fecha'], grupo['promedio'], marker='o', label=supermercado)

    plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%d-%m-%y'))
    plt.xticks(rotation=45)
    plt.xlabel('Fecha')
    plt.ylabel('Precio Promedio ($)')
    plt.title(f'Precio promedio por supermercado (últimos {n_archivos} archivos)')
    plt.grid(True)
    plt.legend()
    plt.tight_layout()
    plt.show()

In [6]:
def plot_supermarket_distances(df, university, supermarkets=None):
    uni_data = df[df['university'] == university]
    if uni_data.empty:
        print(f"No se encontraron datos para la universidad: {university}")
        return

    if supermarkets is not None:
        pattern = '|'.join([f'^{s}' for s in supermarkets])
        uni_data = uni_data[uni_data['supermarket'].str.contains(pattern)]
        if uni_data.empty:
            print(f"No se encontraron supermercados que coincidan con: {supermarkets}")
            return

    uni_data = uni_data.sort_values('distance')
    plt.figure(figsize=(12, 6))
    bars = plt.bar(uni_data['supermarket'], uni_data['distance'], color='skyblue')
    plt.title(f'Distancias de supermercados a {university_labels.get(university, university)}', fontsize=14)
    plt.xlabel('Supermercado', fontsize=12)
    plt.ylabel('Distancia (metros)', fontsize=12)
    plt.xticks(rotation=45, ha='right')
    for bar in bars:
        height = bar.get_height()
        plt.text(bar.get_x() + bar.get_width()/2., height, f'{int(height)}', ha='center', va='bottom', rotation=0)
    plt.tight_layout()
    plt.show()

In [7]:
def graficar_promedio_por_categoria(fecha_inicio, fecha_fin, supermercados=None, categorias=None):
    carpeta = Path("../utils/common-products-filter/results/")
    archivos = sorted([f for f in carpeta.iterdir() if f.suffix == '.csv'])

    fecha_inicio = datetime.datetime.strptime(str(fecha_inicio), '%Y-%m-%d')
    fecha_fin = datetime.datetime.strptime(str(fecha_fin), '%Y-%m-%d')

    dfs = []

    for archivo in archivos:
        try:
            fecha = datetime.datetime.strptime(archivo.stem, '%d-%m-%Y')
        except ValueError:
            continue

        if fecha_inicio <= fecha <= fecha_fin:
            df = pd.read_csv(archivo)
            df["fecha"] = fecha
            dfs.append(df)

    if not dfs:
        print("No se encontraron archivos en ese rango de fechas.")
        return

    df_total = pd.concat(dfs, ignore_index=True)

    columnas_supermercado = [col for col in df_total.columns if col.startswith("price_")]
    supermercados_disponibles = [col.replace("price_", "") for col in columnas_supermercado]

    if supermercados is None:
        supermercados = supermercados_disponibles
    else:
        supermercados = [s for s in supermercados if s in supermercados_disponibles]

    if not supermercados:
        print("No hay supermercados válidos para mostrar.")
        return

    if categorias is not None:
        df_total = df_total[df_total['search'].isin(categorias)]

    datos_promedio = []
    for supermercado in supermercados:
        col_precio = f"price_{supermercado}"
        temp = df_total[["search", col_precio]].copy()
        temp.columns = ["search", "price"]
        temp["supermercado"] = supermercado
        datos_promedio.append(temp)

    df_promedios = pd.concat(datos_promedio, ignore_index=True)
    df_resultado = df_promedios.groupby(["search", "supermercado"])["price"].mean().reset_index()

    df_pivot = df_resultado.pivot(index="search", columns="supermercado", values="price")

    ax = df_pivot.plot(kind="bar", figsize=(12, 6), width=0.85)
    plt.title("Comparación de Precios Promedio por Categoría y Supermercado")
    plt.ylabel("Precio Promedio ($)")
    plt.xlabel("Categoría")
    plt.xticks(rotation=45, ha='right')
    plt.legend(title="Supermercado")
    plt.tight_layout()
    plt.show()

In [8]:
# --- Preparar pestañas ---
tab = ipw.Tab()
tab.children = []

df_dist = pd.read_csv('../utils/distance-to-nearest-supermarket/distances.csv')

university_labels = {
    "uach-mf": "UACh Miraflores",
    "uach-teja": "UACh Campus Isla Teja",
    "uss": "USS Valdivia",
    "ust": "UST Valdivia",
    "inacap": "INACAP Valdivia"
}

supermarket_labels = {
    "acuenta": "aCuenta",
    "eltit": "Eltit",
    "eltrebol": "El Trébol",
    "jumbo": "Jumbo",
    "santaisabel": "Santa Isabel",
    "unimarc": "Unimarc"
}

# --- Interfaz Distancias ---
uni_dropdown = ipw.Dropdown(
    options=[(label, key) for key, label in university_labels.items()],
    layout=ipw.Layout(width='200px')
)

checkboxes = []
checkbox_map = {}
for key, label in supermarket_labels.items():
    checkbox = ipw.Checkbox(value=True, description=label)
    checkboxes.append(checkbox)
    checkbox_map[checkbox] = key

left_col = ipw.VBox(checkboxes[:ceil(len(checkboxes)/2)])
right_col = ipw.VBox(checkboxes[ceil(len(checkboxes)/2):])
checkboxes_grid = ipw.HBox([left_col, right_col])

run_button = ipw.Button(description="Generar Gráfico")
glossary_button = ipw.Button(description="Ver Glosario de Supermercados", button_style="info", layout=ipw.Layout(width='250px', align_items='center'))
glossary_output = ipw.Output()

graph_output = ipw.Output()
right_controls = ipw.VBox([ipw.Label("Distancias a universidad:"), uni_dropdown, run_button], layout=ipw.Layout(align_items='center'))
left_controls = ipw.VBox([ipw.Label("Filtrar por:"), checkboxes_grid], layout=ipw.Layout(align_items='center'))
center_layout = ipw.HBox([left_controls, right_controls], layout=ipw.Layout(align_items='center'))

supermarket_glossary = {
    "aCuenta": ["Pedro Montt 4300", "Ramón Picarte 2661", "Carlos Anwandter 930"],
    "Eltit": ["Camilo Henríquez 780"],
    "El Trébol": ["Simpson 499", "René Schneider 3722"],
    "Jumbo": ["Errázuriz 1040"],
    "Líder": ["Santiago Bueras 1400"],
    "Santa Isabel": ["Chacabuco 545", "Ramón Picarte 3057"],
    "Unimarc": ["Francia 2651", "Arauco 697", "Yungay 420", "Pedro Aguirre Cerda 400"]
}

def on_run_button_clicked(b):
    with graph_output:
        clear_output(wait=True)
        selected_brands = [checkbox_map[cb] for cb in checkboxes if cb.value]
        plot_supermarket_distances(df_dist, uni_dropdown.value, selected_brands)

def show_glossary(b):
    with glossary_output:
        clear_output()
        print("Glosario de supermercados y direcciones:\n")
        for name, addresses in supermarket_glossary.items():
            print(f"{name}:")
            for i, addr in enumerate(addresses, 1):
                print(f"  {i}. {addr}")
            print()

run_button.on_click(on_run_button_clicked)
glossary_button.on_click(show_glossary)

dist_layout = ipw.VBox([
    graph_output,
    center_layout,
    glossary_button,
    glossary_output
])

# --- Tab Fluctuación por periodo y descuentos ---
carpetas = {
    'acuenta': '../scrappers/acuenta/results',
    'eltit': '../scrappers/eltit/results',
    'eltrebol': '../scrappers/eltrebol/results',
    'jumbo': '../scrappers/jumbo/results',
    'santaisabel': '../scrappers/santaisabel/results',
    'unimarc': '../scrappers/unimarc/results'
}

carpeta_base = Path('../utils/common-products-filter/results/')
archivos_base = []
for archivo in carpeta_base.glob('*.csv'):
    try:
        fecha = datetime.datetime.strptime(archivo.stem, '%d-%m-%Y')
        archivos_base.append((archivo, fecha))
    except ValueError:
        print(f"Archivo ignorado por nombre inválido: {archivo.name}")

archivos_base.sort(key=lambda x: x[1])
fechas_disponibles = [fecha.date() for _, fecha in archivos_base]
total_archivos = len(fechas_disponibles)

n_archivos_slider = ipw.IntSlider(
    value=8,
    min=1,
    max=total_archivos,
    step=1,
    description='Cantidad de días:',
    continuous_update=False,
    style={'description_width': 'initial'}
)

checkbox_widgets = {
    name: ipw.Checkbox(value=(name in ['acuenta', 'jumbo']), description=name.capitalize())
    for name in carpetas.keys()
}

supermercados_checkbox = {
    name: ipw.Checkbox(value=(name in ['acuenta']), description=name.capitalize())
    for name in carpetas.keys()
}

checkbox_super = ipw.VBox(list(supermercados_checkbox.values()))
checkbox_box = ipw.VBox(list(checkbox_widgets.values()))

fluctuacion_periodo = ipw.interactive(
    graficar_prom, 
    n_archivos=n_archivos_slider,
    **checkbox_widgets
)
def formatear_fecha(fecha):
    return fecha.strftime('%d de %B de %Y').capitalize()

fechas_formateadas = {formatear_fecha(f): f for f in fechas_disponibles}

fecha_inicio_dropdown = ipw.Dropdown(
    options=fechas_formateadas,
    value=fechas_disponibles[0],
    description='Fecha inicio:',
    layout=ipw.Layout(width='250px'),
    style={'description_width': 'initial'}
)

fecha_fin_dropdown = ipw.Dropdown(
    options=fechas_formateadas,
    value=fechas_disponibles[-1],
    description='Fecha fin:',
    layout=ipw.Layout(width='250px'),
    style={'description_width': 'initial'}
)

def actualizar_fechas(*args):
    inicio = fecha_inicio_dropdown.value
    fin = fecha_fin_dropdown.value
    nuevas_opciones = [f for f in fechas_disponibles if f >= inicio]
    fecha_fin_dropdown.options = nuevas_opciones
    try:
        fecha_fin_dropdown.value = fin
    except:
        fecha_fin_dropdown.value = inicio

fecha_inicio_dropdown.observe(actualizar_fechas, names='value')

tipo_grafico_switch = ipw.ToggleButtons(
    options=['Cantidad', 'Promedio'],
    value='Cantidad',
    description='Tipo de gráfico:',
    style={'description_width': 'initial'}
)

checkboxes_filtro = ipw.VBox([
    ipw.Label('Filtrar por supermercados:'),
    ipw.GridBox(
        list(supermercados_checkbox.values()),
        layout=ipw.Layout(grid_template_columns="repeat(2, 150px)")
    )
])


carpeta = Path("../utils/common-products-filter/results/")
archivos = sorted([f for f in carpeta.iterdir() if f.suffix == '.csv'])
fechas_disponibles = []
categorias_disponibles = set()
supermercados_disponibles = set()

for archivo in archivos:
    try:
        fecha = datetime.datetime.strptime(archivo.stem, '%d-%m-%Y')
        fechas_disponibles.append(fecha.date())
        df = pd.read_csv(archivo)
        categorias_disponibles.update(df['search'].dropna().unique())
        for col in df.columns:
            if col.startswith("price_"):
                supermercados_disponibles.add(col.replace("price_", ""))
    except:
        continue

fecha_inicio_picker = ipw.Dropdown(options=sorted(fechas_disponibles), description="Inicio:")
fecha_fin_picker = ipw.Dropdown(options=sorted(fechas_disponibles), description="Fin:", value=sorted(fechas_disponibles)[-1])

supermercado_checks = {s: ipw.Checkbox(value=True, description=s.capitalize()) for s in sorted(supermercados_disponibles)}
categoria_checks = {c: ipw.Checkbox(value=True, description=c) for c in sorted(categorias_disponibles)}

categoria_box = ipw.VBox(list(categoria_checks.values())[:10])

run_button = ipw.Button(description="Generar gráfico")
output_box = ipw.Output()

@run_button.on_click
def _on_run(b):
    with output_box:
        clear_output(wait=True)
        supermercados_seleccionados = [k for k, w in supermercado_checks.items() if w.value]
        categorias_seleccionadas = [k for k, w in categoria_checks.items() if w.value]
        graficar_promedio_por_categoria(fecha_inicio_picker.value, fecha_fin_picker.value, supermercados_seleccionados, categorias_seleccionadas)

layout_categoria_super = ipw.HBox([
    ipw.VBox([
        ipw.Label("Supermercados:"),
        ipw.VBox(list(supermercado_checks.values()))
    ]),
    ipw.VBox([
        ipw.Label("Categorías:"),
        categoria_box
    ]),
    ipw.HBox([fecha_inicio_picker, fecha_fin_picker])
])

promedio_tab = ipw.VBox([
    output_box,
    layout_categoria_super,
    run_button
])

def run_streamlit_app(b):
    # Ruta al archivo de la app
    app_file = "distance_maps.py"

    # Comando para lanzar Streamlit en segundo plano
    process = subprocess.Popen(
        ["streamlit", "run", app_file]
    )

boton_mapa = ipw.Button(description="Abrir mapa interactivo")
boton_mapa.on_click(run_streamlit_app)

mapa_tab = ipw.VBox([boton_mapa], layout=ipw.Layout(align_items='center'))

def graficar_torta(fecha_inicio, fecha_fin, supermercado):
    with torta_output:
        clear_output()
        
        carpeta_super = Path(carpetas[supermercado])
        archivos_super = []
        for archivo in carpeta_super.glob('*.csv'):
            try:
                fecha_archivo = datetime.datetime.strptime(archivo.stem, '%d-%m-%Y').date()
                if fecha_inicio <= fecha_archivo <= fecha_fin:
                    archivos_super.append(archivo)
            except ValueError:
                print(f"Archivo ignorado por nombre inválido: {archivo.name}")
                continue

        if not archivos_super:
            print("No hay datos en este rango de fechas para este supermercado.")
            return

        total_productos = 0
        productos_con_descuento = 0

        for archivo in archivos_super:
            try:
                df = pd.read_csv(archivo)
                if 'price' not in df.columns or 'pre_discount' not in df.columns:
                    print(f"Archivo ignorado por columnas faltantes: {archivo.name}")
                    continue

                df['price'] = pd.to_numeric(df['price'], errors='coerce')
                df['pre_discount'] = pd.to_numeric(df['pre_discount'], errors='coerce')
                df = df.dropna(subset=['price', 'pre_discount'])
                df['descuento'] = df['price'] - df['pre_discount']

                total_productos += len(df)
                productos_con_descuento += len(df[df['descuento'] < 0])

            except Exception as e:
                print(f"Error procesando {archivo}: {e}")
                continue

        productos_sin_descuento = total_productos - productos_con_descuento

        if total_productos == 0:
            print("No hay productos para graficar en este rango.")
            return

        labels = ['Con descuento', 'Sin descuento']
        data = [productos_con_descuento, productos_sin_descuento]

        plt.figure(figsize=(8, 8))
        plt.pie(data, labels=labels, autopct='%1.1f%%', startangle=90, textprops={'fontsize': 14})
        plt.show()

def actualizar_fechas(*args):
    inicio = fecha_inicio_dropdown.value
    fin = fecha_fin_dropdown.value

    opciones_filtradas = {formatear_fecha(f): f for f in fechas_disponibles if f >= inicio}

    fecha_fin_dropdown.options = opciones_filtradas

    if fin in opciones_filtradas.values():
        fecha_fin_dropdown.value = fin
    else:
        fecha_fin_dropdown.value = inicio

supermercado_torta_dropdown_label = ipw.Label('% descuentos supermercado:')

supermercado_torta_dropdown = ipw.Dropdown(
    options=list(carpetas.keys()),
    value='acuenta',
    layout=ipw.Layout(width='200px')
)

dropdown_con_label = ipw.VBox([
    supermercado_torta_dropdown_label,
    supermercado_torta_dropdown
])
fecha_inicio_dropdown.observe(actualizar_fechas, names='value')


controladores = {
    'fecha_inicio': fecha_inicio_dropdown,
    'fecha_fin': fecha_fin_dropdown,
    'tipo_grafico': tipo_grafico_switch
}

controladores_torta = {
    'fecha_inicio': fecha_inicio_dropdown,
    'fecha_fin': fecha_fin_dropdown,
    'supermercado': supermercado_torta_dropdown
}
torta_output = ipw.Output()
controladores.update(supermercados_checkbox)

torta_respuesta = ipw.interactive_output(graficar_torta, controladores_torta)

respuesta = ipw.interactive_output(graficar_descuentos, controladores)
columna_izquierda = ipw.VBox([
    torta_output,
    dropdown_con_label
])


columna_derecha = ipw.VBox([
    respuesta,
    ipw.HBox([
        ipw.VBox([fecha_inicio_dropdown, fecha_fin_dropdown, tipo_grafico_switch]),
        checkboxes_filtro
    ], layout=ipw.Layout(
        justify_content='flex-start'
    ))
])

fluctuacion_periodo = ipw.interactive_output(
    graficar_prom, 
    {'n_archivos': n_archivos_slider, **checkbox_widgets}
)

layout_fluctuacion = ipw.HBox([
    ipw.VBox([
        fluctuacion_periodo  
    ], layout=ipw.Layout(flex='5')),  

    ipw.VBox([
        ipw.Label('Seleccionar numero de ultimos días:'),
        n_archivos_slider,
        ipw.Label('https://www.acuenta.cl/'),
        ipw.Label('https://super.eltit.cl/'),
        ipw.Label('https://www.supertrebol.cl/'),
        ipw.Label('https://www.jumbo.cl/'),
        ipw.Label('https://www.santaisabel.cl/'),
        ipw.Label('https://www.unimarc.cl/')


    ]) 
])
periodo_layout = ipw.VBox([
    layout_fluctuacion,
    ipw.Label('Filtrar por:'),
    ipw.GridBox(
        list(checkbox_widgets.values()),
        layout=ipw.Layout(
            grid_template_columns="repeat(3, 150px)",
            grid_gap='10px',
            justify_content='flex-start',
            align_items='flex-start'
        )
    )
])
layout_beneficios = ipw.HBox([columna_izquierda, columna_derecha])

tab.children = [periodo_layout, layout_beneficios, dist_layout, promedio_tab, mapa_tab]
tab.set_title(0, "Fluctuación por periodo")
tab.set_title(1, "Beneficios")
tab.set_title(2, "Distancias")
tab.set_title(3, "Tipo de producto")
tab.set_title(4, "Mapa interactivo")

display(tab)

Tab(children=(VBox(children=(HBox(children=(VBox(children=(Output(),), layout=Layout(flex='5')), VBox(children…