In [24]:
import pandas as pd
import sqlalchemy as alch
from getpass import getpass
import sys
sys.path.append("../")
import src.soporte as sp
import src.biblioteca as bb

# Carga de datos

In [25]:
# Cargamos los datos limpios de Dia y Mercadona
mercadona = pd.read_csv("../data/mercadona_limpio.csv", index_col = 0)
dia = pd.read_csv("../data/dia_limpio.csv", index_col = 0)

In [26]:
# Cargamos los datos de Dia scrapeados
dia_18 = pd.read_csv("../data/dia_2023-01-18.csv", index_col = 0)
dia_19 = pd.read_csv("../data/dia_2023-01-19.csv", index_col = 0)
dia_20 = pd.read_csv("../data/dia_2023-01-20.csv", index_col = 0)

In [27]:
# Cargamos los datos de Mercadona Scrapeados
mercadona_20 = pd.read_csv("../data/merc2023-01-20_suma.csv", index_col = 0)

# Tratado de datos

In [28]:
# Elimino unas columnas de error tonto de no poner en la carga la opción de "index_col = 0"
mercadona_20.drop(["Unnamed: 0.1", "Unnamed: 0", "category_id"],axis= 1, inplace = True)

In [29]:
# Por si acaso, elimino algunos duplicados
mercadona_20.drop_duplicates(inplace = True)

In [30]:
# Creo las categorías y subcategorías de los datos de mercadona scrapeados
mercadona_20["subcategoria"] = mercadona_20.apply(lambda x: sp.mer_subcat(x["category"]), axis = 1)
mercadona_20["category"] = mercadona_20.apply(lambda x: sp.category(x["subcategoria"]), axis = 1)

In [31]:
# Elimino la columna de Supermarket, puesto que ya lo tengo identificado
dia.drop(["supermarket"], axis = 1, inplace = True)

In [32]:
# Junto todos mis datos del supermercado DIA
dia_sumando = pd.concat([dia, dia_18], axis = 0, ignore_index = True)
dia_sumando = pd.concat([dia_sumando, dia_19], axis = 0, ignore_index = True)
dia_total = pd.concat([dia_sumando, dia_20], axis = 0, ignore_index = True)
dia_total.head(2)

Unnamed: 0,category,name,price,reference_price,reference_unit,insert_date,subcategoria
0,cuidado_higiene_personal,FLEX champú con Keratina para cabello normal f...,3.39,5.22,l,2021-03-06,cabello
1,cuidado_higiene_personal,FLEX champú con Keratina fortificante frasco 6...,3.39,5.22,l,2021-03-06,cabello


In [33]:
#  Elimino los datos de mercadona que no me interesan, y renombro las columnas para que todo sea más uniforme
mercadona.drop(["supermarket", "category"], axis = 1, inplace = True)
mercadona.rename(columns = {"categoria": "category"}, inplace = True)

In [34]:
# Uno mis datos scrapeados con los datos que ya tenía de Mercadona
mercadona_total = pd.concat([mercadona, mercadona_20], axis = 0, ignore_index = True)
mercadona_total.head(2)

Unnamed: 0,name,price,reference_price,reference_unit,insert_date,subcategoria,category
0,Huevos super grandes XL,2.17,0.18,ud,2021-03-06,huevos,huevos_lacteos_derivados
1,Huevos grandes L,2.6,0.11,ud,2021-03-06,huevos,huevos_lacteos_derivados


In [35]:
# Junto los dos supermercados para luego obtener todos los productos
dia_mercadona_total = pd.concat([mercadona_total, dia_total], axis = 0, ignore_index = True)

In [36]:
dia_mercadona_total.head(2)

Unnamed: 0,name,price,reference_price,reference_unit,insert_date,subcategoria,category
0,Huevos super grandes XL,2.17,0.18,ud,2021-03-06,huevos,huevos_lacteos_derivados
1,Huevos grandes L,2.6,0.11,ud,2021-03-06,huevos,huevos_lacteos_derivados


In [37]:
#Creo los ID de cada producto único
productos_todos = dia_mercadona_total.drop(["price", "reference_price", "reference_unit", "insert_date"], axis = 1) # elimino las columnas que no necesito
productos = pd.DataFrame(productos_todos["name"].unique()).reset_index() # Obtengo los valores únicos y con el index creo su ID
productos.columns = ["product_id", "name"] # Renombro las columnas para mejor manejo
productos.head(2)

Unnamed: 0,product_id,name
0,0,Huevos super grandes XL
1,1,Huevos grandes L


In [38]:
# Cogiendo todos los productos que tengo, lo uno con la tabla de productos y sus ID y elimino los duplicados
productos_todos_conid = productos_todos.merge(productos,how ="inner", on = "name")
productos_conid = productos_todos_conid.drop_duplicates(subset=["product_id"])
productos_conid.head(2)

Unnamed: 0,name,subcategoria,category,product_id
0,Huevos super grandes XL,huevos,huevos_lacteos_derivados,0
532,Huevos grandes L,huevos,huevos_lacteos_derivados,1


In [39]:
# Limpio los nombres de los productos, sustituyendo carácteres problemáticos para la inserción de datos
productos_conid["name"] = productos_conid["name"].apply(lambda x : x.replace("'","-").replace("%","/100"))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  productos_conid["name"] = productos_conid["name"].apply(lambda x : x.replace("'","-").replace("%","/100"))


In [40]:
# Uno los productos del Mercadona con los productos, para obtener los ID de estos
productos_mercadona = mercadona_total.merge(productos, how = 'inner', on = "name")

In [41]:
# Reinicio el index para crear el ID del precio
productos_mercadona.reset_index(inplace= True)
productos_mercadona.rename(columns = {"index": "price_id"}, inplace = True)
productos_mercadona.head(2)

Unnamed: 0,price_id,name,price,reference_price,reference_unit,insert_date,subcategoria,category,product_id
0,0,Huevos super grandes XL,2.17,0.18,ud,2021-03-06,huevos,huevos_lacteos_derivados,0
1,1,Huevos super grandes XL,2.17,0.18,ud,2021-03-07,huevos,huevos_lacteos_derivados,0


In [42]:
# Uno los productos del Dia con los productos, para obtener los ID de estos
productos_dia = dia_total.merge(productos, how = "inner", on = "name" )

In [43]:
# Reinicio el index para crear el ID del precio
productos_dia.reset_index(inplace= True)
productos_dia.rename(columns = {"index": "price_id"}, inplace = True)
productos_dia.head(2)

Unnamed: 0,price_id,category,name,price,reference_price,reference_unit,insert_date,subcategoria,product_id
0,0,cuidado_higiene_personal,FLEX champú con Keratina para cabello normal f...,3.39,5.22,l,2021-03-06,cabello,8561
1,1,cuidado_higiene_personal,FLEX champú con Keratina para cabello normal f...,3.39,5.22,l,2021-03-07,cabello,8561


# Inserción de datos

Establecemos la conexión

In [44]:
password = getpass("Contraseña de MySQL")
db_name = "supermercados"
conexion = f"mysql+pymysql://root:{password}@localhost/{db_name}"
engine = alch.create_engine(conexion)

Introducimos los datos de los supermercados, al ser solo dos, los meto a mano

In [None]:
engine.execute("""
    INSERT INTO supermercado (idsupermercado, nombre_supermercado)
    VALUES(1, "mercadona")
    """)
engine.execute("""
    INSERT INTO supermercado (idsupermercado, nombre_supermercado)
    VALUES(2, "dia")
    """)

Insertamos los datos de los productos únicos

In [None]:
for index, row in productos_conid.iterrows():
    producto_id = engine.execute(f"""SELECT idproductos FROM productos WHERE idproductos = "{row['product_id']}";""")

    if len(list(producto_id)) > 0:
        print(f"Este index {index} ya existe la ID.")
    else:
        try:
            engine.execute(f"""
                INSERT INTO productos (idproductos, nombre_producto, categoria, subcategoria)
                VALUES ("{row['product_id']}", "{row['name']}", "{row['category']}", "{row['subcategoria']}");""")
        except:
            print(f"""
                INSERT INTO productos (idproductos, nombre_producto, categoria, subcategoria)
                VALUES ("{row['product_id']}", "{row['name']}", "{row['category']}", "{row['subcategoria']}");""")

Insertamos los datos del histórico de precios del Mercadona

In [None]:
for index, row in productos_mercadona.iterrows():
    precio_id = engine.execute(f"""SELECT idprecio FROM precios WHERE idprecio = "{row['price_id']}";""")

    if len(list(precio_id)) > 0:
        print(f"El ID {index} ya existe.")
    else:
        try:
            engine.execute(f"""
                INSERT INTO precios (idprecio, precio_unidad, precio_referencia, referencia, productos_idproductos, supermercado_idsupermercado, fecha)
                VALUES ("{row['price_id']}", "{row['price']}", "{row['reference_price']}", "{row['reference_unit']}", "{row['product_id']}", 1, "{row['insert_date']}");""")
        except:
            print(f"Este índice {index}, no funciona.")
            

Insertamos los datos del histórico de precios del Dia

In [None]:
for index, row in productos_dia.iterrows():
    precio_id = engine.execute(f"""SELECT idprecio FROM precios WHERE idprecio = "{row['price_id']}";""")

    if len(list(precio_id)) > 0:
        print(f"El ID {index} ya existe.")
    else:
        try:
            engine.execute(f"""
                INSERT INTO precios (idprecio, precio_unidad, precio_referencia, referencia, productos_idproductos, supermercado_idsupermercado, fecha)
                VALUES ("{row['price_id']}", "{row['price']}", "{row['reference_price']}", "{row['reference_unit']}", "{row['product_id']}", 2 "{row['insert_date']}");""")
        except:
            print(f"Este índice {index}, no funciona.")