# Importación de librerias y archivos .csv

In [916]:
import pandas as pd
import numpy as np

In [917]:
df_mercadona = pd.read_csv('/content/limpio_mercadona.csv')
df_mercadona.head(2)

Unnamed: 0,id,name,description,price,reference_price,reference_unit,subcategory_2_nivel_id,subcategory_2_nivel_name,category_id,category_name,subcategory_id,subcategory_name,price_corrected
0,4241.0,"Aceite de oliva 0,4º Hacendado",Garrafa 5.0 l,19.95,3.99,L,420,Aceite de oliva,12,"Aceite, especias y salsas",112,"Aceite, vinagre y sal",False
1,4240.0,"Aceite de oliva 0,4º Hacendado",Botella 1.0 l,4.45,4.45,L,420,Aceite de oliva,12,"Aceite, especias y salsas",112,"Aceite, vinagre y sal",False


In [918]:
df_mercadona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        4803 non-null   float64
 1   name                      4803 non-null   object 
 2   description               4803 non-null   object 
 3   price                     4803 non-null   float64
 4   reference_price           4803 non-null   float64
 5   reference_unit            4803 non-null   object 
 6   subcategory_2_nivel_id    4803 non-null   int64  
 7   subcategory_2_nivel_name  4803 non-null   object 
 8   category_id               4803 non-null   int64  
 9   category_name             4803 non-null   object 
 10  subcategory_id            4803 non-null   int64  
 11  subcategory_name          4803 non-null   object 
 12  price_corrected           4803 non-null   bool   
dtypes: bool(1), float64(3), int64(3), object(6)
memory usage: 455.1

In [919]:
df_carrefour = pd.read_csv('/content/limpio_carrefour.csv')
df_carrefour.head(2)

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date
0,Productos Frescos,Carnicería,Aves y Pollo,Pechuga de Pollo Entera Carrefour 1.1 kg aprox,1.1 kg,5.49,4.99,kg,2025-04-13
1,Productos Frescos,Carnicería,Aves y Pollo,Traseros de Pollo Carrefour 1.5 kg aprox,1.5 kg,4.03,2.69,kg,2025-04-13


In [920]:
df_carrefour.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9311 entries, 0 to 9310
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   category         9311 non-null   object 
 1   subcategory      9311 non-null   object 
 2   subsubcategory   9311 non-null   object 
 3   name             9311 non-null   object 
 4   description      7374 non-null   object 
 5   price            9311 non-null   float64
 6   reference_price  9311 non-null   float64
 7   reference_unit   9311 non-null   object 
 8   date             9311 non-null   object 
dtypes: float64(2), object(7)
memory usage: 654.8+ KB


# Creación del diccionario de categorias

En esta etapa preparamos el dataframe df_mercadona para construir un diccionario de categorías. Eliminamos las columnas con identificadores ('id', 'subcategory_2_nivel_id', 'subcategory_id', 'category_id'), ya que no son necesarias para el emparejamiento con otros supermercados y podrían causar confusión durante el análisis conjunto. Nuestro diccionario se basará exclusivamente en los campos descriptivos que contienen los nombres de las categorías y subcategorías, ya que son los que utilizaremos para realizar la unificación de estructuras.

In [921]:
df_mercadona = df_mercadona.drop(columns=['id', 'subcategory_2_nivel_id', 'subcategory_id', 'category_id'])
df_mercadona.head()

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected
0,"Aceite de oliva 0,4º Hacendado",Garrafa 5.0 l,19.95,3.99,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
1,"Aceite de oliva 0,4º Hacendado",Botella 1.0 l,4.45,4.45,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
2,Aceite de oliva virgen extra Hacendado,Garrafa 3.0 l,15.85,5.284,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
3,Aceite de oliva virgen extra Hacendado,Botella 1.0 l,5.55,5.55,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
4,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 0.75 l,6.55,8.734,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False


Creamos el diccionario de categorias basado en sistema de categorias de Mercadona

In [922]:
df_category = df_mercadona[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']].drop_duplicates().reset_index(drop=True)
df_category['category_id'] = df_category.index + 1
df_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva,1
1,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz",2
2,"Aceite, especias y salsas","Aceite, vinagre y sal",Vinagre y otros aderezos,3
3,"Aceite, especias y salsas","Aceite, vinagre y sal",Sal y bicarbonato,4
4,"Aceite, especias y salsas",Especias,Hierbas,5
...,...,...,...,...
438,Zumos,Fruta variada,Smoothie,439
439,Zumos,Melocotón y piña,Melocotón,440
440,Zumos,Melocotón y piña,Piña,441
441,Zumos,Naranja,Naranja,442


In [923]:
df_category.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 443 entries, 0 to 442
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   category_name             443 non-null    object
 1   subcategory_name          443 non-null    object
 2   subcategory_2_nivel_name  443 non-null    object
 3   category_id               443 non-null    int64 
dtypes: int64(1), object(3)
memory usage: 14.0+ KB


In [924]:
df_category.to_csv('category.csv', index=False, encoding='utf-8-sig')

Realizamos una unión con el diccionario df_category para añadir el identificador único category_id a cada producto de Mercadona.

In [925]:
df_mercadona = df_mercadona.merge(df_category, on=['category_name', 'subcategory_name', 'subcategory_2_nivel_name'], how='left')
df_mercadona.head()

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
0,"Aceite de oliva 0,4º Hacendado",Garrafa 5.0 l,19.95,3.99,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
1,"Aceite de oliva 0,4º Hacendado",Botella 1.0 l,4.45,4.45,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
2,Aceite de oliva virgen extra Hacendado,Garrafa 3.0 l,15.85,5.284,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
3,Aceite de oliva virgen extra Hacendado,Botella 1.0 l,5.55,5.55,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
4,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 0.75 l,6.55,8.734,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1


Antes de realizar la correspondencia con la estructura de Mercadona, exploramos el sistema de categorías utilizado por Carrefour

In [926]:
df_category_carrefour = df_carrefour[['category', 'subcategory', 'subsubcategory']].drop_duplicates().sort_values(by=['category', 'subcategory'])
df_category_carrefour

Unnamed: 0,category,subcategory,subsubcategory
3563,Bebidas,Aguas y Zumos,Agua de más de 2 litros
3578,Bebidas,Aguas y Zumos,Agua con gas
3598,Bebidas,Aguas y Zumos,Agua con sabor
3612,Bebidas,Aguas y Zumos,Zumos Refrigerados
6753,Bebidas,Aguas y Zumos,Zumos no Refrigerados
...,...,...,...
447,Productos Frescos,Verduras y hortalizas,Ensaladas y Verduras Preparadas
471,Productos Frescos,Verduras y hortalizas,Tomates y Pepinos
494,Productos Frescos,Verduras y hortalizas,Setas y Hongos
507,Productos Frescos,Verduras y hortalizas,Hierbas Aromáticas y especias


Observamos que utiliza tres niveles: categoría principal (category), subcategoria de primer nivel (subcategory) y subcategoría de sugundo nivel (subsubcategory). Para integrarlo con la estructura de Mercadona, será necesario realizar un trabajo de mapeo manual o semi-automático que permita unificar ambas taxonomías.

# Procesamiento de la categoría "Bebidas"

Comenzamos el mapeo entre categorías específicas de los supermercados. Analizamos la categoría de Carrefour "Bebidas" para identificar sus subcategorías. Observamos subcategorías como Aguas y Zumos, Alcoholes, Bodega, Cava y champagne, Cerveza, Licores y Cremas, Refrescos y Sidra. Posteriormente, extraemos todas las subcategorías existentes en el diccionario de Mercadona bajo las mismas categorias. Estas subcategorías servirán como base para realizar el mapeo de los productos de Carrefour al sistema de categorías de Mercadona.

In [927]:
df_category_carrefour[df_category_carrefour['category'] == 'Bebidas']

Unnamed: 0,category,subcategory,subsubcategory
3563,Bebidas,Aguas y Zumos,Agua de más de 2 litros
3578,Bebidas,Aguas y Zumos,Agua con gas
3598,Bebidas,Aguas y Zumos,Agua con sabor
3612,Bebidas,Aguas y Zumos,Zumos Refrigerados
6753,Bebidas,Aguas y Zumos,Zumos no Refrigerados
8845,Bebidas,Aguas y Zumos,Agua hasta 0.75 litros
8872,Bebidas,Aguas y Zumos,Agua de 0.75 a 2 litros
3644,Bebidas,Alcoholes,Ginebra
3696,Bebidas,Alcoholes,Whisky y Bourbon
3722,Bebidas,Alcoholes,Ron


In [928]:
current_category = df_category[df_category["category_name"] == "Agua y refrescos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
18,Agua y refrescos,Agua,Agua sin gas,19
19,Agua y refrescos,Agua,Agua con gas,20
20,Agua y refrescos,Agua,Gaseosa,21
21,Agua y refrescos,Isotónico y energético,Isotónico,22
22,Agua y refrescos,Isotónico y energético,Energético,23
23,Agua y refrescos,Refresco de cola,Cola clásica,24
24,Agua y refrescos,Refresco de cola,Cola zero,25
25,Agua y refrescos,Refresco de cola,Cola sin cafeína,26
26,Agua y refrescos,Refresco de naranja y de limón,Limón,27
27,Agua y refrescos,Refresco de naranja y de limón,Lima limón,28


In [929]:
df_carrefour[df_carrefour['subsubcategory'] == "Agua con sabor"]

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date
3598,Bebidas,Aguas y Zumos,Agua con sabor,Bebida refrescante aromatizada con agua minera...,1.5 l,1.31,0.87,l,2025-04-14
3599,Bebidas,Aguas y Zumos,Agua con sabor,Bebida refrescante aromatizada con agua minera...,1.5 l,1.31,0.87,l,2025-04-14
3600,Bebidas,Aguas y Zumos,Agua con sabor,Bebida refrescante aromatizada con agua minera...,1.5 l,1.31,0.87,l,2025-04-14
3601,Bebidas,Aguas y Zumos,Agua con sabor,Font Vella La Limonada con zumo de limón sin g...,botella,1.91,1.53,l,2025-04-14
3602,Bebidas,Aguas y Zumos,Agua con sabor,Agua de coco 100% natural ecológico Carrefour ...,1 l,2.89,2.89,l,2025-04-14
3603,Bebidas,Aguas y Zumos,Agua con sabor,Bebida refrescante aromatizada con agua minera...,1.5 l,1.31,0.87,l,2025-04-14
3604,Bebidas,Aguas y Zumos,Agua con sabor,Agua mineral Font Vella Sensación con zumo de ...,25 l,1.94,1.55,l,2025-04-14
3605,Bebidas,Aguas y Zumos,Agua con sabor,Font Vella La Limonada con zumo de limón sin g...,botella,1.91,1.53,l,2025-04-14
3606,Bebidas,Aguas y Zumos,Agua con sabor,Agua mineral Font Vella Sensación con zumo de ...,1.25 l,1.94,1.55,l,2025-04-14
3607,Bebidas,Aguas y Zumos,Agua con sabor,Agua con gas Maison Perrier sabor limón 50 cl,,1.18,2.36,l,2025-04-14


In [930]:
# Creamos tres columnas con valores nulos
df_carrefour['category_name'] = pd.NA
df_carrefour['subcategory_name'] = pd.NA
df_carrefour['subcategory_2_nivel_name'] = pd.NA

Creamos una función que va a clasificar los productos de la subcategoría en niveles jerárquicos según su nombre. Por ejemplo, si el nombre de cola contiene la palabra 'sin cafeína', se considera como 'Cola sin cafeína'. La función devuelve una tupla con category_name, subcategory_name y subcategory_2_nivel_name.

In [931]:
def clasificar_category_aguas(row):
    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Té':
        return ('Agua y refrescos', 'Refresco de té y sin gas', 'Té')

    if subcat in ['Tónica', 'Bitter y Ginger Ale']:
        return ('Agua y refrescos', 'Tónica y bitter', 'Tónica y bitter')

    if subcat == 'Energéticas':
        return ('Agua y refrescos', 'Isotónico y energético', 'Energético')

    if subcat == 'Gaseosa':
        return ('Agua y refrescos', 'Agua', 'Gaseosa')

    if subcat == 'Kombucha':
        return ('Agua y refrescos', 'Refresco de té y sin gas', 'Otros refrescos sin gas')

    if subcat == 'Isotónicas':
        return ('Agua y refrescos', 'Isotónico y energético', 'Isotónico')

    if subcat == 'Agua con gas':
        return ('Agua y refrescos', 'Agua', 'Agua con gas')

    if subcat in ['Agua de más de 2 litros','Agua hasta 0.75 litros', 'Agua de 0.75 a 2 litros']:
        if 'gas' in name:
            return ('Agua y refrescos', 'Agua', 'Agua con gas')
        else:
            return ('Agua y refrescos', 'Agua', 'Agua sin gas')

    if subcat == 'Colas':
        if 'zero cafeína' in name or 'zero zero' in name or 'sin cafeína' in name:
            return ('Agua y refrescos', 'Refresco de cola', 'Cola sin cafeína')
        elif 'zero azúcar' in name or 'azúcar' in name:
            return ('Agua y refrescos', 'Refresco de cola', 'Cola zero')
        else:
            return ('Agua y refrescos', 'Refresco de cola', 'Cola clásica')

    if subcat in ['Sabores con Gas', 'Sabores sin Gas', 'Agua con sabor']:
        if 'naranja' in name:
            return ('Agua y refrescos', 'Refresco de naranja y de limón', 'Naranja')
        elif 'lima' in name:
            return ('Agua y refrescos', 'Refresco de naranja y de limón', 'Lima limón')
        else:
            return ('Agua y refrescos', 'Refresco de naranja y de limón', 'Limón')

    return (pd.NA, pd.NA, pd.NA)


Creamos una función carrefour_update que permite aplicar la clasificación a los productos de una subcategoría específica del DataFrame df_carrefour. Esta función crea una máscara para filtrar solo las filas correspondientes a la subcategoría indicada, genera una copia temporal del DataFrame (df_temp) y le aplica la función de clasificación clasificar_category fila por fila (axis=1).
Finalmente, se actualiza el DataFrame original (df_carrefour) con las nuevas columnas generadas.

In [932]:
def carrefour_update (subcategory, clasificar_category):
    mask = df_carrefour['subcategory'] == subcategory
    df_temp = df_carrefour.loc[mask].copy()
    df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(clasificar_category, axis=1, result_type='expand')
    df_carrefour.update(df_temp)
    df_carrefour[df_carrefour['subcategory'] == subcategory].info()

In [933]:
carrefour_update('Refrescos', clasificar_category_aguas)

<class 'pandas.core.frame.DataFrame'>
Index: 281 entries, 3372 to 6752
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  281 non-null    object 
 1   subcategory               281 non-null    object 
 2   subsubcategory            281 non-null    object 
 3   name                      281 non-null    object 
 4   description               273 non-null    object 
 5   price                     281 non-null    float64
 6   reference_price           281 non-null    float64
 7   reference_unit            281 non-null    object 
 8   date                      281 non-null    object 
 9   category_name             281 non-null    object 
 10  subcategory_name          281 non-null    object 
 11  subcategory_2_nivel_name  281 non-null    object 
dtypes: float64(2), object(10)
memory usage: 28.5+ KB


In [934]:
carrefour_update('Aguas y Zumos', clasificar_category_aguas)

<class 'pandas.core.frame.DataFrame'>
Index: 155 entries, 3563 to 8895
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  155 non-null    object 
 1   subcategory               155 non-null    object 
 2   subsubcategory            155 non-null    object 
 3   name                      155 non-null    object 
 4   description               114 non-null    object 
 5   price                     155 non-null    float64
 6   reference_price           155 non-null    float64
 7   reference_unit            155 non-null    object 
 8   date                      155 non-null    object 
 9   category_name             100 non-null    object 
 10  subcategory_name          100 non-null    object 
 11  subcategory_2_nivel_name  100 non-null    object 
dtypes: float64(2), object(10)
memory usage: 15.7+ KB


In [935]:
current_category = df_category[df_category["category_name"] == "Zumos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
436,Zumos,Fruta variada,Fruta + leche,437
437,Zumos,Fruta variada,Fruta variada y otros sabores,438
438,Zumos,Fruta variada,Smoothie,439
439,Zumos,Melocotón y piña,Melocotón,440
440,Zumos,Melocotón y piña,Piña,441
441,Zumos,Naranja,Naranja,442
442,Zumos,Tomate y otros sabores,Otros sabores,443


In [936]:
def clasificar_category_zumos(row):
    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat in ['Zumos no Refrigerados', 'Zumos Refrigerados']:
        if 'leche' in name:
            return ('Zumos', 'Fruta variada', 'Fruta + leche')
        elif 'smoothie' in name:
            return ('Zumos', 'Fruta variada', 'Smoothie')
        elif 'bebida' in name:
            return ('Zumos', 'Fruta variada', 'Fruta variada y otros sabores')
        elif 'melocotón' in name:
            return ('Zumos', 'Melocotón y piña', 'Melocotón')
        elif 'piña' in name:
            return ('Zumos', 'Melocotón y piña', 'Piña')
        elif 'naranja' in name:
            return ('Zumos', 'Naranja', 'Naranja')
        else:
            return ('Zumos', 'Tomate y otros sabores', 'Otros sabores')

    return (pd.NA, pd.NA, pd.NA)

In [937]:
carrefour_update('Aguas y Zumos', clasificar_category_zumos)

<class 'pandas.core.frame.DataFrame'>
Index: 155 entries, 3563 to 8895
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  155 non-null    object 
 1   subcategory               155 non-null    object 
 2   subsubcategory            155 non-null    object 
 3   name                      155 non-null    object 
 4   description               114 non-null    object 
 5   price                     155 non-null    float64
 6   reference_price           155 non-null    float64
 7   reference_unit            155 non-null    object 
 8   date                      155 non-null    object 
 9   category_name             155 non-null    object 
 10  subcategory_name          155 non-null    object 
 11  subcategory_2_nivel_name  155 non-null    object 
dtypes: float64(2), object(10)
memory usage: 15.7+ KB


In [938]:
current_category = df_category[df_category["category_name"] == 'Bodega']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
81,Bodega,Cerveza,Cerveza lata,82
82,Bodega,Cerveza,Cerveza botella y botellín,83
83,Bodega,Cerveza,Combinado de cerveza,84
84,Bodega,Cerveza sin alcohol,Cerveza botella y botellín,85
85,Bodega,Cerveza sin alcohol,Cerveza lata,86
86,Bodega,Licores,Vermouth y aperitivos,87
87,Bodega,Licores,Ginebra,88
88,Bodega,Licores,Brandy,89
89,Bodega,Licores,Whisky,90
90,Bodega,Licores,Ron,91


In [939]:
df_category_carrefour[(df_category_carrefour['category'] == 'Bebidas') & (df_category_carrefour['subcategory'] != 'Refrescos') & (df_category_carrefour['subcategory'] != 'Aguas y Zumos')]

Unnamed: 0,category,subcategory,subsubcategory
3644,Bebidas,Alcoholes,Ginebra
3696,Bebidas,Alcoholes,Whisky y Bourbon
3722,Bebidas,Alcoholes,Ron
3749,Bebidas,Alcoholes,Vodka
3759,Bebidas,Alcoholes,Tequila
3762,Bebidas,Alcoholes,Vermouth
3785,Bebidas,Alcoholes,Cóckteles y combinados
3813,Bebidas,Alcoholes,Sin Alcohol
6802,Bebidas,Alcoholes,Brandy y Coñac
3189,Bebidas,Bodega,Vinos Tintos


In [940]:
df_mercadona[df_mercadona['name'].str.contains('tequila', case=False, na=False)]

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
965,Tequila reposado Olmeca,Botella 0.7 l,12.5,17.858,L,Otros licores,Bodega,Licores,False,95


In [941]:
def clasificar_category_cerveza(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat in ['Rubia', 'Artesanas', 'Radler Clara']:
        if 'limón' in name:
            return ('Bodega', 'Cerveza', 'Combinado de cerveza')

    if subcat in ['Rubia', 'Tostada - Roja', 'Artesanas', 'Negra', 'Radler Clara']:
        if 'lata' in name:
            return ('Bodega', 'Cerveza', 'Cerveza lata')
        else:
            return ('Bodega', 'Cerveza', 'Cerveza botella y botellín')

    if subcat == 'Sin Alcohol':
        if 'lata' in name:
            return ('Bodega', 'Cerveza sin alcohol', 'Cerveza lata')
        else:
            return ('Bodega', 'Cerveza sin alcohol', 'Cerveza botella y botellín')


    return (pd.NA, pd.NA, pd.NA)

In [942]:
def clasificar_category_cava(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Cavas':
        if 'brut' in name:
            return ('Bodega', 'Sidra y cava', 'Cava brut')
        else:
            return ('Bodega', 'Sidra y cava', 'Cava semi seco')

    if subcat == 'Champagne':
        return ('Bodega', 'Vino lambrusco y espumoso', 'Vino lambrusco y espumoso')

    if subcat in ['Cider', 'Natural', 'Sin Alcohol', 'Achampanada']:
        return ('Bodega', 'Sidra y cava', 'Sidra')


    return (pd.NA, pd.NA, pd.NA)

In [943]:
def clasificar_category_bodega(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Vermouth':
        return ('Bodega', 'Licores', 'Vermouth y aperitivos')

    if subcat == 'Vinos Rosados':
        return ('Bodega', 'Vino rosado', 'Vino rosado')

    if subcat == 'Vinos de Mesa':
        if 'tinto' in name:
            return ('Bodega', 'Vino tinto', 'Vino tinto de mesa')
        elif 'blanco' in name:
            return ('Bodega', 'Vino blanco', 'Vino blanco de mesa')
        else:
            return ('Bodega', 'Vino rosado', 'Vino rosado')

    if subcat == 'Brandy y Coñac':
        return ('Bodega', 'Licores', 'Brandy')

    if subcat == 'Sangría y Tinto de Verano':
        return ('Bodega', 'Tinto de verano y sangría', 'Tinto de verano y sangría')

    if subcat == 'Vinos Tintos':
        if 'rioja' in name:
            return ('Bodega', 'Vino tinto', 'Rioja')
        elif 'castilla la mancha' in name:
            return ('Bodega', 'Vino tinto', 'Castilla la Mancha')
        elif 'ribera del duero' in name:
            return ('Bodega', 'Vino tinto', 'Ribera del Duero')
        elif 'de mesa' in name:
            return ('Bodega', 'Vino tinto', 'Vino tinto de mesa')
        else:
            return ('Bodega', 'Vino tinto', 'Otros vinos tintos')

    if subcat == 'Vinos Blancos':
        if 'rueda' in name:
            return ('Bodega', 'Vino blanco', 'Rueda')
        elif 'semidulce' in name:
            return ('Bodega', 'Vino blanco', 'Vinos semidulces')
        elif 'dulce' in name or 'mosto' in name or 'mistela' in name:
            return ('Bodega', 'Vino blanco', 'Vinos dulces y mosto')
        elif 'de mesa' in name:
            return ('Bodega', 'Vino blanco', 'Vino blanco de mesa')
        else:
            return ('Bodega', 'Vino blanco', 'Rioja y otras denominaciones')

    if subcat == 'Vinos Generosos y Dulces':
        return ('Bodega', 'Vino blanco', 'Vinos dulces y mosto')

    if subcat in ['Vinos internacionales', 'Estuches de vino']:
      if 'tinto' in name and 'mesa' in name:
          return ('Bodega', 'Vino tinto', 'Vino tinto de mesa')
      elif 'tinto' in name:
          return ('Bodega', 'Vino tinto', 'Otros vinos tintos')
      elif 'rosado' in name:
          return ('Bodega', 'Vino rosado', 'Vino rosado')
      elif 'blanco' in name and 'mesa' in name:
          return ('Bodega', 'Vino blanco', 'Vino blanco de mesa')
      elif 'blanco' in name and 'semidulce' in name:
          return ('Bodega', 'Vino blanco', 'Vinos semidulces')
      elif 'blanco' in name and ('dulce' in name or 'mosto' in name or 'mistela' in name):
          return ('Bodega', 'Vino blanco', 'Vinos dulces y mosto')
      else:
          return ('Bodega', 'Vino blanco', 'Rioja y otras denominaciones')

    if subcat == 'Ginebra':
        return ('Bodega', 'Licores', 'Ginebra')

    if subcat == 'Vodka':
        return ('Bodega', 'Licores', 'Vodka')

    if subcat == 'Ron':
        return ('Bodega', 'Licores', 'Ron')

    if subcat == 'Whisky y Bourbon':
        return ('Bodega', 'Licores', 'Whisky')

    if subcat == 'Cremas':
        return ('Bodega', 'Licores', 'Cremas')

    if subcat in ['Licores Sin Alcohol', 'Sin Alcohol']:
        return ('Bodega', 'Licores', 'Licores sin alcohol')

    if subcat == 'Anís y Chinchón':
            return ('Bodega', 'Licores', 'Anís')

    if subcat in ['Pacharán', 'Licores y Orujo', 'Tequila', 'Cóckteles y combinados']:
            return ('Bodega', 'Licores', 'Otros licores')

    return (pd.NA, pd.NA, pd.NA)

In [944]:
carrefour_update('Cerveza', clasificar_category_cerveza)

<class 'pandas.core.frame.DataFrame'>
Index: 123 entries, 3086 to 8844
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  123 non-null    object 
 1   subcategory               123 non-null    object 
 2   subsubcategory            123 non-null    object 
 3   name                      123 non-null    object 
 4   description               123 non-null    object 
 5   price                     123 non-null    float64
 6   reference_price           123 non-null    float64
 7   reference_unit            123 non-null    object 
 8   date                      123 non-null    object 
 9   category_name             123 non-null    object 
 10  subcategory_name          123 non-null    object 
 11  subcategory_2_nivel_name  123 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.5+ KB


Podemos ver que ya 123 productos ya han sido clasificados y vinculados con la nueva estructura jerárquica de categorías de Mercadona. Esto se refleja en las columnas category_name, subcategory_name y subcategory_2_nivel_name, que contienen 123 valores no nulos cada una.

Seguimos en la misma línea con el resto de subcategorías y categorías del catálogo de Carrefour.

In [945]:
carrefour_update('Cava y champagne', clasificar_category_cava)

<class 'pandas.core.frame.DataFrame'>
Index: 39 entries, 3819 to 3857
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  39 non-null     object 
 1   subcategory               39 non-null     object 
 2   subsubcategory            39 non-null     object 
 3   name                      39 non-null     object 
 4   description               2 non-null      object 
 5   price                     39 non-null     float64
 6   reference_price           39 non-null     float64
 7   reference_unit            39 non-null     object 
 8   date                      39 non-null     object 
 9   category_name             39 non-null     object 
 10  subcategory_name          39 non-null     object 
 11  subcategory_2_nivel_name  39 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.0+ KB


In [946]:
carrefour_update('Sidra', clasificar_category_cava)

<class 'pandas.core.frame.DataFrame'>
Index: 24 entries, 3925 to 6823
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  24 non-null     object 
 1   subcategory               24 non-null     object 
 2   subsubcategory            24 non-null     object 
 3   name                      24 non-null     object 
 4   description               15 non-null     object 
 5   price                     24 non-null     float64
 6   reference_price           24 non-null     float64
 7   reference_unit            24 non-null     object 
 8   date                      24 non-null     object 
 9   category_name             24 non-null     object 
 10  subcategory_name          24 non-null     object 
 11  subcategory_2_nivel_name  24 non-null     object 
dtypes: float64(2), object(10)
memory usage: 2.4+ KB


In [947]:
carrefour_update('Licores y Cremas', clasificar_category_bodega)

<class 'pandas.core.frame.DataFrame'>
Index: 68 entries, 3858 to 6817
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  68 non-null     object 
 1   subcategory               68 non-null     object 
 2   subsubcategory            68 non-null     object 
 3   name                      68 non-null     object 
 4   description               20 non-null     object 
 5   price                     68 non-null     float64
 6   reference_price           68 non-null     float64
 7   reference_unit            68 non-null     object 
 8   date                      68 non-null     object 
 9   category_name             68 non-null     object 
 10  subcategory_name          68 non-null     object 
 11  subcategory_2_nivel_name  68 non-null     object 
dtypes: float64(2), object(10)
memory usage: 6.9+ KB


In [948]:
carrefour_update('Alcoholes', clasificar_category_bodega)

<class 'pandas.core.frame.DataFrame'>
Index: 190 entries, 3644 to 6816
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  190 non-null    object 
 1   subcategory               190 non-null    object 
 2   subsubcategory            190 non-null    object 
 3   name                      190 non-null    object 
 4   description               77 non-null     object 
 5   price                     190 non-null    float64
 6   reference_price           190 non-null    float64
 7   reference_unit            190 non-null    object 
 8   date                      190 non-null    object 
 9   category_name             190 non-null    object 
 10  subcategory_name          190 non-null    object 
 11  subcategory_2_nivel_name  190 non-null    object 
dtypes: float64(2), object(10)
memory usage: 19.3+ KB


In [949]:
carrefour_update('Bodega', clasificar_category_bodega)

<class 'pandas.core.frame.DataFrame'>
Index: 189 entries, 3189 to 6662
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  189 non-null    object 
 1   subcategory               189 non-null    object 
 2   subsubcategory            189 non-null    object 
 3   name                      189 non-null    object 
 4   description               72 non-null     object 
 5   price                     189 non-null    float64
 6   reference_price           189 non-null    float64
 7   reference_unit            189 non-null    object 
 8   date                      189 non-null    object 
 9   category_name             189 non-null    object 
 10  subcategory_name          189 non-null    object 
 11  subcategory_2_nivel_name  189 non-null    object 
dtypes: float64(2), object(10)
memory usage: 19.2+ KB


Vamos a ver todas las categorias del Carrefour y de Mercadona

In [950]:
df_category['category_name'].unique()

array(['Aceite, especias y salsas', 'Agua y refrescos', 'Aperitivos',
       'Arroz, legumbres y pasta', 'Azúcar, caramelos y chocolate',
       'Bebé', 'Bodega', 'Cacao, café e infusiones', 'Carne',
       'Cereales y galletas', 'Charcutería y quesos', 'Congelados',
       'Conservas, caldos y cremas', 'Cuidado del cabello',
       'Cuidado facial y corporal', 'Fitoterapia y parafarmacia',
       'Fruta y verdura', 'Huevos, leche y mantequilla',
       'Limpieza y hogar', 'Maquillaje', 'Marisco y pescado', 'Mascotas',
       'Panadería y pastelería', 'Pizzas y platos preparados',
       'Postres y yogures', 'Zumos'], dtype=object)

In [951]:
df_carrefour['category'].unique()

array(['Productos Frescos', 'La Despensa', 'Bebidas', 'Limpieza y Hogar',
       'Perfumería e Higiene', 'Congelados', 'Bebé', 'Mascotas',
       'Parafarmacia'], dtype=object)

# Procesamiento de la categoría "La Despensa"

### Subcategoria "Alimentación´"

Vamos a procesear la proxima categoria de Carrefour

In [952]:
df_category_carrefour[df_category_carrefour['category'] == 'La Despensa'].head(60)

Unnamed: 0,category,subcategory,subsubcategory
1319,La Despensa,Alimentación,Aceites y vinagres
1343,La Despensa,Alimentación,Salsas y Tomate Frito
1389,La Despensa,Alimentación,Pastas
1445,La Despensa,Alimentación,Arroz y Cous Cous
1469,La Despensa,Alimentación,Legumbres
1509,La Despensa,Alimentación,Especias y Sazonadores
1553,La Despensa,Alimentación,Harinas y Levaduras
1592,La Despensa,Alimentación,Sales y Bicarbonatos
1616,La Despensa,Alimentación,Vitaminas y Complementos
1651,La Despensa,Alimentación,Semillas


In [953]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Alimentación']

Unnamed: 0,category,subcategory,subsubcategory
1319,La Despensa,Alimentación,Aceites y vinagres
1343,La Despensa,Alimentación,Salsas y Tomate Frito
1389,La Despensa,Alimentación,Pastas
1445,La Despensa,Alimentación,Arroz y Cous Cous
1469,La Despensa,Alimentación,Legumbres
1509,La Despensa,Alimentación,Especias y Sazonadores
1553,La Despensa,Alimentación,Harinas y Levaduras
1592,La Despensa,Alimentación,Sales y Bicarbonatos
1616,La Despensa,Alimentación,Vitaminas y Complementos
1651,La Despensa,Alimentación,Semillas


In [954]:
current_category = df_category[df_category["category_name"] == "Aceite, especias y salsas"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva,1
1,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz",2
2,"Aceite, especias y salsas","Aceite, vinagre y sal",Vinagre y otros aderezos,3
3,"Aceite, especias y salsas","Aceite, vinagre y sal",Sal y bicarbonato,4
4,"Aceite, especias y salsas",Especias,Hierbas,5
5,"Aceite, especias y salsas",Especias,Colorante y pimentón,6
6,"Aceite, especias y salsas",Especias,Pimienta,7
7,"Aceite, especias y salsas",Especias,Otras especias,8
8,"Aceite, especias y salsas",Especias,Sazonadores,9
9,"Aceite, especias y salsas","Mayonesa, ketchup y mostaza",Mayonesa,10


In [955]:
def clasificar_aceites(row):
    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Aceites y vinagres':
        if 'oliva' in name:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Aceite de oliva')
        elif 'girasol' in name or 'semillas' in name or 'maíz' in name:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Aceite de girasol, semillas y maíz')
        elif 'vinagre' in name or 'limón' in name:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Vinagre y otros aderezos')

    if subcat == 'Sales y Bicarbonatos':
        return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Sal y bicarbonato')

    if subcat == 'Salsas y Tomate Frito':
        if 'tomate' in name and 'frito' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Tomate frito')
        elif 'mayonesa' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Mayonesa')
        elif 'ketchup' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Ketchup')
        elif 'mostaza' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Mostaza')
        elif 'alioli' in name or 'ali-oli' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Allioli')
        elif 'soja' in name or 'teriyaki' in name or 'agridulce' in name or 'chili' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Salsas orientales')
        elif 'barbacoa' in name or 'piri piri' in name or 'burger' in name or 'curry' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Salsas para carnes')
        elif 'fresca' in name or 'pesto' in name or 'boloñesa' in name or 'carbonara' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Salsas para pasta')
        else:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Otras salsas')

    if subcat == 'Especias y Sazonadores':
        if 'sal' in name or 'bicarbonato' in name:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Sal y bicarbonato')
        elif 'pimienta' in name:
            return ('Aceite, especias y salsas', 'Especias', 'Pimienta')
        elif 'pimentón' in name or 'colorante' in name or 'azafrán' in name:
            return ('Aceite, especias y salsas', 'Especias', 'Colorante y pimentón')
        elif 'sazonador' in name or 'mezcla' in name:
            return ('Aceite, especias y salsas', 'Especias', 'Sazonadores')
        elif any(x in name for x in ['orégano', 'perejil', 'romero', 'laurel', 'tomillo', 'cilantro', 'eneldo', 'hierbas']):
            return ('Aceite, especias y salsas', 'Especias', 'Hierbas')
        else:
            return ('Aceite, especias y salsas', 'Especias', 'Otras especias')

    if subcat == 'Vino de Cocinar':
       return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Vinagre y otros aderezos')

    return (pd.NA, pd.NA, pd.NA)

In [956]:
carrefour_update('Alimentación', clasificar_aceites)

<class 'pandas.core.frame.DataFrame'>
Index: 379 entries, 1319 to 1697
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  379 non-null    object 
 1   subcategory               379 non-null    object 
 2   subsubcategory            379 non-null    object 
 3   name                      379 non-null    object 
 4   description               358 non-null    object 
 5   price                     379 non-null    float64
 6   reference_price           379 non-null    float64
 7   reference_unit            379 non-null    object 
 8   date                      379 non-null    object 
 9   category_name             140 non-null    object 
 10  subcategory_name          140 non-null    object 
 11  subcategory_2_nivel_name  140 non-null    object 
dtypes: float64(2), object(10)
memory usage: 38.5+ KB


In [957]:
# Verificación de los resultados
df_carrefour[df_carrefour['subsubcategory'] == 'Aceites y vinagres'][['name', 'category_name', 'subcategory_name', 'subcategory_2_nivel_name']].head(10)

Unnamed: 0,name,category_name,subcategory_name,subcategory_2_nivel_name
1319,Aceite de girasol Carrefour Classic' 1 l.,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz"
1320,Aceite de oliva virgen extra Carbonell 1 l.,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1321,Aceite de oliva suave 0.4º La Española 1 l,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1322,Aceite de oliva suave 0.4º Carrefour 1 l,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1323,Vinagre de vino blanco Carrefour 1 l.,"Aceite, especias y salsas","Aceite, vinagre y sal",Vinagre y otros aderezos
1324,Aceite de girasol para freír Carrefour garrafa...,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz"
1325,Aceite de oliva virgen extra hojiblanca Coosur...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1326,Aceite de oliva suave 0.4º La Masía garrafa 5 l,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1327,Aceite de oliva virgen extra Carbonell 5 l.,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1328,Aceite de oliva intenso 1º La Masía garrafa 5 l.,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva


In [958]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Alimentación']

Unnamed: 0,category,subcategory,subsubcategory
1319,La Despensa,Alimentación,Aceites y vinagres
1343,La Despensa,Alimentación,Salsas y Tomate Frito
1389,La Despensa,Alimentación,Pastas
1445,La Despensa,Alimentación,Arroz y Cous Cous
1469,La Despensa,Alimentación,Legumbres
1509,La Despensa,Alimentación,Especias y Sazonadores
1553,La Despensa,Alimentación,Harinas y Levaduras
1592,La Despensa,Alimentación,Sales y Bicarbonatos
1616,La Despensa,Alimentación,Vitaminas y Complementos
1651,La Despensa,Alimentación,Semillas


In [959]:
current_category = df_category[df_category["category_name"] == "Arroz, legumbres y pasta"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
41,"Arroz, legumbres y pasta",Arroz,Arroz,42
42,"Arroz, legumbres y pasta",Legumbres,Garbanzos,43
43,"Arroz, legumbres y pasta",Legumbres,Alubias,44
44,"Arroz, legumbres y pasta",Legumbres,Lentejas y otros,45
45,"Arroz, legumbres y pasta",Pasta y fideos,Fideos,46
46,"Arroz, legumbres y pasta",Pasta y fideos,"Macarrones, pajaritas y hélices",47
47,"Arroz, legumbres y pasta",Pasta y fideos,Spaghetti y tallarines,48
48,"Arroz, legumbres y pasta",Pasta y fideos,Pasta rellena,49
49,"Arroz, legumbres y pasta",Pasta y fideos,Fideos orientales,50
50,"Arroz, legumbres y pasta",Pasta y fideos,Lasaña y canelones,51


In [960]:
def clasificar_category_legumbres(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Arroz y Cous Cous':
        return ('Arroz, legumbres y pasta', 'Arroz', 'Arroz')

    if subcat == 'Legumbres':
        if 'garbanzo' in name:
            return ('Arroz, legumbres y pasta', 'Legumbres', 'Garbanzos')
        elif 'alubia' in name:
            return ('Arroz, legumbres y pasta', 'Legumbres', 'Alubias')
        else:
            return ('Arroz, legumbres y pasta', 'Legumbres', 'Lentejas y otros')

    if subcat == 'Pastas':
        if any(x in name for x in ['fideuá', 'fideo', 'estrellas', 'maravilla', 'piñones']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Fideos')
        elif any(x in name for x in ['pajaritas', 'penne', 'tortiglioni', 'hélices', 'macarrón', 'fusilli', 'trottole', 'tiburón']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Macarrones, pajaritas y hélices')
        elif any(x in name for x in ['tallarines', 'spaghetti', 'nidos', 'noodles', 'tagliatelle']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Spaghetti y tallarines')
        elif any(x in name for x in ['tortellini', 'ravioli', 'gnocchi', 'girasoles', 'medialunas']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Pasta rellena')
        elif 'orientales' in name:
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Fideos orientales')
        elif 'canelones' in name or 'lazaña' in name:
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Lasaña y canelones')
        else:
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Macarrones, pajaritas y hélices')

    return (pd.NA, pd.NA, pd.NA)

In [961]:
carrefour_update('Alimentación', clasificar_category_legumbres)

<class 'pandas.core.frame.DataFrame'>
Index: 379 entries, 1319 to 1697
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  379 non-null    object 
 1   subcategory               379 non-null    object 
 2   subsubcategory            379 non-null    object 
 3   name                      379 non-null    object 
 4   description               358 non-null    object 
 5   price                     379 non-null    float64
 6   reference_price           379 non-null    float64
 7   reference_unit            379 non-null    object 
 8   date                      379 non-null    object 
 9   category_name             260 non-null    object 
 10  subcategory_name          260 non-null    object 
 11  subcategory_2_nivel_name  260 non-null    object 
dtypes: float64(2), object(10)
memory usage: 38.5+ KB


In [962]:
df_mercadona[df_mercadona['name'].str.contains('Semillas', case=False, na=False)].head()

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
402,Mezcla semillas Hacendado,Paquete 0.2 kg,1.46,7.3,kg,Frutos secos,Aperitivos,Frutos secos y fruta desecada,False,37
407,Semillas de chía Hacendado,Paquete 0.15 kg,1.36,9.067,kg,Frutos secos,Aperitivos,Frutos secos y fruta desecada,False,37
413,Semillas sésamo tostado Hacendado,Paquete 0.15 kg,1.5,10.0,kg,Frutos secos,Aperitivos,Frutos secos y fruta desecada,False,37
416,Semillas lino dorado Hacendado,Paquete 0.15 kg,1.19,7.934,kg,Frutos secos,Aperitivos,Frutos secos y fruta desecada,False,37
428,"Combinado frutos secos, frutas desecadas y sem...",Paquete 0.2 kg,2.2,11.0,kg,Cocktails,Aperitivos,Frutos secos y fruta desecada,False,38


In [963]:
current_category = df_category[df_category["category_name"] == "Aperitivos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
32,Aperitivos,Aceitunas y encurtidos,Aceitunas verdes,33
33,Aperitivos,Aceitunas y encurtidos,Aceitunas negras,34
34,Aperitivos,Aceitunas y encurtidos,Cóctel y banderillas,35
35,Aperitivos,Aceitunas y encurtidos,Pepinillos y otros encurtidos,36
36,Aperitivos,Frutos secos y fruta desecada,Frutos secos,37
37,Aperitivos,Frutos secos y fruta desecada,Cocktails,38
38,Aperitivos,Frutos secos y fruta desecada,Fruta desecada,39
39,Aperitivos,Patatas fritas y snacks,Patatas fritas,40
40,Aperitivos,Patatas fritas y snacks,Snacks,41


In [964]:
def clasificar_semillas(row):
    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Semillas':
        if 'cocktail' in name or 'combinado' in name:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Cocktails')
        else:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Frutos secos')

    if subcat == 'Harinas y Levaduras':
        if 'harina' in name:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Harina')
        else:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Levadura y preparado repostería')

    return (pd.NA, pd.NA, pd.NA)

In [965]:
carrefour_update('Alimentación', clasificar_semillas)

<class 'pandas.core.frame.DataFrame'>
Index: 379 entries, 1319 to 1697
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  379 non-null    object 
 1   subcategory               379 non-null    object 
 2   subsubcategory            379 non-null    object 
 3   name                      379 non-null    object 
 4   description               358 non-null    object 
 5   price                     379 non-null    float64
 6   reference_price           379 non-null    float64
 7   reference_unit            379 non-null    object 
 8   date                      379 non-null    object 
 9   category_name             312 non-null    object 
 10  subcategory_name          312 non-null    object 
 11  subcategory_2_nivel_name  312 non-null    object 
dtypes: float64(2), object(10)
memory usage: 38.5+ KB


In [966]:
df_mercadona[df_mercadona['name'].str.contains('Comprimidos', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
2915,Comprimidos Vitaminas y Minerales Deliplus,Caja 0.0279 kg,3.0,10.153,100 g,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2917,Comprimidos efervescentes vitamina C y zinc De...,Tubo 0.08 kg,1.95,2.438,100 g,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2934,Comprimidos efervescentes magnesio Deliplus 30...,Tubo 0.078 kg,1.95,2.5,100 g,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2935,Comprimidos cabello y uñas Deliplus,Caja 0.024 kg,3.95,0.132,ud,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258


In [967]:
df_carrefour[df_carrefour['subsubcategory'] == 'Nutrición deportiva'].head()

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name
1664,La Despensa,Alimentación,Nutrición deportiva,Powerade Citrus con tapón sport botella 50 cl.,botella,1.62,3.24,l,2025-04-14,,,
1665,La Despensa,Alimentación,Nutrición deportiva,Barrita de proteína de suero de leche y avena ...,80 g,1.91,23.87,kg,2025-04-14,,,
1666,La Despensa,Alimentación,Nutrición deportiva,Crema de cacahuete suave alta en fibra y prote...,500 g,4.89,9.78,kg,2025-04-14,,,
1667,La Despensa,Alimentación,Nutrición deportiva,Barrita de avena brownie chocolate negro Carre...,50 g,1.12,22.4,kg,2025-04-14,,,
1668,La Despensa,Alimentación,Nutrición deportiva,Barrita de proteína con chocolate negro sabor ...,45 g,1.5,37.5,kg,2025-04-14,,,


In [968]:
df_mercadona[df_mercadona['subcategory_name'] == 'Fitoterapia'].head()

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
2912,Aceite árbol del té 100% puro Deliplus con pip...,Bote 0.01 l,3.0,30.0,100 ml,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2913,Colágeno soluble sabor limón Colagen,Bote 0.25 kg,5.3,2.12,100 g,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2914,Barritas con proteínas Enervit Sport sabor coc...,Caja 0.12 kg,2.95,24.584,kg,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2915,Comprimidos Vitaminas y Minerales Deliplus,Caja 0.0279 kg,3.0,10.153,100 g,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258
2916,Cápsulas Dormir Deliplus,Caja 0.024 kg,3.95,0.132,ud,Fitoterapia,Fitoterapia y parafarmacia,Fitoterapia,False,258


In [969]:
def clasificar_vitaminas(row):
    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat in ['Vitaminas y Complementos', 'Nutrición deportiva']:
        return ('Fitoterapia y parafarmacia', 'Fitoterapia', 'Fitoterapia')

    return (pd.NA, pd.NA, pd.NA)

In [970]:
carrefour_update('Alimentación', clasificar_vitaminas)

<class 'pandas.core.frame.DataFrame'>
Index: 379 entries, 1319 to 1697
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  379 non-null    object 
 1   subcategory               379 non-null    object 
 2   subsubcategory            379 non-null    object 
 3   name                      379 non-null    object 
 4   description               358 non-null    object 
 5   price                     379 non-null    float64
 6   reference_price           379 non-null    float64
 7   reference_unit            379 non-null    object 
 8   date                      379 non-null    object 
 9   category_name             379 non-null    object 
 10  subcategory_name          379 non-null    object 
 11  subcategory_2_nivel_name  379 non-null    object 
dtypes: float64(2), object(10)
memory usage: 38.5+ KB


In [971]:
df_category_carrefour[df_category_carrefour['category'] == 'La Despensa']['subcategory'].unique()

array(['Alimentación', 'Aperitivos', 'Conservas_Sopas y Precocinados',
       'Desayuno', 'Dulce', 'Huevos', 'Lácteos',
       'Panaderia_Bollería y Pastelería', 'Yogures y Postres'],
      dtype=object)

### Subcategoría "Aperitivos"

In [972]:
current_category = df_category[df_category["category_name"] == "Aperitivos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
32,Aperitivos,Aceitunas y encurtidos,Aceitunas verdes,33
33,Aperitivos,Aceitunas y encurtidos,Aceitunas negras,34
34,Aperitivos,Aceitunas y encurtidos,Cóctel y banderillas,35
35,Aperitivos,Aceitunas y encurtidos,Pepinillos y otros encurtidos,36
36,Aperitivos,Frutos secos y fruta desecada,Frutos secos,37
37,Aperitivos,Frutos secos y fruta desecada,Cocktails,38
38,Aperitivos,Frutos secos y fruta desecada,Fruta desecada,39
39,Aperitivos,Patatas fritas y snacks,Patatas fritas,40
40,Aperitivos,Patatas fritas y snacks,Snacks,41


In [973]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Aperitivos']

Unnamed: 0,category,subcategory,subsubcategory
2800,La Despensa,Aperitivos,Frutos Secos
2848,La Despensa,Aperitivos,Aceitunas y Encurtidos
2892,La Despensa,Aperitivos,Patatas Fritas
2938,La Despensa,Aperitivos,Snacks
2981,La Despensa,Aperitivos,Tortitas
3005,La Despensa,Aperitivos,Palomitas
3019,La Despensa,Aperitivos,Galletas Saladas
3028,La Despensa,Aperitivos,Frutas Desecadas
3078,La Despensa,Aperitivos,Torreznos y Cortezas


In [974]:
def clasificar_aperitivos(row):
    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Aceitunas y Encurtidos':
        if 'aceitunas verdes' in name:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Aceitunas verdes')
        elif 'aceitunas negras' in name:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Aceitunas negras')
        elif 'abanderillas' in name or 'mix' in name or 'cóctel' in name:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Cóctel y banderillas')
        else:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Pepinillos y otros encurtidos')

    if subcat == 'Frutos Secos':
        if 'cocktail' in name or 'combinado' in name:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Cocktails')
        else:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Frutos secos')

    if subcat == 'Patatas Fritas':
        return ('Aperitivos', 'Patatas fritas y snacks', 'Patatas fritas')

    if subcat in ['Snacks', 'Torreznos y Cortezas']:
        return ('Aperitivos', 'Patatas fritas y snacks', 'Snacks')

    if subcat == 'Frutas Desecadas':
        return ('Aperitivos', 'Frutos secos y fruta desecada', 'Fruta desecada')

    if subcat == 'Tortitas':
        return ('Cereales y galletas', 'Tortitas', 'Tortitas')

    if subcat == 'Galletas Saladas':
        return ('Cereales y galletas', 'Galletas', 'Galletas integrales y digestive')

    if subcat == 'Palomitas':
        return ('Aperitivos', 'Frutos secos y fruta desecada', 'Frutos secos')

    if subcat == 'Patatas fritas y aperitivos':
        if 'patata' in name or 'patatas' in name or 'patatinas' in name:
            return ('Aperitivos', 'Patatas fritas y snacks', 'Patatas fritas')
        else:
            return ('Aperitivos', 'Patatas fritas y snacks', 'Snacks')

    return (pd.NA, pd.NA, pd.NA)

In [975]:
current_category = df_category[df_category["category_name"] == 'Cereales y galletas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
138,Cereales y galletas,Cereales,Cereales,139
139,Cereales y galletas,Cereales,Cereales integrales y muesli,140
140,Cereales y galletas,Cereales,Barritas de cereales,141
141,Cereales y galletas,Galletas,Galletas desayuno,142
142,Cereales y galletas,Galletas,Galletas integrales y digestive,143
143,Cereales y galletas,Galletas,Con chocolate y rellenas,144
144,Cereales y galletas,Galletas,Galletas surtidas,145
145,Cereales y galletas,Tortitas,Tortitas,146


In [976]:
df_mercadona[df_mercadona['name'].str.contains('Torreznos', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
473,Torreznos sabor barbacoa Hacendado,Paquete 0.1 kg,1.55,15.5,kg,Snacks,Aperitivos,Patatas fritas y snacks,False,41
476,Torreznos Hacendado,Paquete 0.12 kg,1.65,13.75,kg,Snacks,Aperitivos,Patatas fritas y snacks,False,41


In [977]:
carrefour_update('Aperitivos', clasificar_aperitivos)

<class 'pandas.core.frame.DataFrame'>
Index: 286 entries, 2800 to 3085
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  286 non-null    object 
 1   subcategory               286 non-null    object 
 2   subsubcategory            286 non-null    object 
 3   name                      286 non-null    object 
 4   description               285 non-null    object 
 5   price                     286 non-null    float64
 6   reference_price           286 non-null    float64
 7   reference_unit            286 non-null    object 
 8   date                      286 non-null    object 
 9   category_name             286 non-null    object 
 10  subcategory_name          286 non-null    object 
 11  subcategory_2_nivel_name  286 non-null    object 
dtypes: float64(2), object(10)
memory usage: 29.0+ KB


### Subcategoría "Conservas_Sopas y Precocinados"

In [978]:
current_category = df_category[df_category["category_name"] == 'Conservas, caldos y cremas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
190,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Atún,191
191,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Bonito,192
192,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Caballa y melva,193
193,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Sardinas,194
194,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Otras conservas de pescado,195
195,"Conservas, caldos y cremas",Berberechos y mejillones,Berberechos y almejas,196
196,"Conservas, caldos y cremas",Berberechos y mejillones,Mejillones,197
197,"Conservas, caldos y cremas",Conservas de verdura y frutas,Conservas verdura,198
198,"Conservas, caldos y cremas",Conservas de verdura y frutas,Conservas fruta,199
199,"Conservas, caldos y cremas",Gazpacho y cremas,Gazpacho y salmorejo,200


In [979]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Conservas_Sopas y Precocinados']

Unnamed: 0,category,subcategory,subsubcategory
8446,La Despensa,Conservas_Sopas y Precocinados,Conservas de Pescado y Marisco
8503,La Despensa,Conservas_Sopas y Precocinados,Pizzas
8560,La Despensa,Conservas_Sopas y Precocinados,Platos Preparados
8604,La Despensa,Conservas_Sopas y Precocinados,Platos Tradicionales
8636,La Despensa,Conservas_Sopas y Precocinados,Conservas de Vegetales
8708,La Despensa,Conservas_Sopas y Precocinados,Gazpacho y Salmorejo
8731,La Despensa,Conservas_Sopas y Precocinados,Conservas de Frutas
8750,La Despensa,Conservas_Sopas y Precocinados,Tortillas_Empanadillas y Sandwiches
8780,La Despensa,Conservas_Sopas y Precocinados,Conservas de Tomate
8812,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne


In [980]:
def clasificar_conservas(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Conservas de Pescado y Marisco':
        if 'mejillones' in name:
            return ('Conservas, caldos y cremas', 'Berberechos y mejillones', 'Mejillones')
        elif 'berberechos' in name or 'almejas' in name:
            return ('Conservas, caldos y cremas', 'Berberechos y mejillones', 'Berberechos y almejas')
        elif 'atún' in name:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Atún')
        elif 'bonito' in name:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Bonito')
        elif 'caballa' in name or 'melva' in name:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Caballa y melva')
        elif 'sardina' in name or 'sardinilla' in name:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Sardinas')
        else:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Otras conservas de pescado')

    if subcat == 'Conservas de Vegetales':
        return ('Conservas, caldos y cremas', 'Conservas de verdura y frutas', 'Conservas verdura')

    if subcat == 'Gazpacho y Salmorejo':
        return ('Conservas, caldos y cremas', 'Gazpacho y cremas', 'Gazpacho y salmorejo')

    if subcat == 'Conservas de Tomate':
            return ('Conservas, caldos y cremas', 'Tomate', 'Tomate')

    if subcat == 'Conservas de Frutas':
        return ('Conservas, caldos y cremas', 'Conservas de verdura y frutas', 'Conservas fruta')

    if subcat == 'Caldos_Sopas y Pure':
        if 'en pastillas' in name:
            return ('Conservas, caldos y cremas', 'Sopa y caldo', 'Caldo en pastillas')
        elif 'caldo' in name:
            return ('Conservas, caldos y cremas', 'Sopa y caldo', 'Caldo líquido')
        elif 'crema' in name or 'pure' in name:
            return ('Conservas, caldos y cremas', 'Gazpacho y cremas', 'Cremas y puré')
        else:
            return ('Conservas, caldos y cremas', 'Sopa y caldo', 'Sopa')

    if subcat == 'Conservas de Carne':
        if 'salchichas' in name:
            return ('Charcutería y quesos', 'Bacón y salchichas', 'Salchichas')
        elif 'magro' in name and 'adobado' in name:
            return ('Carne', 'Empanados y elaborados', 'Empanados y elaborados')
        elif 'magro de cerdo' in name or 'crema de Crema de jamón' in name:
            return ('Carne', 'Empanados y elaborados', 'Empanados y elaborados')
        else:
            return ('Carne', 'Empanados y elaborados', 'Empanados y elaborados')


    return (pd.NA, pd.NA, pd.NA)

In [981]:
carrefour_update('Conservas_Sopas y Precocinados', clasificar_conservas)

<class 'pandas.core.frame.DataFrame'>
Index: 425 entries, 8446 to 9303
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  425 non-null    object 
 1   subcategory               425 non-null    object 
 2   subsubcategory            425 non-null    object 
 3   name                      425 non-null    object 
 4   description               411 non-null    object 
 5   price                     425 non-null    float64
 6   reference_price           425 non-null    float64
 7   reference_unit            425 non-null    object 
 8   date                      425 non-null    object 
 9   category_name             262 non-null    object 
 10  subcategory_name          262 non-null    object 
 11  subcategory_2_nivel_name  262 non-null    object 
dtypes: float64(2), object(10)
memory usage: 43.2+ KB


In [982]:
df_carrefour[df_carrefour['subsubcategory'] == 'Conservas de Carne']

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name
8812,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Salchichas Cocktail ahumadas Sensation Carrefo...,250 g,2.65,10.6,kg,2025-04-16,Charcutería y quesos,Bacón y salchichas,Salchichas
8813,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Pechuga de pollo al natural Classic Carrefour ...,pack,2.19,26.07,kg,2025-04-16,Carne,Empanados y elaborados,Empanados y elaborados
8814,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Crema de jamón york Iberitos 250 g.,250 g,2.59,10.36,kg,2025-04-16,Carne,Empanados y elaborados,Empanados y elaborados
8815,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Salchichas ahumadas tipo Frankfurter Original ...,250 g,2.49,9.96,kg,2025-04-16,Charcutería y quesos,Bacón y salchichas,Salchichas
8816,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Salchichas tipo Bockwurst ahumadas Original Ca...,250 g,2.15,8.6,kg,2025-04-16,Charcutería y quesos,Bacón y salchichas,Salchichas
8817,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Magro de cerdo cocido Iberitos lata de 200 g.,lata,3.05,15.25,kg,2025-04-16,Carne,Empanados y elaborados,Empanados y elaborados
8818,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Pechuga de pavo al punto de sal Classic Carref...,pack,2.35,27.98,kg,2025-04-16,Carne,Empanados y elaborados,Empanados y elaborados
8819,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Pechuga de pollo en aceite Classic Carrefour p...,pack,2.35,27.98,kg,2025-04-16,Carne,Empanados y elaborados,Empanados y elaborados
8820,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Salchichas tipo Bockwurst ahumadas Original Ca...,720 g,6.05,8.4,kg,2025-04-16,Charcutería y quesos,Bacón y salchichas,Salchichas
8821,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne,Salchichas hot dog ahumadas y sin piel Classic...,300 g,3.55,11.83,kg,2025-04-16,Charcutería y quesos,Bacón y salchichas,Salchichas


In [983]:
df_mercadona[df_mercadona['name'].str.contains('Magro', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
377,Berenjenas de Almagro aliñada Antonio,Bote 0.8 kg,3.89,11.115,kg,Pepinillos y otros encurtidos,Aperitivos,Aceitunas y encurtidos,False,36
1269,Fiambre de magro de cerdo adobado,Paquete 0.37 kg,2.68,7.244,kg,Cerdo,Carne,Cerdo,False,130
1295,Longaniza magro fresca,Bandeja 0.535 kg,3.37,6.3,kg,Embutido,Carne,Embutido,False,133
1361,Fiambre de magro de cerdo adobado,Paquete 0.37 kg,2.68,7.244,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1511,Fiambre magro sándwich Hacendado lonchas,Paquete 0.3 kg,1.85,6.167,kg,Jamón cocido,Charcutería y quesos,Aves y jamón cocido,False,148
1513,Magro de cerdo cocido Coren,Lata 0.24 kg,2.69,11.209,kg,Jamón cocido,Charcutería y quesos,Aves y jamón cocido,False,148


In [984]:
df_mercadona[df_mercadona['subcategory_2_nivel_name'] == 'Empanados y elaborados']

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
1350,"Brochetas de pollo, pimiento verde y tocino de...",Bandeja 0.37 kg,3.14,8.5,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1351,Flautas de pollo y queso,Bandeja 0.28 kg,2.2,8.059,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1352,Flautas de bacón y queso,Bandeja 0.28 kg,2.2,7.972,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1353,Filetes lomo de cerdo adobado,Bandeja 0.47 kg,3.29,7.0,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1354,Filetes lomo de cerdo adobado familiar,Bandeja 0.9 kg,6.08,6.75,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1355,San Jacobos de cerdo sin gluten,Bandeja 0.4 kg,2.52,6.3,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1356,Filetes pechuga de pollo finas hierbas marinadas,Bandeja 0.65 kg,4.81,7.4,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1357,Filetes pechuga de pollo marinadas empanadas s...,Bandeja 0.36 kg,2.81,7.8,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1358,Pinchos de cerdo sin varilla,Bandeja 0.51 kg,4.05,7.95,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138
1359,Medallones preparado de solomillo cerdo provenzal,Bandeja 0.4 kg,3.96,9.9,kg,Empanados y elaborados,Carne,Empanados y elaborados,False,138


In [985]:
df_category['category_name'].unique()

array(['Aceite, especias y salsas', 'Agua y refrescos', 'Aperitivos',
       'Arroz, legumbres y pasta', 'Azúcar, caramelos y chocolate',
       'Bebé', 'Bodega', 'Cacao, café e infusiones', 'Carne',
       'Cereales y galletas', 'Charcutería y quesos', 'Congelados',
       'Conservas, caldos y cremas', 'Cuidado del cabello',
       'Cuidado facial y corporal', 'Fitoterapia y parafarmacia',
       'Fruta y verdura', 'Huevos, leche y mantequilla',
       'Limpieza y hogar', 'Maquillaje', 'Marisco y pescado', 'Mascotas',
       'Panadería y pastelería', 'Pizzas y platos preparados',
       'Postres y yogures', 'Zumos'], dtype=object)

In [986]:
current_category = df_category[df_category["category_name"] == 'Pizzas y platos preparados']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
404,Pizzas y platos preparados,Listo para Comer,Platos calientes,405
405,Pizzas y platos preparados,Listo para Comer,Platos fríos,406
406,Pizzas y platos preparados,Pizzas,Pizzas refrigeradas,407
407,Pizzas y platos preparados,Pizzas,Pizzas congeladas,408
408,Pizzas y platos preparados,Pizzas,Base de pizza,409
409,Pizzas y platos preparados,Pizzas,"Roscas, quiche y baguettes",410
410,Pizzas y platos preparados,Platos preparados calientes,Pasta,411
411,Pizzas y platos preparados,Platos preparados calientes,Arroz,412
412,Pizzas y platos preparados,Platos preparados calientes,Carne,413
413,Pizzas y platos preparados,Platos preparados calientes,Tortilla,414


In [987]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Conservas_Sopas y Precocinados']

Unnamed: 0,category,subcategory,subsubcategory
8446,La Despensa,Conservas_Sopas y Precocinados,Conservas de Pescado y Marisco
8503,La Despensa,Conservas_Sopas y Precocinados,Pizzas
8560,La Despensa,Conservas_Sopas y Precocinados,Platos Preparados
8604,La Despensa,Conservas_Sopas y Precocinados,Platos Tradicionales
8636,La Despensa,Conservas_Sopas y Precocinados,Conservas de Vegetales
8708,La Despensa,Conservas_Sopas y Precocinados,Gazpacho y Salmorejo
8731,La Despensa,Conservas_Sopas y Precocinados,Conservas de Frutas
8750,La Despensa,Conservas_Sopas y Precocinados,Tortillas_Empanadillas y Sandwiches
8780,La Despensa,Conservas_Sopas y Precocinados,Conservas de Tomate
8812,La Despensa,Conservas_Sopas y Precocinados,Conservas de Carne


Nos queda encontrar las categorías adecuadas para cuatro subsubcategorías en las que vemos productos como pizza y platos preparados.

In [988]:
def clasificar_preparados(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Pizzas':
        if 'ultracongelada' in name or 'congelada' in name:
            return ('Pizzas y platos preparados', 'Pizzas', 'Pizzas congeladas')
        elif any(x in name for x in ['piadinas', 'base', 'bases', 'cocas', 'masa']):
            return ('Pizzas y platos preparados', 'Pizzas', 'Base de pizza')
        else:
            return ('Pizzas y platos preparados', 'Pizzas', 'Pizzas refrigeradas')

    if subcat in ['Platos Preparados', 'Platos Tradicionales']:
        if 'ensaladilla' in name or 'ensalada' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Ensaladilla')
        elif 'sándwich' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Sándwich')
        elif 'hummus' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Hummus y otros')
        else:
            return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos fríos')

    if subcat == 'Tortillas_Empanadillas y Sandwiches':
        if 'tortilla' in name:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Tortilla')
        if 'sándwich' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Sándwich')
        else:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Otros')


    return (pd.NA, pd.NA, pd.NA)

In [989]:
carrefour_update('Conservas_Sopas y Precocinados', clasificar_preparados)

<class 'pandas.core.frame.DataFrame'>
Index: 425 entries, 8446 to 9303
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  425 non-null    object 
 1   subcategory               425 non-null    object 
 2   subsubcategory            425 non-null    object 
 3   name                      425 non-null    object 
 4   description               411 non-null    object 
 5   price                     425 non-null    float64
 6   reference_price           425 non-null    float64
 7   reference_unit            425 non-null    object 
 8   date                      425 non-null    object 
 9   category_name             425 non-null    object 
 10  subcategory_name          425 non-null    object 
 11  subcategory_2_nivel_name  425 non-null    object 
dtypes: float64(2), object(10)
memory usage: 43.2+ KB


In [990]:
df_category_carrefour[df_category_carrefour['category'] == 'La Despensa']['subcategory'].unique()

array(['Alimentación', 'Aperitivos', 'Conservas_Sopas y Precocinados',
       'Desayuno', 'Dulce', 'Huevos', 'Lácteos',
       'Panaderia_Bollería y Pastelería', 'Yogures y Postres'],
      dtype=object)

### Subcategoría "Dulce"

In [991]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Dulce']

Unnamed: 0,category,subcategory,subsubcategory
2689,La Despensa,Dulce,Dulces y Golosinas
2737,La Despensa,Dulce,Repostería
2772,La Despensa,Dulce,Miel
2799,La Despensa,Dulce,Turrón y Dulces de Navidad
6776,La Despensa,Dulce,Bombones y Chocolates
8130,La Despensa,Dulce,Cremas de Cacao_Avellana y Cacahuete
8183,La Despensa,Dulce,Mermeladas_Membrillos y Compotas
8207,La Despensa,Dulce,Siropes_Aromas y Decoración


In [992]:
current_category = df_category[df_category["category_name"] == "Azúcar, caramelos y chocolate"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
51,"Azúcar, caramelos y chocolate",Azúcar y edulcorante,Azúcar,52
52,"Azúcar, caramelos y chocolate",Azúcar y edulcorante,Edulcorante y otros,53
53,"Azúcar, caramelos y chocolate",Chicles y caramelos,Chicles,54
54,"Azúcar, caramelos y chocolate",Chicles y caramelos,Caramelos,55
55,"Azúcar, caramelos y chocolate",Chocolate,Chocolate negro,56
56,"Azúcar, caramelos y chocolate",Chocolate,Chocolate con leche,57
57,"Azúcar, caramelos y chocolate",Chocolate,Chocolate blanco,58
58,"Azúcar, caramelos y chocolate",Chocolate,Chocolatinas,59
59,"Azúcar, caramelos y chocolate",Chocolate,Bombones,60
60,"Azúcar, caramelos y chocolate",Chocolate,Cremas de untar,61


In [993]:
df_mercadona[df_mercadona['name'].str.contains('navidad', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id


In [994]:
df_carrefour[df_carrefour['subsubcategory'] == 'Dulces y Golosinas'].head()

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name
2689,La Despensa,Dulce,Dulces y Golosinas,Caramelos de goma surtidos Carrefour Classic s...,200 g,1.05,5.25,kg,2025-04-14,,,
2690,La Despensa,Dulce,Dulces y Golosinas,Jellies de goma Carrefour Classic sin gluten 2...,200 g,1.2,6.0,kg,2025-04-14,,,
2691,La Despensa,Dulce,Dulces y Golosinas,Moras de goma Carrefour Classic sin gluten 200 g.,200 g,1.08,5.4,kg,2025-04-14,,,
2692,La Despensa,Dulce,Dulces y Golosinas,Ladrillos de goma sabor fresa y pica pica Carr...,200 g,1.34,6.7,kg,2025-04-14,,,
2693,La Despensa,Dulce,Dulces y Golosinas,Cono de golosinas Fini 70 g.,70 g,1.59,22.71,kg,2025-04-14,,,


In [995]:
def clasificar_azucar(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Miel':
        return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Miel')

    if subcat == 'Cremas de Cacao_Avellana y Cacahuete':
        return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Cremas de untar')

    if subcat in ['Bombones y Chocolates', 'Turrón y Dulces de Navidad']:
        if 'bombones' in name:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Bombones')
        elif 'chocolate negro' in name:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolate negro')
        elif 'chocolate blanco' in name:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolate blanco')
        elif 'chocolate co leche':
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolate con leche')
        else:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolatinas')

    if subcat == 'Mermeladas_Membrillos y Compotas':
        if 'mermelada' in name:
            return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Mermelada')
        else:
            return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Confitura y otros')

    if subcat == 'Dulces y Golosinas':
        if 'chicles' in name:
            return ('Azúcar, caramelos y chocolate', 'Chicles y caramelos', 'Chicles')
        elif 'caramelos' in name:
            return ('Azúcar, caramelos y chocolate', 'Chicles y caramelos', 'Caramelos')
        else:
            return ('Azúcar, caramelos y chocolate', 'Golosinas', 'Golosinas')

    if subcat == 'Siropes_Aromas y Decoración':
        if 'siropo' in name:
            return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Confitura y otros')
        elif 'vela' in name:
            return ('Panadería y pastelería', 'Velas y decoración', 'Velas')
        else:
            return ('Panadería y pastelería', 'Velas y decoración', 'Decoración')

    if subcat == 'Repostería':
        if 'harina' in name:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Harina')
        elif 'masa' in name:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Masas')
        else:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Levadura y preparado repostería')

    return (pd.NA, pd.NA, pd.NA)

In [996]:
carrefour_update('Dulce', clasificar_azucar)

<class 'pandas.core.frame.DataFrame'>
Index: 238 entries, 2689 to 8230
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  238 non-null    object 
 1   subcategory               238 non-null    object 
 2   subsubcategory            238 non-null    object 
 3   name                      238 non-null    object 
 4   description               233 non-null    object 
 5   price                     238 non-null    float64
 6   reference_price           238 non-null    float64
 7   reference_unit            238 non-null    object 
 8   date                      238 non-null    object 
 9   category_name             238 non-null    object 
 10  subcategory_name          238 non-null    object 
 11  subcategory_2_nivel_name  238 non-null    object 
dtypes: float64(2), object(10)
memory usage: 24.2+ KB


### Subcategoría "Desayuno"

In [997]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Desayuno']

Unnamed: 0,category,subcategory,subsubcategory
1926,La Despensa,Desayuno,Cafés
1988,La Despensa,Desayuno,Galletas
2048,La Despensa,Desayuno,Cereales
2098,La Despensa,Desayuno,Barritas
2144,La Despensa,Desayuno,Cacaos y Cereales Solubles
2178,La Despensa,Desayuno,Azúcar y Edulcorantes
2210,La Despensa,Desayuno,Infusiones y Tés


In [998]:
current_category = df_category[df_category["category_name"] == 'Cacao, café e infusiones']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
112,"Cacao, café e infusiones",Cacao soluble y chocolate a la taza,Cacao soluble,113
113,"Cacao, café e infusiones",Cacao soluble y chocolate a la taza,Chocolate a la taza,114
114,"Cacao, café e infusiones",Café cápsula y monodosis,Cápsulas compatibles Nespresso,115
115,"Cacao, café e infusiones",Café cápsula y monodosis,Cápsulas compatibles Dolce gusto,116
116,"Cacao, café e infusiones",Café cápsula y monodosis,Cápsulas compatibles Tassimo,117
117,"Cacao, café e infusiones",Café cápsula y monodosis,Monodosis,118
118,"Cacao, café e infusiones",Café molido y en grano,Café molido,119
119,"Cacao, café e infusiones",Café molido y en grano,Café en grano,120
120,"Cacao, café e infusiones",Café soluble y otras bebidas,Café soluble,121
121,"Cacao, café e infusiones",Café soluble y otras bebidas,Bebidas frías,122


In [999]:
def clasificar_cacao(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Cafés':
        if 'cápsulas' in name and 'nespresso' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Cápsulas compatibles Nespresso')
        elif 'cápsulas' in name and 'dolce gusto' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Cápsulas compatibles Dolce gusto')
        elif 'cápsulas' in name and 'tassimo' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Cápsulas compatibles Tassimo')
        elif 'monodosis' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Monodosis')
        elif 'molido' in name:
            return ('Cacao, café e infusiones', 'Café molido y en grano', 'Café molido')
        elif 'en grano' in name:
            return ('Cacao, café e infusiones', 'Café molido y en grano', 'Café en grano')
        elif 'soluble' in name:
            return ('Cacao, café e infusiones', 'Café soluble y otras bebidas', 'Café soluble')
        else:
            return ('Cacao, café e infusiones', 'Café soluble y otras bebidas', 'Otros')


    if subcat == 'Cacaos y Cereales Solubles':
        if 'chocolate' in name:
            return ('Cacao, café e infusiones', 'Cacao soluble y chocolate a la taza', 'Chocolate a la taza')
        else:
            return ('Cacao, café e infusiones', 'Cacao soluble y chocolate a la taza', 'Cacao soluble')

    if subcat == 'Infusiones y Tés':
        if 'té' in name:
            return ('Cacao, café e infusiones', 'Té e infusiones', 'Té')
        else:
            return ('Cacao, café e infusiones', 'Té e infusiones', 'Infusiones')

    return (pd.NA, pd.NA, pd.NA)

In [1000]:
carrefour_update('Desayuno', clasificar_cacao)

<class 'pandas.core.frame.DataFrame'>
Index: 326 entries, 1926 to 2251
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  326 non-null    object 
 1   subcategory               326 non-null    object 
 2   subsubcategory            326 non-null    object 
 3   name                      326 non-null    object 
 4   description               273 non-null    object 
 5   price                     326 non-null    float64
 6   reference_price           326 non-null    float64
 7   reference_unit            326 non-null    object 
 8   date                      326 non-null    object 
 9   category_name             138 non-null    object 
 10  subcategory_name          138 non-null    object 
 11  subcategory_2_nivel_name  138 non-null    object 
dtypes: float64(2), object(10)
memory usage: 33.1+ KB


In [1001]:
current_category = df_category[df_category["category_name"] == 'Cereales y galletas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
138,Cereales y galletas,Cereales,Cereales,139
139,Cereales y galletas,Cereales,Cereales integrales y muesli,140
140,Cereales y galletas,Cereales,Barritas de cereales,141
141,Cereales y galletas,Galletas,Galletas desayuno,142
142,Cereales y galletas,Galletas,Galletas integrales y digestive,143
143,Cereales y galletas,Galletas,Con chocolate y rellenas,144
144,Cereales y galletas,Galletas,Galletas surtidas,145
145,Cereales y galletas,Tortitas,Tortitas,146


In [1002]:
def clasificar_azucar(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Azúcar y Edulcorantes':
        if 'azúcar' in name:
            return ('Azúcar, caramelos y chocolate', 'Azúcar y edulcorante', 'Azúcar')
        else:
            return ('Azúcar, caramelos y chocolate', 'Azúcar y edulcorante', 'Edulcorante y otros')

    if subcat == 'Barritas':
       return ('Cereales y galletas', 'Cereales', 'Barritas de cereales')

    if subcat == 'Cereales':
        if any(x in name for x in ['crunchy', 'copos', 'muesli', 'granola', 'integral']):
            return ('Cereales y galletas', 'Cereales', 'Cereales integrales y muesli')
        else:
            return ('Cereales y galletas', 'Cereales', 'Cereales')

    if subcat == 'Galletas':
        if any(x in name for x in ['chocolate', 'oreo', 'rellenos', 'rellenas', 'crema', 'mermelada']):
            return ('Cereales y galletas', 'Galletas', 'Con chocolate y rellenas')
        elif 'integral' in name or 'digestive' in name:
            return ('Cereales y galletas', 'Galletas', 'Galletas integrales y digestive')
        elif 'surtido' in name or 'mix' in name:
            return ('Cereales y galletas', 'Galletas', 'Galletas surtidas')
        else:
            return ('Cereales y galletas', 'Galletas', 'Galletas desayuno')



    return (pd.NA, pd.NA, pd.NA)

In [1003]:
carrefour_update('Desayuno', clasificar_azucar)

<class 'pandas.core.frame.DataFrame'>
Index: 326 entries, 1926 to 2251
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  326 non-null    object 
 1   subcategory               326 non-null    object 
 2   subsubcategory            326 non-null    object 
 3   name                      326 non-null    object 
 4   description               273 non-null    object 
 5   price                     326 non-null    float64
 6   reference_price           326 non-null    float64
 7   reference_unit            326 non-null    object 
 8   date                      326 non-null    object 
 9   category_name             326 non-null    object 
 10  subcategory_name          326 non-null    object 
 11  subcategory_2_nivel_name  326 non-null    object 
dtypes: float64(2), object(10)
memory usage: 33.1+ KB


### Subcategoría "Huevos"

In [1004]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Huevos']

Unnamed: 0,category,subcategory,subsubcategory
6641,La Despensa,Huevos,Huevos frescos
6654,La Despensa,Huevos,Claras de Huevo


In [1005]:
def clasificar_huevos(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat in ['Huevos frescos', 'Claras de Huevo']:
        return ('Huevos, leche y mantequilla', 'Huevos', 'Huevos')

    return (pd.NA, pd.NA, pd.NA)

In [1006]:
carrefour_update('Huevos', clasificar_huevos)

<class 'pandas.core.frame.DataFrame'>
Index: 16 entries, 6641 to 6656
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  16 non-null     object 
 1   subcategory               16 non-null     object 
 2   subsubcategory            16 non-null     object 
 3   name                      16 non-null     object 
 4   description               3 non-null      object 
 5   price                     16 non-null     float64
 6   reference_price           16 non-null     float64
 7   reference_unit            16 non-null     object 
 8   date                      16 non-null     object 
 9   category_name             16 non-null     object 
 10  subcategory_name          16 non-null     object 
 11  subcategory_2_nivel_name  16 non-null     object 
dtypes: float64(2), object(10)
memory usage: 1.6+ KB


### Subcategoría "Lácteos"

In [1007]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Lácteos']

Unnamed: 0,category,subcategory,subsubcategory
1698,La Despensa,Lácteos,Leche
1743,La Despensa,Lácteos,Bebida Vegetal
1786,La Despensa,Lácteos,Batidos y Horchatas
1823,La Despensa,Lácteos,Mantequillas y Margarinas
1856,La Despensa,Lácteos,Nata
1883,La Despensa,Lácteos,Listo para beber
1923,La Despensa,Lácteos,Bechamel
8062,La Despensa,Lácteos,Leche Condensada_Evaporada y en Polvo


In [1008]:
current_category = df_category[df_category["category_name"] == 'Huevos, leche y mantequilla']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
278,"Huevos, leche y mantequilla",Huevos,Huevos,279
279,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche semidesnatada,280
280,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche desnatada,281
281,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche entera,282
282,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Bebidas vegetales,283
283,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Batidos,284
284,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche Infantil,285
285,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche condensada y otros,286
286,"Huevos, leche y mantequilla",Mantequilla y margarina,Mantequilla,287
287,"Huevos, leche y mantequilla",Mantequilla y margarina,Margarina,288


In [1009]:
df_mercadona[df_mercadona['name'].str.contains('Bechamel', case=False, na=False)].tail(20)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
145,Salsa Bechamel Knorr,None 0.6 l,2.2,3.667,L,Otras salsas,"Aceite, especias y salsas",Otras salsas,False,18
3311,Salsa Bechamel Knorr,None 0.6 l,2.2,3.667,L,Nata,"Huevos, leche y mantequilla",Mantequilla y margarina,False,289
4207,Empanadilla de pollo 10% y bechamel,Pieza 0.098 kg,1.3,13.266,kg,Bollería salada,Panadería y pastelería,Bollería de horno,False,383


In [1010]:
def clasificar_leche(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']


    if subcat == 'Nata':
        return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Nata')

    if subcat == 'Leche':
        if 'semidesnatada' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche semidesnatada')
        elif 'desnatada' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche desnatada')
        elif 'infantil' in name or 'preparado lácteo' in name or 'bebida láctea' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche Infantil')
        else:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche entera')

    if subcat == 'Batidos y Horchatas':
        return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Batidos')


    if subcat == 'Bebida Vegetal':
         return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Bebidas vegetales')


    if subcat == 'Leche Condensada_Evaporada y en Polvo':
        return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche condensada y otros')

    if subcat == 'Listo para beber':
        return ('Cacao, café e infusiones', 'Café soluble y otras bebidas', 'Bebidas frías')


    if subcat == 'Mantequillas y Margarinas':
        if 'mantequilla' in name:
            return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Mantequilla')
        else:
            return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Margarina')

    if subcat == 'Bechamel':
        return ('Aceite, especias y salsas', 'Otras salsas', 'Otras salsas')

    if subcat == 'Bechamel':
        return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Nata')

    return (pd.NA, pd.NA, pd.NA)

In [1011]:
carrefour_update('Lácteos', clasificar_leche)

<class 'pandas.core.frame.DataFrame'>
Index: 243 entries, 1698 to 8076
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  243 non-null    object 
 1   subcategory               243 non-null    object 
 2   subsubcategory            243 non-null    object 
 3   name                      243 non-null    object 
 4   description               242 non-null    object 
 5   price                     243 non-null    float64
 6   reference_price           243 non-null    float64
 7   reference_unit            243 non-null    object 
 8   date                      243 non-null    object 
 9   category_name             243 non-null    object 
 10  subcategory_name          243 non-null    object 
 11  subcategory_2_nivel_name  243 non-null    object 
dtypes: float64(2), object(10)
memory usage: 24.7+ KB


### Subcategoría "Yogures y Postres"

In [1012]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Yogures y Postres']

Unnamed: 0,category,subcategory,subsubcategory
2252,La Despensa,Yogures y Postres,Yogur Natural y Sabores
2318,La Despensa,Yogures y Postres,Bífidus
2362,La Despensa,Yogures y Postres,Yogures Griegos y Enriquecidos
2397,La Despensa,Yogures y Postres,Yogures Infantiles
2429,La Despensa,Yogures y Postres,Yogures Desnatados
2480,La Despensa,Yogures y Postres,Yogures Líquidos
2539,La Despensa,Yogures y Postres,Gelatina
2551,La Despensa,Yogures y Postres,Flanes
2570,La Despensa,Yogures y Postres,Otros Postres
2603,La Despensa,Yogures y Postres,Mousse


In [1013]:
current_category = df_category[df_category["category_name"] == 'Postres y yogures']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
421,Postres y yogures,Bífidus,Bífidus de sabores,422
422,Postres y yogures,Bífidus,Bífidus naturales,423
423,Postres y yogures,Flan y natillas,Flan,424
424,Postres y yogures,Flan y natillas,Natillas,425
425,Postres y yogures,Gelatina y otros postres,Gelatina,426
426,Postres y yogures,Gelatina y otros postres,Otros postres,427
427,Postres y yogures,Postres de soja,Postres de soja,428
428,Postres y yogures,Yogures desnatados,Yogures desnatados,429
429,Postres y yogures,Yogures griegos,Yogures griegos,430
430,Postres y yogures,Yogures líquidos,Yogures líquidos,431


In [1014]:
df_mercadona[df_mercadona['name'].str.contains('Mousse', case=False, na=False)].tail(20)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
632,Chocolate negro relleno de mousse Hacendado,Tableta 0.14 kg,2.35,16.786,kg,Chocolate negro,"Azúcar, caramelos y chocolate",Chocolate,False,56
1644,Mousse de pato Hacendado,Bandeja 0.1 kg,1.9,19.0,kg,Paté,Charcutería y quesos,Paté y sobrasada,False,157
1737,Mousse de queso de vaca con ajo y finas hierba...,Tarrina 0.15 kg,1.55,10.334,kg,Queso untable,Charcutería y quesos,Queso untable y fresco,False,165
1976,Mousse de queso Hacendado congelado,None 0.52 kg,7.9,15.193,kg,Tartas,Congelados,Tartas y churros,False,185
2371,Mousse fijador cabello Deliplus fijación 2,Bote 0.2 l,2.6,1.3,100 ml,Espuma y laca,Cuidado del cabello,Fijación cabello,False,219
2479,Mousse facial limpiadora purificante Deliplus ...,Bote 0.2 l,3.85,1.925,100 ml,Limpieza de cara,Cuidado facial y corporal,Cuidado e higiene facial,False,230
2910,Mousse autobronceadora transparente corporal D...,Bote 0.21 l,7.5,3.572,100 ml,Protector solar y aftersun,Cuidado facial y corporal,Protector solar y aftersun,False,257
4089,Mousse con lenguado y salmón gato adulto Delikuit,Caja 0.34 kg,2.0,5.883,kg,Alimentación húmeda,Mascotas,Gato,False,372
4090,Mousse con ternera y pollo gato adulto Delikuit,Caja 0.34 kg,2.0,5.883,kg,Alimentación húmeda,Mascotas,Gato,False,372
4422,Mousse de queso Hacendado congelado,None 0.52 kg,7.9,15.193,kg,Tartas,Panadería y pastelería,Tartas y pasteles,False,401


In [1015]:
def clasificar_yogures(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']


    if subcat == 'Vegetal':
        return ('Postres y yogures', 'Postres de soja', 'Postres de soja')


    if subcat == 'Yogur Natural y Sabores':
        if 'natural' in name:
            return ('Postres y yogures', 'Yogures naturales y sabores', 'Yogures naturales')
        else:
            return ('Postres y yogures', 'Yogures naturales y sabores', 'Yogures de sabores')

    if subcat == 'Yogures Griegos y Enriquecidos':
            return ('Postres y yogures', 'Yogures griegos', 'Yogures griegos')


    if subcat == 'Yogures Infantiles':
        return ('Postres y yogures', 'Yogures y postres infantiles', 'Yogures y postres infantiles')


    if subcat == 'Yogures Líquidos':
        return ('Postres y yogures', 'Yogures líquidos', 'Yogures líquidos')

    if subcat == 'Yogures Desnatados':
        return ('Postres y yogures', 'Yogures desnatados', 'Yogures desnatados')


    if subcat == 'Bífidus':
        if 'natural' in name:
            return ('Postres y yogures', 'Bífidus', 'Bífidus naturales')
        else:
            return ('Postres y yogures', 'Bífidus', 'Bífidus de sabores')


    if subcat == 'Colesterol_Óseo y Tensión':
        return ('Postres y yogures', 'Yogures líquidos', 'Colesterol y otros')

    if subcat == 'Proteína':
        return ('Postres y yogures', 'Yogures desnatados', 'Yogures desnatados')

    if subcat == 'Flanes':
        return ('Postres y yogures', 'Flan y natillas', 'Flan')


    if subcat == 'Natillas_Cremas y Copas':
        return ('Postres y yogures', 'Flan y natillas', 'Natillas')

    if subcat == 'Gelatina':
        return ('Postres y yogures', 'Gelatina y otros postres', 'Gelatina')

    if subcat in ['Mousse', 'Otros Postres']:
        return ('Postres y yogures', 'Gelatina y otros postres', 'Otros postres')


    return (pd.NA, pd.NA, pd.NA)

In [1016]:
carrefour_update('Yogures y Postres', clasificar_yogures)

<class 'pandas.core.frame.DataFrame'>
Index: 490 entries, 2252 to 8129
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  490 non-null    object 
 1   subcategory               490 non-null    object 
 2   subsubcategory            490 non-null    object 
 3   name                      490 non-null    object 
 4   description               490 non-null    object 
 5   price                     490 non-null    float64
 6   reference_price           490 non-null    float64
 7   reference_unit            490 non-null    object 
 8   date                      490 non-null    object 
 9   category_name             490 non-null    object 
 10  subcategory_name          490 non-null    object 
 11  subcategory_2_nivel_name  490 non-null    object 
dtypes: float64(2), object(10)
memory usage: 49.8+ KB


### Subcategoría "Panadería, Bollería y Pastelería"

In [1017]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Panaderia_Bollería y Pastelería']

Unnamed: 0,category,subcategory,subsubcategory
8231,La Despensa,Panaderia_Bollería y Pastelería,Pan tostado_Biscottes y Barritas
8255,La Despensa,Panaderia_Bollería y Pastelería,Colines_picos y crakers
8279,La Despensa,Panaderia_Bollería y Pastelería,Bollería
8307,La Despensa,Panaderia_Bollería y Pastelería,Pastelería
8325,La Despensa,Panaderia_Bollería y Pastelería,Masa Fresca y Bases
8349,La Despensa,Panaderia_Bollería y Pastelería,Pan de Molde
8390,La Despensa,Panaderia_Bollería y Pastelería,Especialidades de pan
8417,La Despensa,Panaderia_Bollería y Pastelería,Pan Perrito y Burguer
8439,La Despensa,Panaderia_Bollería y Pastelería,Pan rallado y rebozados


In [1018]:
current_category = df_category[df_category["category_name"] == 'Panadería y pastelería']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
381,Panadería y pastelería,Bollería de horno,Bollería dulce,382
382,Panadería y pastelería,Bollería de horno,Bollería salada,383
383,Panadería y pastelería,Bollería envasada,Bollería envasada,384
384,Panadería y pastelería,Bollería envasada,Pastelitos surtidos,385
385,Panadería y pastelería,Harina y preparado repostería,Harina,386
386,Panadería y pastelería,Harina y preparado repostería,Levadura y preparado repostería,387
387,Panadería y pastelería,Harina y preparado repostería,Masas,388
388,Panadería y pastelería,Pan de horno,Barra de pan,389
389,Panadería y pastelería,Pan de horno,Pan de bocadillo,390
390,Panadería y pastelería,Pan de horno,Pan rebanado,391


In [1019]:
def clasificar_panes(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Pan de Molde':
        return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de molde')


    if subcat == 'Masa Fresca y Bases':
        return ('Panadería y pastelería', 'Harina y preparado repostería', 'Masas')


    if subcat == 'Pan Perrito y Burguer':
        return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de hamburguesa y wrap')


    if subcat == 'Especialidades de pan':
        if any(x in name for x in ['tortillas', 'hot dog', 'hamburguesa', 'pita', 'piadinas', 'bocados']):
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de hamburguesa y wrap')
        else:
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Otros panes')


    if subcat == 'Colines_picos y crakers':
        if any(x in name for x in ['piquitos', 'picos', 'grissini']):
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Picos')
        elif any(x in name for x in ['rosquilletas', 'palitos', 'panes especiales']):
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Rosquilletas')
        else:
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Picatostes')


    if subcat == 'Pan tostado_Biscottes y Barritas':
        if 'tostado' in name:
            return ('Panadería y pastelería', 'Pan tostado y rallado', 'Pan tostado')
        elif 'picatostes':
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Picatostes')
        else:
            return ('Panadería y pastelería', 'Pan tostado y rallado', 'Crakers y tartaletas')


    if subcat == 'Pan rallado y rebozados':
        return ('Panadería y pastelería', 'Pan tostado y rallado', 'Pan rallado')
    else:
        return ('Panadería y pastelería', 'Pan tostado y rallado', 'Crakers y tartaletas')


    if subcat == 'Bollería':
        if any(x in name for x in ['empanadillas', 'saladas', 'empanada']):
            return ('Panadería y pastelería', 'Bollería de horno', 'Bollería salada')
        elif any(x in name for x in ['paquete', 'pack', 'bolsa']):
            return ('Panadería y pastelería', 'Bollería envasada', 'Bollería envasada')
        elif 'surtido' in name:
            return ('Panadería y pastelería', 'Bollería envasada', 'Pastelitos surtidos')
        else:
            return ('Panadería y pastelería', 'Bollería de horno', 'Bollería dulce')


    if subcat == 'Pastelería':
        if 'infantil' in name:
            return ('Panadería y pastelería', 'Tartas y pasteles', 'Tartas infantiles')
        else:
            return ('Panadería y pastelería', 'Tartas y pasteles', 'Tartas')


    return (pd.NA, pd.NA, pd.NA)

In [1020]:
carrefour_update('Panaderia_Bollería y Pastelería', clasificar_panes)

<class 'pandas.core.frame.DataFrame'>
Index: 215 entries, 8231 to 8445
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  215 non-null    object 
 1   subcategory               215 non-null    object 
 2   subsubcategory            215 non-null    object 
 3   name                      215 non-null    object 
 4   description               182 non-null    object 
 5   price                     215 non-null    float64
 6   reference_price           215 non-null    float64
 7   reference_unit            215 non-null    object 
 8   date                      215 non-null    object 
 9   category_name             215 non-null    object 
 10  subcategory_name          215 non-null    object 
 11  subcategory_2_nivel_name  215 non-null    object 
dtypes: float64(2), object(10)
memory usage: 21.8+ KB


# Procesamiento de la categoría "Bebé"

In [1021]:
current_category = df_category[df_category["category_name"] == 'Bebé']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
65,Bebé,Alimentación infantil,Tarritos salados,66
66,Bebé,Alimentación infantil,Tarritos de fruta,67
67,Bebé,Alimentación infantil,Yogures y postres,68
68,Bebé,Alimentación infantil,Leche,69
69,Bebé,Alimentación infantil,Leche en polvo,70
70,Bebé,Alimentación infantil,Papillas,71
71,Bebé,Biberón y chupete,Biberón,72
72,Bebé,Biberón y chupete,Chupete,73
73,Bebé,Higiene y cuidado,Champú y jabón,74
74,Bebé,Higiene y cuidado,Aceite y crema,75


In [1022]:
df_category_carrefour[df_category_carrefour['category'] == 'Bebé']

Unnamed: 0,category,subcategory,subsubcategory
5793,Bebé,Alimentación infantil,Leches Infantiles
5818,Bebé,Alimentación infantil,Tarritos y Platos Preparados
5861,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé
7452,Bebé,Alimentación infantil,Papillas
7484,Bebé,Alimentación infantil,Galletas y Snacks
9038,Bebé,Alimentación infantil,Postres Zumos Petit y Yogures Infantiles
5886,Bebé,Embarazo y Lactancia,Compresas y protegeslips
7526,Bebé,Embarazo y Lactancia,Cremas y aceites
9113,Bebé,Embarazo y Lactancia,Discos_pezoneras y sacaleches
5695,Bebé,Pañales y Toallitas,Pañales Dodot


In [1023]:
df_mercadona[df_mercadona['name'].str.contains('discos', case=False, na=False)].tail(20)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
2467,Discos desmaquillantes Deliplus redondos algod...,Paquete 1.0 ud,1.05,0.007,ud,Limpieza de cara,Cuidado facial y corporal,Cuidado e higiene facial,False,230
2470,Discos desmaquillantes Deliplus ovalados algod...,Paquete 1.0 ud,1.5,0.015,ud,Limpieza de cara,Cuidado facial y corporal,Cuidado e higiene facial,False,230
2485,Discos impregnados ácido salicílico Deliplus O...,Bote 50.0 ud,4.0,0.08,ud,Limpieza de cara,Cuidado facial y corporal,Cuidado e higiene facial,False,230
4658,Yogur azucarado YogoMix Discos Hacendado con d...,Pack-2 0.3 kg,1.3,4.334,kg,Otros postres,Postres y yogures,Gelatina y otros postres,False,427


In [1024]:
df_carrefour[df_carrefour['subsubcategory'] == 'Complementos Alimenticios e Infusiones para bebé']

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name
5861,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé,Complemento Alimenticio desde 12 meses sabor v...,850g,30.6,36.0,kg,2025-04-14,,,
5862,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé,Infusión instantánea Blevit Noches Felices 150 g.,150 g,10.65,71.0,kg,2025-04-14,,,
5863,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé,Complemento Alimenticio desde 12 meses sabor c...,850g,30.6,36.0,kg,2025-04-14,,,
5864,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé,Infusión Infantil Blevit Digest 150 gr,150 g,10.65,71.0,kg,2025-04-14,,,
5865,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé,Infusión Infantil Blevit Laxante 150 gr,150 g,10.65,71.0,kg,2025-04-14,,,
5866,Bebé,Alimentación infantil,Complementos Alimenticios e Infusiones para bebé,Complemento alimenticio desde 12 meses sabor f...,850 g,30.6,36.0,kg,2025-04-14,,,
5984,Parafarmacia,Bebé,Complementos Alimenticios e Infusiones para bebé,Complemento Alimenticio desde 12 meses sabor v...,850g,30.6,36.0,kg,2025-04-14,,,
5985,Parafarmacia,Bebé,Complementos Alimenticios e Infusiones para bebé,Infusión instantánea Blevit Noches Felices 150 g.,150 g,10.65,71.0,kg,2025-04-14,,,
5986,Parafarmacia,Bebé,Complementos Alimenticios e Infusiones para bebé,Complemento Alimenticio desde 12 meses sabor c...,850g,30.6,36.0,kg,2025-04-14,,,
5987,Parafarmacia,Bebé,Complementos Alimenticios e Infusiones para bebé,Infusión Infantil Blevit Digest 150 gr,150 g,10.65,71.0,kg,2025-04-14,,,


In [1025]:
def clasificar_category_bebe(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Papillas':
        return ('Bebé', 'Alimentación infantil', 'Papillas')

    if subcat == 'Complementos Alimenticios e Infusiones para bebé':
        return ('Bebé', 'Alimentación infantil', 'Papillas')

    if subcat in ['Postres Zumos Petit y Yogures Infantiles', 'Galletas y Snacks']:
        return ('Bebé', 'Alimentación infantil', 'Yogures y postres')

    if subcat == 'Leches Infantiles':
        if 'polvo' in name:
            return ('Bebé', 'Alimentación infantil', 'Leche en polvo')
        else:
            return ('Bebé', 'Alimentación infantil', 'Leche')

    if subcat == 'Tarritos y Platos Preparados':
        if any(x in name for x in ['fruta', 'frutas', 'plátano', 'fresa', 'pera', 'manzana', 'mandarina', 'arándanos']):
            return ('Bebé', 'Alimentación infantil', 'Tarritos de fruta')
        else:
            return ('Bebé', 'Alimentación infantil', 'Tarritos salados')


    if subcat in ['Pañales Dodot', 'Pañales Carrefour Baby', 'Pañales Huggies', 'Pañales de Noche', 'Pañales Agatha Ruiz de la Prada', 'Otras Marcas']:
        if 'talla 0' in name or 'talla 1' in name or 'talla 2' in name or 'talla 3' in name:
            return ('Bebé', 'Toallitas y pañales', 'Pañal talla de 0 a 3')
        else:
            return ('Bebé', 'Toallitas y pañales', 'Pañal talla de 4 a XL')

    if subcat == 'Toallitas':
        return ('Bebé', 'Toallitas y pañales', 'Toallitas')

    if subcat == 'Bañadores':
        return ('Bebé', 'Toallitas y pañales', 'Bañador y braguita')


    if subcat in ['Baberos_Protegecamas y bolsas para pañales', 'Accesorios', 'Bastoncillos_Algodón y Sueros']:
        return ('Bebé', 'Higiene y cuidado', 'Accesorios')


    if subcat == 'Chupetes_biberones y tetinas':
        if 'biberón' in name:
            return ('Bebé', 'Biberón y chupete', 'Biberón')
        else:
            return ('Bebé', 'Biberón y chupete', 'Chupete')

    if subcat in ['Champú', 'Jabón Líquido', 'Acondicionador', 'Lotes Multiproducto']:
        return ('Bebé', 'Higiene y cuidado', 'Champú y jabón')

    if subcat in ['Aceite Corporal', 'Crema Corporal_Talcos y Anti-irritación']:
        return ('Bebé', 'Higiene y cuidado', 'Aceite y crema')

    if subcat == 'Colonia':
            return ('Bebé', 'Higiene y cuidado', 'Colonia')

    if subcat == 'Compresas y protegeslips':
	      return ('Cuidado facial y corporal',	'Higiene íntima',	'Compresas')

    if subcat == 'Cremas y aceites':
	      return ('Cuidado facial y corporal',	'Cuidado corporal',	'Crema y aceite para el cuerpo')

    if subcat == 'Discos_pezoneras y sacaleches':
        return ('Bebé', 'Higiene y cuidado', 'Accesorios')

    return (pd.NA, pd.NA, pd.NA)

In [1026]:
carrefour_update('Alimentación infantil', clasificar_category_bebe)

<class 'pandas.core.frame.DataFrame'>
Index: 183 entries, 5793 to 9095
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  183 non-null    object 
 1   subcategory               183 non-null    object 
 2   subsubcategory            183 non-null    object 
 3   name                      183 non-null    object 
 4   description               183 non-null    object 
 5   price                     183 non-null    float64
 6   reference_price           183 non-null    float64
 7   reference_unit            183 non-null    object 
 8   date                      183 non-null    object 
 9   category_name             183 non-null    object 
 10  subcategory_name          183 non-null    object 
 11  subcategory_2_nivel_name  183 non-null    object 
dtypes: float64(2), object(10)
memory usage: 18.6+ KB


In [1027]:
carrefour_update('Puericultura', clasificar_category_bebe)

<class 'pandas.core.frame.DataFrame'>
Index: 37 entries, 7527 to 9146
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  37 non-null     object 
 1   subcategory               37 non-null     object 
 2   subsubcategory            37 non-null     object 
 3   name                      37 non-null     object 
 4   description               8 non-null      object 
 5   price                     37 non-null     float64
 6   reference_price           37 non-null     float64
 7   reference_unit            37 non-null     object 
 8   date                      37 non-null     object 
 9   category_name             37 non-null     object 
 10  subcategory_name          37 non-null     object 
 11  subcategory_2_nivel_name  37 non-null     object 
dtypes: float64(2), object(10)
memory usage: 3.8+ KB


In [1028]:
carrefour_update('Pañales y Toallitas', clasificar_category_bebe)

<class 'pandas.core.frame.DataFrame'>
Index: 102 entries, 5695 to 7451
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  102 non-null    object 
 1   subcategory               102 non-null    object 
 2   subsubcategory            102 non-null    object 
 3   name                      102 non-null    object 
 4   description               78 non-null     object 
 5   price                     102 non-null    float64
 6   reference_price           102 non-null    float64
 7   reference_unit            102 non-null    object 
 8   date                      102 non-null    object 
 9   category_name             102 non-null    object 
 10  subcategory_name          102 non-null    object 
 11  subcategory_2_nivel_name  102 non-null    object 
dtypes: float64(2), object(10)
memory usage: 10.4+ KB


In [1029]:
carrefour_update('Embarazo y Lactancia', clasificar_category_bebe)

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 5886 to 9116
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  6 non-null      object 
 1   subcategory               6 non-null      object 
 2   subsubcategory            6 non-null      object 
 3   name                      6 non-null      object 
 4   description               2 non-null      object 
 5   price                     6 non-null      float64
 6   reference_price           6 non-null      float64
 7   reference_unit            6 non-null      object 
 8   date                      6 non-null      object 
 9   category_name             6 non-null      object 
 10  subcategory_name          6 non-null      object 
 11  subcategory_2_nivel_name  6 non-null      object 
dtypes: float64(2), object(10)
memory usage: 624.0+ bytes


In [1030]:
carrefour_update('Perfumería e Higiene', clasificar_category_bebe)

<class 'pandas.core.frame.DataFrame'>
Index: 66 entries, 5867 to 9310
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  66 non-null     object 
 1   subcategory               66 non-null     object 
 2   subsubcategory            66 non-null     object 
 3   name                      66 non-null     object 
 4   description               57 non-null     object 
 5   price                     66 non-null     float64
 6   reference_price           66 non-null     float64
 7   reference_unit            66 non-null     object 
 8   date                      66 non-null     object 
 9   category_name             66 non-null     object 
 10  subcategory_name          66 non-null     object 
 11  subcategory_2_nivel_name  66 non-null     object 
dtypes: float64(2), object(10)
memory usage: 6.7+ KB


# Procesamiento de la categoría "Mascotas"

In [1031]:
current_category = df_category[df_category["category_name"] == 'Mascotas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
371,Mascotas,Gato,Alimentación húmeda,372
372,Mascotas,Gato,Alimentación seca,373
373,Mascotas,Gato,Aseo y cuidado,374
374,Mascotas,Gato,Snacks,375
375,Mascotas,Perro,Alimentación húmeda,376
376,Mascotas,Perro,Alimentación seca,377
377,Mascotas,Perro,Aseo y cuidado,378
378,Mascotas,Perro,Snacks,379
379,Mascotas,Otros,Pájaro,380
380,Mascotas,Otros,Otros,381


In [1032]:
df_category_carrefour[df_category_carrefour['category'] == 'Mascotas']

Unnamed: 0,category,subcategory,subsubcategory
5925,Mascotas,Conejos y roedores,Pienso para conejos y rodeores
7678,Mascotas,Conejos y roedores,Accesorios e Higiene
5894,Mascotas,Gatos,Premios y Snacks
5916,Mascotas,Gatos,Arena
7605,Mascotas,Gatos,Pienso para gatos
7663,Mascotas,Gatos,Accesorios e Higiene
5958,Mascotas,Peces y tortugas,Tortugas
5961,Mascotas,Peces y tortugas,Peces
5887,Mascotas,Perros,Confort
5890,Mascotas,Perros,Comederos


In [1033]:
def clasificar_category_mascotas(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Pienso para perros':
        if 'paté' in name or 'salsa' in name or 'gelatina' in name or 'salchicha' in name:
            return ('Mascotas', 'Perro', 'Alimentación húmeda')
        else:
            return ('Mascotas', 'Perro', 'Alimentación seca')

    if subcat == 'Premios_Snacks y Huesos':
        return ('Mascotas', 'Perro', 'Snacks')


    if subcat in ['Juguetes', 'Higiene', 'Confort', 'Comederos']:
        return ('Mascotas', 'Perro', 'Aseo y cuidado')


    if subcat == 'Pienso para gatos':
        if 'paté' in name or 'salsa' in name or 'gelatina' in name or 'mousse' in name:
            return ('Mascotas', 'Gato', 'Alimentación húmeda')
        else:
            return ('Mascotas', 'Gato', 'Alimentación seca')

    if subcat == 'Premios y Snacks':
        return ('Mascotas', 'Gato', 'Snacks')

    if subcat in ['Accesorios e Higiene', 'Arena']:
        return ('Mascotas', 'Gato', 'Aseo y cuidado')


    if subcat in ['mascotas|otros', 'mascotas|otros_animales']:
        if 'periquitos' in name or 'canarios' in name or 'ninfa' in name or 'loros' in name or 'cotorras' in name:
            return ('Mascotas', 'Otros', 'Pájaro')
        else:
            return ('Mascotas', 'Otros', 'Otros')

    if subcat == 'Pienso para pájaros':
        return ('Mascotas', 'Otros', 'Pájaro')

    if subcat in ['Pienso para conejos y rodeores', 'Accesorios e Higiene', 'Tortugas', 'Peces']:
        return ('Mascotas', 'Otros', 'Otros')

    return (pd.NA, pd.NA, pd.NA)

In [1034]:
carrefour_update('Conejos y roedores', clasificar_category_mascotas)

<class 'pandas.core.frame.DataFrame'>
Index: 21 entries, 5925 to 7683
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  21 non-null     object 
 1   subcategory               21 non-null     object 
 2   subsubcategory            21 non-null     object 
 3   name                      21 non-null     object 
 4   description               18 non-null     object 
 5   price                     21 non-null     float64
 6   reference_price           21 non-null     float64
 7   reference_unit            21 non-null     object 
 8   date                      21 non-null     object 
 9   category_name             21 non-null     object 
 10  subcategory_name          21 non-null     object 
 11  subcategory_2_nivel_name  21 non-null     object 
dtypes: float64(2), object(10)
memory usage: 2.1+ KB


In [1035]:
carrefour_update('Perros', clasificar_category_mascotas)

<class 'pandas.core.frame.DataFrame'>
Index: 118 entries, 5887 to 9186
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  118 non-null    object 
 1   subcategory               118 non-null    object 
 2   subsubcategory            118 non-null    object 
 3   name                      118 non-null    object 
 4   description               104 non-null    object 
 5   price                     118 non-null    float64
 6   reference_price           118 non-null    float64
 7   reference_unit            118 non-null    object 
 8   date                      118 non-null    object 
 9   category_name             118 non-null    object 
 10  subcategory_name          118 non-null    object 
 11  subcategory_2_nivel_name  118 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.0+ KB


In [1036]:
carrefour_update('Gatos', clasificar_category_mascotas)

<class 'pandas.core.frame.DataFrame'>
Index: 104 entries, 5894 to 7677
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  104 non-null    object 
 1   subcategory               104 non-null    object 
 2   subsubcategory            104 non-null    object 
 3   name                      104 non-null    object 
 4   description               90 non-null     object 
 5   price                     104 non-null    float64
 6   reference_price           104 non-null    float64
 7   reference_unit            104 non-null    object 
 8   date                      104 non-null    object 
 9   category_name             104 non-null    object 
 10  subcategory_name          104 non-null    object 
 11  subcategory_2_nivel_name  104 non-null    object 
dtypes: float64(2), object(10)
memory usage: 10.6+ KB


In [1037]:
carrefour_update('Peces y tortugas', clasificar_category_mascotas)

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, 5958 to 5964
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  7 non-null      object 
 1   subcategory               7 non-null      object 
 2   subsubcategory            7 non-null      object 
 3   name                      7 non-null      object 
 4   description               7 non-null      object 
 5   price                     7 non-null      float64
 6   reference_price           7 non-null      float64
 7   reference_unit            7 non-null      object 
 8   date                      7 non-null      object 
 9   category_name             7 non-null      object 
 10  subcategory_name          7 non-null      object 
 11  subcategory_2_nivel_name  7 non-null      object 
dtypes: float64(2), object(10)
memory usage: 728.0+ bytes


In [1038]:
carrefour_update('Pájaros', clasificar_category_mascotas)

<class 'pandas.core.frame.DataFrame'>
Index: 18 entries, 5940 to 5957
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  18 non-null     object 
 1   subcategory               18 non-null     object 
 2   subsubcategory            18 non-null     object 
 3   name                      18 non-null     object 
 4   description               12 non-null     object 
 5   price                     18 non-null     float64
 6   reference_price           18 non-null     float64
 7   reference_unit            18 non-null     object 
 8   date                      18 non-null     object 
 9   category_name             18 non-null     object 
 10  subcategory_name          18 non-null     object 
 11  subcategory_2_nivel_name  18 non-null     object 
dtypes: float64(2), object(10)
memory usage: 1.8+ KB


# Procesamiento de la categoría "Productos Frescos"

In [1039]:
df_category_carrefour[df_category_carrefour['category'] == 'Productos Frescos'].head(60)

Unnamed: 0,category,subcategory,subsubcategory
0,Productos Frescos,Carnicería,Aves y Pollo
42,Productos Frescos,Carnicería,Vacuno
83,Productos Frescos,Carnicería,Cerdo
115,Productos Frescos,Carnicería,Cordero
121,Productos Frescos,Carnicería,Conejo
128,Productos Frescos,Carnicería,Otras carnes
182,Productos Frescos,Carnicería,Carne Picada
198,Productos Frescos,Carnicería,Hamburguesas
231,Productos Frescos,Carnicería,Embutidos Frescos
262,Productos Frescos,Carnicería,Preparados y Arreglos de Carne


### Subcategoría "Carnicería"

In [1040]:
current_category = df_category[df_category["category_name"] == 'Carne']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
125,Carne,Arreglos,Arreglos,126
126,Carne,Aves y pollo,Pavo y otras aves,127
127,Carne,Aves y pollo,Pollo,128
128,Carne,Carne congelada,Carne congelada,129
129,Carne,Cerdo,Cerdo,130
130,Carne,Conejo y cordero,Conejo,131
131,Carne,Conejo y cordero,Cordero,132
132,Carne,Embutido,Embutido,133
133,Carne,Hamburguesas y picadas,Hamburguesas,134
134,Carne,Hamburguesas y picadas,Picadas y otros,135


In [1041]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Carnicería']

Unnamed: 0,category,subcategory,subsubcategory
0,Productos Frescos,Carnicería,Aves y Pollo
42,Productos Frescos,Carnicería,Vacuno
83,Productos Frescos,Carnicería,Cerdo
115,Productos Frescos,Carnicería,Cordero
121,Productos Frescos,Carnicería,Conejo
128,Productos Frescos,Carnicería,Otras carnes
182,Productos Frescos,Carnicería,Carne Picada
198,Productos Frescos,Carnicería,Hamburguesas
231,Productos Frescos,Carnicería,Embutidos Frescos
262,Productos Frescos,Carnicería,Preparados y Arreglos de Carne


In [1042]:
def clasificar_category_carne(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Aves y Pollo':
        if 'pollo' in name:
            return ('Carne', 'Aves y pollo', 'Pollo')
        else:
            return ('Carne', 'Aves y pollo', 'Pavo y otras aves')

    if subcat == 'Vacuno':
        return ('Carne', 'Vacuno', 'Vacuno')

    if subcat == 'Cerdo':
        return ('Carne', 'Cerdo', 'Cerdo')

    if subcat in ['Preparados y Arreglos de Carne', 'Casquería']:
        return ('Carne', 'Arreglos', 'Arreglos')

    if subcat == 'Embutidos Frescos':
        return ('Carne', 'Embutido', 'Embutido')

    if subcat == 'Conejo':
        return ('Carne', 'Conejo y cordero', 'Conejo')

    if subcat == 'Cordero':
        return ('Carne', 'Conejo y cordero', 'Cordero')

    if subcat == 'Carne Picada':
        return ('Carne', 'Hamburguesas y picadas', 'Picadas y otros')

    if subcat == 'Hamburguesas':
        return ('Carne', 'Hamburguesas y picadas', 'Hamburguesas')

    if subcat == 'Otras carnes':
        return ('Carne', 'Hamburguesas y picadas', 'Picadas y otros')

    if subcat == 'Empanados':
        if 'congelado' in name:
            return ('Carne', 'Empanados y elaborados', 'Empanados y rebozados congelados')
        else:
            return ('Carne', 'Empanados y elaborados', 'Empanados y elaborados')


    return (pd.NA, pd.NA, pd.NA)

In [1043]:
carrefour_update('Carnicería', clasificar_category_carne)

<class 'pandas.core.frame.DataFrame'>
Index: 287 entries, 0 to 286
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  287 non-null    object 
 1   subcategory               287 non-null    object 
 2   subsubcategory            287 non-null    object 
 3   name                      287 non-null    object 
 4   description               285 non-null    object 
 5   price                     287 non-null    float64
 6   reference_price           287 non-null    float64
 7   reference_unit            287 non-null    object 
 8   date                      287 non-null    object 
 9   category_name             287 non-null    object 
 10  subcategory_name          287 non-null    object 
 11  subcategory_2_nivel_name  287 non-null    object 
dtypes: float64(2), object(10)
memory usage: 29.1+ KB


### Subcategoría "Charcutería"

In [1044]:
current_category = df_category[df_category["category_name"] == 'Charcutería y quesos']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
146,Charcutería y quesos,Aves y jamón cocido,Pavo y otros,147
147,Charcutería y quesos,Aves y jamón cocido,Jamón cocido,148
148,Charcutería y quesos,Bacón y salchichas,Bacón,149
149,Charcutería y quesos,Bacón y salchichas,Salchichas,150
150,Charcutería y quesos,Chopped y mortadela,Chopped,151
151,Charcutería y quesos,Chopped y mortadela,Mortadela,152
152,Charcutería y quesos,Embutido curado,Salchichón,153
153,Charcutería y quesos,Embutido curado,Chorizo,154
154,Charcutería y quesos,Embutido curado,Lomo y otros,155
155,Charcutería y quesos,Jamón serrano,Jamón serrano,156


In [1045]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Charcutería']

Unnamed: 0,category,subcategory,subsubcategory
517,Productos Frescos,Charcutería,Salchichas
548,Productos Frescos,Charcutería,Jamón Cocido y Lacón
588,Productos Frescos,Charcutería,Jamón Serrano e Ibérico Envasado
612,Productos Frescos,Charcutería,Jamón serrano e ibérico Pieza
644,Productos Frescos,Charcutería,Bacon y Panceta
656,Productos Frescos,Charcutería,Mortadela y Chopped
689,Productos Frescos,Charcutería,Tablas y Surtidos
6601,Productos Frescos,Charcutería,Fiambre de Pavo y Pollo
7892,Productos Frescos,Charcutería,Chorizo Lomo y Otros
7934,Productos Frescos,Charcutería,Salchichón Salami y Fuet


In [1046]:
def clasificar_category_charcuteria(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']


    if subcat in ['Jamón serrano e ibérico Pieza', 'Jamón Serrano e Ibérico Envasado',
                  'Tablas y Surtidos']:
        return ('Charcutería y quesos', 'Jamón serrano', 'Jamón serrano')

    if subcat == 'Jamón Cocido y Lacón':
        return ('Charcutería y quesos', 'Aves y jamón cocido', 'Jamón cocido')

    if subcat == 'Fiambre de Pavo y Pollo':
        return ('Charcutería y quesos', 'Aves y jamón cocido', 'Pavo y otros')

    if subcat == 'Mortadela y Chopped':
        if 'mortadela' in name or 'galantina' in name:
            return ('Charcutería y quesos', 'Chopped y mortadela', 'Mortadela')
        else:
            return ('Charcutería y quesos', 'Chopped y mortadela', 'Chopped')

    if subcat == 'Bacon y Panceta':
        return ('Charcutería y quesos', 'Bacón y salchichas', 'Bacón')

    if subcat == 'Salchichas':
            return ('Charcutería y quesos', 'Bacón y salchichas', 'Salchichas')

    if subcat == 'Salchichón Salami y Fuet':
        return ('Charcutería y quesos', 'Embutido curado', 'Salchichón')

    if subcat == 'Chorizo Lomo y Otros':
        if 'chorizo' in name:
            return ('Charcutería y quesos', 'Embutido curado', 'Chorizo')
        else:
            return ('Charcutería y quesos', 'Embutido curado', 'Lomo y otros')

    if subcat == 'Foie Patés y Sobrasadas':
        if 'sobrasada' in name:
            return ('Charcutería y quesos', 'Paté y sobrasada', 'Sobrasada')
        else:
            return ('Charcutería y quesos', 'Paté y sobrasada', 'Paté')


    return (pd.NA, pd.NA, pd.NA)

In [1047]:
carrefour_update('Charcutería', clasificar_category_charcuteria)

<class 'pandas.core.frame.DataFrame'>
Index: 382 entries, 517 to 8048
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  382 non-null    object 
 1   subcategory               382 non-null    object 
 2   subsubcategory            382 non-null    object 
 3   name                      382 non-null    object 
 4   description               381 non-null    object 
 5   price                     382 non-null    float64
 6   reference_price           382 non-null    float64
 7   reference_unit            382 non-null    object 
 8   date                      382 non-null    object 
 9   category_name             382 non-null    object 
 10  subcategory_name          382 non-null    object 
 11  subcategory_2_nivel_name  382 non-null    object 
dtypes: float64(2), object(10)
memory usage: 38.8+ KB


### Subcategoría "Quesos"

In [1048]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Quesos']

Unnamed: 0,category,subcategory,subsubcategory
702,Productos Frescos,Quesos,Queso Fresco
746,Productos Frescos,Quesos,Rallados
778,Productos Frescos,Quesos,Semicurado
809,Productos Frescos,Quesos,Curado
833,Productos Frescos,Quesos,Añejo
839,Productos Frescos,Quesos,Tierno
896,Productos Frescos,Quesos,Fundidos
924,Productos Frescos,Quesos,Crema de queso
955,Productos Frescos,Quesos,Brie y Camembert
969,Productos Frescos,Quesos,Azules y Roquefort


In [1049]:
def clasificar_quesos(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Queso Fresco':
        return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso fresco')

    if subcat in ['Azules y Roquefort', 'Brie y Camembert']:
        return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso roquefort, camembert y cabra')

    if subcat in ['Crema de queso', 'Fundidos']:
            return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso untable')

    if subcat in ['Añejo', 'Curado']:
        return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso curado')

    if subcat == 'Semicurado':
        return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso semicurado')

    if subcat in ['Tierno', 'Gouda y Emmental']:
        return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso tierno')


    if subcat == 'Rallados':
        return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso rallado')

    if subcat in ['Otros Internacionales','Con Denominación Origen', 'Tablas de quesos']:
        if 'añejo' in name or 'curado' in name or 'viejo' in name or'grana padano' in name:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso curado')
        elif 'semicurado' in name:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso semicurado')
        else:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso tierno')

    if subcat in ['Gouda y Emmental', 'Tierno', 'Semicurado', 'Añejo', 'Curado', 'Otros Internacionales','Con Denominación Origen']:
        if 'lonchas' in name:
            return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso lonchas')
        elif 'rallado' in name:
            return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso rallado')
        elif 'porciones' in name:
            return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso en porciones')

    return (pd.NA, pd.NA, pd.NA)

In [1050]:
carrefour_update('Quesos', clasificar_quesos)

<class 'pandas.core.frame.DataFrame'>
Index: 329 entries, 702 to 1030
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  329 non-null    object 
 1   subcategory               329 non-null    object 
 2   subsubcategory            329 non-null    object 
 3   name                      329 non-null    object 
 4   description               329 non-null    object 
 5   price                     329 non-null    float64
 6   reference_price           329 non-null    float64
 7   reference_unit            329 non-null    object 
 8   date                      329 non-null    object 
 9   category_name             329 non-null    object 
 10  subcategory_name          329 non-null    object 
 11  subcategory_2_nivel_name  329 non-null    object 
dtypes: float64(2), object(10)
memory usage: 33.4+ KB


In [1051]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Charcutería y Quesos al Corte']

Unnamed: 0,category,subcategory,subsubcategory
1131,Productos Frescos,Charcutería y Quesos al Corte,Fiambres y Cocidos
1156,Productos Frescos,Charcutería y Quesos al Corte,Jamones y Paletas curados
1168,Productos Frescos,Charcutería y Quesos al Corte,Jamón a Cuchillo
1174,Productos Frescos,Charcutería y Quesos al Corte,Curados y Embutidos
1180,Productos Frescos,Charcutería y Quesos al Corte,Curados Ibéricos
1181,Productos Frescos,Charcutería y Quesos al Corte,Quesos Nacionales
1192,Productos Frescos,Charcutería y Quesos al Corte,Queso Denominación Origen
1198,Productos Frescos,Charcutería y Quesos al Corte,Quesos Barra y Frescos
1208,Productos Frescos,Charcutería y Quesos al Corte,Quesos Internacionales


In [1052]:
df_carrefour[df_carrefour['subsubcategory'] == 'Curados Ibéricos']

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name
1180,Productos Frescos,Charcutería y Quesos al Corte,Curados Ibéricos,Queso de mezcla tostado en cuña Gran Capitán 2...,200 g,4.95,24.75,kg,2025-04-13,,,


In [1053]:
def clasificar_quesos(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Quesos Barra y Frescos':
        return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso fresco')

    if subcat in ['Quesos Internacionales', 'Queso Denominación Origen', 'Quesos Barra y Frescos']:
        if 'roquefort' in name or 'camembert' in name or 'azul' in name or 'brie' in name or 'cabra' in name:
            return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso roquefort, camembert y cabra')

    if subcat in ['Quesos Internacionales','Queso Denominación Origen', 'Quesos Nacionales', 'Curados Ibéricos']:
        if 'añejo' in name or 'curado' in name or 'viejo' in name or'grana padano' in name:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso curado')
        elif 'semicurado' in name:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso semicurado')
        else:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso tierno')

    if subcat in ['Jamones y Paletas curados', 'Jamón a Cuchillo']:
        return ('Charcutería y quesos', 'Jamón serrano', 'Jamón serrano')

    if subcat == 'Fiambres y Cocidos':
        if 'jamón' in name:
            return ('Charcutería y quesos', 'Aves y jamón cocido', 'Jamón cocido')
        else:
          return ('Charcutería y quesos', 'Aves y jamón cocido', 'Pavo y otros')

    if subcat == 'Curados y Embutidos':
        if 'salchichón' in name or 'longaniza' in name or 'pepperoni' in name or'salami' in name:
            return ('Charcutería y quesos', 'Embutido curado', 'Salchichón')
        elif 'chorizo' in name:
            return ('Charcutería y quesos', 'Embutido curado', 'Chorizo')
        else:
            return ('Charcutería y quesos', 'Embutido curado', 'Lomo y otros')


    return (pd.NA, pd.NA, pd.NA)

In [1054]:
carrefour_update('Charcutería y Quesos al Corte', clasificar_quesos)

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 1131 to 1215
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  85 non-null     object 
 1   subcategory               85 non-null     object 
 2   subsubcategory            85 non-null     object 
 3   name                      85 non-null     object 
 4   description               85 non-null     object 
 5   price                     85 non-null     float64
 6   reference_price           85 non-null     float64
 7   reference_unit            85 non-null     object 
 8   date                      85 non-null     object 
 9   category_name             85 non-null     object 
 10  subcategory_name          85 non-null     object 
 11  subcategory_2_nivel_name  85 non-null     object 
dtypes: float64(2), object(10)
memory usage: 8.6+ KB


### Subcategoría "Frutas"

In [1055]:
current_category = df_category[df_category["category_name"] == 'Fruta y verdura']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
260,Fruta y verdura,Fruta,Plátano y uva,261
261,Fruta y verdura,Fruta,Manzana y pera,262
262,Fruta y verdura,Fruta,Melón y sandía,263
263,Fruta y verdura,Fruta,Cítricos,264
264,Fruta y verdura,Fruta,Fruta tropical,265
265,Fruta y verdura,Fruta,Otras frutas,266
266,Fruta y verdura,Lechuga y ensalada preparada,Lechuga,267
267,Fruta y verdura,Lechuga y ensalada preparada,Ensalada preparada,268
268,Fruta y verdura,Verdura,Patata,269
269,Fruta y verdura,Verdura,Cebolla y ajo,270


In [1056]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Frutas']

Unnamed: 0,category,subcategory,subsubcategory
363,Productos Frescos,Frutas,Sandías y Melones
366,Productos Frescos,Frutas,Plátanos y Bananas
370,Productos Frescos,Frutas,Manzanas y Peras
392,Productos Frescos,Frutas,Frutos del Bosque
400,Productos Frescos,Frutas,Naranjas y otros cítricos
419,Productos Frescos,Frutas,Uvas
7842,Productos Frescos,Frutas,Piñas Kiwis Aguacates y Tropicales


In [1057]:
def clasificar_fruta(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Naranjas y otros cítricos':
        return ('Fruta y verdura', 'Fruta', 'Cítricos')

    if subcat == 'Piñas Kiwis Aguacates y Tropicales':
        return ('Fruta y verdura', 'Fruta', 'Fruta tropical')

    if subcat == 'Manzanas y Peras':
        return ('Fruta y verdura', 'Fruta', 'Manzana y pera')

    if subcat in ['Plátanos y Bananas', 'Uvas']:
        return ('Fruta y verdura', 'Fruta', 'Plátano y uva')

    if subcat == 'Frutos del Bosque':
        return ('Fruta y verdura', 'Fruta', 'Otras frutas')

    if subcat == 'Sandías y Melones':
        return ('Fruta y verdura', 'Fruta', 'Melón y sandía')

    return (pd.NA, pd.NA, pd.NA)

In [1058]:
carrefour_update('Frutas', clasificar_fruta)

<class 'pandas.core.frame.DataFrame'>
Index: 80 entries, 363 to 7861
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  80 non-null     object 
 1   subcategory               80 non-null     object 
 2   subsubcategory            80 non-null     object 
 3   name                      80 non-null     object 
 4   description               77 non-null     object 
 5   price                     80 non-null     float64
 6   reference_price           80 non-null     float64
 7   reference_unit            80 non-null     object 
 8   date                      80 non-null     object 
 9   category_name             80 non-null     object 
 10  subcategory_name          80 non-null     object 
 11  subcategory_2_nivel_name  80 non-null     object 
dtypes: float64(2), object(10)
memory usage: 8.1+ KB


### Subcategoría "Verduras y hortalizas"

In [1059]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Verduras y hortalizas']

Unnamed: 0,category,subcategory,subsubcategory
423,Productos Frescos,Verduras y hortalizas,Hortalizas
447,Productos Frescos,Verduras y hortalizas,Ensaladas y Verduras Preparadas
471,Productos Frescos,Verduras y hortalizas,Tomates y Pepinos
494,Productos Frescos,Verduras y hortalizas,Setas y Hongos
507,Productos Frescos,Verduras y hortalizas,Hierbas Aromáticas y especias
7862,Productos Frescos,Verduras y hortalizas,Patatas Cebollas y Ajos


In [1060]:
def clasificar_verdura(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Setas y Hongos':
        return ('Fruta y verdura', 'Verdura', 'Setas y champiñones')

    if subcat == 'Ensaladas y Verduras Preparadas':
        return ('Fruta y verdura', 'Lechuga y ensalada preparada', 'Ensalada preparada')

    if subcat == 'Patatas Cebollas y Ajos':
        if 'patata' in name:
            return ('Fruta y verdura', 'Verdura', 'Patata')
        else:
            return ('Fruta y verdura', 'Verdura', 'Cebolla y ajo')

    if subcat == 'Tomates y Pepinos':
        if 'tomate' in name or 'tomates' in name:
            return ('Fruta y verdura', 'Verdura', 'Tomate')
        else:
            return ('Fruta y verdura', 'Verdura', 'Pepino y zanahoria')

    if subcat == 'Hierbas Aromáticas y especias':
        return ('Fruta y verdura', 'Verdura', 'Hierbas aromáticas')

    if subcat == 'Hortalizas':
        if 'patata' in name:
            return ('Fruta y verdura', 'Verdura', 'Patata')
        elif 'zanahoria' in name or 'pepino' in name:
            return ('Fruta y verdura', 'Verdura', 'Pepino y zanahoria')
        elif 'tomate' in name:
            return ('Fruta y verdura', 'Verdura', 'Tomate')
        elif 'calabacín' in name or 'pimiento' in name:
            return ('Fruta y verdura', 'Verdura', 'Calabacín y pimiento')
        elif any(x in name for x in ['brócoli', 'coliflores', 'col', 'coliflor', 'repollo']):
            return ('Fruta y verdura', 'Verdura', 'Repollo y col')
        elif any(x in name for x in ['ajo', 'cebolla', 'puerro']):
            return ('Fruta y verdura', 'Verdura', 'Cebolla y ajo')
        elif 'setas' in name or 'champiñones' in name:
            return ('Fruta y verdura', 'Verdura', 'Setas y champiñones')
        elif any(x in name for x in ['perejil', 'jengibre', 'cilantro', 'albahaca', 'hierbabuena', 'cebollino']):
            return ('Fruta y verdura', 'Verdura', 'Hierbas aromáticas')
        elif 'al vapor' in name:
            return ('Fruta y verdura', 'Verdura', 'Verduras al vapor')
        else:
            return ('Fruta y verdura', 'Verdura', 'Otras verduras y hortalizas')


    return (pd.NA, pd.NA, pd.NA)

In [1061]:
carrefour_update('Verduras y hortalizas', clasificar_verdura)

<class 'pandas.core.frame.DataFrame'>
Index: 124 entries, 423 to 7891
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  124 non-null    object 
 1   subcategory               124 non-null    object 
 2   subsubcategory            124 non-null    object 
 3   name                      124 non-null    object 
 4   description               115 non-null    object 
 5   price                     124 non-null    float64
 6   reference_price           124 non-null    float64
 7   reference_unit            124 non-null    object 
 8   date                      124 non-null    object 
 9   category_name             124 non-null    object 
 10  subcategory_name          124 non-null    object 
 11  subcategory_2_nivel_name  124 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.6+ KB


### Subcategorias "Pescadería" y "Sushi del Día	"

In [1062]:
current_category = df_category[df_category["category_name"] == 'Marisco y pescado']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
349,Marisco y pescado,Marisco,Marisco,350
350,Marisco y pescado,Marisco,Marisco de concha,351
351,Marisco y pescado,Marisco,Surimi y otros,352
352,Marisco y pescado,Pescado congelado,Pescado congelado,353
353,Marisco y pescado,Pescado congelado,Pescado rebozado congelado,354
354,Marisco y pescado,Pescado congelado,"Sepia, pulpo y calamar congelado",355
355,Marisco y pescado,Pescado fresco,Salmón,356
356,Marisco y pescado,Pescado fresco,Dorada,357
357,Marisco y pescado,Pescado fresco,Lubina,358
358,Marisco y pescado,Pescado fresco,Merluza,359


In [1063]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Pescadería']

Unnamed: 0,category,subcategory,subsubcategory
287,Productos Frescos,Pescadería,Ahumados y Huevas
311,Productos Frescos,Pescadería,Bacalao y Salazones
330,Productos Frescos,Pescadería,Preparados y elaborados de Pescado y Marisco
6544,Productos Frescos,Pescadería,Pescado Fresco
6580,Productos Frescos,Pescadería,Surimi y Elaborados
7810,Productos Frescos,Pescadería,Marisco Almejas y Mejillones
7826,Productos Frescos,Pescadería,Pulpo Calamar y Sepia


In [1064]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Sushi del Día']

Unnamed: 0,category,subcategory,subsubcategory
1216,Productos Frescos,Sushi del Día,Sushi del Día


In [1065]:
df_mercadona[df_mercadona['name'].str.contains('sushi', case=False, na=False)].head(20)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
4469,Surtido sushi Bento grande,Bandeja 0.31 kg,10.75,10.75,ud,Platos fríos,Pizzas y platos preparados,Listo para Comer,False,406
4470,Surtido sushi Bento pequeño,Bandeja 0.16 kg,6.75,6.75,ud,Platos fríos,Pizzas y platos preparados,Listo para Comer,False,406
4471,Surtido sushi Bento mix,Bandeja 0.35 kg,8.75,8.75,ud,Platos fríos,Pizzas y platos preparados,Listo para Comer,False,406


In [1066]:
def clasificar_category_pescado(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Pescado Fresco':
        if 'salmón' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Salmón')
        elif 'dorada' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Dorada')
        elif 'lubina' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Lubina')
        elif 'merluza' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Merluza')
        elif 'bacalao' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Bacalao')
        elif 'corvina' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Corvina')
        elif 'trucha' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Trucha')
        elif 'lenguado' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Lenguado')
        elif 'boquerón' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Boquerón')
        elif 'rodaballo' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Rodaballo')
        elif 'sardina' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Sardina')
        elif 'caballa' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Caballa')
        elif any(x in name for x in ['pulpo', 'sepia', 'calamar', 'potón', 'pota']):
            return ('Marisco y pescado', 'Pescado fresco', 'Sepia, pulpo y calamar')
        else:
            return ('Marisco y pescado', 'Pescado fresco', 'Otros')

    if subcat == 'Pulpo Calamar y Sepia':
        return ('Marisco y pescado', 'Pescado fresco', 'Sepia, pulpo y calamar')

    if subcat == 'Marisco Almejas y Mejillones':
        if any(x in name for x in ['mejillón', 'almeja', 'berberechos', 'navajas', 'chirla', 'cañaílla']):
            return ('Marisco y pescado', 'Marisco', 'Marisco de concha')
        else:
            return ('Marisco y pescado', 'Marisco', 'Marisco')

    if subcat == 'Ahumados y Huevas':
        return ('Marisco y pescado', 'Salazones y ahumados', 'Ahumados')


    if subcat == 'Bacalao y Salazones':
        return ('Marisco y pescado', 'Salazones y ahumados', 'Salazones')

    if subcat == 'Surimi y Elaborados':
        return ('Marisco y pescado', 'Marisco', 'Surimi y otros')

    if subcat == 'Preparados y elaborados de Pescado y Marisco':
        return ('Marisco y pescado', 'Pescado congelado', 'Pescado rebozado congelado')

    if subcat == 'Sushi del Día':
        return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos fríos')

    return (pd.NA, pd.NA, pd.NA)

In [1067]:
carrefour_update('Pescadería', clasificar_category_pescado)

<class 'pandas.core.frame.DataFrame'>
Index: 165 entries, 287 to 7841
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  165 non-null    object 
 1   subcategory               165 non-null    object 
 2   subsubcategory            165 non-null    object 
 3   name                      165 non-null    object 
 4   description               165 non-null    object 
 5   price                     165 non-null    float64
 6   reference_price           165 non-null    float64
 7   reference_unit            165 non-null    object 
 8   date                      165 non-null    object 
 9   category_name             165 non-null    object 
 10  subcategory_name          165 non-null    object 
 11  subcategory_2_nivel_name  165 non-null    object 
dtypes: float64(2), object(10)
memory usage: 16.8+ KB


In [1068]:
carrefour_update('Sushi del Día', clasificar_category_pescado)

<class 'pandas.core.frame.DataFrame'>
Index: 24 entries, 1216 to 1239
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  24 non-null     object 
 1   subcategory               24 non-null     object 
 2   subsubcategory            24 non-null     object 
 3   name                      24 non-null     object 
 4   description               24 non-null     object 
 5   price                     24 non-null     float64
 6   reference_price           24 non-null     float64
 7   reference_unit            24 non-null     object 
 8   date                      24 non-null     object 
 9   category_name             24 non-null     object 
 10  subcategory_name          24 non-null     object 
 11  subcategory_2_nivel_name  24 non-null     object 
dtypes: float64(2), object(10)
memory usage: 2.4+ KB


### Subcategoría "Panadería Tradicional"

In [1069]:
current_category = df_category[df_category["category_name"] == 'Panadería y pastelería']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
381,Panadería y pastelería,Bollería de horno,Bollería dulce,382
382,Panadería y pastelería,Bollería de horno,Bollería salada,383
383,Panadería y pastelería,Bollería envasada,Bollería envasada,384
384,Panadería y pastelería,Bollería envasada,Pastelitos surtidos,385
385,Panadería y pastelería,Harina y preparado repostería,Harina,386
386,Panadería y pastelería,Harina y preparado repostería,Levadura y preparado repostería,387
387,Panadería y pastelería,Harina y preparado repostería,Masas,388
388,Panadería y pastelería,Pan de horno,Barra de pan,389
389,Panadería y pastelería,Pan de horno,Pan de bocadillo,390
390,Panadería y pastelería,Pan de horno,Pan rebanado,391


In [1070]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Panadería Tradicional']

Unnamed: 0,category,subcategory,subsubcategory
1031,Productos Frescos,Panadería Tradicional,Pan Tradicional
1055,Productos Frescos,Panadería Tradicional,Pan Rebanado
1066,Productos Frescos,Panadería Tradicional,Bollería Tradicional
1107,Productos Frescos,Panadería Tradicional,Pastelería y Repostería


In [1071]:
def clasificar_category_panes(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Pan Tradicional':
        if 'rebanado' in name or 'rebanada' in name or 'rebanadas' in name:
            return ('Panadería y pastelería', 'Pan de horno', 'Pan rebanado')
        elif 'barra' in name or 'baguette' in name or 'barras' in name:
            return ('Panadería y pastelería', 'Pan de horno', 'Barra de pan')
        elif 'de molde' in name:
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de molde')
        elif any(x in name for x in ['tortillas', 'hot dog', 'hamburguesa', 'pita', 'piadinas', 'bocados']):
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de hamburguesa y wrap')
        elif 'tostado' in name:
            return ('Panadería y pastelería', 'Pan tostado y rallado', 'Pan tostado')
        elif 'rallado' in name:
            return ('Panadería y pastelería', 'Pan tostado y rallado', 'Pan rallado')
        else:
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Otros panes')


    if subcat == 'Bollería Tradicional':
        if any(x in name for x in ['empanadillas', 'saladas', 'empanada']):
            return ('Panadería y pastelería', 'Bollería de horno', 'Bollería salada')
        elif any(x in name for x in ['paquete', 'pack', 'bolsa']):
            return ('Panadería y pastelería', 'Bollería envasada', 'Bollería envasada')
        elif 'surtido' in name:
            return ('Panadería y pastelería', 'Bollería envasada', 'Pastelitos surtidos')
        else:
            return ('Panadería y pastelería', 'Bollería de horno', 'Bollería dulce')

    if subcat == 'Pastelería y Repostería':
        if 'infantil' in name:
            return ('Panadería y pastelería', 'Tartas y pasteles', 'Tartas infantiles')
        else:
            return ('Panadería y pastelería', 'Tartas y pasteles', 'Tartas')

    if subcat == 'Pan Rebanado':
         return ('Panadería y pastelería', 'Pan de horno', 'Pan rebanado')


    return (pd.NA, pd.NA, pd.NA)

In [1072]:
carrefour_update('Panadería Tradicional', clasificar_category_panes)

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 1031 to 1130
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  100 non-null    object 
 1   subcategory               100 non-null    object 
 2   subsubcategory            100 non-null    object 
 3   name                      100 non-null    object 
 4   description               45 non-null     object 
 5   price                     100 non-null    float64
 6   reference_price           100 non-null    float64
 7   reference_unit            100 non-null    object 
 8   date                      100 non-null    object 
 9   category_name             100 non-null    object 
 10  subcategory_name          100 non-null    object 
 11  subcategory_2_nivel_name  100 non-null    object 
dtypes: float64(2), object(10)
memory usage: 10.2+ KB


### Subcategoría "Platos Preparados Cocinados"

In [1073]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Platos Preparados Cocinados']

Unnamed: 0,category,subcategory,subsubcategory
1240,Productos Frescos,Platos Preparados Cocinados,Platos de Carne y Pescado
1264,Productos Frescos,Platos Preparados Cocinados,Arroces
1271,Productos Frescos,Platos Preparados Cocinados,Pastas y Pizzas
1295,Productos Frescos,Platos Preparados Cocinados,Fritos
1309,Productos Frescos,Platos Preparados Cocinados,Platos de Verdura
1313,Productos Frescos,Platos Preparados Cocinados,Tortillas
1314,Productos Frescos,Platos Preparados Cocinados,Cocina Internacional
8049,Productos Frescos,Platos Preparados Cocinados,Ensaladas Gazpachos y Sandwiches


In [1074]:
current_category = df_category[df_category["category_name"] == 'Pizzas y platos preparados']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
404,Pizzas y platos preparados,Listo para Comer,Platos calientes,405
405,Pizzas y platos preparados,Listo para Comer,Platos fríos,406
406,Pizzas y platos preparados,Pizzas,Pizzas refrigeradas,407
407,Pizzas y platos preparados,Pizzas,Pizzas congeladas,408
408,Pizzas y platos preparados,Pizzas,Base de pizza,409
409,Pizzas y platos preparados,Pizzas,"Roscas, quiche y baguettes",410
410,Pizzas y platos preparados,Platos preparados calientes,Pasta,411
411,Pizzas y platos preparados,Platos preparados calientes,Arroz,412
412,Pizzas y platos preparados,Platos preparados calientes,Carne,413
413,Pizzas y platos preparados,Platos preparados calientes,Tortilla,414


In [1075]:
df_mercadona[df_mercadona['name'].str.contains('Espinacas', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
564,Pasta fresca ravioli ricotta y espinacas Hacen...,Bandeja 0.25 kg,1.8,7.2,kg,Pasta rellena,"Arroz, legumbres y pasta",Pasta y fideos,False,49
1317,Burger de pavo y espinacas,Bandeja 0.24 kg,2.2,9.167,kg,Hamburguesas,Carne,Hamburguesas y picadas,False,134
2034,Espinacas a la crema Hacendado ultracongeladas,Paquete 0.45 kg,2.2,4.889,kg,Verdura,Congelados,Verdura,False,189
3119,Espinacas cortadas,Paquete 0.3 kg,1.24,4.134,kg,Otras verduras y hortalizas,Fruta y verdura,Verdura,False,277
4205,Empanadilla de espinacas 26%,Pieza 0.12 kg,1.4,11.667,kg,Bollería salada,Panadería y pastelería,Bollería de horno,False,383
4524,Lasaña de espinacas y requesón Hacendado,Bandeja 0.35 kg,3.0,8.572,kg,Pasta,Pizzas y platos preparados,Platos preparados calientes,False,411
4576,Mini hamburguesas vegetales Hacendado con espi...,Paquete 0.2 kg,2.4,12.0,kg,Otros,Pizzas y platos preparados,Platos preparados calientes,False,417


In [1076]:
def clasificar_preparados(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Ensaladas Gazpachos y Sandwiches':
        if 'gazpacho' in name or 'salmorejo' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Gazpacho y salmorejo')
    if 'ensalada' in name or 'ensaladilla' in name:
        return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Ensaladilla')
    else:
        return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Sándwich')


    if subcat == 'Arroces':
        return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Arroz')


    if subcat == 'Platos de Carne y Pescado':
        if 'carne' in name or 'pollo' in name or 'pavo' in name or 'cerdo' in name or 'vacuno' in name:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Carne')
        else:
            return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos calientes')


    if subcat == 'Pastas y Pizzas':
        if any(x in name for x in ['pasta oriental', 'noodles orientales', 'yakisoba', 'noodles de arroz', 	'fideos orientales', 	'fideos de arroz']):
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Fideos orientales')
        elif 'pizza' in name and 'refrigerada' in name:
            return ('Pizzas y platos preparados', 'Pizzas', 'Pizzas refrigeradas')
        elif 'pizza' in name and 'congelada' in name:
            return ('Pizzas y platos preparados', 'Pizzas', 'Pizzas congeladas')
        else:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Pasta')


    if subcat in ['Platos de Verdura', 'Arroces', 'Platos de Carne y Pescado', 'Fritos']:
        return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos calientes')


    if subcat in ['Cocina Internacional', 'Ensaladas Gazpachos y Sandwiches']:
        return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos fríos')

    if subcat == 'Tortillas':
        return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Tortilla')


    return (pd.NA, pd.NA, pd.NA)

In [1077]:
carrefour_update('Platos Preparados Cocinados', clasificar_preparados)

<class 'pandas.core.frame.DataFrame'>
Index: 92 entries, 1240 to 8061
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  92 non-null     object 
 1   subcategory               92 non-null     object 
 2   subsubcategory            92 non-null     object 
 3   name                      92 non-null     object 
 4   description               91 non-null     object 
 5   price                     92 non-null     float64
 6   reference_price           92 non-null     float64
 7   reference_unit            92 non-null     object 
 8   date                      92 non-null     object 
 9   category_name             92 non-null     object 
 10  subcategory_name          92 non-null     object 
 11  subcategory_2_nivel_name  92 non-null     object 
dtypes: float64(2), object(10)
memory usage: 9.3+ KB


# Procesamiento de la categoría "Congelados"

In [1078]:
current_category = df_category[df_category["category_name"] == 'Congelados']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
167,Congelados,Arroz y pasta,Arroz,168
168,Congelados,Arroz y pasta,Pasta,169
169,Congelados,Carne,Carne,170
170,Congelados,Helados,Bombones,171
171,Congelados,Helados,Cucuruchos,172
172,Congelados,Helados,Granizados y helados de hielo,173
173,Congelados,Helados,Tarrinas,174
174,Congelados,Helados,Barras de helado y barquillos,175
175,Congelados,Hielo,Hielo,176
176,Congelados,Marisco,Marisco,177


In [1079]:
df_category_carrefour[df_category_carrefour['category'] == 'Congelados']

Unnamed: 0,category,subcategory,subsubcategory
5562,Congelados,Helados,Conos
5586,Congelados,Helados,Tarrinas
5627,Congelados,Helados,Polos
5650,Congelados,Helados,Tartas Heladas
5657,Congelados,Helados,Bloques
7314,Congelados,Helados,Bombón Helado
7355,Congelados,Helados,Sandwiches
7378,Congelados,Helados,Hielo
7381,Congelados,Helados,Frutas heladas
7387,Congelados,Helados,Barquillos


In [1080]:
df_mercadona[df_mercadona['name'].str.contains('surimi', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
1892,Palitos de surimi Hacendado ultracongelados,Paquete 0.6 kg,2.5,4.167,kg,Marisco de concha y otros,Congelados,Marisco,False,178
1956,Aritos de surimi a la romana Hacendado ultraco...,Paquete 0.6 kg,2.95,4.917,kg,Pescado rebozado,Congelados,Rebozados,False,183
1963,Muslitos de surimi Hacendado ultracongelados,Paquete 0.45 kg,2.6,5.778,kg,Pescado rebozado,Congelados,Rebozados,False,183
3942,Palitos de surimi Hacendado,Paquete 0.46 kg,1.99,4.327,kg,Surimi y otros,Marisco y pescado,Marisco,False,352
3943,Palitos de surimi Hacendado ultracongelados,Paquete 0.6 kg,2.5,4.167,kg,Surimi y otros,Marisco y pescado,Marisco,False,352
3944,Muslitos de surimi Hacendado ultracongelados,Paquete 0.45 kg,2.6,5.778,kg,Surimi y otros,Marisco y pescado,Marisco,False,352
3946,Delicias del mar de surimi Hacendado,Bandeja 0.25 kg,1.99,7.96,kg,Surimi y otros,Marisco y pescado,Marisco,False,352
3972,Aritos de surimi a la romana Hacendado ultraco...,Paquete 0.6 kg,2.95,4.917,kg,Pescado rebozado congelado,Marisco y pescado,Pescado congelado,False,354


In [1081]:
# Eliminamos las filas con índices 2893, 5441, 5442, 5443, 5444
indices_a_eliminar = [2893, 5441, 5442, 5443, 5444]

# Eliminamos las filas del DataFrame original
df_carrefour = df_carrefour.drop(indices_a_eliminar)

In [1082]:
def clasificar_category_congelados(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Hielo':
        return ('Congelados', 'Hielo', 'Hielo')

    if subcat == 'Conos':
        return ('Congelados', 'Helados', 'Cucuruchos')

    if subcat == 'Bombón Helado':
        return ('Congelados', 'Helados', 'Bombones')

    if subcat in ['Tarrinas', 'Tartas Heladas']:
        return ('Congelados', 'Helados', 'Tarrinas')

    if subcat in ['Barquillos', 'Sandwiches', 'Polos', 'Bloques']:
            return ('Congelados', 'Helados', 'Barras de helado y barquillos')

    if subcat == 'Frutas heladas':
        return ('Congelados', 'Helados', 'Granizados y helados de hielo')

    if subcat == 'Surimi Congelado':
        return ('Congelados', 'Marisco', 'Marisco de concha y otros')


    if subcat == 'Pizzas Congeladas':
        if 'bases' in name or 'masa' in name or 'cocas':
            return ('Congelados', 'Pizzas', 'Base de pizza')
        else:
            return ('Congelados', 'Pizzas', 'Pizzas')

    if subcat in ['Pescados Congelados', 'Pulpo_Calamar y Sepia Congelados']:
        return ('Congelados', 'Pescado', 'Pescado')

    if subcat == 'Mariscos Congelados':
        if any(x in name for x in ['surimi', 'mejillón', 'mejillónes', 'almeja', 'almejas', 'caracoles', 'vieira', 'zamburiñas']):
            return ('Congelados', 'Marisco', 'Marisco de concha y otros')
        else:
            return ('Congelados', 'Marisco', 'Marisco')


    if subcat == 'congelados|arroz_y_pasta':
        if 'arroz' in name:
            return ('Congelados', 'Arroz y pasta', 'Arroz')
        else:
            return ('Congelados', 'Arroz y pasta', 'Pasta')

    if subcat in ['Verduras Congeladas', 'Salteados Congelados']:
        if 'patata' in name:
            return ('Congelados', 'Verdura', 'Patatas')
        else:
            return ('Congelados', 'Verdura', 'Verdura')

    if subcat == 'Rebozados y Platos Preparados':
        if 'nuggets' in name or 'croquetas' in name or 'pollo' in name or 'empanados' in name or 'hamburguesa' in name:
            return ('Congelados', 'Rebozados', 'Carne rebozada')
        elif any(x in name for x in ['boquerón', 'bacalao', 'surimi', 'merluza', 'atún', 'rabas', 'pota', 'chipirones', 'langostino']):
            return ('Congelados', 'Rebozados', 'Pescado rebozado')
        elif 'arroz' in name or 'paella' in name:
            return ('Congelados', 'Arroz y pasta', 'Arroz')
        elif 'pasta' in name or 'lazaña' in name or 'canelones' in name:
            return ('Congelados', 'Arroz y pasta', 'Pasta')
        elif 'patata' in name:
            return ('Congelados', 'Verdura', 'Patatas')
        else:
            return ('Congelados', 'Rebozados', 'Verdura rebozada y otros')

    if subcat == 'Salteados Congelados':
        if 'arroz' in name or 'paella' in name:
            return ('Congelados', 'Arroz y pasta', 'Arroz')
        elif 'patata' in name:
            return ('Congelados', 'Verdura', 'Patatas')
        else:
            return ('Congelados', 'Verdura', 'Verdura')


    return (pd.NA, pd.NA, pd.NA)

In [1083]:
carrefour_update('Helados', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 175 entries, 5562 to 7390
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  175 non-null    object 
 1   subcategory               175 non-null    object 
 2   subsubcategory            175 non-null    object 
 3   name                      175 non-null    object 
 4   description               61 non-null     object 
 5   price                     175 non-null    float64
 6   reference_price           175 non-null    float64
 7   reference_unit            175 non-null    object 
 8   date                      175 non-null    object 
 9   category_name             175 non-null    object 
 10  subcategory_name          175 non-null    object 
 11  subcategory_2_nivel_name  175 non-null    object 
dtypes: float64(2), object(10)
memory usage: 17.8+ KB


In [1084]:
carrefour_update('Mariscos Congelados', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 48 entries, 7391 to 7438
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  48 non-null     object 
 1   subcategory               48 non-null     object 
 2   subsubcategory            48 non-null     object 
 3   name                      48 non-null     object 
 4   description               47 non-null     object 
 5   price                     48 non-null     float64
 6   reference_price           48 non-null     float64
 7   reference_unit            48 non-null     object 
 8   date                      48 non-null     object 
 9   category_name             48 non-null     object 
 10  subcategory_name          48 non-null     object 
 11  subcategory_2_nivel_name  48 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.9+ KB


In [1085]:
carrefour_update('Pescados Congelados', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 35 entries, 5660 to 5694
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  35 non-null     object 
 1   subcategory               35 non-null     object 
 2   subsubcategory            35 non-null     object 
 3   name                      35 non-null     object 
 4   description               35 non-null     object 
 5   price                     35 non-null     float64
 6   reference_price           35 non-null     float64
 7   reference_unit            35 non-null     object 
 8   date                      35 non-null     object 
 9   category_name             35 non-null     object 
 10  subcategory_name          35 non-null     object 
 11  subcategory_2_nivel_name  35 non-null     object 
dtypes: float64(2), object(10)
memory usage: 3.6+ KB


In [1086]:
carrefour_update('Pizzas Congeladas', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 57 entries, 7257 to 7313
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  57 non-null     object 
 1   subcategory               57 non-null     object 
 2   subsubcategory            57 non-null     object 
 3   name                      57 non-null     object 
 4   description               57 non-null     object 
 5   price                     57 non-null     float64
 6   reference_price           57 non-null     float64
 7   reference_unit            57 non-null     object 
 8   date                      57 non-null     object 
 9   category_name             57 non-null     object 
 10  subcategory_name          57 non-null     object 
 11  subcategory_2_nivel_name  57 non-null     object 
dtypes: float64(2), object(10)
memory usage: 5.8+ KB


In [1087]:
carrefour_update('Pulpo_Calamar y Sepia Congelados', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 15 entries, 9023 to 9037
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  15 non-null     object 
 1   subcategory               15 non-null     object 
 2   subsubcategory            15 non-null     object 
 3   name                      15 non-null     object 
 4   description               15 non-null     object 
 5   price                     15 non-null     float64
 6   reference_price           15 non-null     float64
 7   reference_unit            15 non-null     object 
 8   date                      15 non-null     object 
 9   category_name             15 non-null     object 
 10  subcategory_name          15 non-null     object 
 11  subcategory_2_nivel_name  15 non-null     object 
dtypes: float64(2), object(10)
memory usage: 1.5+ KB


In [1088]:
carrefour_update('Rebozados y Platos Preparados', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 44 entries, 5435 to 5482
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  44 non-null     object 
 1   subcategory               44 non-null     object 
 2   subsubcategory            44 non-null     object 
 3   name                      44 non-null     object 
 4   description               43 non-null     object 
 5   price                     44 non-null     float64
 6   reference_price           44 non-null     float64
 7   reference_unit            44 non-null     object 
 8   date                      44 non-null     object 
 9   category_name             44 non-null     object 
 10  subcategory_name          44 non-null     object 
 11  subcategory_2_nivel_name  44 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.5+ KB


In [1089]:
carrefour_update('Salteados Congelados', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 32 entries, 5530 to 5561
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  32 non-null     object 
 1   subcategory               32 non-null     object 
 2   subsubcategory            32 non-null     object 
 3   name                      32 non-null     object 
 4   description               32 non-null     object 
 5   price                     32 non-null     float64
 6   reference_price           32 non-null     float64
 7   reference_unit            32 non-null     object 
 8   date                      32 non-null     object 
 9   category_name             32 non-null     object 
 10  subcategory_name          32 non-null     object 
 11  subcategory_2_nivel_name  32 non-null     object 
dtypes: float64(2), object(10)
memory usage: 3.2+ KB


In [1090]:
carrefour_update('Surimi Congelado', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 7439 to 7447
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  9 non-null      object 
 1   subcategory               9 non-null      object 
 2   subsubcategory            9 non-null      object 
 3   name                      9 non-null      object 
 4   description               9 non-null      object 
 5   price                     9 non-null      float64
 6   reference_price           9 non-null      float64
 7   reference_unit            9 non-null      object 
 8   date                      9 non-null      object 
 9   category_name             9 non-null      object 
 10  subcategory_name          9 non-null      object 
 11  subcategory_2_nivel_name  9 non-null      object 
dtypes: float64(2), object(10)
memory usage: 936.0+ bytes


In [1091]:
carrefour_update('Verduras Congeladas', clasificar_category_congelados)

<class 'pandas.core.frame.DataFrame'>
Index: 47 entries, 5483 to 5529
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  47 non-null     object 
 1   subcategory               47 non-null     object 
 2   subsubcategory            47 non-null     object 
 3   name                      47 non-null     object 
 4   description               47 non-null     object 
 5   price                     47 non-null     float64
 6   reference_price           47 non-null     float64
 7   reference_unit            47 non-null     object 
 8   date                      47 non-null     object 
 9   category_name             47 non-null     object 
 10  subcategory_name          47 non-null     object 
 11  subcategory_2_nivel_name  47 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.8+ KB


# Procesamiento de la categoría "Perfumería e Higiene"

In [1092]:
df_category_carrefour[df_category_carrefour['category'] == 'Perfumería e Higiene'].head(60)

Unnamed: 0,category,subcategory,subsubcategory
4795,Perfumería e Higiene,Baño e Higiene Corporal,Geles de Baño
4840,Perfumería e Higiene,Baño e Higiene Corporal,Jabón de Manos
4873,Perfumería e Higiene,Baño e Higiene Corporal,Ojos y Oreja
4876,Perfumería e Higiene,Baño e Higiene Corporal,Perfumería para Regalar
6923,Perfumería e Higiene,Baño e Higiene Corporal,Desodorantes
6969,Perfumería e Higiene,Baño e Higiene Corporal,Colonias
7042,Perfumería e Higiene,Baño e Higiene Corporal,Sales de Baño
8931,Perfumería e Higiene,Baño e Higiene Corporal,Esponjas_Manoplas y Cepillos de Baño
5394,Perfumería e Higiene,Bienestar Sexual,Preservativos
5418,Perfumería e Higiene,Bienestar Sexual,Lubricantes


In [1093]:
current_category = df_category[df_category["category_name"] == 'Cuidado facial y corporal']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
220,Cuidado facial y corporal,Afeitado y cuidado para hombre,Espuma de afeitar,221
221,Cuidado facial y corporal,Afeitado y cuidado para hombre,After shave,222
222,Cuidado facial y corporal,Afeitado y cuidado para hombre,Maquinillas de afeitar,223
223,Cuidado facial y corporal,Afeitado y cuidado para hombre,Recambios maquinilla de afeitar,224
224,Cuidado facial y corporal,Afeitado y cuidado para hombre,Crema y gel de cara,225
225,Cuidado facial y corporal,Cuidado corporal,Crema y aceite para el cuerpo,226
226,Cuidado facial y corporal,Cuidado corporal,Crema manos,227
227,Cuidado facial y corporal,Cuidado corporal,Crema pies,228
228,Cuidado facial y corporal,Cuidado corporal,Toallitas,229
229,Cuidado facial y corporal,Cuidado e higiene facial,Limpieza de cara,230


### Subcategoria "Baño e Higiene Corporal"

In [1094]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Baño e Higiene Corporal']

Unnamed: 0,category,subcategory,subsubcategory
4795,Perfumería e Higiene,Baño e Higiene Corporal,Geles de Baño
4840,Perfumería e Higiene,Baño e Higiene Corporal,Jabón de Manos
4873,Perfumería e Higiene,Baño e Higiene Corporal,Ojos y Oreja
4876,Perfumería e Higiene,Baño e Higiene Corporal,Perfumería para Regalar
6923,Perfumería e Higiene,Baño e Higiene Corporal,Desodorantes
6969,Perfumería e Higiene,Baño e Higiene Corporal,Colonias
7042,Perfumería e Higiene,Baño e Higiene Corporal,Sales de Baño
8931,Perfumería e Higiene,Baño e Higiene Corporal,Esponjas_Manoplas y Cepillos de Baño


In [1095]:
df_mercadona[df_mercadona['name'].str.contains('baño', case=False, na=False)].tail(60)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
2589,Gel de baño frutal Deliplus piel normal,Botella 1.0 l,1.05,0.105,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2590,Gel de baño oliva Deliplus piel seca,Botella 0.75 l,1.5,0.2,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2591,Gel de baño frescor azul Deliplus piel normal,Botella 0.75 l,1.0,0.134,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2592,Gel de baño hidratante Natural Honey,Botella 0.9 l,2.85,0.317,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2593,Gel-Champú de baño 2 en 1 dermoprotector Delip...,Botella 0.25 l,1.0,0.4,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2594,Gel de baño tiernos recuerdos Deliplus piel no...,Botella 0.75 l,1.5,0.2,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2595,Gel de baño avena Deliplus piel sensible,Botella 0.75 l,1.5,0.2,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2596,Gel de baño Dove 0% sulfato,Botella 0.72 l,3.95,0.549,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2598,Gel de baño con sales minerales La Toja,Botella 0.6 l,2.95,0.492,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
2599,Gel de baño Classic original Magno,Botella 0.6 l,3.7,0.617,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239


In [1096]:
def clasificar_category_higiene(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Jabón de Manos':
        return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Jabón de manos')

    if subcat == 'Ojos y Oreja':
        return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Contorno de ojos')

    if subcat in ['Geles de Baño', 'Sales de Baño']:
        return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Gel')

    if subcat == 'Esponjas_Manoplas y Cepillos de Baño':
            return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Esponjas')

    if subcat == 'Desodorantes':
        if 'roll' in name or 'stick'in name:
            return ('Cuidado facial y corporal', 'Desodorante', 'Desodorante roll on y stick')
        elif 'spray' in name:
            return ('Cuidado facial y corporal', 'Desodorante', 'Desodorante Spray')
        else:
            return ('Cuidado facial y corporal', 'Desodorante', 'Otros desodorantes')

    if subcat in ['Colonias', 'Perfumería para Regalar']:
        if 'eau de toilette mujer' in name or 'colonia mujer' in name or 'eau de parfum mujer' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Perfume y colonia mujer')
        elif 'lote mujer' in name or 'neceser' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Lotes mujer')
        elif 'eau de toilette hombre' in name or 'colonia hombre' in name or 'eau de parfum hombre' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Perfume y colonia hombre')
        elif 'lote hombre' in name or 'neceser hombre' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Lotes hombres')
        else:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Colonia infantil')


    return (pd.NA, pd.NA, pd.NA)

In [1097]:
carrefour_update('Baño e Higiene Corporal', clasificar_category_higiene)

<class 'pandas.core.frame.DataFrame'>
Index: 223 entries, 4795 to 8946
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  223 non-null    object 
 1   subcategory               223 non-null    object 
 2   subsubcategory            223 non-null    object 
 3   name                      223 non-null    object 
 4   description               198 non-null    object 
 5   price                     223 non-null    float64
 6   reference_price           223 non-null    float64
 7   reference_unit            223 non-null    object 
 8   date                      223 non-null    object 
 9   category_name             223 non-null    object 
 10  subcategory_name          223 non-null    object 
 11  subcategory_2_nivel_name  223 non-null    object 
dtypes: float64(2), object(10)
memory usage: 22.6+ KB


### Subcategoria "Cabello"

In [1098]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Cabello']

Unnamed: 0,category,subcategory,subsubcategory
6412,Parafarmacia,Cabello,Champús Anticaída
6421,Parafarmacia,Cabello,Otros Champús de Tratamiento
6449,Parafarmacia,Cabello,Antiparasitarios
6456,Parafarmacia,Cabello,Tintes
4880,Perfumería e Higiene,Cabello,Champús
4927,Perfumería e Higiene,Cabello,Cuidado y Tratamientos del cabello
4951,Perfumería e Higiene,Cabello,Acondicionadores
4987,Perfumería e Higiene,Cabello,Tinte
5034,Perfumería e Higiene,Cabello,Fijadores
8947,Perfumería e Higiene,Cabello,Cepillos_Peines y Accesorios


In [1099]:
current_category = df_category[df_category["category_name"] == 'Cuidado del cabello']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
205,Cuidado del cabello,Acondicionador y mascarilla,Acondicionador,206
206,Cuidado del cabello,Acondicionador y mascarilla,Mascarilla,207
207,Cuidado del cabello,Acondicionador y mascarilla,Sérum y otros,208
208,Cuidado del cabello,Champú,Champú,209
209,Cuidado del cabello,Champú,Champú anticaspa,210
210,Cuidado del cabello,Champú,Champú infantil,211
211,Cuidado del cabello,Coloración cabello,Coloración color moreno,212
212,Cuidado del cabello,Coloración cabello,Coloración color castaño,213
213,Cuidado del cabello,Coloración cabello,Coloración color caoba,214
214,Cuidado del cabello,Coloración cabello,Coloración color rubio,215


In [1100]:
df_mercadona[df_mercadona['name'].str.contains('cepillo', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
784,Cepillo limpiabiberón y tetina Deliplus,Paquete 1.0 ud,2.5,2.5,ud,Biberón,Bebé,Biberón y chupete,False,72
2655,Cepillo dental Medio Deliplus,Paquete 1.0 ud,1.0,0.334,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2656,Cepillo dental Suave Deliplus,Paquete 1.0 ud,1.0,0.334,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2657,Cepillo dental Duro Deliplus,Paquete 1.0 ud,1.0,0.334,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2658,Cepillo dental Sensitive Deliplus encías y die...,Paquete 1.0 ud,1.3,1.3,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2659,Cepillo dental Infantil Deliplus,Paquete 1.0 ud,0.9,0.9,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2660,Recambios cepillo dental Eléctrico Deliplus ta...,Paquete 1.0 ud,3.85,1.925,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2661,Cepillo dental Especial Ortodoncia Deliplus,Paquete 1.0 ud,1.9,1.9,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2662,Recambios cepillo dental eléctrico Oral-B Pro ...,Paquete 1.0 ud,14.95,3.738,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243
2663,Cepillo dental Medio Deliplus + Action,Paquete 1.0 ud,1.5,1.5,ud,Cepillo de dientes,Cuidado facial y corporal,Higiene bucal,False,243


In [1101]:
def clasificar_category_cuidado_cabello(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Champús':
        if 'infantil' in name or 'bebé':
            return ('Cuidado del cabello', 'Champú', 'Champú infantil')
        elif 'anticaspa' in name:
            return ('Cuidado del cabello', 'Champú', 'Champú anticaspa')
        else:
            return ('Cuidado del cabello', 'Champú', 'Champú')

    if subcat in ['Champús Anticaída', 'Otros Champús de Tratamiento']:
        return ('Cuidado del cabello', 'Champú', 'Champú')

    if subcat in ['Acondicionadores', 'Cuidado y Tratamientos del cabello']:
        if 'acondicionador' in name:
            return ('Cuidado del cabello', 'Acondicionador y mascarilla', 'Acondicionador')
        elif 'mascarilla' in name:
            return ('Cuidado del cabello', 'Acondicionador y mascarilla', 'Mascarilla')
        else:
            return ('Cuidado del cabello', 'Acondicionador y mascarilla', 'Sérum y otros')

    if subcat == 'Fijadores':
        if 'espuma' in name or 'laca' in name:
            return ('Cuidado del cabello', 'Fijación cabello', 'Espuma y laca')
        else:
            return ('Cuidado del cabello', 'Fijación cabello', 'Gomina y cera')

    if subcat in ['Tinte', 'Tintes']:
        if 'moreno' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color moreno')
        elif 'castaño' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color castaño')
        elif 'permanente' in name or 'rubio' in name or 'aclarante' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color rubio')
        elif 'hombre' in name or 'hombres' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración hombre')
        elif 'caobae' in name or 'rojo' in name or 'cobre' in name or 'violín' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color caoba')
        elif 'retoca raíces' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Retoca raíces')
        else:
            return ('Cuidado del cabello', 'Coloración cabello', 'Accesorios')


    if subcat == 'Cepillos_Peines y Accesorios':
        return ('Cuidado del cabello', 'Coloración cabello', 'Accesorios')

    if subcat == 'Antiparasitarios':
        return ('Fitoterapia y parafarmacia', 'Parafarmacia', 'Botiquín')


    return (pd.NA, pd.NA, pd.NA)

In [1102]:
carrefour_update('Cabello', clasificar_category_cuidado_cabello)

<class 'pandas.core.frame.DataFrame'>
Index: 280 entries, 4880 to 8981
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  280 non-null    object 
 1   subcategory               280 non-null    object 
 2   subsubcategory            280 non-null    object 
 3   name                      280 non-null    object 
 4   description               187 non-null    object 
 5   price                     280 non-null    float64
 6   reference_price           280 non-null    float64
 7   reference_unit            280 non-null    object 
 8   date                      280 non-null    object 
 9   category_name             280 non-null    object 
 10  subcategory_name          280 non-null    object 
 11  subcategory_2_nivel_name  280 non-null    object 
dtypes: float64(2), object(10)
memory usage: 28.4+ KB


### Subcategoria "Cuidado y Protección Corporal"

In [1103]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Cuidado y Protección Corporal']

Unnamed: 0,category,subcategory,subsubcategory
5059,Perfumería e Higiene,Cuidado y Protección Corporal,Piel
5086,Perfumería e Higiene,Cuidado y Protección Corporal,Protectores solares y After Sun
5110,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje
7045,Perfumería e Higiene,Cuidado y Protección Corporal,Limpieza Facial
7086,Perfumería e Higiene,Cuidado y Protección Corporal,Pies
8982,Perfumería e Higiene,Cuidado y Protección Corporal,Body Milk_Hidratación Bajo la Ducha


In [1104]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Cosmética']

Unnamed: 0,category,subcategory,subsubcategory
5302,Perfumería e Higiene,Cosmética,Ojos
5325,Perfumería e Higiene,Cosmética,Uñas
5343,Perfumería e Higiene,Cosmética,Accesorios de Maquillaje y Manicura y Pedicura
5387,Perfumería e Higiene,Cosmética,Labios
7200,Perfumería e Higiene,Cosmética,Rostro
7253,Perfumería e Higiene,Cosmética,Estuches de baño y cosmética


In [1105]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Depilación y Afeitado']

Unnamed: 0,category,subcategory,subsubcategory
5255,Perfumería e Higiene,Depilación y Afeitado,Depilación
5278,Perfumería e Higiene,Depilación y Afeitado,Afeitado
7193,Perfumería e Higiene,Depilación y Afeitado,After Shave
9187,Perfumería e Higiene,Depilación y Afeitado,Maquinillas y Recambios


In [1106]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Higiene íntima']

Unnamed: 0,category,subcategory,subsubcategory
5164,Perfumería e Higiene,Higiene íntima,Tampones
5190,Perfumería e Higiene,Higiene íntima,Protege Slip
5213,Perfumería e Higiene,Higiene íntima,Incontinencia
5247,Perfumería e Higiene,Higiene íntima,Toallitas y geles íntimos
7157,Perfumería e Higiene,Higiene íntima,Compresas


In [1107]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Boca y Sonrisa']

Unnamed: 0,category,subcategory,subsubcategory
5124,Perfumería e Higiene,Boca y Sonrisa,Enjuagues Bucales
5155,Perfumería e Higiene,Boca y Sonrisa,Prótesis
7097,Perfumería e Higiene,Boca y Sonrisa,Dentífricos
7107,Perfumería e Higiene,Boca y Sonrisa,"Cepillos, Recambios y Accesorios"
7146,Perfumería e Higiene,Boca y Sonrisa,Protector labial


In [1108]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Bienestar Sexual']

Unnamed: 0,category,subcategory,subsubcategory
5394,Perfumería e Higiene,Bienestar Sexual,Preservativos
5418,Perfumería e Higiene,Bienestar Sexual,Lubricantes
5432,Perfumería e Higiene,Bienestar Sexual,Estimuladores


In [1109]:
df_carrefour[df_carrefour['subsubcategory'] == 'Productos para Viaje']

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name
5110,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Crema hidratante intensiva multiuso Nivea Soft...,50 ml,1.76,3.52,100ml,2025-04-14,,,
5111,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Crema hidratante Nivea 75 ml.,75 ml,2.69,3.59,100ml,2025-04-14,,,
5112,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Kit dental viaje Pierrot: cepillo_dentífrico y...,,4.25,4.25,ud,2025-04-14,,,
5113,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Set de viaje Botellas rellenables de 3x100 ml ...,Botella,3.65,3.65,ud,2025-04-14,,,
5114,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Espuma rizo marcado Giorgi 100 ml.,100 ml,2.39,2.39,100ml,2025-04-14,,,
5115,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Crema de manos hidratante Soft Carrefour 30 ml.,30 ml,1.19,3.97,100ml,2025-04-14,,,
5116,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Dentífrico original Total Prevención Colgate p...,pack,3.29,5.48,100ml,2025-04-14,,,
5117,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Laca fijadora fuerte Satin L'Oréal Elnett 75 ml.,75 ml,4.35,5.8,100ml,2025-04-14,,,
5118,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Loción protector solar kids SPF50+ Science Les...,100 ml,4.49,4.49,100ml,2025-04-14,,,
5119,Perfumería e Higiene,Cuidado y Protección Corporal,Productos para Viaje,Neceser Ponette 1 ud.,,7.65,7.65,ud,2025-04-14,,,


In [1110]:
df_mercadona[df_mercadona['name'].str.contains('preservativos', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
2972,Preservativos sensitivo suave Durex,Caja 1.0 ud,8.4,0.7,ud,Preservativos,Fitoterapia y parafarmacia,Parafarmacia,False,260
2973,Preservativos natural On,Caja 1.0 ud,2.93,0.245,ud,Preservativos,Fitoterapia y parafarmacia,Parafarmacia,False,260
2974,Preservativos natural Durex,Caja 1.0 ud,7.4,0.617,ud,Preservativos,Fitoterapia y parafarmacia,Parafarmacia,False,260
2975,Preservativos sensitive On,Caja 1.0 ud,3.12,0.26,ud,Preservativos,Fitoterapia y parafarmacia,Parafarmacia,False,260
2976,Preservativos dame placer Durex,Caja 1.0 ud,8.4,0.7,ud,Preservativos,Fitoterapia y parafarmacia,Parafarmacia,False,260


In [1111]:
def clasificar_category_cuidado_corporal(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Protectores solares y After Sun':
        return ('Cuidado facial y corporal', 'Protector solar y aftersun', 'Protector solar y aftersun')

    if subcat == 'Uñas':
        return ('Cuidado facial y corporal', 'Manicura y pedicura', 'Cuidado de uñas y complementos')


    if subcat == 'Afeitado':
        if 'gel de afeitar' in name or 'espuma' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Espuma de afeitar')
        elif 'after shave' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'After shave')
        elif 'maquinilla' in name or 'maquinillas' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Maquinillas de afeitar')
        elif 'recambios' in name or 'recambio' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Recambios maquinilla de afeitar')
        else:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Crema y gel de cara')

    if subcat == 'After Shave':
        return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'After shave')

    if subcat == 'Maquinillas y Recambios':
        if 'maquinilla' in name or 'maquinillas' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Maquinillas de afeitar')
        else:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Recambios maquinilla de afeitar')


    if subcat in ['Estuches de baño y cosmética', 'Productos para Viaje']:
        if 'fascial' in name or 'cara' in name or 'cosmética' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Crema de cara')
        elif 'de ojos' in name or 'para ojos' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Contorno de ojos')
        elif 'manos' in name:
             return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema manos')
        elif 'corporal' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema y aceite para el cuerpo')
        elif 'solar' in name or 'sun' in name:
            return ('Cuidado facial y corporal', 'Protector solar y aftersun', 'Protector solar y aftersun')
        elif 'dentífrico' in name or 'dental' in name:
            return ('Cuidado facial y corporal', 'Higiene bucal', 'Pasta de dientes')
        else:
            return ('Cuidado del cabello', 'Coloración cabello', 'Accesorios')

    if subcat == 'Limpieza Facial':
        return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Limpieza de cara')

    if subcat == 'Rostro':
        if 'crema' in name or 'hidratante' in name or 'gel' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Crema de cara')
        elif 'de ojos' in name or 'para ojos' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Contorno de ojos')
        else:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Sérum y ampollas')

    if subcat == 'Piel':
        if 'manos' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema manos')
        elif 'corporal' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema y aceite para el cuerpo')
        elif 'crema' in name or 'hidratante' in name or 'gel' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Crema de cara')
        elif 'de ojos' in name or 'para ojos' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Contorno de ojos')
        else:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Sérum y ampollas')

    if subcat == 'Body Milk_Hidratación Bajo la Ducha':
        if 'corporal' in name or 'anticelulítico' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema y aceite para el cuerpo')
        elif 'manos' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema manos')
        elif 'pies' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema pies')
        else:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Toallitas')


    if subcat == 'Pies':
        return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema pies')

    if subcat in ['Preservativos', 'Lubricantes', 'Estimuladores']:
        return ('Fitoterapia y parafarmacia', 'Parafarmacia', 'Preservativos')


    if subcat == 'Dentífricos':
        return ('Cuidado facial y corporal', 'Higiene bucal', 'Pasta de dientes')


    if subcat == 'Cepillos, Recambios y Accesorios':
        return ('Cuidado facial y corporal', 'Higiene bucal', 'Cepillo de dientes')


    if subcat in ['Enjuagues Bucales', 'Prótesis']:
            return ('Cuidado facial y corporal', 'Higiene bucal', 'Colutorio e hilo dental')


    if subcat in ['Compresas', 'Incontinencia']:
        return ('Cuidado facial y corporal', 'Higiene íntima', 'Compresas')

    if subcat == 'Protege Slip':
        return ('Cuidado facial y corporal', 'Higiene íntima', 'Protegeslips')

    if subcat == 'Tampones':
        return ('Cuidado facial y corporal', 'Higiene íntima', 'Tampones')

    if subcat == 'Toallitas y geles íntimos':
        return ('Cuidado facial y corporal', 'Higiene íntima', 'Toallitas y gel')

    if subcat == 'Protector labial':
        return ('Maquillaje', 'Labios', 'Pintalabios cremoso y brillos')


    if subcat == 'Depilación':
        if 'bandas' in name or 'crema' in name or 'pinza' in name or 'cera' in name or 'gel' in name:
            return ('Cuidado facial y corporal', 'Depilación', 'Bandas, cera y crema')
        else:
            return ('Cuidado facial y corporal', 'Depilación', 'Cuchilla')

    return (pd.NA, pd.NA, pd.NA)

In [1112]:
carrefour_update('Bienestar Sexual', clasificar_category_cuidado_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 41 entries, 5394 to 5434
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  41 non-null     object 
 1   subcategory               41 non-null     object 
 2   subsubcategory            41 non-null     object 
 3   name                      41 non-null     object 
 4   description               14 non-null     object 
 5   price                     41 non-null     float64
 6   reference_price           41 non-null     float64
 7   reference_unit            41 non-null     object 
 8   date                      41 non-null     object 
 9   category_name             41 non-null     object 
 10  subcategory_name          41 non-null     object 
 11  subcategory_2_nivel_name  41 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.2+ KB


In [1113]:
carrefour_update('Cuidado y Protección Corporal', clasificar_category_cuidado_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 158 entries, 5059 to 9022
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  158 non-null    object 
 1   subcategory               158 non-null    object 
 2   subsubcategory            158 non-null    object 
 3   name                      158 non-null    object 
 4   description               128 non-null    object 
 5   price                     158 non-null    float64
 6   reference_price           158 non-null    float64
 7   reference_unit            158 non-null    object 
 8   date                      158 non-null    object 
 9   category_name             158 non-null    object 
 10  subcategory_name          158 non-null    object 
 11  subcategory_2_nivel_name  158 non-null    object 
dtypes: float64(2), object(10)
memory usage: 16.0+ KB


In [1114]:
carrefour_update('Boca y Sonrisa', clasificar_category_cuidado_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 5124 to 7156
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  100 non-null    object 
 1   subcategory               100 non-null    object 
 2   subsubcategory            100 non-null    object 
 3   name                      100 non-null    object 
 4   description               90 non-null     object 
 5   price                     100 non-null    float64
 6   reference_price           100 non-null    float64
 7   reference_unit            100 non-null    object 
 8   date                      100 non-null    object 
 9   category_name             100 non-null    object 
 10  subcategory_name          100 non-null    object 
 11  subcategory_2_nivel_name  100 non-null    object 
dtypes: float64(2), object(10)
memory usage: 10.2+ KB


In [1115]:
carrefour_update('Depilación y Afeitado', clasificar_category_cuidado_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 125 entries, 5255 to 9257
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  125 non-null    object 
 1   subcategory               125 non-null    object 
 2   subsubcategory            125 non-null    object 
 3   name                      125 non-null    object 
 4   description               54 non-null     object 
 5   price                     125 non-null    float64
 6   reference_price           125 non-null    float64
 7   reference_unit            125 non-null    object 
 8   date                      125 non-null    object 
 9   category_name             125 non-null    object 
 10  subcategory_name          125 non-null    object 
 11  subcategory_2_nivel_name  125 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.7+ KB


In [1116]:
carrefour_update('Higiene íntima', clasificar_category_cuidado_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 127 entries, 5164 to 7192
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  127 non-null    object 
 1   subcategory               127 non-null    object 
 2   subsubcategory            127 non-null    object 
 3   name                      127 non-null    object 
 4   description               6 non-null      object 
 5   price                     127 non-null    float64
 6   reference_price           127 non-null    float64
 7   reference_unit            127 non-null    object 
 8   date                      127 non-null    object 
 9   category_name             127 non-null    object 
 10  subcategory_name          127 non-null    object 
 11  subcategory_2_nivel_name  127 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.9+ KB


In [1117]:
carrefour_update('Cosmética', clasificar_category_cuidado_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 149 entries, 5302 to 7256
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  149 non-null    object 
 1   subcategory               149 non-null    object 
 2   subsubcategory            149 non-null    object 
 3   name                      149 non-null    object 
 4   description               61 non-null     object 
 5   price                     149 non-null    float64
 6   reference_price           149 non-null    float64
 7   reference_unit            149 non-null    object 
 8   date                      149 non-null    object 
 9   category_name             75 non-null     object 
 10  subcategory_name          75 non-null     object 
 11  subcategory_2_nivel_name  75 non-null     object 
dtypes: float64(2), object(10)
memory usage: 15.1+ KB


### Subcategoría 'Cosmética'

In [1118]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Cosmética']

Unnamed: 0,category,subcategory,subsubcategory
5302,Perfumería e Higiene,Cosmética,Ojos
5325,Perfumería e Higiene,Cosmética,Uñas
5343,Perfumería e Higiene,Cosmética,Accesorios de Maquillaje y Manicura y Pedicura
5387,Perfumería e Higiene,Cosmética,Labios
7200,Perfumería e Higiene,Cosmética,Rostro
7253,Perfumería e Higiene,Cosmética,Estuches de baño y cosmética


In [1119]:
current_category = df_category[df_category["category_name"] == 'Maquillaje']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
334,Maquillaje,Bases de maquillaje y corrector,Maquillaje fluido,335
335,Maquillaje,Bases de maquillaje y corrector,Maquillaje compacto,336
336,Maquillaje,Bases de maquillaje y corrector,Correctores y prebase,337
337,Maquillaje,Colorete y polvos,Colorete,338
338,Maquillaje,Colorete y polvos,Polvos,339
339,Maquillaje,Labios,Cuidado,340
340,Maquillaje,Labios,Perfilador labios,341
341,Maquillaje,Labios,Pintalabios fijo,342
342,Maquillaje,Labios,Pintalabios cremoso y brillos,343
343,Maquillaje,Labios,Pintalabios mate,344


In [1120]:
def clasificar_maquillaje(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Accesorios de Maquillaje y Manicura y Pedicura':
        return ('Maquillaje', 'Pinceles y brochas', 'Pinceles y brochas')

    if subcat == 'Labios':
        if 'pintalabios' in name and 'mate' in name:
            return ('Maquillaje', 'Labios', 'Pintalabios mate')
        elif 'pintalabios' in name and ('brillo' in name or 'bálsamo' in name or 'creamy' in name):
            return ('Maquillaje', 'Labios', 'Pintalabios cremoso y brillos')
        elif 'fix' in name or 'fijo' in name:
            return ('Maquillaje', 'Labios', 'Pintalabios fijo')
        elif 'perfilador' in name:
            return ('Maquillaje', 'Labios', 'Perfilador labios')
        else:
            return ('Maquillaje', 'Labios', 'Cuidado')

    if subcat == 'Ojos':
        if 'perfilador' in name:
            return ('Maquillaje', 'Ojos', 'Perfilador de ojos')
        elif 'pestañas' in name:
            return ('Maquillaje', 'Ojos', 'Máscara de pestañas')
        elif 'sombra' in name:
            return ('Maquillaje', 'Ojos', 'Sombra de ojos')
        else:
            return ('Maquillaje', 'Ojos', 'Cejas')

    return (pd.NA, pd.NA, pd.NA)

In [1121]:
carrefour_update('Cosmética', clasificar_maquillaje)

<class 'pandas.core.frame.DataFrame'>
Index: 149 entries, 5302 to 7256
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  149 non-null    object 
 1   subcategory               149 non-null    object 
 2   subsubcategory            149 non-null    object 
 3   name                      149 non-null    object 
 4   description               61 non-null     object 
 5   price                     149 non-null    float64
 6   reference_price           149 non-null    float64
 7   reference_unit            149 non-null    object 
 8   date                      149 non-null    object 
 9   category_name             149 non-null    object 
 10  subcategory_name          149 non-null    object 
 11  subcategory_2_nivel_name  149 non-null    object 
dtypes: float64(2), object(10)
memory usage: 15.1+ KB


# Procesamiento de la categoría "Parafarmacia"

In [1122]:
current_category = df_category[df_category["category_name"] == 'Fitoterapia y parafarmacia']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
257,Fitoterapia y parafarmacia,Fitoterapia,Fitoterapia,258
258,Fitoterapia y parafarmacia,Parafarmacia,Botiquín,259
259,Fitoterapia y parafarmacia,Parafarmacia,Preservativos,260


In [1123]:
df_category_carrefour[df_category_carrefour['category'] == 'Parafarmacia']

Unnamed: 0,category,subcategory,subsubcategory
5965,Parafarmacia,Bebé,Papillas y Galletas
5984,Parafarmacia,Bebé,Complementos Alimenticios e Infusiones para bebé
5990,Parafarmacia,Bebé,Embarazo y Lactancia
6004,Parafarmacia,Bebé,Puericultura
6028,Parafarmacia,Bebé,Accesorios Baño
6034,Parafarmacia,Bebé,Champú
6045,Parafarmacia,Bebé,Hidratantes y Aceites Corporales
6051,Parafarmacia,Bebé,Toallitas bebé
6056,Parafarmacia,Bebé,Lotes Multiproducto
7684,Parafarmacia,Bebé,Leche infantil


In [1124]:
df_mercadona[df_mercadona['name'].str.contains('frescor', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
2591,Gel de baño frescor azul Deliplus piel normal,Botella 0.75 l,1.0,0.134,100 ml,Gel,Cuidado facial y corporal,Gel y jabón de manos,False,239
3570,Lavavajillas frescor anti-olor Somat en gel duo,Botella 0.576 l,4.95,0.155,lv,Limpiavajilla a máquina,Limpieza y hogar,Limpieza vajilla,False,319


In [1125]:
def clasificar_category_parafarmacia(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'fitoterapia_y_parafarmacia|fitoterapia':
        return ('Fitoterapia y parafarmacia', 'Fitoterapia', 'Fitoterapia')


    if subcat in ['Geles hidroalcohólicos', 'Apósitos y Gasas', 'Soluciones Durezas',
                  'Lentillas y Sueros', 'Higiene y tiras Nasales', 'Cuidado Acné',
                  'Antisépticos y Talcos', 'Tos y Garganta', 'Cuidado y Fijación Prótesis Dentales',
                  'Alivio del Dolor', 'Termómetro y Tensiómetros', 'Antimosquitos',
                  'Mascarillas', 'Oído y Protectores', 'Apósitos y Plantillas',
                  'Ortodoncia']:
            return ('Fitoterapia y parafarmacia', 'Parafarmacia', 'Botiquín')

    if subcat == 'Embarazo y Lactancia':
	      return ('Cuidado facial y corporal',	'Higiene íntima',	'Compresas')

    if subcat == 'Pasta de dientes':
        return ('Cuidado facial y corporal', 'Higiene bucal', 'Pasta de dientes')

    if subcat == 'Cepillos y Seda':
        return ('Cuidado facial y corporal', 'Higiene bucal', 'Cepillo de dientes')

    if subcat in ['Colutorio', 'Frescor y Aliento']:
        return ('Cuidado facial y corporal', 'Higiene bucal', 'Colutorio e hilo dental')


    if subcat == 'Papillas y Galletas':
        if 'papilla' in name:
            return ('Bebé', 'Alimentación infantil', 'Papillas')
        else:
            return ('Bebé', 'Alimentación infantil', 'Yogures y postres')

    if subcat == 'Complementos Alimenticios e Infusiones para bebé':
        return ('Bebé', 'Alimentación infantil', 'Papillas')

    if subcat == 'Leche infantil':
        if 'polvo' in name:
            return ('Bebé', 'Alimentación infantil', 'Leche en polvo')
        else:
            return ('Bebé', 'Alimentación infantil', 'Leche')


    if subcat == 'Toallitas bebé':
        return ('Bebé', 'Toallitas y pañales', 'Toallitas')

    if subcat in ['Hidratantes y Aceites Corporales', 'Lotes Multiproducto']:
        return ('Bebé', 'Higiene y cuidado', 'Aceite y crema')

    if subcat == 'Champú':
        return ('Bebé', 'Higiene y cuidado', 'Champú y jabón')

    if subcat == 'Puericultura':
        if 'biberón' in name:
            return ('Bebé', 'Biberón y chupete', 'Biberón')
        elif 'chupete' in name:
            return ('Bebé', 'Biberón y chupete', 'Chupete')
        else:
            return ('Bebé', 'Higiene y cuidado', 'Accesorios')

    if subcat == 'Anti Irritación':
        return ('Bebé', 'Higiene y cuidado', 'Aceite y crema')

    if subcat == 'Accesorios Baño':
        return ('Bebé', 'Higiene y cuidado', 'Accesorios')

    return (pd.NA, pd.NA, pd.NA)

In [1126]:
carrefour_update('Bebé', clasificar_category_parafarmacia)

<class 'pandas.core.frame.DataFrame'>
Index: 164 entries, 5965 to 7753
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  164 non-null    object 
 1   subcategory               164 non-null    object 
 2   subsubcategory            164 non-null    object 
 3   name                      164 non-null    object 
 4   description               128 non-null    object 
 5   price                     164 non-null    float64
 6   reference_price           164 non-null    float64
 7   reference_unit            164 non-null    object 
 8   date                      164 non-null    object 
 9   category_name             164 non-null    object 
 10  subcategory_name          164 non-null    object 
 11  subcategory_2_nivel_name  164 non-null    object 
dtypes: float64(2), object(10)
memory usage: 16.7+ KB


In [1127]:
carrefour_update('Botiquín', clasificar_category_parafarmacia)

<class 'pandas.core.frame.DataFrame'>
Index: 112 entries, 6180 to 7762
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  112 non-null    object 
 1   subcategory               112 non-null    object 
 2   subsubcategory            112 non-null    object 
 3   name                      112 non-null    object 
 4   description               55 non-null     object 
 5   price                     112 non-null    float64
 6   reference_price           112 non-null    float64
 7   reference_unit            112 non-null    object 
 8   date                      112 non-null    object 
 9   category_name             112 non-null    object 
 10  subcategory_name          112 non-null    object 
 11  subcategory_2_nivel_name  112 non-null    object 
dtypes: float64(2), object(10)
memory usage: 11.4+ KB


In [1128]:
carrefour_update('Higiene Bucal', clasificar_category_parafarmacia)

<class 'pandas.core.frame.DataFrame'>
Index: 121 entries, 6059 to 6179
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  121 non-null    object 
 1   subcategory               121 non-null    object 
 2   subsubcategory            121 non-null    object 
 3   name                      121 non-null    object 
 4   description               80 non-null     object 
 5   price                     121 non-null    float64
 6   reference_price           121 non-null    float64
 7   reference_unit            121 non-null    object 
 8   date                      121 non-null    object 
 9   category_name             121 non-null    object 
 10  subcategory_name          121 non-null    object 
 11  subcategory_2_nivel_name  121 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.3+ KB


In [1129]:
carrefour_update('Cuidado e higiene facial', clasificar_category_parafarmacia)

<class 'pandas.core.frame.DataFrame'>
Index: 90 entries, 6329 to 7809
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  90 non-null     object 
 1   subcategory               90 non-null     object 
 2   subsubcategory            90 non-null     object 
 3   name                      90 non-null     object 
 4   description               82 non-null     object 
 5   price                     90 non-null     float64
 6   reference_price           90 non-null     float64
 7   reference_unit            90 non-null     object 
 8   date                      90 non-null     object 
 9   category_name             7 non-null      object 
 10  subcategory_name          7 non-null      object 
 11  subcategory_2_nivel_name  7 non-null      object 
dtypes: float64(2), object(10)
memory usage: 9.1+ KB


In [1130]:
carrefour_update('Cuidado de manos y pies', clasificar_category_parafarmacia)

<class 'pandas.core.frame.DataFrame'>
Index: 23 entries, 6478 to 6500
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  23 non-null     object 
 1   subcategory               23 non-null     object 
 2   subsubcategory            23 non-null     object 
 3   name                      23 non-null     object 
 4   description               20 non-null     object 
 5   price                     23 non-null     float64
 6   reference_price           23 non-null     float64
 7   reference_unit            23 non-null     object 
 8   date                      23 non-null     object 
 9   category_name             8 non-null      object 
 10  subcategory_name          8 non-null      object 
 11  subcategory_2_nivel_name  8 non-null      object 
dtypes: float64(2), object(10)
memory usage: 2.3+ KB


In [1131]:
df_category_carrefour[df_category_carrefour['category'] == 'Parafarmacia']

Unnamed: 0,category,subcategory,subsubcategory
5965,Parafarmacia,Bebé,Papillas y Galletas
5984,Parafarmacia,Bebé,Complementos Alimenticios e Infusiones para bebé
5990,Parafarmacia,Bebé,Embarazo y Lactancia
6004,Parafarmacia,Bebé,Puericultura
6028,Parafarmacia,Bebé,Accesorios Baño
6034,Parafarmacia,Bebé,Champú
6045,Parafarmacia,Bebé,Hidratantes y Aceites Corporales
6051,Parafarmacia,Bebé,Toallitas bebé
6056,Parafarmacia,Bebé,Lotes Multiproducto
7684,Parafarmacia,Bebé,Leche infantil


In [1132]:
def clasificar_category_corporal(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Protectores Solares':
        return ('Cuidado facial y corporal', 'Protector solar y aftersun', 'Protector solar y aftersun')

    if subcat == 'Manicura':
        if 'laca' in name:
            return ('Cuidado facial y corporal', 'Manicura y pedicura', 'Laca de uñas')
        else:
            return ('Cuidado facial y corporal', 'Manicura y pedicura', 'Cuidado de uñas y complementos')

    if subcat == 'Jabones y Geles':
        if 'manos' in name:
            return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Jabón de manos')
        elif 'gel' in name or 'gel-champú':
            return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Gel')
        else:
            return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Esponjas')


    if subcat in ['Desmaquillantes', 'Tónicos y Lociones', 'Exfoliantes y Mascarillas', 'Cuidado Labial']:
        if any(x in name for x in ['discos', 'toallitas', 'micelar', 'desmaquillador', 'peeling', 'limpiadora', 'esponja', 'limpiador', 'limpia', 'desmaquillante', 'tónico']):
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Limpieza de cara')
        elif 'crema' in name or 'hidratante' in name or 'gel' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Crema de cara')
        elif 'de ojos' in name or 'para ojos' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Contorno de ojos')
        else:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Sérum y ampollas')

    if subcat == 'Cremas faciales':
        return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Crema de cara')


    if subcat == 'Cremas y Lociones':
        if 'corporal' in name or 'anticelulítico' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema y aceite para el cuerpo')
        elif 'manos' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema manos')
        elif 'pies' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema pies')
        else:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Toallitas')

    if subcat == 'Crema de Manos':
        return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema manos')

    if subcat == 'Desodorante Pies':
        return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema pies')

    if subcat == 'Desodorantes':
        if 'roll' in name or 'stick'in name:
            return ('Cuidado facial y corporal', 'Desodorante', 'Desodorante roll on y stick')
        elif 'spray' in name:
            return ('Cuidado facial y corporal', 'Desodorante', 'Desodorante Spray')
        else:
            return ('Cuidado facial y corporal', 'Desodorante', 'Otros desodorantes')

    if subcat == 'Cuidado Íntimo':
        if 'compresas' in name or 'compresa' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Compresas')
        elif 'protegeslips' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Protegeslips')
        elif 'tampones' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Tampones')
        elif 'pañales' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Pañales para adulto')
        else:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Toallitas y gel')

    if subcat in ['Complementos Vitamínicos', 'Control de Peso']:
        return ('Fitoterapia y parafarmacia', 'Fitoterapia', 'Fitoterapia')

    if subcat == 'Batidos E Infusiones':
        return ('Fitoterapia y parafarmacia', 'Fitoterapia', 'Fitoterapia')

    return (pd.NA, pd.NA, pd.NA)

In [1133]:
carrefour_update('Cuidado de manos y pies', clasificar_category_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 23 entries, 6478 to 6500
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  23 non-null     object 
 1   subcategory               23 non-null     object 
 2   subsubcategory            23 non-null     object 
 3   name                      23 non-null     object 
 4   description               20 non-null     object 
 5   price                     23 non-null     float64
 6   reference_price           23 non-null     float64
 7   reference_unit            23 non-null     object 
 8   date                      23 non-null     object 
 9   category_name             23 non-null     object 
 10  subcategory_name          23 non-null     object 
 11  subcategory_2_nivel_name  23 non-null     object 
dtypes: float64(2), object(10)
memory usage: 2.3+ KB


In [1134]:
carrefour_update('Cuidado corporal', clasificar_category_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 86 entries, 6283 to 7802
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  86 non-null     object 
 1   subcategory               86 non-null     object 
 2   subsubcategory            86 non-null     object 
 3   name                      86 non-null     object 
 4   description               85 non-null     object 
 5   price                     86 non-null     float64
 6   reference_price           86 non-null     float64
 7   reference_unit            86 non-null     object 
 8   date                      86 non-null     object 
 9   category_name             86 non-null     object 
 10  subcategory_name          86 non-null     object 
 11  subcategory_2_nivel_name  86 non-null     object 
dtypes: float64(2), object(10)
memory usage: 8.7+ KB


In [1135]:
carrefour_update('Cuidado e higiene facial', clasificar_category_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 90 entries, 6329 to 7809
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  90 non-null     object 
 1   subcategory               90 non-null     object 
 2   subsubcategory            90 non-null     object 
 3   name                      90 non-null     object 
 4   description               82 non-null     object 
 5   price                     90 non-null     float64
 6   reference_price           90 non-null     float64
 7   reference_unit            90 non-null     object 
 8   date                      90 non-null     object 
 9   category_name             90 non-null     object 
 10  subcategory_name          90 non-null     object 
 11  subcategory_2_nivel_name  90 non-null     object 
dtypes: float64(2), object(10)
memory usage: 9.1+ KB


In [1136]:
carrefour_update('Nutrición y Dietética', clasificar_category_corporal)

<class 'pandas.core.frame.DataFrame'>
Index: 43 entries, 6501 to 6543
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  43 non-null     object 
 1   subcategory               43 non-null     object 
 2   subsubcategory            43 non-null     object 
 3   name                      43 non-null     object 
 4   description               16 non-null     object 
 5   price                     43 non-null     float64
 6   reference_price           43 non-null     float64
 7   reference_unit            43 non-null     object 
 8   date                      43 non-null     object 
 9   category_name             43 non-null     object 
 10  subcategory_name          43 non-null     object 
 11  subcategory_2_nivel_name  43 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.4+ KB


# Procesamiento de la categoría "Limpieza y Hogar"

In [1137]:
current_category = df_category[df_category["category_name"] == 'Limpieza y hogar']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
289,Limpieza y hogar,Detergente y suavizante ropa,Detergente líquido y gel,290
290,Limpieza y hogar,Detergente y suavizante ropa,Detergente en polvo y monodosis,291
291,Limpieza y hogar,Detergente y suavizante ropa,Detergente lavado a mano,292
292,Limpieza y hogar,Detergente y suavizante ropa,Quitamanchas,293
293,Limpieza y hogar,Detergente y suavizante ropa,Activador y antical lavadora,294
294,Limpieza y hogar,Detergente y suavizante ropa,Suavizante,295
295,Limpieza y hogar,Detergente y suavizante ropa,Planchado,296
296,Limpieza y hogar,"Estropajo, bayeta y guantes",Estropajo,297
297,Limpieza y hogar,"Estropajo, bayeta y guantes",Bayeta,298
298,Limpieza y hogar,"Estropajo, bayeta y guantes",Guantes,299


In [1138]:
df_category_carrefour[df_category_carrefour['category'] == 'Limpieza y Hogar'].head(60)

Unnamed: 0,category,subcategory,subsubcategory
4578,Limpieza y Hogar,Ambientadores,Automáticos
4601,Limpieza y Hogar,Ambientadores,Decorativos
4633,Limpieza y Hogar,Ambientadores,Aerosol o pistola
4641,Limpieza y Hogar,Ambientadores,Absorbeolores
4652,Limpieza y Hogar,Ambientadores,Coche
4659,Limpieza y Hogar,Ambientadores,Antihumedad
4664,Limpieza y Hogar,Ambientadores,Un Toque
6880,Limpieza y Hogar,Ambientadores,Eléctricos
4757,Limpieza y Hogar,Bazar,Pilas
4779,Limpieza y Hogar,Bazar,Barbacoas y accesorios


In [1139]:
df_carrefour[df_carrefour['category'] == 'Limpieza y Hogar']['subcategory'].unique()

array(['Cuidado de la Ropa', 'Papel y Celulosa', 'Productos para Cocina',
       'Productos para Baño', 'Productos para toda la casa',
       'Utensilios de Limpieza', 'Conservación de Alimentos',
       'Ambientadores', 'Calzado', 'Menaje', 'Papelería', 'Bazar'],
      dtype=object)

In [1140]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Calzado']

Unnamed: 0,category,subcategory,subsubcategory
4670,Limpieza y Hogar,Calzado,Plantillas de Calzado
4678,Limpieza y Hogar,Calzado,Crema
4687,Limpieza y Hogar,Calzado,Esponjas Autobrillantes
4689,Limpieza y Hogar,Calzado,Limpiador de Piel y Ante
4691,Limpieza y Hogar,Calzado,Limpiador Líquido
6906,Limpieza y Hogar,Calzado,Desodorantes para Calzado


In [1141]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Cuidado de la Ropa']

Unnamed: 0,category,subcategory,subsubcategory
3943,Limpieza y Hogar,Cuidado de la Ropa,Detergentes
3988,Limpieza y Hogar,Cuidado de la Ropa,Suavizantes
4035,Limpieza y Hogar,Cuidado de la Ropa,Aditivos y quitamanchas
4066,Limpieza y Hogar,Cuidado de la Ropa,Limpiadores y Antical para Lavadora
4075,Limpieza y Hogar,Cuidado de la Ropa,Lejías lavadora
4082,Limpieza y Hogar,Cuidado de la Ropa,Tendido y Planchado
4085,Limpieza y Hogar,Cuidado de la Ropa,Toallitas Atrapacolores
4088,Limpieza y Hogar,Cuidado de la Ropa,Tinte para la ropa
6824,Limpieza y Hogar,Cuidado de la Ropa,Agua de Plancha y Apresto


In [1142]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Papel y Celulosa']

Unnamed: 0,category,subcategory,subsubcategory
4090,Limpieza y Hogar,Papel y Celulosa,Papel Higiénico
4125,Limpieza y Hogar,Papel y Celulosa,Papel Cocina y Multiusos
4152,Limpieza y Hogar,Papel y Celulosa,Servilletas
4167,Limpieza y Hogar,Papel y Celulosa,Pañuelos
4185,Limpieza y Hogar,Papel y Celulosa,Toallitas Gafas


In [1143]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Ambientadores']

Unnamed: 0,category,subcategory,subsubcategory
4578,Limpieza y Hogar,Ambientadores,Automáticos
4601,Limpieza y Hogar,Ambientadores,Decorativos
4633,Limpieza y Hogar,Ambientadores,Aerosol o pistola
4641,Limpieza y Hogar,Ambientadores,Absorbeolores
4652,Limpieza y Hogar,Ambientadores,Coche
4659,Limpieza y Hogar,Ambientadores,Antihumedad
4664,Limpieza y Hogar,Ambientadores,Un Toque
6880,Limpieza y Hogar,Ambientadores,Eléctricos


In [1144]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Productos para Cocina']

Unnamed: 0,category,subcategory,subsubcategory
4188,Limpieza y Hogar,Productos para Cocina,Lavavajillas a máquina
4220,Limpieza y Hogar,Productos para Cocina,Lavavajillas a Mano
4247,Limpieza y Hogar,Productos para Cocina,Limpiadores Electrodomésticos Cocina
6829,Limpieza y Hogar,Productos para Cocina,Aditivos y limpiamáquinas
6847,Limpieza y Hogar,Productos para Cocina,Quitagrasas
6858,Limpieza y Hogar,Productos para Cocina,Vitrocerámicas e Inducción


In [1145]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Productos para Baño']

Unnamed: 0,category,subcategory,subsubcategory
4251,Limpieza y Hogar,Productos para Baño,WC
4278,Limpieza y Hogar,Productos para Baño,Limpiadores Baño
4295,Limpieza y Hogar,Productos para Baño,Desatascadores y limpia tuberías
4305,Limpieza y Hogar,Productos para Baño,Limpiadores Antical Baño
4317,Limpieza y Hogar,Productos para Baño,Limpiajuntas


In [1146]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Productos para toda la casa']

Unnamed: 0,category,subcategory,subsubcategory
4320,Limpieza y Hogar,Productos para toda la casa,Suelos
4344,Limpieza y Hogar,Productos para toda la casa,Lejías y Amoniacos
4364,Limpieza y Hogar,Productos para toda la casa,Limpiacristales y Multiusos
4388,Limpieza y Hogar,Productos para toda la casa,Insecticidas
4419,Limpieza y Hogar,Productos para toda la casa,Limpia Muebles
4434,Limpieza y Hogar,Productos para toda la casa,Limpiador de Alfombras y Tapicerías
4437,Limpieza y Hogar,Productos para toda la casa,Limpiametales


In [1147]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Utensilios de Limpieza']

Unnamed: 0,category,subcategory,subsubcategory
4441,Limpieza y Hogar,Utensilios de Limpieza,Bayetas Microfibra Atrapapolvo
4473,Limpieza y Hogar,Utensilios de Limpieza,Estropajos
4497,Limpieza y Hogar,Utensilios de Limpieza,Fregonas
4519,Limpieza y Hogar,Utensilios de Limpieza,Guantes
4535,Limpieza y Hogar,Utensilios de Limpieza,Cubos de Fregar y Barreños
4542,Limpieza y Hogar,Utensilios de Limpieza,Palos y Sujetapalos
6866,Limpieza y Hogar,Utensilios de Limpieza,Cubos de Basura
6867,Limpieza y Hogar,Utensilios de Limpieza,Otros útiles
8896,Limpieza y Hogar,Utensilios de Limpieza,Escobas Mopas y Recogedores
8922,Limpieza y Hogar,Utensilios de Limpieza,Plumeros Rodillos y Recambios


In [1148]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Conservación de Alimentos']

Unnamed: 0,category,subcategory,subsubcategory
4549,Limpieza y Hogar,Conservación de Alimentos,Papel de Aluminio
4551,Limpieza y Hogar,Conservación de Alimentos,Bolsas
4563,Limpieza y Hogar,Conservación de Alimentos,Film Transparente
4571,Limpieza y Hogar,Conservación de Alimentos,Papel y Moldes para horno


In [1149]:
df_mercadona[df_mercadona['name'].str.contains('vaso', case=False, na=False)].head(50)

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
3594,Vasos grandes de plástico Bosque Verde reutili...,Paquete 10.0 ud,1.55,0.155,ud,"Cubiertos, vajilla y mantel",Limpieza y hogar,Menaje y conservación de alimentos,False,322
3595,Vaso mediano Bosque Verde apto para bebida cal...,Paquete 10.0 ud,2.35,0.235,ud,"Cubiertos, vajilla y mantel",Limpieza y hogar,Menaje y conservación de alimentos,False,322
3596,Vaso pequeño Bosque Verde apto para bebida cal...,Paquete 20.0 ud,1.35,0.068,ud,"Cubiertos, vajilla y mantel",Limpieza y hogar,Menaje y conservación de alimentos,False,322
3609,Vasos medianos de plástico Bosque Verde reutil...,Paquete 10.0 ud,1.5,0.15,ud,"Cubiertos, vajilla y mantel",Limpieza y hogar,Menaje y conservación de alimentos,False,322


In [1150]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Menaje']

Unnamed: 0,category,subcategory,subsubcategory
4698,Limpieza y Hogar,Menaje,Utensilios de Cocina
4711,Limpieza y Hogar,Menaje,Jarras y filtros de agua
4719,Limpieza y Hogar,Menaje,Vajillas y Vasos
4722,Limpieza y Hogar,Menaje,Cubertería
4723,Limpieza y Hogar,Menaje,Herméticos
4725,Limpieza y Hogar,Menaje,Cafeteras y Accesorios
6907,Limpieza y Hogar,Menaje,Menaje Desechable
8930,Limpieza y Hogar,Menaje,Ollas_cazos y accesorios


In [1151]:
df_category_carrefour[df_category_carrefour['subcategory'] == 'Bazar']

Unnamed: 0,category,subcategory,subsubcategory
4757,Limpieza y Hogar,Bazar,Pilas
4779,Limpieza y Hogar,Bazar,Barbacoas y accesorios
4784,Limpieza y Hogar,Bazar,Jardinería
4787,Limpieza y Hogar,Bazar,Pegamentos y Siliconas
4791,Limpieza y Hogar,Bazar,Herramientas
4794,Limpieza y Hogar,Bazar,Burletes


In [1152]:
def clasificar_category_limpieza(row):

    name = row['name'].lower()
    subcat = row['subsubcategory']

    if subcat == 'Herméticos':
        return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Herméticos y moldes')

    if subcat in ['Vajillas y Vasos', 'Jarras y filtros de agua', 'Menaje Desechable', 'Cubertería', 'Ollas_cazos y accesorios', 'Cafeteras y Accesorios']:
        return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Cubiertos, vajilla y mantel')

    if subcat == 'Utensilios de Cocina':
        if 'papel' in name or 'bolsas' in name or 'film' in name:
            return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Papel y bolsas de conservación')
        if 'basura' in name:
            return ('Limpieza y hogar', 'Pilas y bolsas de basura', 'Bolsas de basura')
        else:
            return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Encendedores, velas y carbón')

    if subcat == 'Pilas':
        return ('Limpieza y hogar', 'Pilas y bolsas de basura', 'Pilas')

    if subcat in ['Bolsas', 'Papel de Aluminio', 'Film Transparente']:
        return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Papel y bolsas de conservación')

    if subcat == 'Papel y Moldes para horno':
        return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Herméticos y moldes')

    if subcat in ['Fregonas', 'Escobas Mopas y Recogedores']:
        return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Fregonas, escobas y mopas')

    if subcat in ['Cubos de Basura', 'Cubos de Fregar y Barreños']:
        return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Cubos y barreños')

    if subcat == 'Estropajos':
        return ('Limpieza y hogar', 'Estropajo, bayeta y guantes', 'Estropajo')

    if subcat == 'Bayetas Microfibra Atrapapolvo':
        return ('Limpieza y hogar', 'Estropajo, bayeta y guantes', 'Bayeta')

    if subcat == 'Guantes':
        return ('Limpieza y hogar', 'Estropajo, bayeta y guantes', 'Guantes')

    if subcat in ['Plumeros Rodillos y Recambios', 'Otros útiles', 'Palos y Sujetapalos']:
        return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Otros utensilios de limpieza')


    if subcat in ['Plantillas de Calzado', 'Crema', 'Esponjas Autobrillantes', 'Limpiador de Piel y Ante',  'Limpiador Líquido', 'Desodorantes para Calzado']:
        return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Limpieza de calzado')

    if subcat in ['Aditivos y quitamanchas', 'Toallitas Atrapacolores', 'Tinte para la ropa']:
        return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Quitamanchas')

    if subcat == 'Suavizantes':
        return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Suavizante')

    if subcat in ['Tendido y Planchado', 'Agua de Plancha y Apresto']:
        return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Planchado')

    if subcat in ['Lejías lavadora',  'Limpiadores y Antical para Lavadora']:
        return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Activador y antical lavadora')

    if subcat in ['WC', 'Limpiadores Baño', 'Desatascadores y limpia tuberías', 'Limpiadores Antical Baño', 'Limpiajuntas']:
        return ('Limpieza y hogar', 'Limpieza baño y WC', 'Limpieza baño y WC')

    if subcat == 'Limpia Muebles':
        return ('Limpieza y hogar', 'Limpieza muebles y multiusos', 'Limpieza muebles')

    if subcat in ['Limpiametales', 'Limpiador de Alfombras y Tapicerías']:
            return ('Limpieza y hogar', 'Limpieza muebles y multiusos', 'Multiusos y otros')

    if subcat == 'Limpiacristales y Multiusos':
        return ('Limpieza y hogar', 'Limpiacristales', 'Limpiacristales')

    if subcat == 'Suelos':
        return ('Limpieza y hogar', 'Limpiahogar y friegasuelos', 'Friegasuelos')

    if subcat in ['Limpiadores Electrodomésticos Cocina', 'Aditivos y limpiamáquinas', 'Quitagrasas', 'Vitrocerámicas e Inducción']:
        return ('Limpieza y hogar', 'Limpieza cocina', 'Limpieza cocina')


    if subcat == 'Detergentes':
        if 'líquido' in name or 'gel' in name and 'detergente' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Detergente líquido y gel')
        elif 'a mano' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Detergente lavado a mano')
        else:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Detergente en polvo y monodosis')

    if subcat == 'Pañuelos':
        return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Pañuelos')

    if subcat == 'Papel Higiénico':
        return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Papel higiénico')

    if subcat == 'Toallitas Gafas':
        return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Toallitas')

    if subcat == 'Servilletas':
        return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Servilletas')

    if subcat == 'Papel Cocina y Multiusos':
        return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Rollo cocina')

    if subcat == 'Lavavajillas a máquina':
        return ('Limpieza y hogar', 'Limpieza vajilla', 'Limpiavajilla a máquina')

    if subcat == 'Lavavajillas a Mano':
        return ('Limpieza y hogar', 'Limpieza vajilla', 'Limpiavajilla a mano')


    if subcat == 'Lejías y Amoniacos':
        if 'lejía' in name:
            return ('Limpieza y hogar', 'Lejía y líquidos fuertes', 'Lejía')
        elif 'piscina' in name:
            return ('Limpieza y hogar', 'Lejía y líquidos fuertes', 'Tratamiento piscina')
        else:
            return ('Limpieza y hogar', 'Lejía y líquidos fuertes', 'Amoníaco y salfumán')

    if subcat == 'Aerosol o pistola':
        return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador spray')

    if subcat == 'Coche':
        return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador coche')

    if subcat == 'Eléctricos':
        return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador eléctrico')

    if subcat == 'Automáticos':
        return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador automático')

    if subcat in ['Absorbeolores', 'Antihumedad']:
        return ('Limpieza y hogar', 'Insecticida y ambientador', 'Absorbeolores y antihumedad')

    if subcat in ['Un Toque', 'Decorativos']:
        return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador decorativo y otros')

    if subcat == 'Insecticidas':
        if 'spray' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Insecticida spray')
        else:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Insecticida eléctrico y otros')

    return (pd.NA, pd.NA, pd.NA)

In [1153]:
carrefour_update('Productos para Cocina', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 4188 to 6865
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  100 non-null    object 
 1   subcategory               100 non-null    object 
 2   subsubcategory            100 non-null    object 
 3   name                      100 non-null    object 
 4   description               72 non-null     object 
 5   price                     100 non-null    float64
 6   reference_price           100 non-null    float64
 7   reference_unit            100 non-null    object 
 8   date                      100 non-null    object 
 9   category_name             100 non-null    object 
 10  subcategory_name          100 non-null    object 
 11  subcategory_2_nivel_name  100 non-null    object 
dtypes: float64(2), object(10)
memory usage: 10.2+ KB


In [1154]:
carrefour_update('Bazar', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 38 entries, 4757 to 4794
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  38 non-null     object 
 1   subcategory               38 non-null     object 
 2   subsubcategory            38 non-null     object 
 3   name                      38 non-null     object 
 4   description               30 non-null     object 
 5   price                     38 non-null     float64
 6   reference_price           38 non-null     float64
 7   reference_unit            38 non-null     object 
 8   date                      38 non-null     object 
 9   category_name             22 non-null     object 
 10  subcategory_name          22 non-null     object 
 11  subcategory_2_nivel_name  22 non-null     object 
dtypes: float64(2), object(10)
memory usage: 3.9+ KB


In [1155]:
carrefour_update('Cuidado de la Ropa', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 152 entries, 3943 to 6828
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  152 non-null    object 
 1   subcategory               152 non-null    object 
 2   subsubcategory            152 non-null    object 
 3   name                      152 non-null    object 
 4   description               136 non-null    object 
 5   price                     152 non-null    float64
 6   reference_price           152 non-null    float64
 7   reference_unit            152 non-null    object 
 8   date                      152 non-null    object 
 9   category_name             152 non-null    object 
 10  subcategory_name          152 non-null    object 
 11  subcategory_2_nivel_name  152 non-null    object 
dtypes: float64(2), object(10)
memory usage: 15.4+ KB


In [1156]:
df_carrefour[df_carrefour['category'] == 'Limpieza y Hogar']['subcategory'].unique()

array(['Cuidado de la Ropa', 'Papel y Celulosa', 'Productos para Cocina',
       'Productos para Baño', 'Productos para toda la casa',
       'Utensilios de Limpieza', 'Conservación de Alimentos',
       'Ambientadores', 'Calzado', 'Menaje', 'Papelería', 'Bazar'],
      dtype=object)

In [1157]:
carrefour_update('Papel y Celulosa', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 98 entries, 4090 to 4187
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  98 non-null     object 
 1   subcategory               98 non-null     object 
 2   subsubcategory            98 non-null     object 
 3   name                      98 non-null     object 
 4   description               5 non-null      object 
 5   price                     98 non-null     float64
 6   reference_price           98 non-null     float64
 7   reference_unit            98 non-null     object 
 8   date                      98 non-null     object 
 9   category_name             98 non-null     object 
 10  subcategory_name          98 non-null     object 
 11  subcategory_2_nivel_name  98 non-null     object 
dtypes: float64(2), object(10)
memory usage: 10.0+ KB


In [1158]:
carrefour_update('Productos para Baño', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 69 entries, 4251 to 4319
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  69 non-null     object 
 1   subcategory               69 non-null     object 
 2   subsubcategory            69 non-null     object 
 3   name                      69 non-null     object 
 4   description               46 non-null     object 
 5   price                     69 non-null     float64
 6   reference_price           69 non-null     float64
 7   reference_unit            69 non-null     object 
 8   date                      69 non-null     object 
 9   category_name             69 non-null     object 
 10  subcategory_name          69 non-null     object 
 11  subcategory_2_nivel_name  69 non-null     object 
dtypes: float64(2), object(10)
memory usage: 7.0+ KB


In [1159]:
carrefour_update('Productos para toda la casa', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 121 entries, 4320 to 4440
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  121 non-null    object 
 1   subcategory               121 non-null    object 
 2   subsubcategory            121 non-null    object 
 3   name                      121 non-null    object 
 4   description               97 non-null     object 
 5   price                     121 non-null    float64
 6   reference_price           121 non-null    float64
 7   reference_unit            121 non-null    object 
 8   date                      121 non-null    object 
 9   category_name             121 non-null    object 
 10  subcategory_name          121 non-null    object 
 11  subcategory_2_nivel_name  121 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.3+ KB


In [1160]:
carrefour_update('Utensilios de Limpieza', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 156 entries, 4441 to 8929
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  156 non-null    object 
 1   subcategory               156 non-null    object 
 2   subsubcategory            156 non-null    object 
 3   name                      156 non-null    object 
 4   description               20 non-null     object 
 5   price                     156 non-null    float64
 6   reference_price           156 non-null    float64
 7   reference_unit            156 non-null    object 
 8   date                      156 non-null    object 
 9   category_name             156 non-null    object 
 10  subcategory_name          156 non-null    object 
 11  subcategory_2_nivel_name  156 non-null    object 
dtypes: float64(2), object(10)
memory usage: 15.8+ KB


In [1161]:
carrefour_update('Conservación de Alimentos', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 29 entries, 4549 to 4577
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  29 non-null     object 
 1   subcategory               29 non-null     object 
 2   subsubcategory            29 non-null     object 
 3   name                      29 non-null     object 
 4   description               12 non-null     object 
 5   price                     29 non-null     float64
 6   reference_price           29 non-null     float64
 7   reference_unit            29 non-null     object 
 8   date                      29 non-null     object 
 9   category_name             29 non-null     object 
 10  subcategory_name          29 non-null     object 
 11  subcategory_2_nivel_name  29 non-null     object 
dtypes: float64(2), object(10)
memory usage: 2.9+ KB


In [1162]:
carrefour_update('Ambientadores', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 118 entries, 4578 to 6905
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  118 non-null    object 
 1   subcategory               118 non-null    object 
 2   subsubcategory            118 non-null    object 
 3   name                      118 non-null    object 
 4   description               36 non-null     object 
 5   price                     118 non-null    float64
 6   reference_price           118 non-null    float64
 7   reference_unit            118 non-null    object 
 8   date                      118 non-null    object 
 9   category_name             118 non-null    object 
 10  subcategory_name          118 non-null    object 
 11  subcategory_2_nivel_name  118 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.0+ KB


In [1163]:
carrefour_update('Calzado', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 29 entries, 4670 to 6906
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  29 non-null     object 
 1   subcategory               29 non-null     object 
 2   subsubcategory            29 non-null     object 
 3   name                      29 non-null     object 
 4   description               19 non-null     object 
 5   price                     29 non-null     float64
 6   reference_price           29 non-null     float64
 7   reference_unit            29 non-null     object 
 8   date                      29 non-null     object 
 9   category_name             29 non-null     object 
 10  subcategory_name          29 non-null     object 
 11  subcategory_2_nivel_name  29 non-null     object 
dtypes: float64(2), object(10)
memory usage: 2.9+ KB


In [1164]:
carrefour_update('Menaje', clasificar_category_limpieza)

<class 'pandas.core.frame.DataFrame'>
Index: 40 entries, 4698 to 8930
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  40 non-null     object 
 1   subcategory               40 non-null     object 
 2   subsubcategory            40 non-null     object 
 3   name                      40 non-null     object 
 4   description               9 non-null      object 
 5   price                     40 non-null     float64
 6   reference_price           40 non-null     float64
 7   reference_unit            40 non-null     object 
 8   date                      40 non-null     object 
 9   category_name             40 non-null     object 
 10  subcategory_name          40 non-null     object 
 11  subcategory_2_nivel_name  40 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.1+ KB


In [1165]:
df_carrefour.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9306 entries, 0 to 9310
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  9306 non-null   object 
 1   subcategory               9306 non-null   object 
 2   subsubcategory            9306 non-null   object 
 3   name                      9306 non-null   object 
 4   description               7369 non-null   object 
 5   price                     9306 non-null   float64
 6   reference_price           9306 non-null   float64
 7   reference_unit            9306 non-null   object 
 8   date                      9306 non-null   object 
 9   category_name             9254 non-null   object 
 10  subcategory_name          9254 non-null   object 
 11  subcategory_2_nivel_name  9254 non-null   object 
dtypes: float64(2), object(10)
memory usage: 945.1+ KB


# Fusión de productos Carrefour con la jerarquía de categorías de Mercadona

Realizamos una union entre el DataFrame de productos de Carrefour (df_carrefour) y el diccionario maestro de categorías de Mercadona (df_category), utilizando como claves las columnas category_name, subcategory_name y subcategory_2_nivel_name. Al utilizar how='left', garantizamos que todos los productos de Carrefour se mantengan en el DataFrame final, y solo se añadan las columnas coincidentes desde el diccionario de Mercadona.


In [1166]:
df_carrefour = df_carrefour.merge(df_category, on=['category_name', 'subcategory_name', 'subcategory_2_nivel_name'], how='left')
df_carrefour.head()

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,Productos Frescos,Carnicería,Aves y Pollo,Pechuga de Pollo Entera Carrefour 1.1 kg aprox,1.1 kg,5.49,4.99,kg,2025-04-13,Carne,Aves y pollo,Pollo,128.0
1,Productos Frescos,Carnicería,Aves y Pollo,Traseros de Pollo Carrefour 1.5 kg aprox,1.5 kg,4.03,2.69,kg,2025-04-13,Carne,Aves y pollo,Pollo,128.0
2,Productos Frescos,Carnicería,Aves y Pollo,Traseros de Pollo Carrefour 1 kg aprox,1 kg,2.69,2.69,kg,2025-04-13,Carne,Aves y pollo,Pollo,128.0
3,Productos Frescos,Carnicería,Aves y Pollo,Alas de pollo Carrefour 1 kg aprox,1 kg,3.59,3.59,kg,2025-04-13,Carne,Aves y pollo,Pollo,128.0
4,Productos Frescos,Carnicería,Aves y Pollo,Jamoncitos de pollo Carrefour 600 g aprox,600 g,2.15,3.59,kg,2025-04-13,Carne,Aves y pollo,Pollo,128.0



Como resultado, ahora cada producto dispone tanto de su clasificación original (category, subcategory) como de la jerarquía estandarizada (category_name, subcategory_name, subcategory_2_nivel_name), lo cual permite trabajar con una estructura común en los análisis comparativos.

In [1167]:
df_carrefour[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']].drop_duplicates().shape[0]

377

In [1168]:
df_carrefour.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9306 entries, 0 to 9305
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  9306 non-null   object 
 1   subcategory               9306 non-null   object 
 2   subsubcategory            9306 non-null   object 
 3   name                      9306 non-null   object 
 4   description               7369 non-null   object 
 5   price                     9306 non-null   float64
 6   reference_price           9306 non-null   float64
 7   reference_unit            9306 non-null   object 
 8   date                      9306 non-null   object 
 9   category_name             9254 non-null   object 
 10  subcategory_name          9254 non-null   object 
 11  subcategory_2_nivel_name  9254 non-null   object 
 12  category_id               9254 non-null   float64
dtypes: float64(3), object(10)
memory usage: 945.3+ KB


In [1169]:
# Filtramos las filas donde category_name está vacío (NaN)
subsubcategory_sin_category_name = df_carrefour[df_carrefour['category_name'].isna()]['subsubcategory'].unique()

# Mostramos el resultado: cantidad de subsubcategory sin category_name y los valores únicos
print(f"Cantidad de subsubcategory sin category_name: {len(subsubcategory_sin_category_name)}")
subsubcategory_sin_category_name

Cantidad de subsubcategory sin category_name: 16


array(['Folios y Papeles Especiales', 'Cartuchos de Tinta',
       'Bolígrafos y correctores', 'Lápices y Accesorios', 'Marcadores',
       'Pequeño Accesorio', 'Cuadernos y Carpetas', 'Archivadores',
       'Dibujo Artístico', 'Maquinaria de oficina',
       'Barbacoas y accesorios', 'Jardinería', 'Pegamentos y Siliconas',
       'Herramientas', 'Burletes', 'Colorear'], dtype=object)

Hemos identificado 16 subsubcategorías (52 productos) del carrefour para las cuales no se encontró una correspondencia en la clasificación de Mercadona. Esto se debe a que estos productos no están presentes en Mercadona y no forman parte del segmento de productos de supermercado. Por lo tanto, para el análisis posterior de los datos, estas filas serán excluidas del dataset de trabajo, ya que no aportan valor analítico al proyecto.

In [1170]:
# Excluimos las filas donde 'category_name' está vacío
df_carrefour = df_carrefour[df_carrefour['category_name'].notna()]

In [1171]:
df_carrefour.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9254 entries, 0 to 9305
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  9254 non-null   object 
 1   subcategory               9254 non-null   object 
 2   subsubcategory            9254 non-null   object 
 3   name                      9254 non-null   object 
 4   description               7349 non-null   object 
 5   price                     9254 non-null   float64
 6   reference_price           9254 non-null   float64
 7   reference_unit            9254 non-null   object 
 8   date                      9254 non-null   object 
 9   category_name             9254 non-null   object 
 10  subcategory_name          9254 non-null   object 
 11  subcategory_2_nivel_name  9254 non-null   object 
 12  category_id               9254 non-null   float64
dtypes: float64(3), object(10)
memory usage: 1012.2+ KB


In [1177]:
df_carrefour['category_id'] = df_carrefour['category_id'].astype('Int64')

In [1178]:
df_carrefour.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9254 entries, 0 to 9305
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   category                  9254 non-null   object 
 1   subcategory               9254 non-null   object 
 2   subsubcategory            9254 non-null   object 
 3   name                      9254 non-null   object 
 4   description               7349 non-null   object 
 5   price                     9254 non-null   float64
 6   reference_price           9254 non-null   float64
 7   reference_unit            9254 non-null   object 
 8   date                      9254 non-null   object 
 9   category_name             9254 non-null   object 
 10  subcategory_name          9254 non-null   object 
 11  subcategory_2_nivel_name  9254 non-null   object 
 12  category_id               9254 non-null   int64  
dtypes: float64(2), int64(1), object(10)
memory usage: 1.2+ MB


In [1179]:
df_carrefour.to_csv('df_carrefour_merge.csv', index=False, encoding='utf-8-sig')

In [1180]:
df_carrefour.head()

Unnamed: 0,category,subcategory,subsubcategory,name,description,price,reference_price,reference_unit,date,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,Productos Frescos,Carnicería,Aves y Pollo,Pechuga de Pollo Entera Carrefour 1.1 kg aprox,1.1 kg,5.49,4.99,kg,2025-04-13,Carne,Aves y pollo,Pollo,128
1,Productos Frescos,Carnicería,Aves y Pollo,Traseros de Pollo Carrefour 1.5 kg aprox,1.5 kg,4.03,2.69,kg,2025-04-13,Carne,Aves y pollo,Pollo,128
2,Productos Frescos,Carnicería,Aves y Pollo,Traseros de Pollo Carrefour 1 kg aprox,1 kg,2.69,2.69,kg,2025-04-13,Carne,Aves y pollo,Pollo,128
3,Productos Frescos,Carnicería,Aves y Pollo,Alas de pollo Carrefour 1 kg aprox,1 kg,3.59,3.59,kg,2025-04-13,Carne,Aves y pollo,Pollo,128
4,Productos Frescos,Carnicería,Aves y Pollo,Jamoncitos de pollo Carrefour 600 g aprox,600 g,2.15,3.59,kg,2025-04-13,Carne,Aves y pollo,Pollo,128
