# Importación de librerias y archivos .csv

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_mercadona = pd.read_csv('/content/limpio_mercadona.csv')
df_mercadona.head(2)

Unnamed: 0,id,name,description,price,reference_price,reference_unit,subcategory_2_nivel_id,subcategory_2_nivel_name,category_id,category_name,subcategory_id,subcategory_name,price_corrected
0,4241.0,"Aceite de oliva 0,4º Hacendado",Garrafa 5.0 l,19.95,3.99,L,420,Aceite de oliva,12,"Aceite, especias y salsas",112,"Aceite, vinagre y sal",False
1,4240.0,"Aceite de oliva 0,4º Hacendado",Botella 1.0 l,4.45,4.45,L,420,Aceite de oliva,12,"Aceite, especias y salsas",112,"Aceite, vinagre y sal",False


In [3]:
df_mercadona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        4803 non-null   float64
 1   name                      4803 non-null   object 
 2   description               4803 non-null   object 
 3   price                     4803 non-null   float64
 4   reference_price           4803 non-null   float64
 5   reference_unit            4803 non-null   object 
 6   subcategory_2_nivel_id    4803 non-null   int64  
 7   subcategory_2_nivel_name  4803 non-null   object 
 8   category_id               4803 non-null   int64  
 9   category_name             4803 non-null   object 
 10  subcategory_id            4803 non-null   int64  
 11  subcategory_name          4803 non-null   object 
 12  price_corrected           4803 non-null   bool   
dtypes: bool(1), float64(3), int64(3), object(6)
memory usage: 455.1

In [4]:
df_dia = pd.read_csv('/content/limpio_dia.csv')
df_dia.head(2)

Unnamed: 0,name,description,price,reference_price,reference_unit,product_id,insert_date,category,subcategory
0,Patatas gajo Patatas Unidas Dia bolsa 750 g,bolsa,1.8,2.4,KILO,262685,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer
1,Patatas finas prefritas Patatas Unidas Dia bol...,bolsa,1.93,1.93,KILO,262863,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer


In [5]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             6123 non-null   object 
 1   description      6118 non-null   object 
 2   price            6123 non-null   float64
 3   reference_price  6123 non-null   float64
 4   reference_unit   6123 non-null   object 
 5   product_id       6123 non-null   object 
 6   insert_date      6123 non-null   object 
 7   category         6123 non-null   object 
 8   subcategory      6123 non-null   object 
dtypes: float64(2), object(7)
memory usage: 430.7+ KB


# Creación del diccionario de categorias

En esta etapa preparamos el dataframe df_mercadona para construir un diccionario de categorías. Eliminamos las columnas con identificadores ('id', 'subcategory_2_nivel_id', 'subcategory_id', 'category_id'), ya que no son necesarias para el emparejamiento con otros supermercados y podrían causar confusión durante el análisis conjunto. Nuestro diccionario se basará exclusivamente en los campos descriptivos que contienen los nombres de las categorías y subcategorías, ya que son los que utilizaremos para realizar la unificación de estructuras.

In [6]:
df_mercadona = df_mercadona.drop(columns=['id', 'subcategory_2_nivel_id', 'subcategory_id', 'category_id'])
df_mercadona.head()

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected
0,"Aceite de oliva 0,4º Hacendado",Garrafa 5.0 l,19.95,3.99,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
1,"Aceite de oliva 0,4º Hacendado",Botella 1.0 l,4.45,4.45,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
2,Aceite de oliva virgen extra Hacendado,Garrafa 3.0 l,15.85,5.284,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
3,Aceite de oliva virgen extra Hacendado,Botella 1.0 l,5.55,5.55,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False
4,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 0.75 l,6.55,8.734,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False


Creamos el diccionario de categorias basado en sistema de categorias de Mercadona

In [7]:
df_category = df_mercadona[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']].drop_duplicates().reset_index(drop=True)
df_category['category_id'] = df_category.index + 1
df_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva,1
1,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz",2
2,"Aceite, especias y salsas","Aceite, vinagre y sal",Vinagre y otros aderezos,3
3,"Aceite, especias y salsas","Aceite, vinagre y sal",Sal y bicarbonato,4
4,"Aceite, especias y salsas",Especias,Hierbas,5
...,...,...,...,...
438,Zumos,Fruta variada,Smoothie,439
439,Zumos,Melocotón y piña,Melocotón,440
440,Zumos,Melocotón y piña,Piña,441
441,Zumos,Naranja,Naranja,442


In [8]:
df_category.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 443 entries, 0 to 442
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   category_name             443 non-null    object
 1   subcategory_name          443 non-null    object
 2   subcategory_2_nivel_name  443 non-null    object
 3   category_id               443 non-null    int64 
dtypes: int64(1), object(3)
memory usage: 14.0+ KB


In [9]:
df_category.to_csv('category.csv', index=False, encoding='utf-8-sig')

Realizamos una unión con el diccionario df_category para añadir el identificador único category_id a cada producto de Mercadona.

In [10]:
df_mercadona = df_mercadona.merge(df_category, on=['category_name', 'subcategory_name', 'subcategory_2_nivel_name'], how='left')
df_mercadona.head()

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
0,"Aceite de oliva 0,4º Hacendado",Garrafa 5.0 l,19.95,3.99,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
1,"Aceite de oliva 0,4º Hacendado",Botella 1.0 l,4.45,4.45,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
2,Aceite de oliva virgen extra Hacendado,Garrafa 3.0 l,15.85,5.284,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
3,Aceite de oliva virgen extra Hacendado,Botella 1.0 l,5.55,5.55,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1
4,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 0.75 l,6.55,8.734,L,Aceite de oliva,"Aceite, especias y salsas","Aceite, vinagre y sal",False,1


Antes de realizar la correspondencia con la estructura de Mercadona, exploramos el sistema de categorías utilizado por Dia

In [12]:
df_dia[['category', 'subcategory']].drop_duplicates().sort_values(by=['category', 'subcategory'])

Unnamed: 0,category,subcategory
1247,"Aceites, salsas y especias",Aceites
1342,"Aceites, salsas y especias","Mayonesa, ketchup y otras salsas"
1431,"Aceites, salsas y especias",Sal y especias
1308,"Aceites, salsas y especias",Tomate
1291,"Aceites, salsas y especias",Vinagres y aliños
...,...,...
923,Yogures y postres,Yogures de sabores y frutas
1029,Yogures y postres,Yogures de soja y enriquecidos
966,Yogures y postres,Yogures desnatados
954,Yogures y postres,Yogures infantiles


Observamos que utiliza dos niveles: categoría principal (category) y subcategoría (subcategory). Aunque esta clasificación es menos jerárquica que la de Mercadona, presenta agrupaciones lógicas como “Aceites, salsas y especias” o “Yogures y postres”. Para integrarlo con la estructura de Mercadona, será necesario realizar un trabajo de mapeo manual o semi-automático que permita unificar ambas taxonomías.

# Procesamiento de la categoría "Aceites, salsas y especias"

Comenzamos el mapeo entre categorías específicas de los supermercados. Analizamos la categoría de Dia "Aceites, salsas y especias" para identificar sus subcategorías. Observamos subcategorías como Aceites, Vinagres y aliños, Mayonesa, Sal y especias, Tomate, entre otras. Posteriormente, extraemos todas las subcategorías existentes en el diccionario de Mercadona bajo la categoría "Aceite, especias y salsas". Estas subcategorías servirán como base para realizar el mapeo manual o automático de los productos de Dia al sistema de categorías de Mercadona.

In [13]:
df_dia[df_dia['category'] == 'Aceites, salsas y especias']['subcategory'].unique()

array(['Aceites', 'Vinagres y aliños', 'Tomate',
       'Mayonesa, ketchup y otras salsas', 'Sal y especias'], dtype=object)

In [14]:
current_category = df_category[df_category["category_name"] == "Aceite, especias y salsas"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva,1
1,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz",2
2,"Aceite, especias y salsas","Aceite, vinagre y sal",Vinagre y otros aderezos,3
3,"Aceite, especias y salsas","Aceite, vinagre y sal",Sal y bicarbonato,4
4,"Aceite, especias y salsas",Especias,Hierbas,5
5,"Aceite, especias y salsas",Especias,Colorante y pimentón,6
6,"Aceite, especias y salsas",Especias,Pimienta,7
7,"Aceite, especias y salsas",Especias,Otras especias,8
8,"Aceite, especias y salsas",Especias,Sazonadores,9
9,"Aceite, especias y salsas","Mayonesa, ketchup y mostaza",Mayonesa,10


In [15]:
# Creamos tres columnas con valores nulos para preparar la nueva categorización
df_dia['category_name'] = pd.NA
df_dia['subcategory_name'] = pd.NA
df_dia['subcategory_2_nivel_name'] = pd.NA

In [16]:
df_dia.columns

Index(['name', 'description', 'price', 'reference_price', 'reference_unit',
       'product_id', 'insert_date', 'category', 'subcategory', 'category_name',
       'subcategory_name', 'subcategory_2_nivel_name'],
      dtype='object')

Creamos una función que va a clasificar los productos de la subcategoría "Aceites" en niveles jerárquicos según su nombre. Si el nombre contiene la palabra 'oliva', se considera como aceite de oliva; si no, como aceite de girasol u otras semillas. La función devuelve una tupla con category_name,
subcategory_name y subcategory_2_nivel_name. En caso de no pertenecer a la subcategoría "Aceites", devuelve valores nulos (pd.NA).

In [17]:
def clasificar_aceites(row):
    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Aceites':
        if 'oliva' in name:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Aceite de oliva')
        else:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Aceite de girasol, semillas y maíz')

    return (pd.NA, pd.NA, pd.NA)

Creamos una una máscara (mask) para seleccionar solo los productos cuya subcategoría sea 'Aceites'. Se genera una copia temporal del DataFrame (df_temp) con solo esas filas. Se aplica la función clasificar_aceites fila por fila (axis=1) para asignar los nuevos nombres de categorías. Y, en final, se actualiza el DataFrame original df_dia con las nuevas columnas generadas.

In [18]:
mask = df_dia['subcategory'] == 'Aceites'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_aceites, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [19]:
# Verificación de los resultados
df_dia[df_dia['subcategory'] == 'Aceites'][['name', 'category_name', 'subcategory_name', 'subcategory_2_nivel_name']].head(10)

Unnamed: 0,name,category_name,subcategory_name,subcategory_2_nivel_name
1247,Aceite refinado de girasol Diasol botella 1 l,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz"
1248,Aceite de oliva virgen La Almazara del Olivar ...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1249,Aceite de oliva virgen extra La Almazara del O...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1250,Aceite refinado de girasol Diasol garrafa 5 l,"Aceite, especias y salsas","Aceite, vinagre y sal","Aceite de girasol, semillas y maíz"
1251,Aceite de oliva suave La Almazara del Olivar d...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1252,Aceite de oliva virgen extra La Almazara del O...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1253,Aceite de oliva virgen La Almazara del Olivar ...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1254,Aceite de oliva virgen Coosur botella 1 l,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1255,Aceite de orujo de oliva La Almazara del Oliva...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva
1256,Aceite de oliva intenso La Almazara del Olivar...,"Aceite, especias y salsas","Aceite, vinagre y sal",Aceite de oliva


In [20]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      6123 non-null   object 
 1   description               6118 non-null   object 
 2   price                     6123 non-null   float64
 3   reference_price           6123 non-null   float64
 4   reference_unit            6123 non-null   object 
 5   product_id                6123 non-null   object 
 6   insert_date               6123 non-null   object 
 7   category                  6123 non-null   object 
 8   subcategory               6123 non-null   object 
 9   category_name             44 non-null     object 
 10  subcategory_name          44 non-null     object 
 11  subcategory_2_nivel_name  44 non-null     object 
dtypes: float64(2), object(10)
memory usage: 574.2+ KB


Podemos ver que ya 44 productos ya han sido clasificados y vinculados con la nueva estructura jerárquica de categorías de Mercadona. Esto se refleja en las columnas category_name, subcategory_name y subcategory_2_nivel_name, que contienen 44 valores no nulos cada una.

Seguimos en la misma línea con el resto de subcategorías y categorías del catálogo de Dia.

In [21]:
def clasificar_salsas(row):
    subcat = row['subcategory']
    name = row['name'].lower()

    if subcat == 'Tomate':
        return ('Aceite, especias y salsas', 'Otras salsas', 'Tomate frito')

    if subcat == 'Vinagres y aliños':
        return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Vinagre y otros aderezos')

    if subcat == 'Mayonesa, ketchup y otras salsas':
        if 'mayonesa' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Mayonesa')
        elif 'ketchup' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Ketchup')
        elif 'mostaza' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Mostaza')
        elif 'alioli' in name or 'ali-oli' in name:
            return ('Aceite, especias y salsas', 'Mayonesa, ketchup y mostaza', 'Allioli')
        elif 'soja' in name or 'teriyaki' in name or 'agridulce' in name or 'chili' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Salsas orientales')
        elif 'barbacoa' in name or 'piri piri' in name or 'burger' in name or 'curry' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Salsas para carnes')
        elif 'fresca' in name or 'pesto' in name or 'boloñesa' in name or 'carbonara' in name:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Salsas para pasta')
        else:
            return ('Aceite, especias y salsas', 'Otras salsas', 'Otras salsas')

    if subcat == 'Sal y especias':
        if 'sal' in name or 'bicarbonato' in name:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Sal y bicarbonato')
        elif 'pimienta' in name:
            return ('Aceite, especias y salsas', 'Especias', 'Pimienta')
        elif 'pimentón' in name or 'colorante' in name or 'azafrán' in name:
            return ('Aceite, especias y salsas', 'Especias', 'Colorante y pimentón')
        elif 'sazonador' in name or 'mezcla' in name:
            return ('Aceite, especias y salsas', 'Especias', 'Sazonadores')
        elif any(x in name for x in ['orégano', 'perejil', 'romero', 'laurel', 'tomillo', 'cilantro', 'eneldo', 'hierbas']):
            return ('Aceite, especias y salsas', 'Especias', 'Hierbas')
        else:
            return ('Aceite, especias y salsas', 'Especias', 'Otras especias')


    return (np.nan, np.nan, np.nan)

In [22]:
mask = df_dia['category'] == 'Aceites, salsas y especias'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_salsas, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [23]:
df_dia[df_dia['category'] == 'Aceites, salsas y especias'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 268 entries, 1247 to 1514
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      268 non-null    object 
 1   description               268 non-null    object 
 2   price                     268 non-null    float64
 3   reference_price           268 non-null    float64
 4   reference_unit            268 non-null    object 
 5   product_id                268 non-null    object 
 6   insert_date               268 non-null    object 
 7   category                  268 non-null    object 
 8   subcategory               268 non-null    object 
 9   category_name             268 non-null    object 
 10  subcategory_name          268 non-null    object 
 11  subcategory_2_nivel_name  268 non-null    object 
dtypes: float64(2), object(10)
memory usage: 27.2+ KB


Vamos a ver todas las categorias del Dia y de Mercadona

In [24]:
df_category['category_name'].unique()

array(['Aceite, especias y salsas', 'Agua y refrescos', 'Aperitivos',
       'Arroz, legumbres y pasta', 'Azúcar, caramelos y chocolate',
       'Bebé', 'Bodega', 'Cacao, café e infusiones', 'Carne',
       'Cereales y galletas', 'Charcutería y quesos', 'Congelados',
       'Conservas, caldos y cremas', 'Cuidado del cabello',
       'Cuidado facial y corporal', 'Fitoterapia y parafarmacia',
       'Fruta y verdura', 'Huevos, leche y mantequilla',
       'Limpieza y hogar', 'Maquillaje', 'Marisco y pescado', 'Mascotas',
       'Panadería y pastelería', 'Pizzas y platos preparados',
       'Postres y yogures', 'Zumos'], dtype=object)

In [25]:
df_dia['category'].unique()

array(['Freidora de aire - Airfryer', 'Charcutería y quesos',
       'Carnicería', 'Pescados, mariscos y ahumados', 'Verduras',
       'Frutas', 'Leche, huevos y mantequilla', 'Yogures y postres',
       'Arroz, pastas y legumbres', 'Aceites, salsas y especias',
       'Conservas, caldos y cremas', 'Panes, harinas y masas',
       'Café, cacao e infusiones', 'Azúcar, chocolates y caramelos',
       'Galletas, bollos y cereales',
       'Patatas fritas, encurtidos y frutos secos',
       'Pizzas y platos preparados', 'Congelados',
       'Agua, refrescos y zumos', 'Cervezas, vinos y bebidas con alcohol',
       'Limpieza y hogar', 'Perfumería, higiene, salud', 'Bebé',
       'Mascotas'], dtype=object)

# Procesamiento de la categoría "Agua, refrescos y zumos"

Vamos a procesar la proxima categoría

In [26]:
df_dia[df_dia['category'] == 'Agua, refrescos y zumos']['subcategory'].unique()

array(['Agua', 'Cola', 'Naranja', 'Limón, lima limón',
       'Tés fríos, cafés frios', 'Tónicas', 'Gaseosa',
       'Bebidas energéticas', 'Bebidas isotónicas', 'Zumos',
       'Otras bebidas'], dtype=object)

In [27]:
current_category = df_category[df_category["category_name"] == "Agua y refrescos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
18,Agua y refrescos,Agua,Agua sin gas,19
19,Agua y refrescos,Agua,Agua con gas,20
20,Agua y refrescos,Agua,Gaseosa,21
21,Agua y refrescos,Isotónico y energético,Isotónico,22
22,Agua y refrescos,Isotónico y energético,Energético,23
23,Agua y refrescos,Refresco de cola,Cola clásica,24
24,Agua y refrescos,Refresco de cola,Cola zero,25
25,Agua y refrescos,Refresco de cola,Cola sin cafeína,26
26,Agua y refrescos,Refresco de naranja y de limón,Limón,27
27,Agua y refrescos,Refresco de naranja y de limón,Lima limón,28


In [28]:
df_mercadona[df_mercadona['subcategory_2_nivel_name'] == 'Otros refrescos sin gas']

Unnamed: 0,name,description,price,reference_price,reference_unit,subcategory_2_nivel_name,category_name,subcategory_name,price_corrected,category_id
328,Limonada Don Simón light sin gas,Botella 2.0 l,1.5,0.75,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
329,Refresco de naranja Simon Life sin gas,Botella 1.5 l,1.85,1.234,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
330,Refresco de naranja Gold Spring sin gas,Botella 2.0 l,1.5,0.75,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
331,Refresco de naranja Gold Spring sin gas,Pack-4 1.32 l,1.5,1.137,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
332,Refresco fusión de frutas Gold Spring cero sin...,Botella 2.0 l,1.5,0.75,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
333,Bebida Florida Sunny Delight,Botella 1.25 l,1.95,1.56,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
334,Refresco piña-coco Gold Spring cero sin gas,Botella 2.0 l,1.5,0.75,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
335,Agua de coco Hacendado 100% natural,Brick 1.0 l,2.6,2.6,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
336,Refresco Tropical Hacendado sin gas,Botella 1.5 l,1.2,0.8,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32
337,Limonada Hacendado light sin gas,Pack-4 1.32 l,1.5,1.137,L,Otros refrescos sin gas,Agua y refrescos,Refresco de té y sin gas,False,32


In [29]:
def clasificar_category_aguas(row):
    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Naranja':
        return ('Agua y refrescos', 'Refresco de naranja y de limón', 'Naranja')

    if subcat == 'Tés fríos, cafés frios':
        return ('Agua y refrescos', 'Refresco de té y sin gas', 'Té')

    if subcat == 'Tónicas':
        return ('Agua y refrescos', 'Tónica y bitter', 'Tónica y bitter')

    if subcat == 'Bebidas energéticas':
        return ('Agua y refrescos', 'Isotónico y energético', 'Energético')

    if subcat == 'Gaseosa':
        return ('Agua y refrescos', 'Agua', 'Gaseosa')

    if subcat == 'Otras bebidas':
        return ('Agua y refrescos', 'Refresco de té y sin gas', 'Otros refrescos sin gas')

    if subcat == 'Bebidas isotónicas':
        return ('Agua y refrescos', 'Isotónico y energético', 'Isotónico')

    if subcat == 'Agua':
        if 'gas' in name:
            return ('Agua y refrescos', 'Agua', 'Agua con gas')
        else:
            return ('Agua y refrescos', 'Agua', 'Agua sin gas')

    if subcat == 'Cola':
        if 'zero cafeína' in name or 'zero zero' in name or 'sin cafeína' in name:
            return ('Agua y refrescos', 'Refresco de cola', 'Cola sin cafeína')
        elif 'zero azúcar' in name or 'azúcar' in name:
            return ('Agua y refrescos', 'Refresco de cola', 'Cola zero')
        else:
            return ('Agua y refrescos', 'Refresco de cola', 'Cola clásica')

    if subcat == 'Limón, lima limón':
        if 'lima' in name:
            return ('Agua y refrescos', 'Refresco de naranja y de limón', 'Lima limón')
        else:
            return ('Agua y refrescos', 'Refresco de naranja y de limón', 'Limón')

    return (pd.NA, pd.NA, pd.NA)


In [30]:
mask = df_dia['category'] == 'Agua, refrescos y zumos'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_aguas, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [31]:
df_dia[df_dia['category'] == 'Agua, refrescos y zumos'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 362 entries, 3639 to 4000
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      362 non-null    object 
 1   description               361 non-null    object 
 2   price                     362 non-null    float64
 3   reference_price           362 non-null    float64
 4   reference_unit            362 non-null    object 
 5   product_id                362 non-null    object 
 6   insert_date               362 non-null    object 
 7   category                  362 non-null    object 
 8   subcategory               362 non-null    object 
 9   category_name             279 non-null    object 
 10  subcategory_name          279 non-null    object 
 11  subcategory_2_nivel_name  279 non-null    object 
dtypes: float64(2), object(10)
memory usage: 36.8+ KB


In [32]:
current_category = df_category[df_category["category_name"] == "Zumos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
436,Zumos,Fruta variada,Fruta + leche,437
437,Zumos,Fruta variada,Fruta variada y otros sabores,438
438,Zumos,Fruta variada,Smoothie,439
439,Zumos,Melocotón y piña,Melocotón,440
440,Zumos,Melocotón y piña,Piña,441
441,Zumos,Naranja,Naranja,442
442,Zumos,Tomate y otros sabores,Otros sabores,443


In [33]:
def clasificar_category_zumos(row):
    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Zumos':
        if 'leche' in name:
            return ('Zumos', 'Fruta variada', 'Fruta + leche')
        elif 'smoothie' in name:
            return ('Zumos', 'Fruta variada', 'Smoothie')
        elif 'bebida' in name:
            return ('Zumos', 'Fruta variada', 'Fruta variada y otros sabores')
        elif 'melocotón' in name:
            return ('Zumos', 'Melocotón y piña', 'Melocotón')
        elif 'piña' in name:
            return ('Zumos', 'Melocotón y piña', 'Piña')
        elif 'naranja' in name:
            return ('Zumos', 'Naranja', 'Naranja')
        else:
            return ('Zumos', 'Tomate y otros sabores', 'Otros sabores')

    return (pd.NA, pd.NA, pd.NA)

In [34]:
mask = df_dia['category'] == 'Agua, refrescos y zumos'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_zumos, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [35]:
df_dia[df_dia['category'] == 'Agua, refrescos y zumos'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 362 entries, 3639 to 4000
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      362 non-null    object 
 1   description               361 non-null    object 
 2   price                     362 non-null    float64
 3   reference_price           362 non-null    float64
 4   reference_unit            362 non-null    object 
 5   product_id                362 non-null    object 
 6   insert_date               362 non-null    object 
 7   category                  362 non-null    object 
 8   subcategory               362 non-null    object 
 9   category_name             362 non-null    object 
 10  subcategory_name          362 non-null    object 
 11  subcategory_2_nivel_name  362 non-null    object 
dtypes: float64(2), object(10)
memory usage: 36.8+ KB


# Procesamiento de la categoría "Aperitivos"

In [36]:
current_category = df_category[df_category["category_name"] == "Aperitivos"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
32,Aperitivos,Aceitunas y encurtidos,Aceitunas verdes,33
33,Aperitivos,Aceitunas y encurtidos,Aceitunas negras,34
34,Aperitivos,Aceitunas y encurtidos,Cóctel y banderillas,35
35,Aperitivos,Aceitunas y encurtidos,Pepinillos y otros encurtidos,36
36,Aperitivos,Frutos secos y fruta desecada,Frutos secos,37
37,Aperitivos,Frutos secos y fruta desecada,Cocktails,38
38,Aperitivos,Frutos secos y fruta desecada,Fruta desecada,39
39,Aperitivos,Patatas fritas y snacks,Patatas fritas,40
40,Aperitivos,Patatas fritas y snacks,Snacks,41


In [37]:
df_dia[df_dia['category'] == 'Patatas fritas, encurtidos y frutos secos']['subcategory'].unique()

array(['Patatas fritas y aperitivos', 'Aceitunas y encurtidos',
       'Frutos secos'], dtype=object)

In [38]:
def clasificar_category_aperitivos(row):
    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Aceitunas y encurtidos':
        if 'aceitunas verdes' in name:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Aceitunas verdes')
        elif 'aceitunas negras' in name:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Aceitunas negras')
        elif 'abanderillas' in name or 'mix' in name or 'cóctel' in name:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Cóctel y banderillas')
        else:
            return ('Aperitivos', 'Aceitunas y encurtidos', 'Pepinillos y otros encurtidos')

    if subcat == 'Frutos secos':
        if 'cocktail' in name or 'combinado' in name:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Cocktails')
        elif 'dátiles' in name or 'pasas' in name or 'desecados' in name or 'deshidratado' in name or 'albaricoque' in name or 'arándanos' in name:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Fruta desecada')
        else:
            return ('Aperitivos', 'Frutos secos y fruta desecada', 'Frutos secos')

    if subcat == 'Patatas fritas y aperitivos':
        if 'patata' in name or 'patatas' in name or 'patatinas' in name:
            return ('Aperitivos', 'Patatas fritas y snacks', 'Patatas fritas')
        else:
            return ('Aperitivos', 'Patatas fritas y snacks', 'Snacks')

    return (pd.NA, pd.NA, pd.NA)

In [39]:
mask = df_dia['category'] == 'Patatas fritas, encurtidos y frutos secos'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_aperitivos, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [40]:
df_dia[df_dia['category'] == 'Patatas fritas, encurtidos y frutos secos'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 222 entries, 2979 to 3200
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      222 non-null    object 
 1   description               222 non-null    object 
 2   price                     222 non-null    float64
 3   reference_price           222 non-null    float64
 4   reference_unit            222 non-null    object 
 5   product_id                222 non-null    object 
 6   insert_date               222 non-null    object 
 7   category                  222 non-null    object 
 8   subcategory               222 non-null    object 
 9   category_name             222 non-null    object 
 10  subcategory_name          222 non-null    object 
 11  subcategory_2_nivel_name  222 non-null    object 
dtypes: float64(2), object(10)
memory usage: 22.5+ KB


# Procesamiento de la categoría "Arroz, pastas y legumbres"

In [41]:
current_category = df_category[df_category["category_name"] == "Arroz, legumbres y pasta"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
41,"Arroz, legumbres y pasta",Arroz,Arroz,42
42,"Arroz, legumbres y pasta",Legumbres,Garbanzos,43
43,"Arroz, legumbres y pasta",Legumbres,Alubias,44
44,"Arroz, legumbres y pasta",Legumbres,Lentejas y otros,45
45,"Arroz, legumbres y pasta",Pasta y fideos,Fideos,46
46,"Arroz, legumbres y pasta",Pasta y fideos,"Macarrones, pajaritas y hélices",47
47,"Arroz, legumbres y pasta",Pasta y fideos,Spaghetti y tallarines,48
48,"Arroz, legumbres y pasta",Pasta y fideos,Pasta rellena,49
49,"Arroz, legumbres y pasta",Pasta y fideos,Fideos orientales,50
50,"Arroz, legumbres y pasta",Pasta y fideos,Lasaña y canelones,51


In [42]:
df_dia[df_dia['category'] == 'Arroz, pastas y legumbres']['subcategory'].unique()

array(['Arroz', 'Pastas', 'Garbanzos', 'Alubias', 'Lentejas',
       'Quinoa y couscous'], dtype=object)

In [43]:
def clasificar_category_legumbres(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat in ['Arroz', 'Quinoa y couscous']:
        return ('Arroz, legumbres y pasta', 'Arroz', 'Arroz')
    if subcat == 'Garbanzos':
        return ('Arroz, legumbres y pasta', 'Legumbres', 'Garbanzos')
    if subcat == 'Alubias':
        return ('Arroz, legumbres y pasta', 'Legumbres', 'Alubias')
    if subcat == 'Lentejas':
        return ('Arroz, legumbres y pasta', 'Legumbres', 'Lentejas y otros')
    if subcat == 'Pastas':
        if any(x in name for x in ['fideuá', 'fideo', 'estrellas', 'maravilla', 'piñones']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Fideos')
        elif any(x in name for x in ['pajaritas', 'penne', 'tortiglioni', 'hélices', 'macarrón', 'fusilli', 'trottole', 'tiburón']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Macarrones, pajaritas y hélices')
        elif any(x in name for x in ['tallarines', 'spaghetti', 'nidos', 'noodles', 'tagliatelle']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Spaghetti y tallarines')
        elif any(x in name for x in ['tortellini', 'ravioli', 'gnocchi', 'girasoles', 'medialunas']):
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Pasta rellena')
        elif 'orientales' in name:
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Fideos orientales')
        elif 'canelones' in name or 'lazaña' in name:
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Lasaña y canelones')
        else:
            return ('Arroz, legumbres y pasta', 'Pasta y fideos', 'Macarrones, pajaritas y hélices')

    return (pd.NA, pd.NA, pd.NA)

In [44]:
mask = df_dia['category'] == 'Arroz, pastas y legumbres'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_legumbres, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [45]:
df_dia[df_dia['category'] == 'Arroz, pastas y legumbres'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 122 entries, 1125 to 1246
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      122 non-null    object 
 1   description               122 non-null    object 
 2   price                     122 non-null    float64
 3   reference_price           122 non-null    float64
 4   reference_unit            122 non-null    object 
 5   product_id                122 non-null    object 
 6   insert_date               122 non-null    object 
 7   category                  122 non-null    object 
 8   subcategory               122 non-null    object 
 9   category_name             122 non-null    object 
 10  subcategory_name          122 non-null    object 
 11  subcategory_2_nivel_name  122 non-null    object 
dtypes: float64(2), object(10)
memory usage: 12.4+ KB


# Procesamiento de la categoría "Azúcar, chocolates y caramelos"

In [46]:
current_category = df_category[df_category["category_name"] == "Azúcar, caramelos y chocolate"]
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
51,"Azúcar, caramelos y chocolate",Azúcar y edulcorante,Azúcar,52
52,"Azúcar, caramelos y chocolate",Azúcar y edulcorante,Edulcorante y otros,53
53,"Azúcar, caramelos y chocolate",Chicles y caramelos,Chicles,54
54,"Azúcar, caramelos y chocolate",Chicles y caramelos,Caramelos,55
55,"Azúcar, caramelos y chocolate",Chocolate,Chocolate negro,56
56,"Azúcar, caramelos y chocolate",Chocolate,Chocolate con leche,57
57,"Azúcar, caramelos y chocolate",Chocolate,Chocolate blanco,58
58,"Azúcar, caramelos y chocolate",Chocolate,Chocolatinas,59
59,"Azúcar, caramelos y chocolate",Chocolate,Bombones,60
60,"Azúcar, caramelos y chocolate",Chocolate,Cremas de untar,61


In [47]:
df_dia[df_dia['category'] == 'Azúcar, chocolates y caramelos']['subcategory'].unique()

array(['Azúcar y edulcorantes', 'Miel', 'Mermeladas y frutas en almibar',
       'Cremas de cacao', 'Chocolates y bombones',
       'Caramelos, chicles y golosinas'], dtype=object)

In [48]:
def clasificar_category_azucar(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Miel':
        return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Miel')
    if subcat == 'Cremas de cacao':
        return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Cremas de untar')
    if subcat == 'Azúcar y edulcorantes':
        if 'azúcar' in name:
            return ('Azúcar, caramelos y chocolate', 'Azúcar y edulcorante', 'Azúcar')
        else:
            return ('Azúcar, caramelos y chocolate', 'Azúcar y edulcorante', 'Edulcorante y otros')
    if subcat == 'Mermeladas y frutas en almibar':
        if 'mermelada' in name:
            return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Mermelada')
        else:
            return ('Azúcar, caramelos y chocolate', 'Mermelada y miel', 'Confitura y otros')
    if subcat == 'Chocolates y bombones':
        if 'bombones' in name:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Bombones')
        elif any(x in name for x in ['barritas', 'huevos', 'pasqua', 'disquitos', 'cacahuetes', 'bolas', 'huevo', 'figuras', 'figura']):
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolatinas')
        elif 'chocolate negro' in name:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolate negro')
        elif 'chocolate blanco' in name:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolate blanco')
        else:
            return ('Azúcar, caramelos y chocolate', 'Chocolate', 'Chocolate con leche')
    if subcat == 'Caramelos, chicles y golosinas':
        if 'chicles' in name:
            return ('Azúcar, caramelos y chocolate', 'Chicles y caramelos', 'Chicles')
        elif 'caramelos' in name:
            return ('Azúcar, caramelos y chocolate', 'Chicles y caramelos', 'Caramelos')
        else:
            return ('Azúcar, caramelos y chocolate', 'Golosinas', 'Golosinas')

    return (pd.NA, pd.NA, pd.NA)

In [49]:
mask = df_dia['category'] == 'Azúcar, chocolates y caramelos'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_azucar, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [50]:
df_dia[df_dia['category'] == 'Azúcar, chocolates y caramelos'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 458 entries, 2147 to 2604
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      458 non-null    object 
 1   description               458 non-null    object 
 2   price                     458 non-null    float64
 3   reference_price           458 non-null    float64
 4   reference_unit            458 non-null    object 
 5   product_id                458 non-null    object 
 6   insert_date               458 non-null    object 
 7   category                  458 non-null    object 
 8   subcategory               458 non-null    object 
 9   category_name             458 non-null    object 
 10  subcategory_name          458 non-null    object 
 11  subcategory_2_nivel_name  458 non-null    object 
dtypes: float64(2), object(10)
memory usage: 46.5+ KB


# Procesamiento de la categoría "Bebé"

In [51]:
current_category = df_category[df_category["category_name"] == 'Bebé']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
65,Bebé,Alimentación infantil,Tarritos salados,66
66,Bebé,Alimentación infantil,Tarritos de fruta,67
67,Bebé,Alimentación infantil,Yogures y postres,68
68,Bebé,Alimentación infantil,Leche,69
69,Bebé,Alimentación infantil,Leche en polvo,70
70,Bebé,Alimentación infantil,Papillas,71
71,Bebé,Biberón y chupete,Biberón,72
72,Bebé,Biberón y chupete,Chupete,73
73,Bebé,Higiene y cuidado,Champú y jabón,74
74,Bebé,Higiene y cuidado,Aceite y crema,75


In [52]:
df_dia[df_dia['category'] == 'Bebé']['subcategory'].unique()

array(['Papilla', 'Leche infantil', 'Potitos y tarritos',
       'Yogures, bolsitas de frutas y snacks', 'Pañales y toallitas',
       'Cuidado del bebé'], dtype=object)

In [53]:
def clasificar_category_bebe(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Papilla':
        return ('Bebé', 'Alimentación infantil', 'Yogures y postres')
    if subcat == 'Yogures, bolsitas de frutas y snacks':
        return ('Bebé', 'Alimentación infantil', 'Papillas')
    if subcat == 'Leche infantil':
        if 'polvo' in name:
            return ('Bebé', 'Alimentación infantil', 'Leche en polvo')
        else:
            return ('Bebé', 'Alimentación infantil', 'Leche')
    if subcat == 'Potitos y tarritos':
        if any(x in name for x in ['fruta', 'frutas', 'plátano', 'fresa', 'pera', 'manzana', 'mandarina', 'arándanos']):
            return ('Bebé', 'Alimentación infantil', 'Tarritos de fruta')
        else:
            return ('Bebé', 'Alimentación infantil', 'Tarritos salados')
    if subcat == 'Pañales y toallitas':
        if 'toallitas' in name:
            return ('Bebé', 'Toallitas y pañales', 'Toallitas')
        elif 'braguita' in name or 'braguitas' in name or 'bañador' in name or 'cambiador' in name:
            return ('Bebé', 'Toallitas y pañales', 'Bañador y braguita')
        elif 'talla 0' in name or 'talla 1' in name or 'talla 2' in name or 'talla 3' in name:
            return ('Bebé', 'Toallitas y pañales', 'Pañal talla de 0 a 3')
        else:
            return ('Bebé', 'Toallitas y pañales', 'Pañal talla de 4 a XL')
    if subcat == 'Cuidado del bebé':
        if 'biberón' in name:
            return ('Bebé', 'Biberón y chupete', 'Biberón')
        elif 'chupete' in name:
            return ('Bebé', 'Biberón y chupete', 'Chupete')
        elif 'champú' in name or 'gel corporal' in name or 'jabón' in name:
            return ('Bebé', 'Higiene y cuidado', 'Champú y jabón')
        elif 'crema' in name or 'pomada' in name or 'aceite' in name or 'loción' in name or 'bálsamo' in name:
            return ('Bebé', 'Higiene y cuidado', 'Aceite y crema')
        elif 'colonia' in name or 'agua perfumada' in name:
            return ('Bebé', 'Higiene y cuidado', 'Colonia')
        else:
            return ('Bebé', 'Higiene y cuidado', 'Accesorios')

    return (pd.NA, pd.NA, pd.NA)

In [54]:
mask = df_dia['category'] == 'Bebé'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_bebe, axis=1, result_type='expand')
df_dia.update(df_temp)

In [55]:
df_dia[df_dia['category'] == 'Bebé'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 131 entries, 5826 to 5956
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      131 non-null    object 
 1   description               131 non-null    object 
 2   price                     131 non-null    float64
 3   reference_price           131 non-null    float64
 4   reference_unit            131 non-null    object 
 5   product_id                131 non-null    object 
 6   insert_date               131 non-null    object 
 7   category                  131 non-null    object 
 8   subcategory               131 non-null    object 
 9   category_name             131 non-null    object 
 10  subcategory_name          131 non-null    object 
 11  subcategory_2_nivel_name  131 non-null    object 
dtypes: float64(2), object(10)
memory usage: 13.3+ KB


In [56]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      6123 non-null   object 
 1   description               6118 non-null   object 
 2   price                     6123 non-null   float64
 3   reference_price           6123 non-null   float64
 4   reference_unit            6123 non-null   object 
 5   product_id                6123 non-null   object 
 6   insert_date               6123 non-null   object 
 7   category                  6123 non-null   object 
 8   subcategory               6123 non-null   object 
 9   category_name             1563 non-null   object 
 10  subcategory_name          1563 non-null   object 
 11  subcategory_2_nivel_name  1563 non-null   object 
dtypes: float64(2), object(10)
memory usage: 574.2+ KB


# Procesamiento de la categoría "Bodega"

In [57]:
current_category = df_category[df_category["category_name"] == 'Bodega']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
81,Bodega,Cerveza,Cerveza lata,82
82,Bodega,Cerveza,Cerveza botella y botellín,83
83,Bodega,Cerveza,Combinado de cerveza,84
84,Bodega,Cerveza sin alcohol,Cerveza botella y botellín,85
85,Bodega,Cerveza sin alcohol,Cerveza lata,86
86,Bodega,Licores,Vermouth y aperitivos,87
87,Bodega,Licores,Ginebra,88
88,Bodega,Licores,Brandy,89
89,Bodega,Licores,Whisky,90
90,Bodega,Licores,Ron,91


In [58]:
df_dia[df_dia['category'] == 'Cervezas, vinos y bebidas con alcohol']['subcategory'].unique()

array(['Cervezas', 'Cervezas especiales', 'Cervezas con limón',
       'Cervezas sin alcohol', 'Tinto de verano y sangría', 'Vino tinto',
       'Vino blanco', 'Cavas y sidra', 'Vino rosado', 'Ginebra y vodka',
       'Ron y whisky', 'Vermouth', 'Cremas y licores', 'Brandy'],
      dtype=object)

In [59]:
def clasificar_category_bodega(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Cervezas con limón':
        return ('Bodega', 'Cerveza', 'Combinado de cerveza')

    if subcat == 'Vermouth':
        return ('Bodega', 'Licores', 'Vermouth y aperitivos')

    if subcat == 'Vino rosado':
        return ('Bodega', 'Vino rosado', 'Vino rosado')

    if subcat == 'Brandy':
        return ('Bodega', 'Licores', 'Brandy')

    if subcat == 'Tinto de verano y sangría':
        return ('Bodega', 'Tinto de verano y sangría', 'Tinto de verano y sangría')

    if subcat in ['Cervezas', 'Cervezas especiales']:
        if 'lata' in name:
            return ('Bodega', 'Cerveza', 'Cerveza lata')
        else:
            return ('Bodega', 'Cerveza', 'Cerveza botella y botellín')

    if subcat == 'Cervezas sin alcohol':
        if 'lata' in name:
            return ('Bodega', 'Cerveza sin alcohol', 'Cerveza lata')
        else:
            return ('Bodega', 'Cerveza sin alcohol', 'Cerveza botella y botellín')

    if subcat == 'Vino tinto':
        if 'rioja' in name:
            return ('Bodega', 'Vino tinto', 'Rioja')
        elif 'castilla la mancha' in name:
            return ('Bodega', 'Vino tinto', 'Castilla la Mancha')
        elif 'ribera del duero' in name:
            return ('Bodega', 'Vino tinto', 'Ribera del Duero')
        elif 'de mesa' in name:
            return ('Bodega', 'Vino tinto', 'Vino tinto de mesa')
        else:
            return ('Bodega', 'Vino tinto', 'Otros vinos tintos')

    if subcat == 'Vino blanco':
        if 'rueda' in name:
            return ('Bodega', 'Vino blanco', 'Rueda')
        elif 'semidulce' in name:
            return ('Bodega', 'Vino blanco', 'Vinos semidulces')
        elif 'dulce' in name or 'mosto' in name or 'mistela' in name:
            return ('Bodega', 'Vino blanco', 'Vinos dulces y mosto')
        elif 'de mesa' in name:
            return ('Bodega', 'Vino blanco', 'Vino blanco de mesa')
        else:
            return ('Bodega', 'Vino blanco', 'Rioja y otras denominaciones')

    if subcat == 'Cavas y sidra':
        if 'sidra' in name:
            return ('Bodega', 'Sidra y cava', 'Sidra')
        elif 'cava brut' in name:
            return ('Bodega', 'Sidra y cava', 'Cava brut')
        elif 'espumoso' in name or 'lambrusco' in name:
            return ('Bodega', 'Vino lambrusco y espumoso', 'Vino lambrusco y espumoso')
        else:
            return ('Bodega', 'Sidra y cava', 'Cava semi seco')

    if subcat == 'Ginebra y vodka':
        if 'ginebra' in name:
            return ('Bodega', 'Licores', 'Ginebra')
        else:
            return ('Bodega', 'Licores', 'Vodka')

    if subcat == 'Ron y whisky':
        if 'ron' in name:
            return ('Bodega', 'Licores', 'Ron')
        else:
            return ('Bodega', 'Licores', 'Whisky')

    if subcat == 'Cremas y licores':
        if 'crema' in name:
            return ('Bodega', 'Licores', 'Cremas')
        elif 'sin alcohol' in name:
            return ('Bodega', 'Licores', 'Licores sin alcohol')
        elif 'anís' in name:
            return ('Bodega', 'Licores', 'Anís')
        else:
            return ('Bodega', 'Licores', 'Otros licores')

    return (pd.NA, pd.NA, pd.NA)

In [60]:
mask = df_dia['category'] == 'Cervezas, vinos y bebidas con alcohol'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_bodega, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [61]:
df_dia[df_dia['category'] == 'Cervezas, vinos y bebidas con alcohol'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 486 entries, 4001 to 4486
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      486 non-null    object 
 1   description               484 non-null    object 
 2   price                     486 non-null    float64
 3   reference_price           486 non-null    float64
 4   reference_unit            486 non-null    object 
 5   product_id                486 non-null    object 
 6   insert_date               486 non-null    object 
 7   category                  486 non-null    object 
 8   subcategory               486 non-null    object 
 9   category_name             486 non-null    object 
 10  subcategory_name          486 non-null    object 
 11  subcategory_2_nivel_name  486 non-null    object 
dtypes: float64(2), object(10)
memory usage: 49.4+ KB


# Procesamiento de la categoría "Cacao, café e infusiones"

In [62]:
current_category = df_category[df_category["category_name"] == 'Cacao, café e infusiones']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
112,"Cacao, café e infusiones",Cacao soluble y chocolate a la taza,Cacao soluble,113
113,"Cacao, café e infusiones",Cacao soluble y chocolate a la taza,Chocolate a la taza,114
114,"Cacao, café e infusiones",Café cápsula y monodosis,Cápsulas compatibles Nespresso,115
115,"Cacao, café e infusiones",Café cápsula y monodosis,Cápsulas compatibles Dolce gusto,116
116,"Cacao, café e infusiones",Café cápsula y monodosis,Cápsulas compatibles Tassimo,117
117,"Cacao, café e infusiones",Café cápsula y monodosis,Monodosis,118
118,"Cacao, café e infusiones",Café molido y en grano,Café molido,119
119,"Cacao, café e infusiones",Café molido y en grano,Café en grano,120
120,"Cacao, café e infusiones",Café soluble y otras bebidas,Café soluble,121
121,"Cacao, café e infusiones",Café soluble y otras bebidas,Bebidas frías,122


In [63]:
df_dia[df_dia['category'] == 'Café, cacao e infusiones']['subcategory'].unique()

array(['Café', 'Cacao', 'Té e infusiones'], dtype=object)

In [64]:
def clasificar_category_cacao(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Café':
        if 'cápsulas nespresso' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Cápsulas compatibles Nespresso')
        elif 'cápsulas dolce gusto' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Cápsulas compatibles Dolce gusto')
        elif 'cápsulas tassimo' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Cápsulas compatibles Tassimo')
        elif 'monodosis' in name:
            return ('Cacao, café e infusiones', 'Café cápsula y monodosis', 'Monodosis')
        elif 'molido' in name:
            return ('Cacao, café e infusiones', 'Café molido y en grano', 'Café molido')
        elif 'en grano' in name:
            return ('Cacao, café e infusiones', 'Café molido y en grano', 'Café en grano')
        elif 'soluble' in name:
            return ('Cacao, café e infusiones', 'Café soluble y otras bebidas', 'Café soluble')
        else:
            return ('Cacao, café e infusiones', 'Café soluble y otras bebidas', 'Otros')
    if subcat == 'Cacao':
        if 'chocolate' in name:
            return ('Cacao, café e infusiones', 'Cacao soluble y chocolate a la taza', 'Chocolate a la taza')
        else:
            return ('Cacao, café e infusiones', 'Cacao soluble y chocolate a la taza', 'Cacao soluble')
    if subcat == 'Té e infusiones':
        if 'té' in name:
            return ('Cacao, café e infusiones', 'Té e infusiones', 'Té')
        else:
            return ('Cacao, café e infusiones', 'Té e infusiones', 'Infusiones')

    return (pd.NA, pd.NA, pd.NA)

In [65]:
mask = df_dia['category'] == 'Café, cacao e infusiones'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_cacao, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [66]:
df_dia[df_dia['category'] == 'Café, cacao e infusiones'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 170 entries, 1977 to 2146
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      170 non-null    object 
 1   description               170 non-null    object 
 2   price                     170 non-null    float64
 3   reference_price           170 non-null    float64
 4   reference_unit            170 non-null    object 
 5   product_id                170 non-null    object 
 6   insert_date               170 non-null    object 
 7   category                  170 non-null    object 
 8   subcategory               170 non-null    object 
 9   category_name             170 non-null    object 
 10  subcategory_name          170 non-null    object 
 11  subcategory_2_nivel_name  170 non-null    object 
dtypes: float64(2), object(10)
memory usage: 17.3+ KB


# Procesamiento de la categoría "Carne"

In [67]:
current_category = df_category[df_category["category_name"] == 'Carne']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
125,Carne,Arreglos,Arreglos,126
126,Carne,Aves y pollo,Pavo y otras aves,127
127,Carne,Aves y pollo,Pollo,128
128,Carne,Carne congelada,Carne congelada,129
129,Carne,Cerdo,Cerdo,130
130,Carne,Conejo y cordero,Conejo,131
131,Carne,Conejo y cordero,Cordero,132
132,Carne,Embutido,Embutido,133
133,Carne,Hamburguesas y picadas,Hamburguesas,134
134,Carne,Hamburguesas y picadas,Picadas y otros,135


In [68]:
df_dia[df_dia['category'] == 'Carnicería']['subcategory'].unique()

array(['Pollo', 'Vacuno', 'Cerdo', 'Pavo', 'Conejo',
       'Hamburguesas y carne picada'], dtype=object)

In [69]:
def clasificar_category_carne(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Pollo':
        return ('Carne', 'Aves y pollo', 'Pollo')
    if subcat == 'Pavo':
        return ('Carne', 'Aves y pollo', 'Pavo y otras aves')
    if subcat == 'Vacuno':
        return ('Carne', 'Vacuno', 'Vacuno')
    if subcat == 'Cerdo':
        return ('Carne', 'Cerdo', 'Cerdo')
    if subcat == 'Conejo':
        return ('Carne', 'Conejo y cordero', 'Conejo')
    if subcat == 'Hamburguesas y carne picada':
        if 'burger' in name or 'hamburguesa' in name or 'burgers' in name:
            return ('Carne', 'Hamburguesas y picadas', 'Hamburguesas')
        else:
            return ('Carne', 'Hamburguesas y picadas', 'Picadas y otros')

    return (pd.NA, pd.NA, pd.NA)

In [70]:
mask = df_dia['category'] == 'Carnicería'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_carne, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [71]:
df_dia[df_dia['category'] == 'Carnicería'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 87 entries, 427 to 513
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      87 non-null     object 
 1   description               87 non-null     object 
 2   price                     87 non-null     float64
 3   reference_price           87 non-null     float64
 4   reference_unit            87 non-null     object 
 5   product_id                87 non-null     object 
 6   insert_date               87 non-null     object 
 7   category                  87 non-null     object 
 8   subcategory               87 non-null     object 
 9   category_name             87 non-null     object 
 10  subcategory_name          87 non-null     object 
 11  subcategory_2_nivel_name  87 non-null     object 
dtypes: float64(2), object(10)
memory usage: 8.8+ KB


# Procesamiento de la categoría "Mascotas"

In [72]:
current_category = df_category[df_category["category_name"] == 'Mascotas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
371,Mascotas,Gato,Alimentación húmeda,372
372,Mascotas,Gato,Alimentación seca,373
373,Mascotas,Gato,Aseo y cuidado,374
374,Mascotas,Gato,Snacks,375
375,Mascotas,Perro,Alimentación húmeda,376
376,Mascotas,Perro,Alimentación seca,377
377,Mascotas,Perro,Aseo y cuidado,378
378,Mascotas,Perro,Snacks,379
379,Mascotas,Otros,Pájaro,380
380,Mascotas,Otros,Otros,381


In [73]:
df_dia[df_dia['category'] == 'Mascotas']['subcategory'].unique()

array(['Perros', 'Gatos', 'Otros animales'], dtype=object)

In [74]:
def clasificar_category_mascotas(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Perros':
        if 'paté' in name or 'salsa' in name or 'gelatina' in name or 'salchicha' in name:
            return ('Mascotas', 'Perro', 'Alimentación húmeda')
        elif 'aritos' in name or 'comida' in name:
            return ('Mascotas', 'Perro', 'Alimentación seca')
        elif 'snack' in name or 'snacks' in name:
            return ('Mascotas', 'Perro', 'Snacks')
        else:
            return ('Mascotas', 'Perro', 'Aseo y cuidado')
    if subcat == 'Gatos':
        if 'paté' in name or 'salsa' in name or 'gelatina' in name or 'mousse' in name:
            return ('Mascotas', 'Gato', 'Alimentación húmeda')
        elif 'comida' in name:
            return ('Mascotas', 'Gato', 'Alimentación seca')
        elif 'snack' in name or 'snacks' in name:
            return ('Mascotas', 'Gato', 'Snacks')
        else:
            return ('Mascotas', 'Gato', 'Aseo y cuidado')
    if subcat == 'Otros animales':
        if 'periquitos' in name or 'canarios' in name or 'ninfa' in name or 'loros' in name or 'cotorras' in name:
            return ('Mascotas', 'Otros', 'Pájaro')
        else:
            return ('Mascotas', 'Otros', 'Otros')

    return (pd.NA, pd.NA, pd.NA)

In [75]:
mask = df_dia['category'] == 'Mascotas'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_mascotas, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [76]:
df_dia[df_dia['category'] == 'Mascotas'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 166 entries, 5957 to 6122
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      166 non-null    object 
 1   description               166 non-null    object 
 2   price                     166 non-null    float64
 3   reference_price           166 non-null    float64
 4   reference_unit            166 non-null    object 
 5   product_id                166 non-null    object 
 6   insert_date               166 non-null    object 
 7   category                  166 non-null    object 
 8   subcategory               166 non-null    object 
 9   category_name             166 non-null    object 
 10  subcategory_name          166 non-null    object 
 11  subcategory_2_nivel_name  166 non-null    object 
dtypes: float64(2), object(10)
memory usage: 16.9+ KB


# Procesamiento de la categoría "Charcutería y quesos"

In [77]:
current_category = df_category[df_category["category_name"] == 'Charcutería y quesos']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
146,Charcutería y quesos,Aves y jamón cocido,Pavo y otros,147
147,Charcutería y quesos,Aves y jamón cocido,Jamón cocido,148
148,Charcutería y quesos,Bacón y salchichas,Bacón,149
149,Charcutería y quesos,Bacón y salchichas,Salchichas,150
150,Charcutería y quesos,Chopped y mortadela,Chopped,151
151,Charcutería y quesos,Chopped y mortadela,Mortadela,152
152,Charcutería y quesos,Embutido curado,Salchichón,153
153,Charcutería y quesos,Embutido curado,Chorizo,154
154,Charcutería y quesos,Embutido curado,Lomo y otros,155
155,Charcutería y quesos,Jamón serrano,Jamón serrano,156


In [78]:
df_dia[df_dia['category'] == 'Charcutería y quesos']['subcategory'].unique()

array(['Jamón cocido, lacón, fiambres y mortadela',
       'Jamón curado y paleta', 'Lomo, chorizo, fuet, salchichón',
       'Queso curado, semicurado y tierno', 'Queso fresco',
       'Queso azul y roquefort', 'Quesos fundidos y cremas',
       'Quesos internacionales', 'Salchichas', 'Foie, paté y sobrasada'],
      dtype=object)

In [79]:
def clasificar_category_charcuteria(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Salchichas':
        return ('Charcutería y quesos', 'Bacón y salchichas', 'Salchichas')
    if subcat == 'Queso fresco':
        return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso fresco')
    if subcat == 'Jamón curado y paleta':
        return ('Charcutería y quesos', 'Jamón serrano', 'Jamón serrano')
    if subcat == 'Quesos fundidos y cremas':
        return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso untable')
    if subcat == 'Queso azul y roquefort':
        return ('Charcutería y quesos', 'Queso untable y fresco', 'Queso roquefort, camembert y cabra')
    if subcat == 'Jamón cocido, lacón, fiambres y mortadela':
        if 'jamón cocido' in name:
            return ('Charcutería y quesos', 'Aves y jamón cocido', 'Jamón cocido')
        elif 'mortadela' in name or 'galantina' in name:
            return ('Charcutería y quesos', 'Chopped y mortadela', 'Mortadela')
        elif 'chopped' in name:
            return ('Charcutería y quesos', 'Chopped y mortadela', 'Chopped')
        elif 'bacón' in name or 'panceta' in name:
            return ('Charcutería y quesos', 'Bacón y salchichas', 'Bacón')
        else:
            return ('Charcutería y quesos', 'Aves y jamón cocido', 'Pavo y otros')
    if subcat == 'Lomo, chorizo, fuet, salchichón':
        if 'salchichón' in name or 'longaniza' in name or 'pepperoni' in name or'salami' in name:
            return ('Charcutería y quesos', 'Embutido curado', 'Salchichón')
        elif 'chorizo' in name:
            return ('Charcutería y quesos', 'Embutido curado', 'Chorizo')
        else:
            return ('Charcutería y quesos', 'Embutido curado', 'Lomo y otros')
    if subcat == 'Foie, paté y sobrasada':
        if 'sobrasada' in name:
            return ('Charcutería y quesos', 'Paté y sobrasada', 'Sobrasada')
        else:
            return ('Charcutería y quesos', 'Paté y sobrasada', 'Paté')
    if subcat in ['Queso curado, semicurado y tierno','Quesos internacionales']:
        if 'añejo' in name or 'curado' in name or 'viejo' in name or'grana padano' in name:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso curado')
        elif 'semicurado' in name:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso semicurado')
        elif 'lonchas' in name:
            return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso lonchas')
        elif 'rallado' in name:
            return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso rallado')
        elif 'en porciones' in name:
            return ('Charcutería y quesos', 'Queso lonchas, rallado y en porciones', 'Queso en porciones')
        else:
            return ('Charcutería y quesos', 'Queso curado, semicurado y tierno', 'Queso tierno')

    return (pd.NA, pd.NA, pd.NA)

In [80]:
mask = df_dia['category'] == 'Charcutería y quesos'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_charcuteria, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [None]:
df_dia[df_dia['category'] == 'Charcutería y quesos'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 310 entries, 46 to 469
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      310 non-null    object 
 1   description               310 non-null    object 
 2   price                     310 non-null    float64
 3   reference_price           310 non-null    float64
 4   reference_unit            310 non-null    object 
 5   product_id                310 non-null    object 
 6   insert_date               310 non-null    object 
 7   category                  310 non-null    object 
 8   subcategory               310 non-null    object 
 9   category_name             310 non-null    object 
 10  subcategory_name          310 non-null    object 
 11  subcategory_2_nivel_name  310 non-null    object 
dtypes: float64(2), object(10)
memory usage: 31.5+ KB


# Procesamiento de la categoría "Conservas, caldos y cremas"

In [81]:
current_category = df_category[df_category["category_name"] == 'Conservas, caldos y cremas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
190,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Atún,191
191,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Bonito,192
192,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Caballa y melva,193
193,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Sardinas,194
194,"Conservas, caldos y cremas",Atún y otras conservas de pescado,Otras conservas de pescado,195
195,"Conservas, caldos y cremas",Berberechos y mejillones,Berberechos y almejas,196
196,"Conservas, caldos y cremas",Berberechos y mejillones,Mejillones,197
197,"Conservas, caldos y cremas",Conservas de verdura y frutas,Conservas verdura,198
198,"Conservas, caldos y cremas",Conservas de verdura y frutas,Conservas fruta,199
199,"Conservas, caldos y cremas",Gazpacho y cremas,Gazpacho y salmorejo,200


In [82]:
df_dia[df_dia['category'] == 'Conservas, caldos y cremas']['subcategory'].unique()

array(['Atún, bonito y caballa', 'Berberechos', 'Mejillones',
       'Sardinas y sardinillas', 'Otras conservas de pescado',
       'Conservas vegetales', 'Sopas, caldos y purés deshidratados',
       'Cremas y caldos líquidos'], dtype=object)

In [83]:
def clasificar_category_conservas(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Mejillones':
        return ('Conservas, caldos y cremas', 'Berberechos y mejillones', 'Mejillones')
    if subcat == 'Berberechos':
        return ('Conservas, caldos y cremas', 'Berberechos y mejillones', 'Berberechos y almejas')
    if subcat == 'Sardinas y sardinillas':
        return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Sardinas')
    if subcat == 'Otras conservas de pescado':
        return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Otras conservas de pescado')

    if subcat == 'Atún, bonito y caballa':
        if 'atún' in name:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Atún')
        elif 'bonito' in name:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Bonito')
        else:
            return ('Conservas, caldos y cremas', 'Atún y otras conservas de pescado', 'Caballa y melva')

    if subcat == 'Conservas vegetales':
        if any(x in name for x in ['maíz', 'espárragos', 'champiñones', 'pimientos', 'guisantes', 'judías', 'alcachofa', 'zanahoria', 'remolacha', 'acelgas', 'verduras', 'patata', 'ensalada', 'brotes', 'cebolla']):
            return ('Conservas, caldos y cremas', 'Conservas de verdura y frutas', 'Conservas verdura')
        elif 'gazpacho' in name or 'salmorejo' in name:
            return ('Conservas, caldos y cremas', 'Gazpacho y cremas', 'Gazpacho y salmorejo')
        elif 'tomate' in name:
            return ('Conservas, caldos y cremas', 'Tomate', 'Tomate')
        else:
            return ('Conservas, caldos y cremas', 'Conservas de verdura y frutas', 'Conservas fruta')

    if subcat == 'Sopas, caldos y purés deshidratados':
        if 'en pastillas' in name:
            return ('Conservas, caldos y cremas', 'Sopa y caldo', 'Caldo en pastillas')
        else:
            return ('Conservas, caldos y cremas', 'Sopa y caldo', 'Sopa')

    if subcat == 'Cremas y caldos líquidos':
        if 'caldo' in name:
            return ('Conservas, caldos y cremas', 'Sopa y caldo', 'Caldo líquido')
        else:
            return ('Conservas, caldos y cremas', 'Gazpacho y cremas', 'Cremas y puré')

    return (pd.NA, pd.NA, pd.NA)

In [84]:
mask = df_dia['category'] == 'Conservas, caldos y cremas'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_conservas, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [85]:
df_dia[df_dia['category'] == 'Conservas, caldos y cremas'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 276 entries, 1515 to 1790
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      276 non-null    object 
 1   description               276 non-null    object 
 2   price                     276 non-null    float64
 3   reference_price           276 non-null    float64
 4   reference_unit            276 non-null    object 
 5   product_id                276 non-null    object 
 6   insert_date               276 non-null    object 
 7   category                  276 non-null    object 
 8   subcategory               276 non-null    object 
 9   category_name             276 non-null    object 
 10  subcategory_name          276 non-null    object 
 11  subcategory_2_nivel_name  276 non-null    object 
dtypes: float64(2), object(10)
memory usage: 28.0+ KB


In [86]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      6123 non-null   object 
 1   description               6118 non-null   object 
 2   price                     6123 non-null   float64
 3   reference_price           6123 non-null   float64
 4   reference_unit            6123 non-null   object 
 5   product_id                6123 non-null   object 
 6   insert_date               6123 non-null   object 
 7   category                  6123 non-null   object 
 8   subcategory               6123 non-null   object 
 9   category_name             3070 non-null   object 
 10  subcategory_name          3070 non-null   object 
 11  subcategory_2_nivel_name  3070 non-null   object 
dtypes: float64(2), object(10)
memory usage: 574.2+ KB


# Procesamiento de la categoría "Huevos, leche y mantequilla"

In [87]:
current_category = df_category[df_category["category_name"] == 'Huevos, leche y mantequilla']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
278,"Huevos, leche y mantequilla",Huevos,Huevos,279
279,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche semidesnatada,280
280,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche desnatada,281
281,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche entera,282
282,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Bebidas vegetales,283
283,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Batidos,284
284,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche Infantil,285
285,"Huevos, leche y mantequilla",Leche y bebidas vegetales,Leche condensada y otros,286
286,"Huevos, leche y mantequilla",Mantequilla y margarina,Mantequilla,287
287,"Huevos, leche y mantequilla",Mantequilla y margarina,Margarina,288


In [88]:
df_dia[df_dia['category'] == 'Leche, huevos y mantequilla']['subcategory'].unique()

array(['Leche', 'Bebidas vegetales', 'Batidos y horchatas', 'Huevos',
       'Mantequilla y margarina', 'Nata'], dtype=object)

In [89]:
def clasificar_category_leche(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Bebidas vegetales':
        return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Bebidas vegetales')

    if subcat == 'Batidos y horchatas':
        return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Batidos')

    if subcat == 'Huevos':
        return ('Huevos, leche y mantequilla', 'Huevos', 'Huevos')

    if subcat == 'Nata':
        return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Nata')

    if subcat == 'Leche':
        if 'semidesnatada' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche semidesnatada')
        elif 'desnatada' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche desnatada')
        elif 'infantil' in name or 'preparado lácteo' in name or 'bebida láctea' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche Infantil')
        elif 'entera' in name:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche entera')
        else:
            return ('Huevos, leche y mantequilla', 'Leche y bebidas vegetales', 'Leche condensada y otros')

    if subcat == 'Mantequilla y margarina':
        if 'mantequilla' in name:
            return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Mantequilla')
        else:
            return ('Huevos, leche y mantequilla', 'Mantequilla y margarina', 'Margarina')

    return (pd.NA, pd.NA, pd.NA)

In [90]:
mask = df_dia['category'] == 'Leche, huevos y mantequilla'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_leche, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [91]:
df_dia[df_dia['category'] == 'Leche, huevos y mantequilla'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 174 entries, 717 to 890
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      174 non-null    object 
 1   description               174 non-null    object 
 2   price                     174 non-null    float64
 3   reference_price           174 non-null    float64
 4   reference_unit            174 non-null    object 
 5   product_id                174 non-null    object 
 6   insert_date               174 non-null    object 
 7   category                  174 non-null    object 
 8   subcategory               174 non-null    object 
 9   category_name             174 non-null    object 
 10  subcategory_name          174 non-null    object 
 11  subcategory_2_nivel_name  174 non-null    object 
dtypes: float64(2), object(10)
memory usage: 17.7+ KB


# Procesamiento de la categoría "Perfumería, higiene, salud"

In [92]:
df_dia[df_dia['category'] == 'Perfumería, higiene, salud']['subcategory'].unique()

array(['Hidratación corporal', 'Gel de ducha y esponjas', 'Cuidado bucal',
       'Desodorantes', 'Champú', 'Acondicionadores y mascarillas',
       'Espumas y fijadores', 'Tintes', 'Limpieza facial, crema facial',
       'Quitaesmalte', 'Afeitado', 'Depilación', 'Colonias',
       'Jabón de manos', 'Cremas solares', 'Compresas y cuidado íntimo',
       'Complementos nutricionales', 'Parafarmacia'], dtype=object)

In [93]:
df_category['category_name'].unique()

array(['Aceite, especias y salsas', 'Agua y refrescos', 'Aperitivos',
       'Arroz, legumbres y pasta', 'Azúcar, caramelos y chocolate',
       'Bebé', 'Bodega', 'Cacao, café e infusiones', 'Carne',
       'Cereales y galletas', 'Charcutería y quesos', 'Congelados',
       'Conservas, caldos y cremas', 'Cuidado del cabello',
       'Cuidado facial y corporal', 'Fitoterapia y parafarmacia',
       'Fruta y verdura', 'Huevos, leche y mantequilla',
       'Limpieza y hogar', 'Maquillaje', 'Marisco y pescado', 'Mascotas',
       'Panadería y pastelería', 'Pizzas y platos preparados',
       'Postres y yogures', 'Zumos'], dtype=object)

In [94]:
current_category = df_category[df_category["category_name"] == 'Cuidado facial y corporal']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
220,Cuidado facial y corporal,Afeitado y cuidado para hombre,Espuma de afeitar,221
221,Cuidado facial y corporal,Afeitado y cuidado para hombre,After shave,222
222,Cuidado facial y corporal,Afeitado y cuidado para hombre,Maquinillas de afeitar,223
223,Cuidado facial y corporal,Afeitado y cuidado para hombre,Recambios maquinilla de afeitar,224
224,Cuidado facial y corporal,Afeitado y cuidado para hombre,Crema y gel de cara,225
225,Cuidado facial y corporal,Cuidado corporal,Crema y aceite para el cuerpo,226
226,Cuidado facial y corporal,Cuidado corporal,Crema manos,227
227,Cuidado facial y corporal,Cuidado corporal,Crema pies,228
228,Cuidado facial y corporal,Cuidado corporal,Toallitas,229
229,Cuidado facial y corporal,Cuidado e higiene facial,Limpieza de cara,230


In [95]:
def clasificar_category_cuidado_corporal(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Cremas solares':
        return ('Cuidado facial y corporal', 'Protector solar y aftersun', 'Protector solar y aftersun')

    if subcat == 'Jabón de manos':
        return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Jabón de manos')

    if subcat == 'Quitaesmalte':
        return ('Cuidado facial y corporal', 'Manicura y pedicura', 'Cuidado de uñas y complementos')

    if subcat == 'Gel de ducha y esponjas':
        if 'gel' in name or 'gel-champú':
            return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Jabón de manos')
        else:
            return ('Cuidado facial y corporal', 'Gel y jabón de manos', 'Esponjas')

    if subcat == 'Afeitado':
        if 'gel de afeitar' in name or 'espuma' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Espuma de afeitar')
        elif 'after shave' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'After shave')
        elif 'maquinilla' in name or 'maquinillas' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Maquinillas de afeitar')
        elif 'recambios' in name or 'recambio' in name:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Recambios maquinilla de afeitar')
        else:
            return ('Cuidado facial y corporal', 'Afeitado y cuidado para hombre', 'Crema y gel de cara')

    if subcat == 'Limpieza facial, crema facial':
        if any(x in name for x in ['discos', 'toallitas', 'micelar', 'desmaquillador', 'peeling', 'limpiadora', 'esponja', 'limpiador', 'limpia', 'desmaquillante', 'tónico']):
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Limpieza de cara')
        elif 'crema' in name or 'hidratante' in name or 'gel' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Crema de cara')
        elif 'de ojos' in name or 'para ojos' in name:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Contorno de ojos')
        else:
            return ('Cuidado facial y corporal', 'Cuidado e higiene facial', 'Sérum y ampollas')

    if subcat == 'Hidratación corporal':
        if 'corporal' in name or 'anticelulítico' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema y aceite para el cuerpo')
        elif 'manos' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema manos')
        elif 'pies' in name:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Crema pies')
        else:
            return ('Cuidado facial y corporal', 'Cuidado corporal', 'Toallitas')

    if subcat == 'Cuidado bucal':
        if 'pasta' in name or 'dentífrico' in name:
            return ('Cuidado facial y corporal', 'Higiene bucal', 'Pasta de dientes')
        elif 'sepillo' in name:
            return ('Cuidado facial y corporal', 'Higiene bucal', 'Cepillo de dientes')
        else:
            return ('Cuidado facial y corporal', 'Higiene bucal', 'Colutorio e hilo dental')

    if subcat == 'Desodorantes':
        if 'roll' in name or 'stick'in name:
            return ('Cuidado facial y corporal', 'Desodorante', 'Desodorante roll on y stick')
        elif 'spray' in name:
            return ('Cuidado facial y corporal', 'Desodorante', 'Desodorante Spray')
        else:
            return ('Cuidado facial y corporal', 'Desodorante', 'Otros desodorantes')

    if subcat == 'Compresas y cuidado íntimo':
        if 'compresas' in name or 'compresa' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Compresas')
        elif 'protegeslips' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Protegeslips')
        elif 'tampones' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Tampones')
        elif 'pañales' in name:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Pañales para adulto')
        else:
            return ('Cuidado facial y corporal', 'Higiene íntima', 'Toallitas y gel')

    if subcat == 'Colonias':
        if 'eau de toilette mujer' in name or 'colonia mujer' in name or 'eau de parfum mujer' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Perfume y colonia mujer')
        elif 'lote mujer' in name or 'neceser' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Lotes mujer')
        elif 'eau de toilette hombre' in name or 'colonia hombre' in name or 'eau de parfum hombre' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Perfume y colonia hombre')
        elif 'lote hombre' in name or 'neceser hombre' in name:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Lotes hombres')
        else:
            return ('Cuidado facial y corporal', 'Perfume y colonia', 'Colonia infantil')

    if subcat == 'Depilación':
        if 'bandas' in name or 'crema' in name or 'pinza' in name or 'cera' in name or 'gel' in name:
            return ('Cuidado facial y corporal', 'Depilación', 'Bandas, cera y crema')
        else:
            return ('Cuidado facial y corporal', 'Depilación', 'Cuchilla')

    return (pd.NA, pd.NA, pd.NA)

In [96]:
mask = df_dia['category'] == 'Perfumería, higiene, salud'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_cuidado_corporal, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [97]:
df_dia[df_dia['category'] == 'Perfumería, higiene, salud'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 871 entries, 4955 to 5825
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      871 non-null    object 
 1   description               871 non-null    object 
 2   price                     871 non-null    float64
 3   reference_price           871 non-null    float64
 4   reference_unit            871 non-null    object 
 5   product_id                871 non-null    object 
 6   insert_date               871 non-null    object 
 7   category                  871 non-null    object 
 8   subcategory               871 non-null    object 
 9   category_name             588 non-null    object 
 10  subcategory_name          588 non-null    object 
 11  subcategory_2_nivel_name  588 non-null    object 
dtypes: float64(2), object(10)
memory usage: 88.5+ KB


In [98]:
current_category = df_category[df_category["category_name"] == 'Cuidado del cabello']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
205,Cuidado del cabello,Acondicionador y mascarilla,Acondicionador,206
206,Cuidado del cabello,Acondicionador y mascarilla,Mascarilla,207
207,Cuidado del cabello,Acondicionador y mascarilla,Sérum y otros,208
208,Cuidado del cabello,Champú,Champú,209
209,Cuidado del cabello,Champú,Champú anticaspa,210
210,Cuidado del cabello,Champú,Champú infantil,211
211,Cuidado del cabello,Coloración cabello,Coloración color moreno,212
212,Cuidado del cabello,Coloración cabello,Coloración color castaño,213
213,Cuidado del cabello,Coloración cabello,Coloración color caoba,214
214,Cuidado del cabello,Coloración cabello,Coloración color rubio,215


In [99]:
current_category = df_category[df_category["category_name"] == 'Fitoterapia y parafarmacia']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
257,Fitoterapia y parafarmacia,Fitoterapia,Fitoterapia,258
258,Fitoterapia y parafarmacia,Parafarmacia,Botiquín,259
259,Fitoterapia y parafarmacia,Parafarmacia,Preservativos,260


In [100]:
def clasificar_category_cabello(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Complementos nutricionales':
        return ('Fitoterapia y parafarmacia', 'Fitoterapia', 'Fitoterapia')

    if subcat == 'Champú':
        if 'infantil' in name or 'bebé':
            return ('Cuidado del cabello', 'Champú', 'Champú infantil')
        elif 'anticaspa' in name:
            return ('Cuidado del cabello', 'Champú', 'Champú anticaspa')
        else:
            return ('Cuidado del cabello', 'Champú', 'Champú')

    if subcat == 'Acondicionadores y mascarillas':
        if 'acondicionador' in name:
            return ('Cuidado del cabello', 'Acondicionador y mascarilla', 'Acondicionador')
        elif 'mascarilla' in name:
            return ('Cuidado del cabello', 'Acondicionador y mascarilla', 'Mascarilla')
        else:
            return ('Cuidado del cabello', 'Acondicionador y mascarilla', 'Sérum y otros')

    if subcat == 'Espumas y fijadores':
        if 'espuma' in name or 'laca' in name:
            return ('Cuidado del cabello', 'Fijación cabello', 'Espuma y laca')
        else:
            return ('Cuidado del cabello', 'Fijación cabello', 'Gomina y cera')

    if subcat == 'Tintes':
        if 'moreno' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color moreno')
        elif 'castaño' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color castaño')
        elif 'permanente' in name or 'rubio' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color rubio')
        elif 'hombre' in name or 'hombres' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración hombre')
        elif 'caobae' in name or 'rojo' in name or 'cobre' in name or 'violín' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Coloración color caoba')
        elif 'retoca raíces' in name:
            return ('Cuidado del cabello', 'Coloración cabello', 'Retoca raíces')
        else:
            return ('Cuidado del cabello', 'Coloración cabello', 'Accesorios')

    if subcat == 'Parafarmacia':
        if 'preservativos' in name:
            return ('Fitoterapia y parafarmacia', 'Parafarmacia', 'Preservativos')
        else:
            return ('Fitoterapia y parafarmacia', 'Parafarmacia', 'Botiquín')

    return (pd.NA, pd.NA, pd.NA)

In [101]:
mask = df_dia['category'] == 'Perfumería, higiene, salud'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_cabello, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [102]:
df_dia[df_dia['category'] == 'Perfumería, higiene, salud'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 871 entries, 4955 to 5825
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      871 non-null    object 
 1   description               871 non-null    object 
 2   price                     871 non-null    float64
 3   reference_price           871 non-null    float64
 4   reference_unit            871 non-null    object 
 5   product_id                871 non-null    object 
 6   insert_date               871 non-null    object 
 7   category                  871 non-null    object 
 8   subcategory               871 non-null    object 
 9   category_name             871 non-null    object 
 10  subcategory_name          871 non-null    object 
 11  subcategory_2_nivel_name  871 non-null    object 
dtypes: float64(2), object(10)
memory usage: 88.5+ KB


# Procesamiento de la categoría "Congelados"

In [103]:
current_category = df_category[df_category["category_name"] == 'Congelados']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
167,Congelados,Arroz y pasta,Arroz,168
168,Congelados,Arroz y pasta,Pasta,169
169,Congelados,Carne,Carne,170
170,Congelados,Helados,Bombones,171
171,Congelados,Helados,Cucuruchos,172
172,Congelados,Helados,Granizados y helados de hielo,173
173,Congelados,Helados,Tarrinas,174
174,Congelados,Helados,Barras de helado y barquillos,175
175,Congelados,Hielo,Hielo,176
176,Congelados,Marisco,Marisco,177


In [104]:
df_dia[df_dia['category'] == 'Congelados']['subcategory'].unique()

array(['Helados y hielo', 'Pizzas, bases y masas', 'Pescado y marisco',
       'Carne y pollo', 'Verduras, hortalizas y salteados',
       'Patatas fritas', 'Croquetas y rebozados', 'Churros y postres',
       'Lasañas y pasta'], dtype=object)

In [105]:
def clasificar_category_congelados(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Carne y pollo':
        return ('Congelados', 'Carne', 'Carne')

    if subcat == 'Patatas fritas':
        return ('Congelados', 'Verdura', 'Patatas')

    if subcat == 'Helados y hielo':
        if 'hielo' in name:
            return ('Congelados', 'Hielo', 'Hielo')
        elif 'cucurucho' in name:
            return ('Congelados', 'Helados', 'Cucuruchos')
        elif 'sándwich' in name or 'mini' in name or 'bombón' in name:
            return ('Congelados', 'Helados', 'Bombones')
        elif 'tarrina' in name or 'tarta' in name:
            return ('Congelados', 'Helados', 'Tarrinas')
        elif 'barra' in name or 'tubitos' in name or 'barquillo' in name:
            return ('Congelados', 'Helados', 'Barras de helado y barquillos')
        else:
            return ('Congelados', 'Helados', 'Granizados y helados de hielo')

    if subcat == 'Pizzas, bases y masas':
        if 'bases' in name or 'masa' in name or 'cocas':
            return ('Congelados', 'Pizzas', 'Base de pizza')
        else:
            return ('Congelados', 'Pizzas', 'Pizzas')

    if subcat == 'Pescado y marisco':
        if any(x in name for x in ['merluza', 'emperador', 'bacalao',  'pota', 'sepia', 'salmón', 'lenguado', 'calamar', 'panga', 'pescado', 'atún', 'potón', 'tintorera', 'rape', 'pulpo', 'Índia', 'migas']):
            return ('Congelados', 'Pescado', 'Pescado')
        elif any(x in name for x in ['surimi', 'mejillón', 'mejillónes', 'almeja', 'almejas', 'caracoles', 'vieira', 'zamburiñas']):
            return ('Congelados', 'Marisco', 'Marisco de concha y otros')
        else:
            return ('Congelados', 'Marisco', 'Marisco')

    if subcat == 'Lasañas y pasta':
        if 'arroz' in name:
            return ('Congelados', 'Arroz y pasta', 'Arroz')
        else:
            return ('Congelados', 'Arroz y pasta', 'Pasta')

    if subcat == 'Churros y postres':
        if 'churros' in name:
            return ('Congelados', 'Tartas y churros', 'Churros')
        elif 'tarta infantil' in name:
            return ('Congelados', 'Tartas y churros', 'Tartas infantiles')
        else:
            return ('Congelados', 'Tartas y churros', 'Tartas')

    if subcat == 'Verduras, hortalizas y salteados':
        if 'frutos' in name or 'fresas' in name or 'arándanos' in name:
            return ('Congelados', 'Verdura', 'Fruta')
        else:
            return ('Congelados', 'Verdura', 'Verdura')

    if subcat == 'Croquetas y rebozados':
        if 'nuggets' in name or 'croquetas' in name or 'pollo' in name or 'empanados' in name:
            return ('Congelados', 'Rebozados', 'Carne rebozada')
        elif any(x in name for x in ['boquerón', 'bacalao', 'surimi', 'merluza', 'atún', 'rabas', 'pota', 'chipirones', 'langostino']):
            return ('Congelados', 'Rebozados', 'Pescado rebozado')
        else:
            return ('Congelados', 'Rebozados', 'Verdura rebozada y otros')

    return (pd.NA, pd.NA, pd.NA)

In [106]:
mask = df_dia['category'] == 'Congelados'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_congelados, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [107]:
df_dia[df_dia['category'] == 'Congelados'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 278 entries, 3361 to 3638
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      278 non-null    object 
 1   description               278 non-null    object 
 2   price                     278 non-null    float64
 3   reference_price           278 non-null    float64
 4   reference_unit            278 non-null    object 
 5   product_id                278 non-null    object 
 6   insert_date               278 non-null    object 
 7   category                  278 non-null    object 
 8   subcategory               278 non-null    object 
 9   category_name             278 non-null    object 
 10  subcategory_name          278 non-null    object 
 11  subcategory_2_nivel_name  278 non-null    object 
dtypes: float64(2), object(10)
memory usage: 28.2+ KB


# Procesamiento de la categoría "Postres y yogures"

In [108]:
current_category = df_category[df_category["category_name"] == 'Postres y yogures']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
421,Postres y yogures,Bífidus,Bífidus de sabores,422
422,Postres y yogures,Bífidus,Bífidus naturales,423
423,Postres y yogures,Flan y natillas,Flan,424
424,Postres y yogures,Flan y natillas,Natillas,425
425,Postres y yogures,Gelatina y otros postres,Gelatina,426
426,Postres y yogures,Gelatina y otros postres,Otros postres,427
427,Postres y yogures,Postres de soja,Postres de soja,428
428,Postres y yogures,Yogures desnatados,Yogures desnatados,429
429,Postres y yogures,Yogures griegos,Yogures griegos,430
430,Postres y yogures,Yogures líquidos,Yogures líquidos,431


In [109]:
df_dia[df_dia['category'] == 'Yogures y postres']['subcategory'].unique()

array(['Griegos y mousse', 'Yogures naturales',
       'Yogures de sabores y frutas', 'Yogures infantiles',
       'Yogures desnatados', 'Yogures bífidus y colesterol',
       'Yogures de soja y enriquecidos', 'Kéfir y otros yogures',
       'Postres y yogures de proteínas', 'Natillas y flan',
       'Arroz con leche y postre tradicional', 'Cuajada',
       'Gelatinas y otros postres'], dtype=object)

In [110]:
def clasificar_category_yogures(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Yogures desnatados':
        return ('Postres y yogures', 'Yogures desnatados', 'Yogures desnatados')

    if subcat == 'Yogures de soja y enriquecidos':
        return ('Postres y yogures', 'Postres de soja', 'Postres de soja')

    if subcat == 'Yogures naturales':
        return ('Postres y yogures', 'Yogures naturales y sabores', 'Yogures naturales')

    if subcat == 'Griegos y mousse':
        return ('Postres y yogures', 'Yogures griegos', 'Yogures griegos')

    if subcat == 'Yogures de sabores y frutas':
        return ('Postres y yogures', 'Yogures naturales y sabores', 'Yogures de sabores')

    if subcat == 'Yogures infantiles':
        return ('Postres y yogures', 'Yogures y postres infantiles', 'Yogures y postres infantiles')

    if subcat in ['Arroz con leche y postre tradicional', 'Cuajada']:
        return ('Postres y yogures', 'Gelatina y otros postres', 'Otros postres')

    if subcat == 'Postres y yogures de proteínas':
        return ('Postres y yogures', 'Yogures líquidos', 'L-Casei')

    if subcat == 'Kéfir y otros yogures':
        return ('Postres y yogures', 'Yogures líquidos', 'Yogures líquidos')

    if subcat == 'Yogures bífidus y colesterol':
        if 'natural' in name:
            return ('Postres y yogures', 'Bífidus', 'Bífidus naturales')
        elif 'colesterol' in name:
            return ('Postres y yogures', 'Yogures líquidos', 'Colesterol y otros')
        else:
            return ('Postres y yogures', 'Bífidus', 'Bífidus de sabores')

    if subcat == 'Natillas y flan':
        if 'flan' in name:
            return ('Postres y yogures', 'Flan y natillas', 'Flan')
        else:
            return ('Postres y yogures', 'Flan y natillas', 'Natillas')

    if subcat == 'Gelatinas y otros postres':
        if 'gelatina' in name:
            return ('Postres y yogures', 'Gelatina y otros postres', 'Gelatina')
        else:
            return ('Postres y yogures', 'Gelatina y otros postres', 'Otros postres')


    return (pd.NA, pd.NA, pd.NA)

In [111]:
mask = df_dia['category'] == 'Yogures y postres'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_yogures, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [112]:
df_dia[df_dia['category'] == 'Yogures y postres'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 234 entries, 891 to 1124
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      234 non-null    object 
 1   description               234 non-null    object 
 2   price                     234 non-null    float64
 3   reference_price           234 non-null    float64
 4   reference_unit            234 non-null    object 
 5   product_id                234 non-null    object 
 6   insert_date               234 non-null    object 
 7   category                  234 non-null    object 
 8   subcategory               234 non-null    object 
 9   category_name             234 non-null    object 
 10  subcategory_name          234 non-null    object 
 11  subcategory_2_nivel_name  234 non-null    object 
dtypes: float64(2), object(10)
memory usage: 23.8+ KB


# Procesamiento de la categoría "Panadería y pastelería"

In [113]:
current_category = df_category[df_category["category_name"] == 'Panadería y pastelería']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
381,Panadería y pastelería,Bollería de horno,Bollería dulce,382
382,Panadería y pastelería,Bollería de horno,Bollería salada,383
383,Panadería y pastelería,Bollería envasada,Bollería envasada,384
384,Panadería y pastelería,Bollería envasada,Pastelitos surtidos,385
385,Panadería y pastelería,Harina y preparado repostería,Harina,386
386,Panadería y pastelería,Harina y preparado repostería,Levadura y preparado repostería,387
387,Panadería y pastelería,Harina y preparado repostería,Masas,388
388,Panadería y pastelería,Pan de horno,Barra de pan,389
389,Panadería y pastelería,Pan de horno,Pan de bocadillo,390
390,Panadería y pastelería,Pan de horno,Pan rebanado,391


In [114]:
df_dia[df_dia['category'] == 'Panes, harinas y masas']['subcategory'].unique()

array(['Pan recien horneado', 'Pan de molde, perritos y hamburguesas.',
       'Picos y panes tostados', 'Pan rallado', 'Harinas y levaduras',
       'Masas y hojaldres', 'Preparados para postres'], dtype=object)

In [115]:
def clasificar_category_panes(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Pan rallado':
        return ('Panadería y pastelería', 'Pan tostado y rallado', 'Pan rallado')

    if subcat == 'Masas y hojaldres':
        return ('Panadería y pastelería', 'Harina y preparado repostería', 'Masas')

    if subcat == 'Preparados para postres':
        return ('Panadería y pastelería', 'Harina y preparado repostería', 'Levadura y preparado repostería')


    if subcat == 'Pan recien horneado':
        if 'rebanado' in name or 'rebanada' in name or 'rebanadas' in name:
            return ('Panadería y pastelería', 'Pan de horno', 'Barra de pan')
        elif 'barra' in name or 'baguette' in name or 'barras' in name:
            return ('Panadería y pastelería', 'Pan de horno', 'Pan rebanado')
        else:
            return ('Panadería y pastelería', 'Pan de horno', 'Pan de bocadillo')

    if subcat == 'Pan de molde, perritos y hamburguesas.':
        if 'de molde' in name:
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de molde')
        elif any(x in name for x in ['tortillas', 'hot dog', 'hamburguesa', 'pita', 'piadinas', 'bocados']):
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Pan de hamburguesa y wrap')
        else:
            return ('Panadería y pastelería', 'Pan de molde y otras especialidades', 'Otros panes')

    if subcat == 'Picos y panes tostados':
        if any(x in name for x in ['piquitos', 'picos', 'grissini']):
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Picos')
        elif any(x in name for x in ['rosquilletas', 'palitos', 'panes especiales']):
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Rosquilletas')
        elif 'picatostes' in name:
            return ('Panadería y pastelería', 'Picos, rosquilletas y picatostes', 'Picatostes')
        elif 'pan tostado' in name:
            return ('Panadería y pastelería', 'Pan tostado y rallado', 'Pan tostado')
        else:
            return ('Panadería y pastelería', 'Pan tostado y rallado', 'Crakers y tartaletas')

    if subcat == 'Harinas y levaduras':
        if 'harina' in name:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Harina')
        else:
            return ('Panadería y pastelería', 'Harina y preparado repostería', 'Levadura y preparado repostería')


    return (pd.NA, pd.NA, pd.NA)

In [116]:
mask = df_dia['category'] == 'Panes, harinas y masas'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_panes, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [117]:
df_dia[df_dia['category'] == 'Panes, harinas y masas'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 186 entries, 1791 to 1976
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      186 non-null    object 
 1   description               186 non-null    object 
 2   price                     186 non-null    float64
 3   reference_price           186 non-null    float64
 4   reference_unit            186 non-null    object 
 5   product_id                186 non-null    object 
 6   insert_date               186 non-null    object 
 7   category                  186 non-null    object 
 8   subcategory               186 non-null    object 
 9   category_name             186 non-null    object 
 10  subcategory_name          186 non-null    object 
 11  subcategory_2_nivel_name  186 non-null    object 
dtypes: float64(2), object(10)
memory usage: 18.9+ KB


# Procesamiento de la categoría "Cereales y galletas"

In [118]:
current_category = df_category[df_category["category_name"] == 'Cereales y galletas']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
138,Cereales y galletas,Cereales,Cereales,139
139,Cereales y galletas,Cereales,Cereales integrales y muesli,140
140,Cereales y galletas,Cereales,Barritas de cereales,141
141,Cereales y galletas,Galletas,Galletas desayuno,142
142,Cereales y galletas,Galletas,Galletas integrales y digestive,143
143,Cereales y galletas,Galletas,Con chocolate y rellenas,144
144,Cereales y galletas,Galletas,Galletas surtidas,145
145,Cereales y galletas,Tortitas,Tortitas,146


In [119]:
df_dia[df_dia['category'] == 'Galletas, bollos y cereales']['subcategory'].unique()

array(['Galletas', 'Galletas saladas', 'Bollería', 'Cereales', 'Tortitas'],
      dtype=object)

In [120]:
def clasificar_category_galletas(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Tortitas':
        return ('Cereales y galletas', 'Tortitas', 'Tortitas')

    if subcat == 'Galletas saladas':
        return ('Cereales y galletas', 'Galletas', 'Galletas integrales y digestive')

    if subcat == 'Cereales':
        if 'barritas' in name or 'barrita' in name:
            return ('Cereales y galletas', 'Cereales', 'Barritas de cereales')
        elif any(x in name for x in ['crunchy', 'copos', 'muesli', 'granola', 'integral']):
            return ('Cereales y galletas', 'Cereales', 'Cereales integrales y muesli')
        else:
            return ('Cereales y galletas', 'Cereales', 'Cereales')

    if subcat == 'Galletas':
        if any(x in name for x in ['chocolate', 'oreo', 'rellenos', 'rellenas', 'con', 'crema']):
            return ('Cereales y galletas', 'Galletas', 'Con chocolate y rellenas')
        else:
            return ('Cereales y galletas', 'Galletas', 'Galletas desayuno')

    if subcat == 'Bollería':
        if any(x in name for x in ['empanadillas', 'saladas', 'empanada']):
            return ('Panadería y pastelería', 'Bollería de horno', 'Bollería salada')
        elif any(x in name for x in ['paquete', 'pack', 'bolsa']):
            return ('Panadería y pastelería', 'Bollería envasada', 'Bollería envasada')
        elif 'surtido' in name:
            return ('Panadería y pastelería', 'Bollería envasada', 'Pastelitos surtidos')
        else:
            return ('Panadería y pastelería', 'Bollería de horno', 'Bollería dulce')

    return (pd.NA, pd.NA, pd.NA)

In [121]:
mask = df_dia['category'] == 'Galletas, bollos y cereales'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_galletas, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [122]:
df_dia[df_dia['category'] == 'Galletas, bollos y cereales'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 374 entries, 2605 to 2978
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      374 non-null    object 
 1   description               374 non-null    object 
 2   price                     374 non-null    float64
 3   reference_price           374 non-null    float64
 4   reference_unit            374 non-null    object 
 5   product_id                374 non-null    object 
 6   insert_date               374 non-null    object 
 7   category                  374 non-null    object 
 8   subcategory               374 non-null    object 
 9   category_name             374 non-null    object 
 10  subcategory_name          374 non-null    object 
 11  subcategory_2_nivel_name  374 non-null    object 
dtypes: float64(2), object(10)
memory usage: 38.0+ KB


In [123]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      6123 non-null   object 
 1   description               6118 non-null   object 
 2   price                     6123 non-null   float64
 3   reference_price           6123 non-null   float64
 4   reference_unit            6123 non-null   object 
 5   product_id                6123 non-null   object 
 6   insert_date               6123 non-null   object 
 7   category                  6123 non-null   object 
 8   subcategory               6123 non-null   object 
 9   category_name             5187 non-null   object 
 10  subcategory_name          5187 non-null   object 
 11  subcategory_2_nivel_name  5187 non-null   object 
dtypes: float64(2), object(10)
memory usage: 574.2+ KB


# Procesamiento de la categoría "Fruta y verdura"

In [124]:
current_category = df_category[df_category["category_name"] == 'Fruta y verdura']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
260,Fruta y verdura,Fruta,Plátano y uva,261
261,Fruta y verdura,Fruta,Manzana y pera,262
262,Fruta y verdura,Fruta,Melón y sandía,263
263,Fruta y verdura,Fruta,Cítricos,264
264,Fruta y verdura,Fruta,Fruta tropical,265
265,Fruta y verdura,Fruta,Otras frutas,266
266,Fruta y verdura,Lechuga y ensalada preparada,Lechuga,267
267,Fruta y verdura,Lechuga y ensalada preparada,Ensalada preparada,268
268,Fruta y verdura,Verdura,Patata,269
269,Fruta y verdura,Verdura,Cebolla y ajo,270


In [125]:
df_dia[df_dia['category'] == 'Verduras']['subcategory'].unique()

array(['Ajos, cebollas y puerros', 'Tomates, pimientos y pepinos',
       'Calabacín, calabaza y berenjena', 'Judías, brócolis y coliflores',
       'Lechuga, escarolas y endivias', 'Patatas y zanahorias',
       'Setas y champiñones', 'Verduras y ensaladas preparadas',
       'Otras verduras'], dtype=object)

In [126]:
def clasificar_category_fruta(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat in ['Naranjas y mandarinas', 'Limones y pomelos']:
        return ('Fruta y verdura', 'Fruta', 'Cítricos')

    if subcat == 'Frutas tropicales':
        return ('Fruta y verdura', 'Fruta', 'Fruta tropical')

    if subcat in ['Manzanas', 'Peras']:
        return ('Fruta y verdura', 'Fruta', 'Manzana y pera')

    if subcat in ['Platanos', 'Uvas']:
        return ('Fruta y verdura', 'Fruta', 'Plátano y uva')

    if subcat in ['Frutas del bosque', 'Frutas deshidratadas']:
        return ('Fruta y verdura', 'Fruta', 'Otras frutas')

    if subcat == 'Frutas de temporada':
        if 'melón' in name or 'sandía' in name:
            return ('Fruta y verdura', 'Fruta', 'Melón y sandía')
        else:
            return ('Fruta y verdura', 'Fruta', 'Otras frutas')

    if subcat == 'Setas y champiñones':
        return ('Fruta y verdura', 'Verdura', 'Setas y champiñones')

    if subcat == 'Ajos, cebollas y puerros':
        return ('Fruta y verdura', 'Verdura', 'Cebolla y ajo')

    if subcat == 'Lechuga, escarolas y endivias':
        return ('Fruta y verdura', 'Lechuga y ensalada preparada', 'Lechuga')

    if subcat == 'Verduras y ensaladas preparadas':
        return ('Fruta y verdura', 'Lechuga y ensalada preparada', 'Ensalada preparada')


    if subcat == 'Patatas y zanahorias':
        if 'patata' in name or 'patatas' in name:
            return ('Fruta y verdura', 'Verdura', 'Patata')
        else:
            return ('Fruta y verdura', 'Verdura', 'Pepino y zanahoria')

    if subcat == 'Tomates, pimientos y pepinos':
        if 'tomate' in name or 'tomates' in name:
            return ('Fruta y verdura', 'Verdura', 'Tomate')
        elif 'pepino' in name or 'pepinos' in name:
            return ('Fruta y verdura', 'Verdura', 'Pepino y zanahoria')
        else:
            return ('Fruta y verdura', 'Verdura', 'Calabacín y pimiento')

    if subcat == 'Calabacín, calabaza y berenjena':
        if 'calabacín' in name or 'calabacines' in name:
            return ('Fruta y verdura', 'Verdura', 'Calabacín y pimiento')
        else:
            return ('Fruta y verdura', 'Verdura', 'Otras verduras y hortalizas')

    if subcat == 'Judías, brócolis y coliflores':
        if any(x in name for x in ['brócoli', 'coliflores', 'col', 'coliflor', 'repollo']):
            return ('Fruta y verdura', 'Verdura', 'Repollo y col')
        else:
            return ('Fruta y verdura', 'Verdura', 'Otras verduras y hortalizas')

    if subcat == 'Otras verduras':
        if any(x in name for x in ['perejil', 'jengibre', 'cilantro', 'albahaca', 'hierbabuena', 'cebollino']):
            return ('Fruta y verdura', 'Verdura', 'Hierbas aromáticas')
        elif 'al vapor' in name:
            return ('Fruta y verdura', 'Verdura', 'Verduras al vapor')
        else:
            return ('Fruta y verdura', 'Verdura', 'Otras verduras y hortalizas')

    return (pd.NA, pd.NA, pd.NA)

In [127]:
mask = df_dia['category'] == 'Frutas'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_fruta, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [128]:
df_dia[df_dia['category'] == 'Frutas'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 65 entries, 652 to 716
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      65 non-null     object 
 1   description               65 non-null     object 
 2   price                     65 non-null     float64
 3   reference_price           65 non-null     float64
 4   reference_unit            65 non-null     object 
 5   product_id                65 non-null     object 
 6   insert_date               65 non-null     object 
 7   category                  65 non-null     object 
 8   subcategory               65 non-null     object 
 9   category_name             65 non-null     object 
 10  subcategory_name          65 non-null     object 
 11  subcategory_2_nivel_name  65 non-null     object 
dtypes: float64(2), object(10)
memory usage: 6.6+ KB


In [129]:
mask = df_dia['category'] == 'Verduras'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_fruta, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [130]:
df_dia[df_dia['category'] == 'Verduras'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 99 entries, 553 to 651
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      99 non-null     object 
 1   description               99 non-null     object 
 2   price                     99 non-null     float64
 3   reference_price           99 non-null     float64
 4   reference_unit            99 non-null     object 
 5   product_id                99 non-null     object 
 6   insert_date               99 non-null     object 
 7   category                  99 non-null     object 
 8   subcategory               99 non-null     object 
 9   category_name             99 non-null     object 
 10  subcategory_name          99 non-null     object 
 11  subcategory_2_nivel_name  99 non-null     object 
dtypes: float64(2), object(10)
memory usage: 10.1+ KB


# Procesamiento de la categoría "Limpieza y hogar"

In [131]:
current_category = df_category[df_category["category_name"] == 'Limpieza y hogar']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
289,Limpieza y hogar,Detergente y suavizante ropa,Detergente líquido y gel,290
290,Limpieza y hogar,Detergente y suavizante ropa,Detergente en polvo y monodosis,291
291,Limpieza y hogar,Detergente y suavizante ropa,Detergente lavado a mano,292
292,Limpieza y hogar,Detergente y suavizante ropa,Quitamanchas,293
293,Limpieza y hogar,Detergente y suavizante ropa,Activador y antical lavadora,294
294,Limpieza y hogar,Detergente y suavizante ropa,Suavizante,295
295,Limpieza y hogar,Detergente y suavizante ropa,Planchado,296
296,Limpieza y hogar,"Estropajo, bayeta y guantes",Estropajo,297
297,Limpieza y hogar,"Estropajo, bayeta y guantes",Bayeta,298
298,Limpieza y hogar,"Estropajo, bayeta y guantes",Guantes,299


In [132]:
df_dia[df_dia['category'] == 'Limpieza y hogar']['subcategory'].unique()

array(['Cuidado de la ropa', 'Lavavajillas',
       'Papel higiénico, de cocina, servilletas',
       'Utensilios de limpieza', 'Bolsas de basura',
       'Lejía y otros químicos', 'Cristales y suelos',
       'Limpia muebles y multiusos', 'Limpieza baño y WC',
       'Limpieza cocina y vitrocerámica',
       'Papel de aluminio, horno y film', 'Insecticidas', 'Ambientadores',
       'Calzado', 'Útiles del hogar, pilas, bombillas'], dtype=object)

In [133]:
def clasificar_category_limpieza(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Calzado':
        return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Limpieza de calzado')

    if subcat == 'Bolsas de basura':
        return ('Limpieza y hogar', 'Pilas y bolsas de basura', 'Bolsas de basura')

    if subcat == 'Limpieza baño y WC':
        return ('Limpieza y hogar', 'Limpieza baño y WC', 'Limpieza baño y WC')

    if subcat == 'Limpieza cocina y vitrocerámica':
        return ('Limpieza y hogar', 'Limpieza cocina', 'Limpieza cocina')

    if subcat == 'Papel de aluminio, horno y film':
        return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Papel y bolsas de conservación')

    if subcat == 'Cuidado de la ropa':
        if 'manchas' in name or 'eliminador' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Quitamanchas')
        elif 'suavizante' in name or 'perfumador' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Suavizante')
        elif 'planchado' in name or 'plancha' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Planchado')
        elif 'activador' in name or 'antical' in name or 'lavadora' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Activador y antical lavadora')
        elif 'líquido' in name or 'gel' in name and 'detergente' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Detergente líquido y gel')
        elif 'a mano' in name:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Detergente lavado a mano')
        else:
            return ('Limpieza y hogar', 'Detergente y suavizante ropa', 'Detergente en polvo y monodosis')

    if subcat == 'Lavavajillas':
        if 'pastillas' in name or 'máquina' in name:
            return ('Limpieza y hogar', 'Limpieza vajilla', 'Limpiavajilla a máquina')
        else:
            return ('Limpieza y hogar', 'Limpieza vajilla', 'Limpiavajilla a mano')

    if subcat == 'Papel higiénico, de cocina, servilletas':
        if 'servilletas' in name or 'servilleta' in name:
            return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Servilletas')
        elif 'multiusos' in name or 'cocina' in name or 'hogar' in name and 'papel' in name:
            return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Rollo cocina')
        elif 'pañuelos' in name:
            return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Pañuelos')
        elif 'papel higiénico' in name:
            return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Papel higiénico')
        else:
            return ('Limpieza y hogar', 'Papel higiénico y celulosa', 'Toallitas')

    if subcat == 'Utensilios de limpieza':
        if 'cubo' in name or 'escurridor' in name or 'barreño' in name:
            return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Cubos y barreños')
        elif 'fregona' in name or 'escoba' in name or 'mopa' in name:
            return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Fregonas, escobas y mopas')
        else:
            return ('Limpieza y hogar', 'Utensilios de limpieza y calzado', 'Otros utensilios de limpieza')

    if subcat == 'Limpia muebles y multiusos':
        if 'muebles' in name or 'tapicerías' in name:
            return ('Limpieza y hogar', 'Limpieza muebles y multiusos', 'Limpieza muebles')
        else:
            return ('Limpieza y hogar', 'Limpieza muebles y multiusos', 'Multiusos y otros')

    if subcat == 'Lejía y otros químicos':
        if 'lejía' in name:
            return ('Limpieza y hogar', 'Lejía y líquidos fuertes', 'Lejía')
        elif 'piscina' in name:
            return ('Limpieza y hogar', 'Lejía y líquidos fuertes', 'Tratamiento piscina')
        else:
            return ('Limpieza y hogar', 'Lejía y líquidos fuertes', 'Amoníaco y salfumán')

    if subcat == 'Cristales y suelos':
        if 'limpiacristales' in name or 'limpiagafas' in name or 'cristales' in name:
            return ('Limpieza y hogar', 'Limpiacristales', 'Limpiacristales')
        elif 'friegasuelos' in name or 'suelo' in name:
            return ('Limpieza y hogar', 'Limpiahogar y friegasuelos', 'Friegasuelos')
        else:
            return ('Limpieza y hogar', 'Limpiahogar y friegasuelos', 'Limpiahogar')

    if subcat == 'Ambientadores':
        if 'spray' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador spray')
        elif 'coche' in name or 'auto' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador coche')
        elif 'eléctrico' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador eléctrico')
        elif 'automático' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador automático')
        elif 'absorbeolores' in name or 'antihumedad' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Absorbeolores y antihumedad')
        else:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Ambientador decorativo y otros')

    if subcat == 'Insecticidas':
        if 'spray' in name:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Insecticida spray')
        else:
            return ('Limpieza y hogar', 'Insecticida y ambientador', 'Insecticida eléctrico y otros')

    if subcat == 'Útiles del hogar, pilas, bombillas':
        if 'pila' in name or 'pilas' in name:
            return ('Limpieza y hogar', 'Pilas y bolsas de basura', 'Pilas')
        elif 'guantes' in name:
            return ('Limpieza y hogar', 'Estropajo, bayeta y guantesr', 'Guantes')
        elif 'estropajo' in name:
            return ('Limpieza y hogar', 'Estropajo, bayeta y guantes', 'Estropajo')
        elif 'bayeta' in name or 'paño' in name:
            return ('Limpieza y hogar', 'Estropajo, bayeta y guantes', 'Bayeta')
        elif 'hermético' in name or 'molde' in name or 'recipiente' in name:
            return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Herméticos y moldes')
        elif any(x in name for x in ['vasos', 'vaso', 'plato', 'bol', 'cucharas', 'tenedores', 'bandeja', 'mantel', 'palillos', 'pajitas', 'cuchillos']):
            return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Cubiertos, vajilla y mantel')
        else:
            return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Encendedores, velas y carbón')


    return (pd.NA, pd.NA, pd.NA)

In [134]:
mask = df_dia['category'] == 'Limpieza y hogar'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_limpieza, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [135]:
df_dia[df_dia['category'] == 'Limpieza y hogar'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 468 entries, 4487 to 4954
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      468 non-null    object 
 1   description               466 non-null    object 
 2   price                     468 non-null    float64
 3   reference_price           468 non-null    float64
 4   reference_unit            468 non-null    object 
 5   product_id                468 non-null    object 
 6   insert_date               468 non-null    object 
 7   category                  468 non-null    object 
 8   subcategory               468 non-null    object 
 9   category_name             468 non-null    object 
 10  subcategory_name          468 non-null    object 
 11  subcategory_2_nivel_name  468 non-null    object 
dtypes: float64(2), object(10)
memory usage: 47.5+ KB


# Procesamiento de la categoría "Marisco y pescado"

In [136]:
current_category = df_category[df_category["category_name"] == 'Marisco y pescado']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
349,Marisco y pescado,Marisco,Marisco,350
350,Marisco y pescado,Marisco,Marisco de concha,351
351,Marisco y pescado,Marisco,Surimi y otros,352
352,Marisco y pescado,Pescado congelado,Pescado congelado,353
353,Marisco y pescado,Pescado congelado,Pescado rebozado congelado,354
354,Marisco y pescado,Pescado congelado,"Sepia, pulpo y calamar congelado",355
355,Marisco y pescado,Pescado fresco,Salmón,356
356,Marisco y pescado,Pescado fresco,Dorada,357
357,Marisco y pescado,Pescado fresco,Lubina,358
358,Marisco y pescado,Pescado fresco,Merluza,359


In [137]:
df_dia[df_dia['category'] == 'Pescados, mariscos y ahumados']['subcategory'].unique()

array(['Pescados', 'Mariscos', 'Ahumados, salazones y preparados',
       'Sucedáneo de angulas y surimi'], dtype=object)

In [138]:
def clasificar_category_pescado(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Pescados':
        if 'congelado' in name and 'rebozado' in name:
            return ('Marisco y pescado', 'Pescado congelado', 'Pescado rebozado congelado')
        elif 'congelado' in name and any(x in name for x in ['pulpo', 'sepia', 'calamar', 'potón', 'pota']):
            return ('Marisco y pescado', 'Pescado congelado', 'Sepia, pulpo y calamar congelado')
        elif 'congelado' in name:
            return ('Marisco y pescado', 'Pescado congelado', 'Pescado congelado')
        elif 'salmón' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Salmón')
        elif 'dorada' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Dorada')
        elif 'lubina' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Lubina')
        elif 'merluza' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Merluza')
        elif 'bacalao' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Bacalao')
        elif 'corvina' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Corvina')
        elif 'trucha' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Trucha')
        elif 'lenguado' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Lenguado')
        elif 'boquerón' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Boquerón')
        elif 'rodaballo' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Rodaballo')
        elif 'sardina' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Sardina')
        elif 'caballa' in name:
            return ('Marisco y pescado', 'Pescado fresco', 'Caballa')
        elif any(x in name for x in ['pulpo', 'sepia', 'calamar', 'potón', 'pota']):
            return ('Marisco y pescado', 'Pescado fresco', 'Sepia, pulpo y calamar')
        else:
            return ('Marisco y pescado', 'Pescado fresco', 'Otros')

    if subcat == 'Mariscos':
        if any(x in name for x in ['mejillón', 'almeja', 'berberechos', 'navajas', 'chirla', 'cañaílla']):
            return ('Marisco y pescado', 'Marisco', 'Marisco de concha')
        else:
            return ('Marisco y pescado', 'Marisco', 'Marisco')

    if subcat == 'Ahumados, salazones y preparados':
        if any(x in name for x in ['ahumada', 'ahumado', 'marinado']):
            return ('Marisco y pescado', 'Salazones y ahumados', 'Ahumados')
        else:
            return ('Marisco y pescado', 'Salazones y ahumados', 'Salazones')

    if subcat == 'Sucedáneo de angulas y surimi':
        return ('Marisco y pescado', 'Marisco', 'Surimi y otros')

    return (pd.NA, pd.NA, pd.NA)

In [139]:
mask = df_dia['category'] == 'Pescados, mariscos y ahumados'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_pescado, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [140]:
df_dia[df_dia['category'] == 'Pescados, mariscos y ahumados'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 39 entries, 514 to 552
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      39 non-null     object 
 1   description               39 non-null     object 
 2   price                     39 non-null     float64
 3   reference_price           39 non-null     float64
 4   reference_unit            39 non-null     object 
 5   product_id                39 non-null     object 
 6   insert_date               39 non-null     object 
 7   category                  39 non-null     object 
 8   subcategory               39 non-null     object 
 9   category_name             39 non-null     object 
 10  subcategory_name          39 non-null     object 
 11  subcategory_2_nivel_name  39 non-null     object 
dtypes: float64(2), object(10)
memory usage: 4.0+ KB


# Procesamiento de la categoría "Pizzas y platos preparados"

In [141]:
current_category = df_category[df_category["category_name"] == 'Pizzas y platos preparados']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
404,Pizzas y platos preparados,Listo para Comer,Platos calientes,405
405,Pizzas y platos preparados,Listo para Comer,Platos fríos,406
406,Pizzas y platos preparados,Pizzas,Pizzas refrigeradas,407
407,Pizzas y platos preparados,Pizzas,Pizzas congeladas,408
408,Pizzas y platos preparados,Pizzas,Base de pizza,409
409,Pizzas y platos preparados,Pizzas,"Roscas, quiche y baguettes",410
410,Pizzas y platos preparados,Platos preparados calientes,Pasta,411
411,Pizzas y platos preparados,Platos preparados calientes,Arroz,412
412,Pizzas y platos preparados,Platos preparados calientes,Carne,413
413,Pizzas y platos preparados,Platos preparados calientes,Tortilla,414


In [142]:
df_dia[df_dia['category'] == 'Pizzas y platos preparados']['subcategory'].unique()

array(['Pizzas', 'Precocinados envasados', 'Comida internacional',
       'Tortillas y empanadas', 'Gazpachos y salmorejos'], dtype=object)

In [143]:
def clasificar_category_preparados(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Gazpachos y salmorejos':
        return ('Conservas, caldos y cremas', 'Gazpacho y cremas', 'Gazpacho y salmorejo')

    if subcat == 'Pizzas':
        if 'ultracongelada' in name or 'ultracongeladas' in name:
            return ('Pizzas y platos preparados', 'Pizzas', 'Pizzas congeladas')
        elif any(x in name for x in ['piadinas', 'base', 'bases', 'cocas', 'masa']):
            return ('Pizzas y platos preparados', 'Pizzas', 'Base de pizza')
        else:
            return ('Pizzas y platos preparados', 'Pizzas', 'Pizzas refrigeradas')

    if subcat == 'Precocinados envasados':
        if 'ensaladilla' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Ensaladilla')
        elif 'sándwich' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Sándwich')
        elif 'hummus' in name:
            return ('Pizzas y platos preparados', 'Platos preparados fríos', 'Hummus y otros')
        else:
            return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos fríos')

    if subcat == 'Comida internacional':
        if any(x in name for x in ['pasta oriental', 'noodles orientales', 'yakisoba', 'noodles de arroz', 	'fideos orientales', 	'fideos de arroz']):
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Fideos orientales')
        elif 'sushi' in name or 'poke' in name:
            return ('Pizzas y platos preparados', 'Listo para Comer', 'Platos fríos')
        else:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Otros')

    if subcat == 'Tortillas y empanadas':
        if 'tortilla' in name:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Tortilla')
        else:
            return ('Pizzas y platos preparados', 'Platos preparados calientes', 'Otros')


    return (pd.NA, pd.NA, pd.NA)

In [144]:
mask = df_dia['category'] == 'Pizzas y platos preparados'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_preparados, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [145]:
df_dia[df_dia['category'] == 'Pizzas y platos preparados'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 160 entries, 3201 to 3360
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      160 non-null    object 
 1   description               160 non-null    object 
 2   price                     160 non-null    float64
 3   reference_price           160 non-null    float64
 4   reference_unit            160 non-null    object 
 5   product_id                160 non-null    object 
 6   insert_date               160 non-null    object 
 7   category                  160 non-null    object 
 8   subcategory               160 non-null    object 
 9   category_name             160 non-null    object 
 10  subcategory_name          160 non-null    object 
 11  subcategory_2_nivel_name  160 non-null    object 
dtypes: float64(2), object(10)
memory usage: 16.2+ KB


# Procesamiento de la categoría "Freidora de aire - Airfryer"

In [146]:
df_dia[df_dia['category'] == 'Freidora de aire - Airfryer']['subcategory'].unique()

array(['Patatas Airfryer', 'Rebozados Airfryer', 'Verduras Airfryer',
       'Pescados y mariscos Airfryer', 'Carne Airfryer',
       'Comida preparada Airfryer', 'Accesorios Airfryer'], dtype=object)

In [147]:
current_category = df_category[df_category["category_name"] == 'Congelados']
current_category

Unnamed: 0,category_name,subcategory_name,subcategory_2_nivel_name,category_id
167,Congelados,Arroz y pasta,Arroz,168
168,Congelados,Arroz y pasta,Pasta,169
169,Congelados,Carne,Carne,170
170,Congelados,Helados,Bombones,171
171,Congelados,Helados,Cucuruchos,172
172,Congelados,Helados,Granizados y helados de hielo,173
173,Congelados,Helados,Tarrinas,174
174,Congelados,Helados,Barras de helado y barquillos,175
175,Congelados,Hielo,Hielo,176
176,Congelados,Marisco,Marisco,177


In [148]:
def clasificar_category_freidora(row):

    name = row['name'].lower()
    subcat = row['subcategory']

    if subcat == 'Patatas Airfryer':
        return ('Congelados', 'Verdura', 'Patatas')

    if subcat == 'Verduras Airfryer':
        return ('Congelados', 'Verdura', 'Verdura')

    if subcat == 'Pescados y mariscos Airfryer':
        return ('Congelados', 'Pescado', 'Pescado')

    if subcat == 'Carne Airfryer':
        return ('Congelados', 'Carne', 'Carne')

    if subcat == 'Comida preparada Airfryer':
        return ('Congelados', 'Rebozados', 'Verdura rebozada y otros')

    if subcat == 'Rebozados Airfryer':
        return ('Congelados', 'Rebozados', 'Verdura rebozada y otros')

    if subcat == 'Accesorios Airfryer':
        if 'papel' in name:
            return ('Limpieza y hogar', 'Menaje y conservación de alimentos', 'Papel y bolsas de conservación')
        else:
            return ('Aceite, especias y salsas', 'Aceite, vinagre y sal', 'Aceite de girasol, semillas y maíz')

    return (pd.NA, pd.NA, pd.NA)

In [149]:
mask = df_dia['category'] == 'Freidora de aire - Airfryer'
df_temp = df_dia.loc[mask].copy()

df_temp[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']] = df_temp.apply(
    clasificar_category_freidora, axis=1, result_type='expand'
)
df_dia.update(df_temp)

In [150]:
df_dia[df_dia['category'] == 'Freidora de aire - Airfryer'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 105 entries, 0 to 104
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      105 non-null    object 
 1   description               105 non-null    object 
 2   price                     105 non-null    float64
 3   reference_price           105 non-null    float64
 4   reference_unit            105 non-null    object 
 5   product_id                105 non-null    object 
 6   insert_date               105 non-null    object 
 7   category                  105 non-null    object 
 8   subcategory               105 non-null    object 
 9   category_name             105 non-null    object 
 10  subcategory_name          105 non-null    object 
 11  subcategory_2_nivel_name  105 non-null    object 
dtypes: float64(2), object(10)
memory usage: 10.7+ KB


In [151]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      6123 non-null   object 
 1   description               6118 non-null   object 
 2   price                     6123 non-null   float64
 3   reference_price           6123 non-null   float64
 4   reference_unit            6123 non-null   object 
 5   product_id                6123 non-null   object 
 6   insert_date               6123 non-null   object 
 7   category                  6123 non-null   object 
 8   subcategory               6123 non-null   object 
 9   category_name             6123 non-null   object 
 10  subcategory_name          6123 non-null   object 
 11  subcategory_2_nivel_name  6123 non-null   object 
dtypes: float64(2), object(10)
memory usage: 574.2+ KB


# Fusión de productos Dia con la jerarquía de categorías de Mercadona

Realizamos una union entre el DataFrame de productos de Dia(df_dia) y el diccionario maestro de categorías de Mercadona (df_category), utilizando como claves las columnas category_name, subcategory_name y subcategory_2_nivel_name. Al utilizar how='left', garantizamos que todos los productos de Dia se mantengan en el DataFrame final, y solo se añadan las columnas coincidentes desde el diccionario de Mercadona.


In [152]:
df_dia = df_dia.merge(df_category, on=['category_name', 'subcategory_name', 'subcategory_2_nivel_name'], how='left')
df_dia.tail()

Unnamed: 0,name,description,price,reference_price,reference_unit,product_id,insert_date,category,subcategory,category_name,subcategory_name,subcategory_2_nivel_name,category_id
6118,Alimento para gatos junior Purina one bolsa 450 g,bolsa,3.19,7.09,KILO,152244,2025-04-08,Mascotas,Gatos,Mascotas,Gato,Aseo y cuidado,374
6119,"Alimento para gatos sabor salmón, atún y verdu...",bolsa,4.95,3.3,KILO,151720,2025-04-08,Mascotas,Gatos,Mascotas,Gato,Aseo y cuidado,374
6120,Mousse para gatos mix Gourmet lata 8 x 85 g,lata,7.09,10.43,KILO,130337,2025-04-08,Mascotas,Gatos,Mascotas,Gato,Alimentación húmeda,372
6121,Alimento para gatos esterilizados rico en buey...,bolsa,5.89,7.36,KILO,114374,2025-04-08,Mascotas,Gatos,Mascotas,Gato,Aseo y cuidado,374
6122,Barritas con fruta para periquitos Biazoo bols...,bolsa,1.39,23.17,KILO,288261,2025-04-08,Mascotas,Otros animales,Mascotas,Otros,Pájaro,380



Como resultado, ahora cada producto dispone tanto de su clasificación original (category, subcategory) como de la jerarquía estandarizada (category_name, subcategory_name, subcategory_2_nivel_name), lo cual permite trabajar con una estructura común en los análisis comparativos.

In [153]:
df_dia[['category_name', 'subcategory_name', 'subcategory_2_nivel_name']].drop_duplicates().shape[0]

346

In [154]:
df_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6123 entries, 0 to 6122
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      6123 non-null   object 
 1   description               6118 non-null   object 
 2   price                     6123 non-null   float64
 3   reference_price           6123 non-null   float64
 4   reference_unit            6123 non-null   object 
 5   product_id                6123 non-null   object 
 6   insert_date               6123 non-null   object 
 7   category                  6123 non-null   object 
 8   subcategory               6123 non-null   object 
 9   category_name             6123 non-null   object 
 10  subcategory_name          6123 non-null   object 
 11  subcategory_2_nivel_name  6123 non-null   object 
 12  category_id               6123 non-null   int64  
dtypes: float64(2), int64(1), object(10)
memory usage: 622.0+ KB


In [155]:
df_dia.to_csv('df_dia_merge.csv', index=False, encoding='utf-8-sig')

In [156]:
df_dia.head()

Unnamed: 0,name,description,price,reference_price,reference_unit,product_id,insert_date,category,subcategory,category_name,subcategory_name,subcategory_2_nivel_name,category_id
0,Patatas gajo Patatas Unidas Dia bolsa 750 g,bolsa,1.8,2.4,KILO,262685,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer,Congelados,Verdura,Patatas,190
1,Patatas finas prefritas Patatas Unidas Dia bol...,bolsa,1.93,1.93,KILO,262863,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer,Congelados,Verdura,Patatas,190
2,Patatas prefritas Patatas Unidas Dia bolsa 1 Kg,bolsa,1.85,1.85,KILO,262861,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer,Congelados,Verdura,Patatas,190
3,Patatas prefritas Patatas Unidas Dia bolsa 2 Kg,bolsa,3.21,1.61,KILO,280262,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer,Congelados,Verdura,Patatas,190
4,Patatas gajo barbacoa McCain bolsa 750 g,bolsa,3.59,4.79,KILO,250786,2025-04-08,Freidora de aire - Airfryer,Patatas Airfryer,Congelados,Verdura,Patatas,190
