# Exploratory Data Analysis (EDA) - Supermercados en Valencia:

Proyecto en el cual se comparan 3 de las principales cadenas de supermercados en Valencia (Mercadona, Consum y Carrefour) para dilucidar cual es la mejor para realizar las compras domésticas.

#### Indice  
1. [Fase 1: Lectura y limpieza](#fase-1-lectura-y-limpieza)  
    + [Mercadona](#depuración-y-limpieza-del-dataset-de-mercadona)
    + [Consum](#depuración-y-limpieza-del-dataset-de-consum)
    + [Carrefour](#depuración-y-limpieza-del-dataset-de-carrefour)
2. [Fase 2: Análisis y visualización]

## Fase 1: Lectura y limpieza

### Depuración y limpieza del dataset de Mercadona

In [43]:
# Importación de la librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go 
import warnings

from utils import *

warnings.filterwarnings("ignore")   # Restringir la aparicion de warnings

pd.options.display.float_format = '{:.2f}'.format

In [44]:
# Importar los datasets bajo el nombre df_supermercado_raw

# Datasets Mercadona
df_mercadona_raw = pd.read_csv("data/Raw_Data/Mercadona/mercadona_raw.csv")
df_mercadona_categorias = pd.read_csv("data/Raw_Data/Mercadona/mercadona_categorias_grupos.csv")

# Dataset Consum
df_consum_raw = pd.read_csv("data/Raw_Data/Consum/consum_raw.csv")

# Dataset Carrefour
df_carrefour_raw = pd.read_csv("data/Raw_Data/Carrefour/carrefour_raw.csv")

Depuración y limpieza del dataset de Mercadona

In [45]:
# Visualización del dataset para entenderlo y ver depuración de los datos necesita
df_mercadona_raw.head()

Unnamed: 0,elemento_id,texto_completo,nombre,precio,precio_unidad,marca,imagen_url,categoria_url,categoria_nombre
0,1,"Aceite de oliva 0,4º Hacendado\nGarrafa 5 L\n1...","Aceite de oliva 0,4º Hacendado","18,75 € /ud.",,,https://prod-mercadona.imgix.net/images/c17880...,https://tienda.mercadona.es/categories/112,112
1,3,"Aceite de oliva 0,4º Hacendado\nBotella 1 L\n3...","Aceite de oliva 0,4º Hacendado","3,85 € /ud.",,,https://prod-mercadona.imgix.net/images/65c234...,https://tienda.mercadona.es/categories/112,112
2,5,Aceite de oliva virgen extra Hacendado\nGarraf...,Aceite de oliva virgen extra Hacendado,"13,70 € /ud.",,,https://prod-mercadona.imgix.net/images/c6fc6d...,https://tienda.mercadona.es/categories/112,112
3,7,Aceite de oliva virgen extra Hacendado\nBotell...,Aceite de oliva virgen extra Hacendado,"4,65 € /ud.",,,https://prod-mercadona.imgix.net/images/bd2485...,https://tienda.mercadona.es/categories/112,112
4,9,Aceite de oliva virgen extra Hacendado Gran Se...,Aceite de oliva virgen extra Hacendado Gran Se...,"5,95 € /ud.",,,https://prod-mercadona.imgix.net/images/c60e6e...,https://tienda.mercadona.es/categories/112,112


In [46]:
# Información sobre el dataset
df_mercadona_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4305 entries, 0 to 4304
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   elemento_id       4305 non-null   int64  
 1   texto_completo    4305 non-null   object 
 2   nombre            4305 non-null   object 
 3   precio            4305 non-null   object 
 4   precio_unidad     0 non-null      float64
 5   marca             0 non-null      float64
 6   imagen_url        4305 non-null   object 
 7   categoria_url     4305 non-null   object 
 8   categoria_nombre  4305 non-null   int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 302.8+ KB


In [47]:
# Visualización del dataset con las categorías
df_mercadona_categorias

Unnamed: 0,URL,GrupoPrincipal,NombreCategoria
0,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
1,https://tienda.mercadona.es/categories/115,"Aceite, especias y salsas",Especias
2,https://tienda.mercadona.es/categories/116,"Aceite, especias y salsas","Mayonesa, ketchup y mostaza"
3,https://tienda.mercadona.es/categories/117,"Aceite, especias y salsas",Otras salsas
4,https://tienda.mercadona.es/categories/156,Agua y refrescos,Agua
...,...,...,...
147,https://tienda.mercadona.es/categories/107,Postres y yogures,Yogures y postres infantiles
148,https://tienda.mercadona.es/categories/99,Zumos,Fruta variada
149,https://tienda.mercadona.es/categories/100,Zumos,Melocotón y piña
150,https://tienda.mercadona.es/categories/143,Zumos,Naranja


In [48]:
# Merge del dataset y las categorias para poder entender mejor cada producto y visualización
df_mercadona_merged = df_mercadona_raw.merge(df_mercadona_categorias, left_on= "categoria_url", right_on= "URL", how= "left")
df_mercadona_merged.head()

Unnamed: 0,elemento_id,texto_completo,nombre,precio,precio_unidad,marca,imagen_url,categoria_url,categoria_nombre,URL,GrupoPrincipal,NombreCategoria
0,1,"Aceite de oliva 0,4º Hacendado\nGarrafa 5 L\n1...","Aceite de oliva 0,4º Hacendado","18,75 € /ud.",,,https://prod-mercadona.imgix.net/images/c17880...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
1,3,"Aceite de oliva 0,4º Hacendado\nBotella 1 L\n3...","Aceite de oliva 0,4º Hacendado","3,85 € /ud.",,,https://prod-mercadona.imgix.net/images/65c234...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
2,5,Aceite de oliva virgen extra Hacendado\nGarraf...,Aceite de oliva virgen extra Hacendado,"13,70 € /ud.",,,https://prod-mercadona.imgix.net/images/c6fc6d...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
3,7,Aceite de oliva virgen extra Hacendado\nBotell...,Aceite de oliva virgen extra Hacendado,"4,65 € /ud.",,,https://prod-mercadona.imgix.net/images/bd2485...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
4,9,Aceite de oliva virgen extra Hacendado Gran Se...,Aceite de oliva virgen extra Hacendado Gran Se...,"5,95 € /ud.",,,https://prod-mercadona.imgix.net/images/c60e6e...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"


In [49]:
# Visualización de la información del nuevo dataset generado
df_mercadona_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4305 entries, 0 to 4304
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   elemento_id       4305 non-null   int64  
 1   texto_completo    4305 non-null   object 
 2   nombre            4305 non-null   object 
 3   precio            4305 non-null   object 
 4   precio_unidad     0 non-null      float64
 5   marca             0 non-null      float64
 6   imagen_url        4305 non-null   object 
 7   categoria_url     4305 non-null   object 
 8   categoria_nombre  4305 non-null   int64  
 9   URL               4305 non-null   object 
 10  GrupoPrincipal    4305 non-null   object 
 11  NombreCategoria   4305 non-null   object 
dtypes: float64(2), int64(2), object(8)
memory usage: 403.7+ KB


In [50]:
# Se genera una nueva columna con el formato
df_mercadona_merged.insert(3, "formato", df_mercadona_merged["texto_completo"].str.split("\n").str[1])
df_mercadona_merged.head()

Unnamed: 0,elemento_id,texto_completo,nombre,formato,precio,precio_unidad,marca,imagen_url,categoria_url,categoria_nombre,URL,GrupoPrincipal,NombreCategoria
0,1,"Aceite de oliva 0,4º Hacendado\nGarrafa 5 L\n1...","Aceite de oliva 0,4º Hacendado",Garrafa 5 L,"18,75 € /ud.",,,https://prod-mercadona.imgix.net/images/c17880...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
1,3,"Aceite de oliva 0,4º Hacendado\nBotella 1 L\n3...","Aceite de oliva 0,4º Hacendado",Botella 1 L,"3,85 € /ud.",,,https://prod-mercadona.imgix.net/images/65c234...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
2,5,Aceite de oliva virgen extra Hacendado\nGarraf...,Aceite de oliva virgen extra Hacendado,Garrafa 3 L,"13,70 € /ud.",,,https://prod-mercadona.imgix.net/images/c6fc6d...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
3,7,Aceite de oliva virgen extra Hacendado\nBotell...,Aceite de oliva virgen extra Hacendado,Botella 1 L,"4,65 € /ud.",,,https://prod-mercadona.imgix.net/images/bd2485...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"
4,9,Aceite de oliva virgen extra Hacendado Gran Se...,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 750 ml,"5,95 € /ud.",,,https://prod-mercadona.imgix.net/images/c60e6e...,https://tienda.mercadona.es/categories/112,112,https://tienda.mercadona.es/categories/112,"Aceite, especias y salsas","Aceite, vinagre y sal"


In [51]:
# Se eliminan las columnas que no proporcionan información util
df_mercadona_merged.drop(columns=["elemento_id", "texto_completo", "imagen_url", "categoria_url", "categoria_nombre", "URL"], inplace= True)
df_mercadona_merged.rename(columns={"precio_unidad": "precio_kg/L", "GrupoPrincipal": "categoria",
                                    "NombreCategoria": "subcategoria"}, inplace= True)

In [52]:
# Se convierte la columna precio a float y se rellena la columna precio_kg/L
df_mercadona_merged["precio"] = df_mercadona_merged["precio"].str.extract(r"(\d+,\d{2})")[0].str.replace(',','.').astype(float)
df_mercadona_merged["precio_kg/L"] = df_mercadona_merged["precio"] / df_mercadona_merged['formato'].apply(parse_product_format)
df_mercadona_merged.head()

Unnamed: 0,nombre,formato,precio,precio_kg/L,marca,categoria,subcategoria
0,"Aceite de oliva 0,4º Hacendado",Garrafa 5 L,18.75,3.75,,"Aceite, especias y salsas","Aceite, vinagre y sal"
1,"Aceite de oliva 0,4º Hacendado",Botella 1 L,3.85,3.85,,"Aceite, especias y salsas","Aceite, vinagre y sal"
2,Aceite de oliva virgen extra Hacendado,Garrafa 3 L,13.7,4.57,,"Aceite, especias y salsas","Aceite, vinagre y sal"
3,Aceite de oliva virgen extra Hacendado,Botella 1 L,4.65,4.65,,"Aceite, especias y salsas","Aceite, vinagre y sal"
4,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 750 ml,5.95,7.93,,"Aceite, especias y salsas","Aceite, vinagre y sal"


In [53]:
# Rellenamos la columna marca, extrayendo el valor de la columna nombre
df_mercadona_merged["marca"] = df_mercadona_merged['nombre'].apply(lambda x: extraer_marca_con_diccionario(x, marcas_conocidas))

In [54]:
# Comprobamos la distribución de valores en marca
df_mercadona_merged["marca"].value_counts()

marca
Hacendado       1831
Deliplus         593
Desconocida      461
Bosque Verde     298
On               111
                ... 
Cerdán             1
J&B                1
Royal Mints        1
Ballantine's       1
Single             1
Name: count, Length: 348, dtype: int64

In [55]:
# Visualización del dataset final de Mercadona y almacenamiento del mismo
#df_mercadona_merged.to_csv("data/Clean_Data/mercadona.csv", index= False)
df_mercadona_merged.head()

Unnamed: 0,nombre,formato,precio,precio_kg/L,marca,categoria,subcategoria
0,"Aceite de oliva 0,4º Hacendado",Garrafa 5 L,18.75,3.75,Hacendado,"Aceite, especias y salsas","Aceite, vinagre y sal"
1,"Aceite de oliva 0,4º Hacendado",Botella 1 L,3.85,3.85,Hacendado,"Aceite, especias y salsas","Aceite, vinagre y sal"
2,Aceite de oliva virgen extra Hacendado,Garrafa 3 L,13.7,4.57,Hacendado,"Aceite, especias y salsas","Aceite, vinagre y sal"
3,Aceite de oliva virgen extra Hacendado,Botella 1 L,4.65,4.65,Hacendado,"Aceite, especias y salsas","Aceite, vinagre y sal"
4,Aceite de oliva virgen extra Hacendado Gran Se...,Botella 750 ml,5.95,7.93,Hacendado,"Aceite, especias y salsas","Aceite, vinagre y sal"


In [56]:
# Información final sobre el dataset depurado de Mercadona
df_Mercadona = pd.read_csv("data/Clean_Data/mercadona.csv")
df_Mercadona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4305 entries, 0 to 4304
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nombre        4305 non-null   object 
 1   formato       4305 non-null   object 
 2   precio        4305 non-null   float64
 3   precio_kg/L   4305 non-null   float64
 4   marca         4305 non-null   object 
 5   categoria     4305 non-null   object 
 6   subcategoria  4305 non-null   object 
dtypes: float64(2), object(5)
memory usage: 235.6+ KB


In [57]:
df_Mercadona.nunique()

nombre          3740
formato         1306
precio           552
precio_kg/L     1714
marca            349
categoria         26
subcategoria     149
dtype: int64

In [58]:
# Función para buscar articulos
def busqueda_articulo_mercadona(palabra_busqueda):
    return df_Mercadona[(df_Mercadona["nombre"].apply(lambda x: palabra_busqueda in x.lower()))]

### Depuración y limpieza del dataset de Consum

In [59]:
# Visualización del dataset para entenderlo y ver depuración de los datos necesita
df_consum_raw.head()

Unnamed: 0,codigo_producto,marca,nombre,categoria,precio_actual,precio_anterior,precio_por_unidad,promocion,patrocinado,imagen_url,producto_url,fecha_extraccion
0,7092138,,,Bazar,"1,20 €",,"1,20 €/1 U",,No,https://cdn-consum.aktiosdigitalservices.com/t...,https://tienda.consum.es/es/p/velon-rojo-cilin...,2025-10-18 11:16:25
1,7092158,,,Bazar,"1,20 €",,"1,20 €/1 U",,No,https://cdn-consum.aktiosdigitalservices.com/t...,https://tienda.consum.es/es/p/velon-blanco-cil...,2025-10-18 11:16:25
2,7347461,,,Bazar,"1,15 €",,"1,15 €/1 U",,No,https://cdn-consum.aktiosdigitalservices.com/t...,https://tienda.consum.es/es/p/papel-regalo-sur...,2025-10-18 11:16:47
3,7403009,,,Bazar,"1,89 €",,"0,04 €/1 U",,No,https://cdn-consum.aktiosdigitalservices.com/t...,https://tienda.consum.es/es/p/molde-desechable...,2025-10-18 11:16:54
4,7461700,ADI,Bol 11cm Surtido Oslo BIDASOA 1 U,Bazar,"6,99 €",,"6,99 €/1 U",,No,https://cdn-consum.aktiosdigitalservices.com/t...,https://tienda.consum.es/es/p/bol-11cm-surtido...,2025-10-18 11:17:15


In [60]:
# Información sobre el dataset
df_consum_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9543 entries, 0 to 9542
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   codigo_producto    9543 non-null   int64 
 1   marca              9088 non-null   object
 2   nombre             9088 non-null   object
 3   categoria          9543 non-null   object
 4   precio_actual      9543 non-null   object
 5   precio_anterior    973 non-null    object
 6   precio_por_unidad  9543 non-null   object
 7   promocion          1288 non-null   object
 8   patrocinado        9543 non-null   object
 9   imagen_url         9543 non-null   object
 10  producto_url       9543 non-null   object
 11  fecha_extraccion   9543 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.8+ KB


In [61]:
df_consum_raw.nunique()

codigo_producto      9319
marca                1506
nombre               8540
categoria              12
precio_actual         752
precio_anterior       247
precio_por_unidad    3281
promocion              60
patrocinado             2
imagen_url           8053
producto_url         9319
fecha_extraccion      486
dtype: int64

In [62]:
# Se eliminan las columnas que no proporcionan información util
df_consum_raw.drop(columns=["codigo_producto", "precio_anterior", "promocion" ,"patrocinado", "imagen_url" ,"fecha_extraccion"], inplace= True)
df_consum_raw.rename(columns={"precio_actual": "precio", "precio_por_unidad": "precio_ud/Kg/L", }, inplace= True)
df_consum_raw.head()

Unnamed: 0,marca,nombre,categoria,precio,precio_ud/Kg/L,producto_url
0,,,Bazar,"1,20 €","1,20 €/1 U",https://tienda.consum.es/es/p/velon-rojo-cilin...
1,,,Bazar,"1,20 €","1,20 €/1 U",https://tienda.consum.es/es/p/velon-blanco-cil...
2,,,Bazar,"1,15 €","1,15 €/1 U",https://tienda.consum.es/es/p/papel-regalo-sur...
3,,,Bazar,"1,89 €","0,04 €/1 U",https://tienda.consum.es/es/p/molde-desechable...
4,ADI,Bol 11cm Surtido Oslo BIDASOA 1 U,Bazar,"6,99 €","6,99 €/1 U",https://tienda.consum.es/es/p/bol-11cm-surtido...


In [63]:
# Se convierten las columnas de precio a float
df_consum_raw["precio"] = df_consum_raw["precio"].str.replace(",",".").str.replace("€","").astype(float)
df_consum_raw["precio_ud/Kg/L"] = df_consum_raw["precio_ud/Kg/L"].str.extract(r'([\d,]+)\s*€')[0].str.replace(',', '.').astype(float)

In [64]:
# Se rellenan los valores vacios en el nombre utilizando como referencia la url y se elimina dicha columna
df_consum_raw['nombre'] = df_consum_raw['nombre'].fillna(df_consum_raw['producto_url'].str.split('/').str[-2].str.replace('-', ' ').str.title())
df_consum_raw.drop(columns=["producto_url"], inplace= True)

# Se rellena los valores NaN de la categoría marca con el valor Desconocida
df_consum_raw["marca"] = df_consum_raw["marca"].fillna("Desconocida")

df_consum_raw.head()

Unnamed: 0,marca,nombre,categoria,precio,precio_ud/Kg/L
0,Desconocida,Velon Rojo Cilindro,Bazar,1.2,1.2
1,Desconocida,Velon Blanco Cilindro,Bazar,1.2,1.2
2,Desconocida,Papel Regalo Surtido Rollo 70 Cm X 2 M,Bazar,1.15,1.15
3,Desconocida,Molde Desechable Para Magdalena,Bazar,1.89,0.04
4,ADI,Bol 11cm Surtido Oslo BIDASOA 1 U,Bazar,6.99,6.99


In [65]:
# Comprobamos la distribución de valores en marca
df_consum_raw["marca"].value_counts()

marca
CONSUM         1485
Desconocida     455
MAYBELLINE      200
KYREY           159
REVLON          107
               ... 
KIDS WORLD        1
KOJAK             1
KRAFT             1
LA ABUELA         1
LA CUEVA          1
Name: count, Length: 1507, dtype: int64

In [66]:
# Visualización del dataset final de Consum y almacenamiento del mismo
#df_consum_raw.to_csv("data/Clean_Data/consum.csv", index= False)
df_consum_raw.head()

Unnamed: 0,marca,nombre,categoria,precio,precio_ud/Kg/L
0,Desconocida,Velon Rojo Cilindro,Bazar,1.2,1.2
1,Desconocida,Velon Blanco Cilindro,Bazar,1.2,1.2
2,Desconocida,Papel Regalo Surtido Rollo 70 Cm X 2 M,Bazar,1.15,1.15
3,Desconocida,Molde Desechable Para Magdalena,Bazar,1.89,0.04
4,ADI,Bol 11cm Surtido Oslo BIDASOA 1 U,Bazar,6.99,6.99


In [67]:
# Información final sobre el dataset depurado de Consum
df_Consum = pd.read_csv("data/Clean_Data/consum.csv")
df_Consum.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9543 entries, 0 to 9542
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   marca           9543 non-null   object 
 1   nombre          9543 non-null   object 
 2   categoria       9543 non-null   object 
 3   precio          9543 non-null   float64
 4   precio_ud/Kg/L  9543 non-null   float64
dtypes: float64(2), object(3)
memory usage: 372.9+ KB


In [68]:
df_Consum.nunique()

marca             1507
nombre            8986
categoria           12
precio             752
precio_ud/Kg/L    2107
dtype: int64

In [69]:
# Función para buscar articulos
def busqueda_articulo_consum(palabra_busqueda):
    return df_Consum[(df_Consum["nombre"].apply(lambda x: palabra_busqueda in x.lower()))]

### Depuración y limpieza del dataset de Carrefour

In [70]:
# Visualización del dataset para entenderlo y ver depuración de los datos necesita
df_carrefour_raw.head()

Unnamed: 0,item_name,item_id,item_ean,price,currency,item_brand,item_category,quantity,discount,archivo_origen,carpeta_origen,coupon,index,item_internal_id,item_list_name,item_provider,item_provider_type,item_shipping,item_sms,item_variant
0,toallitas-bebe-fres-aloe-vera-carrefour-80-ud,78675,3560071207687,1.05,EUR,carrefour-baby,cat20006-bebe,1,,bebe\view-source_https___www.carrefour.es_supe...,bebe,,1,2002916053,catalog,carrefour,carrefour,home_delivery|drive,78675,
1,toallitas-bebe-fresh-aloe-vera-carrefour-baby-...,752063,3560070222780,5.85,EUR,carrefour-baby,cat20006-bebe,1,,bebe\view-source_https___www.carrefour.es_supe...,bebe,,2,2002618659,catalog,carrefour,carrefour,home_delivery|drive,752063,
2,preparado-lacteo-infantil-de-crecimiento-desde...,575835,8411700012217,1.99,EUR,puleva,cat20006-bebe,1,,bebe\view-source_https___www.carrefour.es_supe...,bebe,,3,2003043940,catalog,carrefour,carrefour,home_delivery|drive,575835,
3,toallitas-para-bebe-dodot-basico-54-ud,216376,8001090139504,0.99,EUR,dodot-basico,cat20006-bebe,1,,bebe\view-source_https___www.carrefour.es_supe...,bebe,,4,vc4a-2045483,catalog,carrefour,carrefour,home_delivery|drive,216376,
4,preparado-lacteo-infantil-de-crecimiento-con-c...,705355,8411700012415,2.09,EUR,puleva,cat20006-bebe,1,,bebe\view-source_https___www.carrefour.es_supe...,bebe,,5,2003044008,catalog,carrefour,carrefour,home_delivery|drive,705355,


In [71]:
# Información sobre el dataset
df_carrefour_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7604 entries, 0 to 7603
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   item_name           7600 non-null   object 
 1   item_id             7604 non-null   int64  
 2   item_ean            7604 non-null   int64  
 3   price               7604 non-null   float64
 4   currency            7604 non-null   object 
 5   item_brand          7392 non-null   object 
 6   item_category       7604 non-null   object 
 7   quantity            7604 non-null   int64  
 8   discount            34 non-null     float64
 9   archivo_origen      7604 non-null   object 
 10  carpeta_origen      7604 non-null   object 
 11  coupon              1158 non-null   object 
 12  index               7604 non-null   int64  
 13  item_internal_id    7604 non-null   object 
 14  item_list_name      7604 non-null   object 
 15  item_provider       7604 non-null   object 
 16  item_p

In [72]:
df_carrefour_raw.nunique()

item_name             7345
item_id               7375
item_ean              7375
price                  818
currency                 1
item_brand            1081
item_category            9
quantity                 1
discount                21
archivo_origen         319
carpeta_origen           9
coupon                  15
index                   24
item_internal_id      7375
item_list_name           1
item_provider            1
item_provider_type       1
item_shipping            1
item_sms              7375
item_variant            20
dtype: int64

In [73]:
# Se eliminan las columnas que no proporcionan información util
df_carrefour_raw.drop(columns=["item_id", "item_ean", "currency", "quantity", "discount", "archivo_origen", "carpeta_origen", "coupon",
                               "index", "item_internal_id", "item_list_name", "item_provider", "item_provider_type", "item_shipping",
                               "item_sms", "item_variant"], inplace= True)
df_carrefour_raw.rename(columns={"item_name": "nombre", "price": "precio" , "item_brand": "marca" ,
                                 "item_category": "categoria"}, inplace= True)

df_carrefour_raw.head()

Unnamed: 0,nombre,precio,marca,categoria
0,toallitas-bebe-fres-aloe-vera-carrefour-80-ud,1.05,carrefour-baby,cat20006-bebe
1,toallitas-bebe-fresh-aloe-vera-carrefour-baby-...,5.85,carrefour-baby,cat20006-bebe
2,preparado-lacteo-infantil-de-crecimiento-desde...,1.99,puleva,cat20006-bebe
3,toallitas-para-bebe-dodot-basico-54-ud,0.99,dodot-basico,cat20006-bebe
4,preparado-lacteo-infantil-de-crecimiento-con-c...,2.09,puleva,cat20006-bebe


In [74]:
# Se ajusta el formato de las columnas
#df_carrefour_raw["categoria"] = df_carrefour_raw["categoria"].str.extract(r'(cat\d+)([\w-]+)')[1].str.replace("-"," ")
df_carrefour_raw["marca"] = df_carrefour_raw["marca"].str.replace("-"," ")
df_carrefour_raw["nombre"] = df_carrefour_raw["nombre"].str.replace("-"," ")

df_carrefour_raw.head()

Unnamed: 0,nombre,precio,marca,categoria
0,toallitas bebe fres aloe vera carrefour 80 ud,1.05,carrefour baby,cat20006-bebe
1,toallitas bebe fresh aloe vera carrefour baby ...,5.85,carrefour baby,cat20006-bebe
2,preparado lacteo infantil de crecimiento desde...,1.99,puleva,cat20006-bebe
3,toallitas para bebe dodot basico 54 ud,0.99,dodot basico,cat20006-bebe
4,preparado lacteo infantil de crecimiento con c...,2.09,puleva,cat20006-bebe


In [75]:
# Se rellenan los valores vacios en la marca utilizando como referencia el nombre

mask = df_carrefour_raw["marca"].isna()
df_carrefour_raw.loc[mask, "marca"] = df_carrefour_raw.loc[mask, "nombre"].apply(lambda x: extraer_marca_con_diccionario(x, marcas_conocidas))
df_carrefour_raw.head()

Unnamed: 0,nombre,precio,marca,categoria
0,toallitas bebe fres aloe vera carrefour 80 ud,1.05,carrefour baby,cat20006-bebe
1,toallitas bebe fresh aloe vera carrefour baby ...,5.85,carrefour baby,cat20006-bebe
2,preparado lacteo infantil de crecimiento desde...,1.99,puleva,cat20006-bebe
3,toallitas para bebe dodot basico 54 ud,0.99,dodot basico,cat20006-bebe
4,preparado lacteo infantil de crecimiento con c...,2.09,puleva,cat20006-bebe


In [76]:
# Se genera una nueva columna con el formato
df_carrefour_raw.insert(1, "formato", df_carrefour_raw['nombre'].apply(extract_product_format))
df_carrefour_raw.head()


Unnamed: 0,nombre,formato,precio,marca,categoria
0,toallitas bebe fres aloe vera carrefour 80 ud,80 ud,1.05,carrefour baby,cat20006-bebe
1,toallitas bebe fresh aloe vera carrefour baby ...,6x80 ud,5.85,carrefour baby,cat20006-bebe
2,preparado lacteo infantil de crecimiento desde...,brik 1 l,1.99,puleva,cat20006-bebe
3,toallitas para bebe dodot basico 54 ud,54 ud,0.99,dodot basico,cat20006-bebe
4,preparado lacteo infantil de crecimiento con c...,brik 1 l,2.09,puleva,cat20006-bebe


In [None]:
# Se genera una nueva columna con el precio por ud/kg/L
#df_carrefour_raw.insert(3, "precio_ud/Kg/L", )
#df_carrefour_raw.head()

In [None]:
# probar las funciones creadas con claude para obtener el precio ud

