# **MERCADONA TRANSFORM.**

## **Importación de librerías.**

In [1]:
import pandas as pd

## **Carga de datos.**

### **Productos.**

In [2]:
fruta_df = pd.read_csv('../data/frutas.csv')
ensalada_df = pd.read_csv('../data/ensaladas.csv')
verdura_df = pd.read_csv('../data/verduras.csv')

### **Subcategorías.**

In [3]:
sub_fruta_df = pd.read_csv('../data/sub_frutas.csv')
sub_ensalada_df = pd.read_csv('../data/sub_ensaladas.csv')
sub_verdura_df = pd.read_csv('../data/sub_verduras.csv')

### **Categorías.**

In [4]:
cat_fruta_df = pd.read_csv('../data/cat_frutas.csv')
cat_ensalada_df = pd.read_csv('../data/cat_ensaladas.csv')
cat_verdura_df = pd.read_csv('../data/cat_verduras.csv')

In [5]:
fruta_tam_df = pd.read_csv('../data/frutas_tamaño.csv')

## **Transformación.**

### **Tabla de Categorías.**

In [6]:
cat_fruta_df

Unnamed: 0,categoria
0,Fruta


In [7]:
cat_ensalada_df

Unnamed: 0,categoria
0,Lechuga y ensalada preparada


In [8]:
cat_verdura_df

Unnamed: 0,categoria
0,Verdura


In [9]:
# crear una tabla conjunta de todas las categorias
cat_df = pd.concat([cat_fruta_df, cat_ensalada_df, cat_verdura_df])

#reseteamos el indice
cat_df = cat_df.reset_index(drop=True)

cat_df

Unnamed: 0,categoria
0,Fruta
1,Lechuga y ensalada preparada
2,Verdura


In [10]:
# insertar una columna de IDs llamada "categoria_id", para realizar la correspondiente relacion en la base de datos como "PRIMARY KEYS"
cat_df.insert(0, 'categoria_id', range(1, len(cat_df)+1))

cat_df

Unnamed: 0,categoria_id,categoria
0,1,Fruta
1,2,Lechuga y ensalada preparada
2,3,Verdura


### **Tabla de Subcategorías.**

In [11]:
sub_fruta_df

Unnamed: 0,subcategoria
0,Plátano y uva
1,Manzana y pera
2,Melón y sandía
3,Cítricos
4,Fruta tropical
5,Otras frutas


In [12]:
# crear e insertar la columna de IDs "categoria_id", para realizar la correspondiente relacion en la base de datos como "FOREIGN KEYS"
sub_fruta_df['categoria_id'] = 1

sub_fruta_df

Unnamed: 0,subcategoria,categoria_id
0,Plátano y uva,1
1,Manzana y pera,1
2,Melón y sandía,1
3,Cítricos,1
4,Fruta tropical,1
5,Otras frutas,1


In [13]:
sub_ensalada_df

Unnamed: 0,subcategoria
0,Lechuga
1,Ensalada preparada


In [14]:
# crear e insertar la columna de IDs "categoria_id", para realizar la correspondiente relacion en la base de datos como "FOREIGN KEYS"
sub_ensalada_df['categoria_id'] = 2

sub_ensalada_df

Unnamed: 0,subcategoria,categoria_id
0,Lechuga,2
1,Ensalada preparada,2


In [15]:
sub_verdura_df

Unnamed: 0,subcategoria
0,Patata
1,Cebolla y ajo
2,Tomate
3,Pepino y zanahoria
4,Calabacín y pimiento
5,Repollo y col
6,Setas y champiñones
7,Hierbas aromáticas
8,Otras verduras y hortalizas
9,Verduras al vapor


In [16]:
# crear e insertar la columna de IDs "categoria_id", para realizar la correspondiente relacion en la base de datos como "FOREIGN KEYS"
sub_verdura_df['categoria_id'] = 3

sub_verdura_df

Unnamed: 0,subcategoria,categoria_id
0,Patata,3
1,Cebolla y ajo,3
2,Tomate,3
3,Pepino y zanahoria,3
4,Calabacín y pimiento,3
5,Repollo y col,3
6,Setas y champiñones,3
7,Hierbas aromáticas,3
8,Otras verduras y hortalizas,3
9,Verduras al vapor,3


In [17]:
# crear una tabla conjunta de todas las subcategorias
sub_df = pd.concat([sub_fruta_df, sub_ensalada_df, sub_verdura_df])

#reseteamos el indice
sub_df = sub_df.reset_index(drop=True)

sub_df

Unnamed: 0,subcategoria,categoria_id
0,Plátano y uva,1
1,Manzana y pera,1
2,Melón y sandía,1
3,Cítricos,1
4,Fruta tropical,1
5,Otras frutas,1
6,Lechuga,2
7,Ensalada preparada,2
8,Patata,3
9,Cebolla y ajo,3


In [18]:
# insertar una columna de IDs llamada "subcategoria_id", para realizar la correspondiente relacion en la base de datos como "PRIMARY KEYS"
sub_df.insert(0, 'subcategoria_id', range(1, len(sub_df)+1))

sub_df

Unnamed: 0,subcategoria_id,subcategoria,categoria_id
0,1,Plátano y uva,1
1,2,Manzana y pera,1
2,3,Melón y sandía,1
3,4,Cítricos,1
4,5,Fruta tropical,1
5,6,Otras frutas,1
6,7,Lechuga,2
7,8,Ensalada preparada,2
8,9,Patata,3
9,10,Cebolla y ajo,3


### **Tabla de Productos.**

In [19]:
fruta_df

Unnamed: 0,producto,formato
0,Plátano de Canarias,Pieza 150 g aprox.
1,Banana,Pieza 170 g aprox.
2,Plátano macho,Pieza 340 g aprox.
3,Uva blanca sin semillas,Bandeja 500 g aprox.
4,Uva roja sin semillas,Bandeja 500 g aprox.
5,Manzana Golden,Pieza 190 g aprox.
6,Manzanas Golden,"Bolsa 1,5 kg aprox."
7,Pera Conferencia,Pieza 160 g aprox.
8,Peras Conferencia,"1,5 kg aprox."
9,Pera Ercolina,Pieza 90 g aprox.


In [20]:
# unir el DataFrame de "fruta_tam_df" con "fruta_df"
fruta_df = fruta_df.merge(fruta_tam_df, on='producto', how='left')

fruta_df

Unnamed: 0,producto,formato,ancho,alto
0,Plátano de Canarias,Pieza 150 g aprox.,,
1,Banana,Pieza 170 g aprox.,,
2,Plátano macho,Pieza 340 g aprox.,,
3,Uva blanca sin semillas,Bandeja 500 g aprox.,,
4,Uva roja sin semillas,Bandeja 500 g aprox.,,
5,Manzana Golden,Pieza 190 g aprox.,7.5,7.4
6,Manzanas Golden,"Bolsa 1,5 kg aprox.",,
7,Pera Conferencia,Pieza 160 g aprox.,,
8,Peras Conferencia,"1,5 kg aprox.",,
9,Pera Ercolina,Pieza 90 g aprox.,,


In [21]:
# crear e insertar dos columnas de IDs, "subcategoria_id" y "categoria_id", para realizar la correspondiente relacion en la base de datos como "FOREIGN KEYS"
# crear una lista con los valores de "subcategoria_id"
subcat_id = [1]*5 + [2]*10 + [3]*3 + [4]*9 + [5]*13 + [6]*(len(fruta_df)-40)

# insertar la columna en el dataframe
fruta_df.insert(loc=2, column='subcategoria_id', value=subcat_id)

fruta_df['categoria_id'] = 1

fruta_df

Unnamed: 0,producto,formato,subcategoria_id,ancho,alto,categoria_id
0,Plátano de Canarias,Pieza 150 g aprox.,1,,,1
1,Banana,Pieza 170 g aprox.,1,,,1
2,Plátano macho,Pieza 340 g aprox.,1,,,1
3,Uva blanca sin semillas,Bandeja 500 g aprox.,1,,,1
4,Uva roja sin semillas,Bandeja 500 g aprox.,1,,,1
5,Manzana Golden,Pieza 190 g aprox.,2,7.5,7.4,1
6,Manzanas Golden,"Bolsa 1,5 kg aprox.",2,,,1
7,Pera Conferencia,Pieza 160 g aprox.,2,,,1
8,Peras Conferencia,"1,5 kg aprox.",2,,,1
9,Pera Ercolina,Pieza 90 g aprox.,2,,,1


In [22]:
ensalada_df

Unnamed: 0,producto,formato
0,Lechuga iceberg,Pieza 1 ud.
1,Ensalada mezcla 4 estaciones,Paquete 250 g
2,Lechugas corazón romana,Paquete 2 ud.
3,Ensalada mezcla brotes tiernos,Paquete 100 g
4,Canónigos base para ensalada,Paquete 125 g
5,Lechuga iceberg base para ensalada,Paquete 250 g
6,Ensalada mezcla gourmet,Paquete 175 g
7,Cogollos de lechuga,Paquete 3 ud.
8,Lechuga corazón romana,Paquete 1 ud.
9,Endibias,Bandeja 450 g


In [23]:
# crear e insertar dos columnas de IDs, "subcategoria_id" y "categoria_id", para realizar la correspondiente relacion en la base de datos como "FOREIGN KEYS"
# crear una lista con los valores de "subcategoria_id"
subcat_id = [7]*23 + [8]*(len(ensalada_df)-23)

# insertar la columna en el dataframe
ensalada_df.insert(loc=2, column='subcategoria_id', value=subcat_id)

ensalada_df['categoria_id'] = 2

ensalada_df

Unnamed: 0,producto,formato,subcategoria_id,categoria_id
0,Lechuga iceberg,Pieza 1 ud.,7,2
1,Ensalada mezcla 4 estaciones,Paquete 250 g,7,2
2,Lechugas corazón romana,Paquete 2 ud.,7,2
3,Ensalada mezcla brotes tiernos,Paquete 100 g,7,2
4,Canónigos base para ensalada,Paquete 125 g,7,2
5,Lechuga iceberg base para ensalada,Paquete 250 g,7,2
6,Ensalada mezcla gourmet,Paquete 175 g,7,2
7,Cogollos de lechuga,Paquete 3 ud.,7,2
8,Lechuga corazón romana,Paquete 1 ud.,7,2
9,Endibias,Bandeja 450 g,7,2


In [24]:
verdura_df

Unnamed: 0,producto,formato
0,Patata,Pieza 220 g aprox.
1,Patatas,Malla 3 kg
2,Patatas rojas,Malla 2 kg
3,Patatas,Malla 5 kg
4,Patatas guarnición,Malla 1 kg
...,...,...
93,Mix de verduras paisana para micro,Paquete 300 g
94,Sopa juliana para micro,Paquete 400 g
95,Patata para micro,Paquete 400 g
96,Batata para micro,Paquete 400 g


In [25]:
# crear e insertar dos columnas de IDs, "subcategoria_id" y "categoria_id", para realizar la correspondiente relacion en la base de datos como "FOREIGN KEYS"
# crear una lista con los valores de "subcategoria_id"
subcat_id = [9]*7 + [10]*11 + [11]*14 + [12]*7 + [13]*8 + [14]*7 + [15]*9 + [16]*6 + [17]*22 + [18]*(len(verdura_df)-91)

# insertar la columna en el dataframe
verdura_df.insert(loc=2, column='subcategoria_id', value=subcat_id)

verdura_df['categoria_id'] = 3

verdura_df

Unnamed: 0,producto,formato,subcategoria_id,categoria_id
0,Patata,Pieza 220 g aprox.,9,3
1,Patatas,Malla 3 kg,9,3
2,Patatas rojas,Malla 2 kg,9,3
3,Patatas,Malla 5 kg,9,3
4,Patatas guarnición,Malla 1 kg,9,3
...,...,...,...,...
93,Mix de verduras paisana para micro,Paquete 300 g,18,3
94,Sopa juliana para micro,Paquete 400 g,18,3
95,Patata para micro,Paquete 400 g,18,3
96,Batata para micro,Paquete 400 g,18,3


In [28]:
# crear una tabla conjunta de todos los productos
prod_df = pd.concat([fruta_df, ensalada_df, verdura_df])

# cambiar valores nulos "NaN" por "desconocido"
prod_df = prod_df.fillna('desconocido')

#reseteamos el indice
prod_df = prod_df.reset_index(drop=True)

prod_df

Unnamed: 0,producto,formato,subcategoria_id,ancho,alto,categoria_id
0,Plátano de Canarias,Pieza 150 g aprox.,1,desconocido,desconocido,1
1,Banana,Pieza 170 g aprox.,1,desconocido,desconocido,1
2,Plátano macho,Pieza 340 g aprox.,1,desconocido,desconocido,1
3,Uva blanca sin semillas,Bandeja 500 g aprox.,1,desconocido,desconocido,1
4,Uva roja sin semillas,Bandeja 500 g aprox.,1,desconocido,desconocido,1
...,...,...,...,...,...,...
172,Mix de verduras paisana para micro,Paquete 300 g,18,desconocido,desconocido,3
173,Sopa juliana para micro,Paquete 400 g,18,desconocido,desconocido,3
174,Patata para micro,Paquete 400 g,18,desconocido,desconocido,3
175,Batata para micro,Paquete 400 g,18,desconocido,desconocido,3


In [29]:
# columnas en el orden deseado
colum_orden = ['producto', 'formato', 'ancho', 'alto', 'subcategoria_id', 'categoria_id']

# reordenar las columnas
prod_df = prod_df.reindex(columns=colum_orden)

prod_df

Unnamed: 0,producto,formato,ancho,alto,subcategoria_id,categoria_id
0,Plátano de Canarias,Pieza 150 g aprox.,desconocido,desconocido,1,1
1,Banana,Pieza 170 g aprox.,desconocido,desconocido,1,1
2,Plátano macho,Pieza 340 g aprox.,desconocido,desconocido,1,1
3,Uva blanca sin semillas,Bandeja 500 g aprox.,desconocido,desconocido,1,1
4,Uva roja sin semillas,Bandeja 500 g aprox.,desconocido,desconocido,1,1
...,...,...,...,...,...,...
172,Mix de verduras paisana para micro,Paquete 300 g,desconocido,desconocido,18,3
173,Sopa juliana para micro,Paquete 400 g,desconocido,desconocido,18,3
174,Patata para micro,Paquete 400 g,desconocido,desconocido,18,3
175,Batata para micro,Paquete 400 g,desconocido,desconocido,18,3


In [30]:
# insertar una columna de IDs llamada "producto_id", para realizar la correspondiente relacion en la base de datos como "PRIMARY KEYS"
prod_df.insert(0, 'producto_id', range(1, len(prod_df)+1))

prod_df

Unnamed: 0,producto_id,producto,formato,ancho,alto,subcategoria_id,categoria_id
0,1,Plátano de Canarias,Pieza 150 g aprox.,desconocido,desconocido,1,1
1,2,Banana,Pieza 170 g aprox.,desconocido,desconocido,1,1
2,3,Plátano macho,Pieza 340 g aprox.,desconocido,desconocido,1,1
3,4,Uva blanca sin semillas,Bandeja 500 g aprox.,desconocido,desconocido,1,1
4,5,Uva roja sin semillas,Bandeja 500 g aprox.,desconocido,desconocido,1,1
...,...,...,...,...,...,...,...
172,173,Mix de verduras paisana para micro,Paquete 300 g,desconocido,desconocido,18,3
173,174,Sopa juliana para micro,Paquete 400 g,desconocido,desconocido,18,3
174,175,Patata para micro,Paquete 400 g,desconocido,desconocido,18,3
175,176,Batata para micro,Paquete 400 g,desconocido,desconocido,18,3


## **Exportación de DataFrames.**

In [31]:
# exportar los DataFrames limpios y transformados a ".csv"
cat_df.to_csv('../data/categorias.csv', index=False)

sub_df.to_csv('../data/subcategorias.csv', index=False)

prod_df.to_csv('../data/productos.csv', index=False)