# **SUPERMERCADO DATABASE structure**

## **Importar librerías**

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd

## **Cargar datos**

In [2]:
# dataframes con datos de la categoría "Fruta y verdura"
cat_fyv = pd.read_csv('../../data/fyv/categorias_fyv.csv')

sub_fyv = pd.read_csv('../../data/fyv/subcategorias_fyv.csv')

prod_fyv = pd.read_csv('../../data/fyv/productos_fyv.csv')

vent_fyv = pd.read_csv('../../data/fyv/ventas_fyv.csv')

vent_prod_fyv = pd.read_csv('../../data/fyv/ventas_productos_fyv.csv')

clima_hist_ene_jun_23 = pd.read_csv('../../data/scraping/clima_hist_ene-jun23.csv')

## **Generar estructura**

### **Categorías**

In [3]:
# crear tabla "categorias"
categorias = pd.DataFrame(columns=['categoria_id', 'categoria'])

categorias

Unnamed: 0,categoria_id,categoria


In [4]:
cat_fyv

Unnamed: 0,categoria_id,categoria
0,1,Fruta y verdura


In [5]:
# añadir valores a la tabla "categorias" desde "cat_fyv"
categorias = pd.concat([categorias, cat_fyv], ignore_index=True)

categorias

Unnamed: 0,categoria_id,categoria
0,1,Fruta y verdura


In [6]:
categorias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   categoria_id  1 non-null      object
 1   categoria     1 non-null      object
dtypes: object(2)
memory usage: 148.0+ bytes


### **Subcategorías**

In [7]:
# crear tabla "subcategorias"
subcategorias = pd.DataFrame(columns=['subcategoria_id', 'subcategoria', 'categoria_id'])

subcategorias

Unnamed: 0,subcategoria_id,subcategoria,categoria_id


In [8]:
sub_fyv

Unnamed: 0,subcategoria_id,subcategoria,categoria_id
0,1,Fruta,1
1,2,Lechuga y ensalada preparada,1
2,3,Verdura,1


In [9]:
# añadir valores a la tabla "subcategorias" desde "sub_fyv"
subcategorias = pd.concat([subcategorias, sub_fyv], ignore_index=True)

subcategorias

Unnamed: 0,subcategoria_id,subcategoria,categoria_id
0,1,Fruta,1
1,2,Lechuga y ensalada preparada,1
2,3,Verdura,1


In [10]:
subcategorias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   subcategoria_id  3 non-null      object
 1   subcategoria     3 non-null      object
 2   categoria_id     3 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


### **Productos**

In [11]:
# crear tabla "productos"
productos = pd.DataFrame(columns=['producto_id', 'producto', 'formato', 'precio', 'subcategoria_id', 'categoria_id'])

productos

Unnamed: 0,producto_id,producto,formato,precio,subcategoria_id,categoria_id


In [12]:
prod_fyv

Unnamed: 0,producto_id,producto,formato,precio,subcategoria_id,categoria_id
0,1,Plátano de Canarias,Pieza 160 g aprox.,"0,30 €",1,1
1,2,Banana,Pieza 170 g aprox.,"0,25 €",1,1
2,3,Plátano macho,Pieza 340 g aprox.,"0,95 €",1,1
3,4,Uva blanca sin semillas,Bandeja 500 g aprox.,"2,45 €",1,1
4,5,Uva roja sin semillas,Bandeja 500 g aprox.,"2,40 €",1,1
...,...,...,...,...,...,...
170,171,Mix de verduras paisana para micro,Paquete 300 g,"1,80 €",3,1
171,172,Sopa juliana para micro,Paquete 400 g,"1,35 €",3,1
172,173,Patata para micro,Paquete 400 g,"1,30 €",3,1
173,174,Batata para micro,Paquete 400 g,"2,40 €",3,1


In [13]:
# añadir valores a la tabla "productos" desde "prod_fyv"
productos = pd.concat([productos, prod_fyv], ignore_index=True)

productos

Unnamed: 0,producto_id,producto,formato,precio,subcategoria_id,categoria_id
0,1,Plátano de Canarias,Pieza 160 g aprox.,"0,30 €",1,1
1,2,Banana,Pieza 170 g aprox.,"0,25 €",1,1
2,3,Plátano macho,Pieza 340 g aprox.,"0,95 €",1,1
3,4,Uva blanca sin semillas,Bandeja 500 g aprox.,"2,45 €",1,1
4,5,Uva roja sin semillas,Bandeja 500 g aprox.,"2,40 €",1,1
...,...,...,...,...,...,...
170,171,Mix de verduras paisana para micro,Paquete 300 g,"1,80 €",3,1
171,172,Sopa juliana para micro,Paquete 400 g,"1,35 €",3,1
172,173,Patata para micro,Paquete 400 g,"1,30 €",3,1
173,174,Batata para micro,Paquete 400 g,"2,40 €",3,1


In [14]:
productos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   producto_id      175 non-null    object
 1   producto         175 non-null    object
 2   formato          175 non-null    object
 3   precio           175 non-null    object
 4   subcategoria_id  175 non-null    object
 5   categoria_id     175 non-null    object
dtypes: object(6)
memory usage: 8.3+ KB


### **Ventas**

In [3]:
# crear tabla "ventas", con columnas "venta_id", "fecha", "dia_semana", "numero_semana" "categoria_id"
ventas = pd.DataFrame(columns=['venta_id', 'fecha', 'dia_semana', 'numero_semana', 'categoria_id', 'lluvia', 'temperatura_minima', 'temperatura_maxima'])

ventas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   venta_id            0 non-null      object
 1   fecha               0 non-null      object
 2   dia_semana          0 non-null      object
 3   numero_semana       0 non-null      object
 4   categoria_id        0 non-null      object
 5   lluvia              0 non-null      object
 6   temperatura_minima  0 non-null      object
 7   temperatura_maxima  0 non-null      object
dtypes: object(8)
memory usage: 0.0+ bytes


In [4]:
vent_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id
0,1,2023-01-02,lunes,1,1
1,2,2023-01-03,martes,1,1
2,3,2023-01-04,miércoles,1,1
3,4,2023-01-05,jueves,1,1
4,5,2023-01-07,sábado,1,1
...,...,...,...,...,...
146,147,2023-06-26,lunes,26,1
147,148,2023-06-27,martes,26,1
148,149,2023-06-28,miércoles,26,1
149,150,2023-06-29,jueves,26,1


In [5]:
clima_hist_ene_jun_23

Unnamed: 0,fecha,lluvia,temperatura_minima,temperatura_maxima
0,2023-01-02,si,7.6,12.8
1,2023-01-03,no,4.5,12.9
2,2023-01-04,no,2.1,14.4
3,2023-01-05,no,2.5,14.0
4,2023-01-07,si,1.8,8.2
...,...,...,...,...
146,2023-06-26,desconocido,0.0,0.0
147,2023-06-27,desconocido,0.0,0.0
148,2023-06-28,desconocido,0.0,0.0
149,2023-06-29,desconocido,0.0,0.0


In [6]:
# eliminar columna "fecha"
clima_hist_ene_jun_23 = clima_hist_ene_jun_23.drop(columns=['fecha'])

clima_hist_ene_jun_23

Unnamed: 0,lluvia,temperatura_minima,temperatura_maxima
0,si,7.6,12.8
1,no,4.5,12.9
2,no,2.1,14.4
3,no,2.5,14.0
4,si,1.8,8.2
...,...,...,...
146,desconocido,0.0,0.0
147,desconocido,0.0,0.0
148,desconocido,0.0,0.0
149,desconocido,0.0,0.0


In [7]:
# concatenar tabla "vent_fyv" y "clima_hist_ene_jun_23"
vent_clima_fyv = pd.concat([vent_fyv, clima_hist_ene_jun_23], axis=1)

vent_clima_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id,lluvia,temperatura_minima,temperatura_maxima
0,1,2023-01-02,lunes,1,1,si,7.6,12.8
1,2,2023-01-03,martes,1,1,no,4.5,12.9
2,3,2023-01-04,miércoles,1,1,no,2.1,14.4
3,4,2023-01-05,jueves,1,1,no,2.5,14.0
4,5,2023-01-07,sábado,1,1,si,1.8,8.2
...,...,...,...,...,...,...,...,...
146,147,2023-06-26,lunes,26,1,desconocido,0.0,0.0
147,148,2023-06-27,martes,26,1,desconocido,0.0,0.0
148,149,2023-06-28,miércoles,26,1,desconocido,0.0,0.0
149,150,2023-06-29,jueves,26,1,desconocido,0.0,0.0


In [9]:
# añadir valores a la tabla "ventas" desde "vent_fyv"
ventas = pd.concat([ventas, vent_clima_fyv])

ventas

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id,lluvia,temperatura_minima,temperatura_maxima
0,1,2023-01-02,lunes,1,1,si,7.6,12.8
1,2,2023-01-03,martes,1,1,no,4.5,12.9
2,3,2023-01-04,miércoles,1,1,no,2.1,14.4
3,4,2023-01-05,jueves,1,1,no,2.5,14.0
4,5,2023-01-07,sábado,1,1,si,1.8,8.2
...,...,...,...,...,...,...,...,...
146,147,2023-06-26,lunes,26,1,desconocido,0.0,0.0
147,148,2023-06-27,martes,26,1,desconocido,0.0,0.0
148,149,2023-06-28,miércoles,26,1,desconocido,0.0,0.0
149,150,2023-06-29,jueves,26,1,desconocido,0.0,0.0


In [10]:
ventas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 151 entries, 0 to 150
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   venta_id            151 non-null    object 
 1   fecha               151 non-null    object 
 2   dia_semana          151 non-null    object 
 3   numero_semana       151 non-null    object 
 4   categoria_id        151 non-null    object 
 5   lluvia              151 non-null    object 
 6   temperatura_minima  151 non-null    float64
 7   temperatura_maxima  151 non-null    float64
dtypes: float64(2), object(6)
memory usage: 10.6+ KB


### **Ventas-Productos**

In [19]:
# crear tabla "ventas_productos", con columnas "venta_id", "producto_id", "venta"
ventas_productos = pd.DataFrame(columns=['venta_id', 'producto_id', 'venta'])

ventas_productos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   venta_id     0 non-null      object
 1   producto_id  0 non-null      object
 2   venta        0 non-null      object
dtypes: object(3)
memory usage: 0.0+ bytes


In [20]:
vent_prod_fyv

Unnamed: 0,venta_id,producto_id,venta
0,1,1,4
1,2,1,28
2,3,1,3
3,4,1,12
4,5,1,13
...,...,...,...
26420,147,175,0
26421,148,175,0
26422,149,175,0
26423,150,175,0


In [21]:
# añadir valores a la tabla "ventas_productos" desde "vent_prod_fyv"
ventas_productos = pd.concat([ventas_productos, vent_prod_fyv], ignore_index=True)

ventas_productos

Unnamed: 0,venta_id,producto_id,venta
0,1,1,4
1,2,1,28
2,3,1,3
3,4,1,12
4,5,1,13
...,...,...,...
26420,147,175,0
26421,148,175,0
26422,149,175,0
26423,150,175,0


In [22]:
ventas_productos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26425 entries, 0 to 26424
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   venta_id     26425 non-null  object
 1   producto_id  26425 non-null  object
 2   venta        26425 non-null  object
dtypes: object(3)
memory usage: 619.5+ KB


## **Exportar tablas**

In [23]:
# exportar tablas transformadas a ".csv"
categorias.to_csv('../../data/categorias.csv', index=False)

subcategorias.to_csv('../../data/subcategorias.csv', index=False)

productos.to_csv('../../data/productos.csv', index=False)

ventas.to_csv('../../data/ventas.csv', index=False)

ventas_productos.to_csv('../../data/ventas_productos.csv', index=False)