## Proyecto: tiendas, productos y ventas

En este proyecto se obtienen tres datasets de productos, tiendas y ventas relacionados entre sí en el cual intentaremos discernir la relación entre estos datasets y los insights valiosos que se puedan obtener a raíz del análisis exploratorio de sus datos.

In [8]:
# importación de librerías necesarias en el análisis exploratorio

import pandas as pd
import matplotlib as plt
import seaborn as sns

# Productos

In [125]:
data_productos = pd.read_csv("/workspaces/Junior-Data-Scientist---Prueba-t-cnica/data/raw/productos.csv")
data_productos

Unnamed: 0,product_id,product_name,category,price,cost,launch_date,status
0,101,Cafetera Premium,Electrodomesticos,90,60.0,2023-01-01,active
1,102,Cafetera Básica,Electrodomesticos,60,40.0,2023-01-15,active
2,103,Tostadora 2 rebanadas,Electrodomesticos,30,20.0,2022-11-01,active
3,104,Tostadora 4 rebanadas,Electrodomesticos,50,30.0,2022-12-01,paused
4,105,Batidora Compacta,Electrodomesticos,80,,2023-02-01,active
5,106,Lavadora 7kg,Electrodomesticos,300,200.0,2022-05-01,discontinued
6,107,Tableta 8 pulgadas,Electrónica,120,95.0,2023-03-10,active
7,108,Smartphone Gama Media,Electrónica,250,180.0,2023-03-15,active
8,109,Smartphone Gama Alta,Electrónica,500,380.0,2023-03-20,active
9,110,Laptop Básica,Electrónica,450,350.0,2023-01-05,paused


In [126]:
data_productos.shape

(21, 7)

In [127]:
data_productos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   product_id    21 non-null     int64  
 1   product_name  21 non-null     object 
 2   category      21 non-null     object 
 3   price         21 non-null     int64  
 4   cost          20 non-null     float64
 5   launch_date   21 non-null     object 
 6   status        21 non-null     object 
dtypes: float64(1), int64(2), object(4)
memory usage: 1.3+ KB


In [128]:
# Identificar celdas vacías o nulas
vacias = data_productos.applymap(lambda x: pd.isna(x) or x == " ")

# Filtrar filas donde alguna columna tenga valores vacíos o nulos
na_o_vacias = data_productos[vacias.any(axis=1)]

na_o_vacias

  vacias = data_productos.applymap(lambda x: pd.isna(x) or x == " ")


Unnamed: 0,product_id,product_name,category,price,cost,launch_date,status
4,105,Batidora Compacta,Electrodomesticos,80,,2023-02-01,active


Un único valor nulo en la variable "cost". Se trata del producto "batidora compacta". Debido a la necesidad de conservar la mayor cantidad de datos posibles se imputará ese valor nulo por la media de todos los productos pertenecientes a su misma categoría.

In [129]:
filas_electrodomésticos = data_productos.loc[data_productos["category"] == "Electrodomesticos"]
filas_electrodomésticos

Unnamed: 0,product_id,product_name,category,price,cost,launch_date,status
0,101,Cafetera Premium,Electrodomesticos,90,60.0,2023-01-01,active
1,102,Cafetera Básica,Electrodomesticos,60,40.0,2023-01-15,active
2,103,Tostadora 2 rebanadas,Electrodomesticos,30,20.0,2022-11-01,active
3,104,Tostadora 4 rebanadas,Electrodomesticos,50,30.0,2022-12-01,paused
4,105,Batidora Compacta,Electrodomesticos,80,,2023-02-01,active
5,106,Lavadora 7kg,Electrodomesticos,300,200.0,2022-05-01,discontinued
15,116,Aspiradora Robot,Electrodomesticos,250,180.0,2022-10-01,active
18,118,Parrilla Eléctrica,Electrodomesticos,100,70.0,2023-02-15,active
19,119,Ventilador de Pie,Electrodomesticos,35,25.0,2023-02-20,active
20,120,Plancha de Ropa,Electrodomesticos,45,30.0,2023-03-01,active


In [130]:
media_cost_productos =filas_electrodomésticos["cost"].mean().round(2)
media_cost_productos

72.78

In [131]:
data_productos["cost"].fillna(media_cost_productos, inplace=True)
data_productos

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_productos["cost"].fillna(media_cost_productos, inplace=True)


Unnamed: 0,product_id,product_name,category,price,cost,launch_date,status
0,101,Cafetera Premium,Electrodomesticos,90,60.0,2023-01-01,active
1,102,Cafetera Básica,Electrodomesticos,60,40.0,2023-01-15,active
2,103,Tostadora 2 rebanadas,Electrodomesticos,30,20.0,2022-11-01,active
3,104,Tostadora 4 rebanadas,Electrodomesticos,50,30.0,2022-12-01,paused
4,105,Batidora Compacta,Electrodomesticos,80,72.78,2023-02-01,active
5,106,Lavadora 7kg,Electrodomesticos,300,200.0,2022-05-01,discontinued
6,107,Tableta 8 pulgadas,Electrónica,120,95.0,2023-03-10,active
7,108,Smartphone Gama Media,Electrónica,250,180.0,2023-03-15,active
8,109,Smartphone Gama Alta,Electrónica,500,380.0,2023-03-20,active
9,110,Laptop Básica,Electrónica,450,350.0,2023-01-05,paused


In [132]:
#se eliminan duplicados

data_productos = data_productos.drop_duplicates()
data_productos

Unnamed: 0,product_id,product_name,category,price,cost,launch_date,status
0,101,Cafetera Premium,Electrodomesticos,90,60.0,2023-01-01,active
1,102,Cafetera Básica,Electrodomesticos,60,40.0,2023-01-15,active
2,103,Tostadora 2 rebanadas,Electrodomesticos,30,20.0,2022-11-01,active
3,104,Tostadora 4 rebanadas,Electrodomesticos,50,30.0,2022-12-01,paused
4,105,Batidora Compacta,Electrodomesticos,80,72.78,2023-02-01,active
5,106,Lavadora 7kg,Electrodomesticos,300,200.0,2022-05-01,discontinued
6,107,Tableta 8 pulgadas,Electrónica,120,95.0,2023-03-10,active
7,108,Smartphone Gama Media,Electrónica,250,180.0,2023-03-15,active
8,109,Smartphone Gama Alta,Electrónica,500,380.0,2023-03-20,active
9,110,Laptop Básica,Electrónica,450,350.0,2023-01-05,paused


Dataset limpio

# Tiendas

In [133]:
data_tiendas = pd.read_csv("/workspaces/Junior-Data-Scientist---Prueba-t-cnica/data/raw/tiendas.csv")
data_tiendas

Unnamed: 0,store_id,store_name,location,manager,opening_date
0,501,Tienda Centro,Madrid,Juan Perez,2022-01-10
1,502,Tienda Norte,Barcelona,Laura Lopez,2022-02-05
2,503,Tienda Sur,Sevilla,Carlos Ramirez,2022-03-01
3,504,Tienda Este,Valencia,Ana Gomez,2022-04-15
4,505,Tienda Oeste,Bilbao,Pedro Hernandez,2022-05-01
5,506,Tienda Duplicada,Madrid,Julian Casas,2022-05-20
6,507,Tienda Móvil,Itinerante,Maria Diaz,2022-06-10
7,508,Pop-up Store,Barcelona,-,2023-01-01
8,509,Tienda Online,Online,Virtual Manager,2022-07-01
9,509,Tienda Online Duplicada,Online,Virtual Manager,2022-07-01


In [134]:
data_tiendas.shape

(10, 5)

In [135]:
data_tiendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   store_id      10 non-null     int64 
 1   store_name    10 non-null     object
 2   location      10 non-null     object
 3   manager       10 non-null     object
 4   opening_date  10 non-null     object
dtypes: int64(1), object(4)
memory usage: 528.0+ bytes


In [136]:
# Identificar celdas vacías o nulas
vacias = data_tiendas.applymap(lambda x: pd.isna(x) or x == " ")

# Filtrar filas donde alguna columna tenga valores vacíos o nulos
na_o_vacias = data_tiendas[vacias.any(axis=1)]

na_o_vacias

  vacias = data_tiendas.applymap(lambda x: pd.isna(x) or x == " ")


Unnamed: 0,store_id,store_name,location,manager,opening_date


In [137]:
data_tiendas.drop_duplicates()
data_tiendas.shape

(10, 5)

Sin datos nulos ni duplicados, dataset limpio.

# Ventas

In [142]:
data_ventas = pd.read_csv("/workspaces/Junior-Data-Scientist---Prueba-t-cnica/data/raw/ventas.csv")
data_ventas

Unnamed: 0,sale_id,date,store_id,product_id,units_sold,total_revenue,total_cost
0,10001,2023-01-02,501,101,5,450,300.0
1,10002,2023-01-03,501,102,3,180,120.0
2,10003,2023-01-03,501,105,1,80,
3,10004,2023-01-15,502,103,2,60,40.0
4,10005,2023-02-10,502,104,1,50,30.0
5,10006,2023-02-11,502,106,1,300,200.0
6,10007,2023-02-15,503,107,2,240,190.0
7,10008,2023-02-16,503,108,1,250,180.0
8,10009,2023-02-20,504,109,1,500,380.0
9,10010,2023-03-01,501,110,2,900,700.0


In [139]:
data_ventas.shape

(33, 7)

In [140]:
data_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   sale_id        33 non-null     int64 
 1   date           33 non-null     object
 2   store_id       33 non-null     int64 
 3   product_id     33 non-null     int64 
 4   units_sold     33 non-null     int64 
 5   total_revenue  33 non-null     int64 
 6   total_cost     32 non-null     object
dtypes: int64(5), object(2)
memory usage: 1.9+ KB


In [141]:
# Identificar celdas vacías o nulas
vacias = data_ventas.applymap(lambda x: pd.isna(x) or x == " ")

# Filtrar filas donde alguna columna tenga valores vacíos o nulos
na_o_vacias = data_ventas[vacias.any(axis=1)]

na_o_vacias

  vacias = data_ventas.applymap(lambda x: pd.isna(x) or x == " ")


Unnamed: 0,sale_id,date,store_id,product_id,units_sold,total_revenue,total_cost
2,10003,2023-01-03,501,105,1,80,
10,10011,2023-03-05,506,105,2,160,
11,10012,2023-03-05,506,117,5,200,


Se observa que los datos nulos/faltantes corresponden al producto con valor nulo tratado en el dataset "data_productos" y a la fila duplicada del mismo dataset, que por motivos de extracción errónea se han rellenado con valor faltante.

Estos valores se imputarán por el producto del coste y la cantidad de unidades vendidas totales.

In [148]:
producto_valor_faltante = data_productos[data_productos["product_id"] == 117]
coste_producto_valor_faltante  = producto_valor_faltante["cost"]
coste_producto_valor_faltante

16    25.0
Name: cost, dtype: float64

In [154]:
data_ventas.loc[data_ventas["sale_id"] == 10012, "total_cost"] = 25
data_ventas.loc[data_ventas["sale_id"] == 10003, "total_cost"] = media_cost_productos 
data_ventas.loc[data_ventas["sale_id"] == 10011, "total_cost"] = media_cost_productos * 2

data_ventas


Unnamed: 0,sale_id,date,store_id,product_id,units_sold,total_revenue,total_cost
0,10001,2023-01-02,501,101,5,450,300.0
1,10002,2023-01-03,501,102,3,180,120.0
2,10003,2023-01-03,501,105,1,80,72.78
3,10004,2023-01-15,502,103,2,60,40.0
4,10005,2023-02-10,502,104,1,50,30.0
5,10006,2023-02-11,502,106,1,300,200.0
6,10007,2023-02-15,503,107,2,240,190.0
7,10008,2023-02-16,503,108,1,250,180.0
8,10009,2023-02-20,504,109,1,500,380.0
9,10010,2023-03-01,501,110,2,900,700.0


In [155]:
data_ventas.drop_duplicates()
data_ventas.shape

(33, 7)

Dataset limpio.