# Parte 1: Clean and analise the sales data

## **First step**: Create a script to simulate a sales dataset with at least 50 registers.
**Colums**: ID, Data(01/01/2023 a 31/12/2023), Produto, Categoria, Quantidade, Preço. 

In [28]:
# import the libraries and ROOT
import os
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
from pathlib import Path
from typing import List, Dict

root = Path(os.path.abspath('')).parent.parent

Matplotlib is building the font cache; this may take a moment.


In [29]:
def set_random_state(random_state: int = None):
    """
        Configure the seed for reproducibility of random results.
        Parameters:
            random_state: An optional integer to set the seed for the random number generator.
    """
    if random_state is not None:
        random.seed(random_state)

def generate_random_datetime(init_datetime: datetime, end_datetime: datetime) -> datetime:
    '''
        Generate a random datetime between the init_datetime and end_datetime. 
        Taking the randomness of the days(delta.days) and adding it to the initial day.
        Parameters:
            init_datetime: The first datetime
            end_datetime: The last datetime
        Return:
            random_datetime: The first datetime with the addition of days.  
    '''
    delta = end_datetime - init_datetime
    random_days = random.randint(0, delta.days)
    random_datetime = init_datetime + timedelta(days=random_days)
    return random_datetime

def simulate_sales_dataset(products: Dict, rows: int = 50, random_state: int | None = None) -> pd.DataFrame:
    '''
        Simulate a sales datasets using the library random.
        Parameters:
            products: A dict of the products we use and their respective category.
            rows: The numbers of the records(at least 50)
        Return:
            df: Sales dataset
    '''
    set_random_state(random_state)
    init_datetime = datetime(2023, 1, 1)
    end_datetime = datetime(2023, 12, 31)
    data = []
    
    for i in range(1, rows+1):
        id_ = i
        sales_datetime = generate_random_datetime(init_datetime=init_datetime, end_datetime=end_datetime).strftime("%d/%m/%Y")
        product = random.choice(list(products.keys()))
        category = products[product]["Categoria"]
        quant = random.randint(0, 100)
        price = round(random.uniform(products[product]["Preço"][0], products[product]["Preço"][1]), 2)
        
        if random.random() < 0.05: # 5%
            sales_datetime = np.nan
            
        if random.random() < 0.05: 
            product = np.nan
            
        if random.random() < 0.05: 
            category = np.nan

        if random.random() < 0.05: 
            quant = np.nan
            
        if random.random() < 0.05: 
            price = np.nan
        
        data.append({"ID": id_, "Data": sales_datetime, "Produto": product, "Categoria": category, "Quantidade": quant, "Preço": price})

    df = pd.DataFrame.from_dict(data)
    return df
        

To create the products to be generated, it is necessary to create a product price range so that the data has reliability.

In [24]:
products = {
    "Notebook": {"Categoria": "Eletrônicos", "Preço": (2000, 8000)},
    "Celular": {"Categoria": "Eletrônicos", "Preço": (500, 4000)},
    "Tablet": {"Categoria": "Eletrônicos", "Preço": (700, 3000)},
    "Fone de Ouvido": {"Categoria": "Eletrônicos", "Preço": (50, 500)},
    "Monitor": {"Categoria": "Eletrônicos", "Preço": (500, 2500)},
    "Teclado": {"Categoria": "Eletrônicos", "Preço": (50, 300)},
    "Mouse": {"Categoria": "Eletrônicos", "Preço": (30, 200)},
    "Geladeira": {"Categoria": "Eletrodomésticos", "Preço": (2000, 6000)},
    "Micro-ondas": {"Categoria": "Eletrodomésticos", "Preço": (300, 1200)},
    "Fogão": {"Categoria": "Eletrodomésticos", "Preço": (500, 3000)},
    "Máquina de Lavar": {"Categoria": "Eletrodomésticos", "Preço": (1500, 4000)},
    "Camiseta": {"Categoria": "Vestuário", "Preço": (20, 100)},
    "Tênis": {"Categoria": "Vestuário", "Preço": (100, 1000)},
    "Calça Jeans": {"Categoria": "Vestuário", "Preço": (80, 300)},
    "Vestido": {"Categoria": "Vestuário", "Preço": (50, 500)},
    "Boné": {"Categoria": "Vestuário", "Preço": (20, 150)},
    "Cadeira": {"Categoria": "Móveis", "Preço": (150, 800)},
    "Mesa": {"Categoria": "Móveis", "Preço": (300, 1500)},
    "Sofá": {"Categoria": "Móveis", "Preço": (1000, 5000)},
    "Estante": {"Categoria": "Móveis", "Preço": (500, 2000)},
    "Livro": {"Categoria": "Papelaria", "Preço": (10, 200)},
    "Caneta": {"Categoria": "Papelaria", "Preço": (2, 20)},
    "Estojo": {"Categoria": "Papelaria", "Preço": (10, 50)},
    "Marcador": {"Categoria": "Papelaria", "Preço": (5, 30)},
    "Bicicleta": {"Categoria": "Esportes", "Preço": (500, 3000)},
    "Capacete": {"Categoria": "Esportes", "Preço": (100, 500)},
    "Relógio de Parede": {"Categoria": "Decoração", "Preço": (50, 500)},
    "Vaso de Planta": {"Categoria": "Decoração", "Preço": (20, 200)},
    "Toalha": {"Categoria": "Decoração", "Preço": (30, 100)},
    "Tapete": {"Categoria": "Decoração", "Preço": (100, 800)},
}

df_sales = simulate_sales_dataset(products=products, rows=200, random_state=42)
# save the raw dataset
df_sales.to_csv(root / "data" / "sales_dataset.csv") 

In [25]:
df_sales

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preço
0,1,24/11/2023,Fone de Ouvido,Eletrônicos,3.0,383.70
1,2,30/10/2023,Calça Jeans,,4.0,86.56
2,3,07/10/2023,Calça Jeans,Vestuário,28.0,178.83
3,4,23/05/2023,Monitor,Eletrônicos,27.0,2414.43
4,5,23/01/2023,Marcador,Papelaria,58.0,18.41
...,...,...,...,...,...,...
195,196,13/09/2023,Cadeira,Móveis,49.0,743.80
196,197,22/12/2023,Tapete,Decoração,62.0,240.12
197,198,16/12/2023,Vaso de Planta,Decoração,40.0,140.21
198,199,30/12/2023,Tapete,Decoração,89.0,546.39


## Clean and analyse the dataset
1. Handlind missing values
2. Remove duplicates
3. Converting data types, if necessary 

In [26]:
df_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   ID          200 non-null    int64  
 1   Data        190 non-null    object 
 2   Produto     195 non-null    object 
 3   Categoria   187 non-null    object 
 4   Quantidade  191 non-null    float64
 5   Preço       196 non-null    float64
dtypes: float64(2), int64(1), object(3)
memory usage: 9.5+ KB


Noted that some columns have null values.
Some approach for each column:
*  Data: remove all lines with the non-null values;
*  Produto: remove all lines with the non-null values;
*  Categoria: search if have the same product and get the "categoria" associate, if not remove it;
*  Quantidade and Preço: group by "Produto" and put the median and mean

In [71]:
def handling_missing_values(df: pd.DataFrame) -> pd.DataFrame:
    '''
        Function that handle with nan values
        Parameters:
            df: Datafram with nan values
        Return:
            df_missing_values: Dataframe with no nan values
    '''
    df_missing_values = df_sales.copy()
    
    # data and produto
    df_missing_values = df_missing_values.dropna(subset=['Data', 'Produto'])
    
    # categoria
    df_missing_values_cat = df_missing_values[df_missing_values['Categoria'].isnull()]
    for idx, row in df_missing_values_cat.iterrows():
        # product
        product = row['Produto']
        
        # search in df the product
        category = df_missing_values[df_missing_values['Produto'] == product]['Categoria'].dropna().iloc[0]
        
        # fill 
        df_missing_values.at[idx, 'Categoria'] = category
        
    # quantidade e preço (group by produto!!)
    df_missing_values_by_product = df_missing_values.groupby('Produto') 
    
    df_missing_values['Quantidade'] = df_missing_values_by_product['Quantidade'].transform(lambda row: row.fillna(row.median()))
    df_missing_values['Preço'] = df_missing_values_by_product['Preço'].transform(lambda row: row.fillna(row.mean()))
        
    df_missing_values

    return df_missing_values

df_clean = handling_missing_values(df=df_sales)
df_clean

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preço
0,1,24/11/2023,Fone de Ouvido,Eletrônicos,3.0,383.70
1,2,30/10/2023,Calça Jeans,Vestuário,4.0,86.56
2,3,07/10/2023,Calça Jeans,Vestuário,28.0,178.83
3,4,23/05/2023,Monitor,Eletrônicos,27.0,2414.43
4,5,23/01/2023,Marcador,Papelaria,58.0,18.41
...,...,...,...,...,...,...
195,196,13/09/2023,Cadeira,Móveis,49.0,743.80
196,197,22/12/2023,Tapete,Decoração,62.0,240.12
197,198,16/12/2023,Vaso de Planta,Decoração,40.0,140.21
198,199,30/12/2023,Tapete,Decoração,89.0,546.39


In [64]:
# Have duplicates?
def have_duplicates(df: pd.DataFrame) -> str:
    num_duplicates = df_sales.duplicated().sum()
    if num_duplicates == 0:
        return f"The dataset don't have duplicated values" 
    return f"The dataset have { num_duplicates } values"
have_duplicates(df=df_clean)

"The dataset don't have duplicated values"

Due to the amount of data, it is very difficult to have duplicate data, however, the selection process follows how a function to remove duplicates would be done.

In [62]:
def remove_duplicates(df: pd.DataFrame) -> pd.DataFrame:
    '''
        Remove duplicates row at dataframe
        assert that the duplicates are remove
        Parameters:
            df: Datafram with duplocates row
        Return:
            df_missing_values: Dataframe with no duplicates row
    '''
    df = df.copy()
    df_drop = df.drop_duplicates(ignore_index=True)

    assert df.shape[0] != df_drop.shape[0]
    
    return df_drop


In [72]:
df_clean = df_clean.reset_index(drop=True)
df_clean

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preço
0,1,24/11/2023,Fone de Ouvido,Eletrônicos,3.0,383.70
1,2,30/10/2023,Calça Jeans,Vestuário,4.0,86.56
2,3,07/10/2023,Calça Jeans,Vestuário,28.0,178.83
3,4,23/05/2023,Monitor,Eletrônicos,27.0,2414.43
4,5,23/01/2023,Marcador,Papelaria,58.0,18.41
...,...,...,...,...,...,...
180,196,13/09/2023,Cadeira,Móveis,49.0,743.80
181,197,22/12/2023,Tapete,Decoração,62.0,240.12
182,198,16/12/2023,Vaso de Planta,Decoração,40.0,140.21
183,199,30/12/2023,Tapete,Decoração,89.0,546.39


In [73]:
# save the clean data
df_clean.to_csv(root / "data" / "data_clean.csv") 