# Simulação de Dataset de Vendas

## Descrição

Este notebook tem como objetivo criar um **dataset simulado de vendas** contendo 50 registros. Ele será utilizado para análises e manipulação de dados neste teste prático. O dataset gerado será salvo no formato CSV e conterá as seguintes colunas:

- **ID**: Identificador
- **Data**: Datas entre 01/01/2023 e 31/12/2023
- **Produto**: Nome do produto vendido
- **Categoria**: Categoria do produto
- **Quantidade**: Quantidade de unidades vendidas 
- **Preço**: Preço unitário do produto

O arquivo gerado será salvo como `data_clean.csv` na pasta `Parte 1` do repositório junto com este arquivo.

A cada célula está comentado cada bloco de código para maior entendimento do passo a passo que foi tomado, no final terá também um resumo com algumas explicações adicionais sobre decisões que tomei durante o desenvolvimento desta parte.

---

### Estrutura do Notebook
1. **Importação de Bibliotecas:** Carregamento das bibliotecas utilizadas
2. **Definição de parâmetros:** Definição do seed, quantidade de registros, produto dentro de suas categoria e intervalos de preço pela categoria 
3. **Funções:** Criação de funções para facilitar na geração de Dataset
4. **Geração do Dataset:** Geração dos dados que compoem o Dataset
5. **Limpeza de dados:** Verificação e execução de alguns códigos para a limpeza dos dados e conversão de tipos
6. **Salvar o Dataset:** Salvamento do dataset simulado em um arquivo CSV nomeado de: `data_clean.csv`
7. **Visualização do Dataset:** Leitura do arquivo e confirmação dos valores
8. **Análise:** é divido entre `Carregar o arquivo CSV`, `Cálculos`, `Total de vendas por produto` e `Produto com o maior número de vendas totais`
9. **Carregar o arquivo CSV:** Carrego o arquivo CSV para a análise feita a seguir
10. **Cálculo:** É feito os cálculos necessários solicitados
11. **Total de vendas por produto:** Resultado da primeira análise proposta
12. **Produto com o maior número de vendas totais** Resultado da segunda análise proposta
13. **Comentários:** Um resumo sobre a trajetoria desta atividade na parte 1

## Importação de Bibliotecas

In [27]:
import pandas as pd
import numpy as np
import random

## Definição de parâmetros

In [30]:
#escolha do seed na random
np.random.seed(26)

#numero de registros
n=50 

#produtos de cada categoria
categorias_produtos = {
    "Eletrônicos": ["Teclado", "Mouse", "Fone de ouvido", "Smart TV", "Microfone", 
                    "Carregador", "Celular", "Monitor", "Teclado", "Mouse"],
    "Roupas": ["Camisa", "Calça", "Bermuda", "Tênis", "Vestido",
               "Meias", "Luvas", "Casaco", "Cinto", "Cachecol"],
    "Alimentos": ["Arroz", "Feijão", "Farofa", "Chocolate","Café", 
                  "Leite", "Queijo", "Pão", "Fruta", "Legumes"]
}

parametros_preco = {
    "Eletrônicos": {"min": 100, "max": 500},  # Preços de 100 a 500
    "Roupas": {"min": 20, "max": 200},        # Preços de 20 a 200
    "Alimentos": {"min": 5, "max": 50},       # Preços de 5 a 50
}

## Funções

In [31]:
# Função para escolher produtos com base na categoria
def escolher_produto(categoria):
    return random.choice(categorias_produtos[categoria])

# Função para gerar preço com base na categoria
def gerar_preco(categoria):
    intervalo = parametros_preco[categoria]  # Consulta os limites para a categoria
    return round(random.uniform(intervalo["min"], intervalo["max"]), 2)  # Gera o preço

## Geração do Dataset

In [46]:
#Gerando dados (Id, Data e Categoria)
data = {
    "ID": range (1, n+1), # Ids
    "Data": pd.date_range(start="2023-01-01", end="2023-12-31", periods=n), # datas
    "Categoria": random.choices(["Eletrônicos", "Roupas", "Alimentos"], k=n), # sorteia entre as 3 categorias
}

#Coloca os produtos relacionados a categoria
data["Produto"] = [escolher_produto(cat) for cat in data["Categoria"]] #

#Adicionando quantidade aleatorias entre 1 a 20
data["Quantidade"] = np.random.randint(1, 20, size=n)

#Adicionado preços aleatórios com base na categoria
data["Preço"] = [gerar_preco(cat) for cat in data["Categoria"]]

#Criando o Dataframe
df = pd.DataFrame(data)

#ajuste de horas para remover horas, minutos e segundos
df["Data"] = df["Data"].dt.strftime("%Y-%m-%d")

#Visualização dos dados
df.head(50)

Unnamed: 0,ID,Data,Categoria,Produto,Quantidade,Preço
0,1,2023-01-01,Eletrônicos,Mouse,9,174.06
1,2,2023-01-08,Roupas,Vestido,10,115.44
2,3,2023-01-15,Roupas,Tênis,2,103.96
3,4,2023-01-23,Roupas,Cachecol,4,48.94
4,5,2023-01-30,Eletrônicos,Carregador,7,257.47
5,6,2023-02-07,Roupas,Camisa,1,141.27
6,7,2023-02-14,Eletrônicos,Fone de ouvido,12,230.05
7,8,2023-02-21,Roupas,Casaco,7,117.9
8,9,2023-03-01,Roupas,Tênis,17,59.18
9,10,2023-03-08,Roupas,Tênis,7,175.74


## Limpeza de dados

In [47]:
#Verificação dos tipos de dados
print(df.dtypes)

ID              int64
Data           object
Categoria      object
Produto        object
Quantidade      int32
Preço         float64
dtype: object


In [48]:
# Identificação de valores faltantes
print("Valores faltantes:",)
print(df.isnull().sum())

Valores faltantes:
ID            0
Data          0
Categoria     0
Produto       0
Quantidade    0
Preço         0
dtype: int64


In [49]:
# Verificar quais linhas são duplicadas e o numero total
duplicatas = df.duplicated()
print(duplicatas)
print(f"Número de duplicatas: {duplicatas.sum()}")

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
42    False
43    False
44    False
45    False
46    False
47    False
48    False
49    False
dtype: bool
Número de duplicatas: 0


In [50]:
#remover duplicatas
df.drop_duplicates(inplace=True)
print("Duplicatas existentes removidas")

Duplicatas existentes removidas


In [51]:
#Confirmação do tipo de 'Data'
print(df["Data"].dtypes)

object


In [61]:
# Converter a coluna 'Data' para datetime64
df["Data"] = pd.to_datetime(df["Data"])

In [62]:
#Confirmação do tipo de 'Data'
print(df["Data"].dtypes)

datetime64[ns]


In [63]:
#Filtro de datas para confirmar o novo tipo
df_filtrado = df[df["Data"] > "2023-07-23"]
print(df_filtrado)

    ID       Data    Categoria         Produto  Quantidade   Preço
28  29 2023-07-27    Alimentos         Legumes          16   41.29
29  30 2023-08-04    Alimentos         Legumes          14   34.54
30  31 2023-08-11       Roupas           Calça           8   62.41
31  32 2023-08-19    Alimentos          Feijão          10    5.78
32  33 2023-08-26  Eletrônicos        Smart TV          11  448.42
33  34 2023-09-03       Roupas         Vestido          15  102.39
34  35 2023-09-10    Alimentos          Feijão          18   40.64
35  36 2023-09-18       Roupas          Casaco          12   58.07
36  37 2023-09-25    Alimentos       Chocolate           8   18.13
37  38 2023-10-02  Eletrônicos         Teclado           1  295.83
38  39 2023-10-10  Eletrônicos         Celular           7  273.24
39  40 2023-10-17       Roupas           Tênis          10   37.23
40  41 2023-10-25    Alimentos             Pão          11   23.77
41  42 2023-11-01    Alimentos          Farofa           6    

## Salvar o Dataset

In [54]:
# Salva o dataset
df.to_csv("data_clean.csv", index=False)

## Visualização do Dataset

In [55]:
#Abre o Dataset
df_salvo = pd.read_csv("data_clean.csv")
print(df_salvo)

    ID        Data    Categoria         Produto  Quantidade   Preço
0    1  2023-01-01  Eletrônicos           Mouse           9  174.06
1    2  2023-01-08       Roupas         Vestido          10  115.44
2    3  2023-01-15       Roupas           Tênis           2  103.96
3    4  2023-01-23       Roupas        Cachecol           4   48.94
4    5  2023-01-30  Eletrônicos      Carregador           7  257.47
5    6  2023-02-07       Roupas          Camisa           1  141.27
6    7  2023-02-14  Eletrônicos  Fone de ouvido          12  230.05
7    8  2023-02-21       Roupas          Casaco           7  117.90
8    9  2023-03-01       Roupas           Tênis          17   59.18
9   10  2023-03-08       Roupas           Tênis           7  175.74
10  11  2023-03-16    Alimentos       Chocolate           7   46.15
11  12  2023-03-23    Alimentos            Café          11   43.44
12  13  2023-03-31  Eletrônicos  Fone de ouvido           8  403.54
13  14  2023-04-07  Eletrônicos         Celular 

## Analise

### Carregar o Arquivo CSV

In [56]:
# Carregar o arquivo CSV
df = pd.read_csv("data_clean.csv")
print(df.head())

   ID        Data    Categoria     Produto  Quantidade   Preço
0   1  2023-01-01  Eletrônicos       Mouse           9  174.06
1   2  2023-01-08       Roupas     Vestido          10  115.44
2   3  2023-01-15       Roupas       Tênis           2  103.96
3   4  2023-01-23       Roupas    Cachecol           4   48.94
4   5  2023-01-30  Eletrônicos  Carregador           7  257.47


### Cálculo

In [57]:
# Calculo do total de vendas (Quantidade * Preço) 
total_de_vendas = (df["Quantidade"] * df["Preço"])

# Agrupar por produto e somar
vendas_por_produto = total_de_vendas.groupby(df["Produto"]).sum().reset_index()

# Renomear colunas para poder utilizar sem erros e melhor visualização
# (mais por causa da 2 coluna pois a primeira ja foi renomeada pelo .reset_index)
vendas_por_produto.columns = ["Produto", "Total_de_vendas"]

### Total de vendas por produto

In [58]:
#Ordenar por ordem alfabética
vendas_por_produto = vendas_por_produto.sort_values(by="Produto", ascending=True)
print(vendas_por_produto)

           Produto  Total_de_vendas
0            Arroz           429.00
1         Cachecol          3184.87
2             Café           477.84
3            Calça           499.28
4           Camisa           141.27
5       Carregador          9592.19
6           Casaco          1522.14
7          Celular          6631.78
8        Chocolate           468.09
9            Cinto           546.96
10          Farofa           553.85
11          Feijão           789.32
12  Fone de ouvido          7383.56
13           Fruta           118.23
14         Legumes          1144.20
15           Luvas           196.24
16           Mouse          3652.19
17             Pão           537.55
18          Queijo           480.10
19        Smart TV          4932.62
20         Teclado          3109.25
21           Tênis          3009.05
22         Vestido          3774.79


### Produto com o maior número de vendas totais

In [59]:
#Ordenar por maior numero de vendas
vendas_por_produto = vendas_por_produto.sort_values(by="Total_de_vendas", ascending=False)

#Seprar a primeira linha
produto_maior_venda_total = vendas_por_produto.iloc[0]

print(f'O {produto_maior_venda_total["Produto"]} foi o que obteve o maior número de vendas totais com: {produto_maior_venda_total["Total_de_vendas"]:.2f}')

O Carregador foi o que obteve o maior número de vendas totais com: 9592.19


## Comentários

- A escolha das bibliotecas foi simples, separei em etapas a primeira parte e ao meu ver iria precisar utilizar pandas e numpy.
- A definição de parâmetros veio na resolução de 3 problemas:
	- Como posso relacionar os produtos com suas categorias?
	- É irreal um pão custar 500 reais kkkkkk
	- Fica mais organizado visualmente para mim se na tabela "categoria" vir antes de "produto"
- Então o jeito que encontrei foi de separar os parâmetros na geração do dataset pois pra mim pareceu mais intuitivo e fácil de fazer. Pois poderia colocar intervalos de preço mais "realistas" assim como as categorias. Fora que facilitou muito em criar "categoria" primeiro e depois "produto", pois na criação de "produto" eu consulto os valores de "categoria"
- Encontrei problemas em fazer isso com a coluna "Data" então apenas fiz de forma aleatória na própria geração do dataset pois foi a resposta mais fácil e rápida, tentei procurar uma melhor para separar mas pareciam meio desnecessárias utilizar
- Funções foi criado apenas para separar e deixar mais legível 
- A geração do dataset tomou um tempo, pois no processo fui entender melhor algumas funções que até então não conhecia dentro da random generator do numpy. O que facilitou e encurtou muito o meu código original. Antes criava tudo dentro de data mas como fui precisar separar os parâmetros, acabou ficando separado (o que visualmente pra mim ficou melhor também)
- A limpeza de dados foi tranquila com base no que pediram, acabei gerando um bom dataset, as funções do pandas e numpy ajudaram muito.
- Mesmo assim coloquei algumas verificações para ter certeza que estava correto e no fim a única coisa que precisei transformar foi o tipo de "Data" pois estava como "object" então mudei para "datetime64" pois é melhor para futuras manipulações e consultas.
- O dataset foi salvo e então utilizei ele ainda para fazer a análise, foi bem tranquilo o que foi pedido, mas demorei em achar uma forma de manipular melhor as informações pedidas como queria.
- No final, fiquei satisfeito com o que desenvolvi nesta parte pois é possível gerar vários outros datasets e utilizá-los para fazer as análises, não é um código "travado" que só funciona com 1 dataset específico.


Caso queiram saber, o passo a passo que criei para ordenar melhora minha atividade foi este:
- [ ] Crie um script para simular um dataset de vendas:
    - [ ]  Com pelo menos 50 registros
    - [ ]  Contendo as colunas: ID, Data, Produto, Categoria, Quantidade, Preço
    - [ ]  O período dos dados deve ser de 01/01/2023 a 31/12/2023.
- [ ] Realize a limpeza dos dados, incluindo:
	- [ ] Tratamento de valores faltantes
	- [ ] Remoção de duplicatas
	- [ ] Conversão de tipos de dados, se necessário
- [ ] Salve o dataset limpo em um arquivo **data_clean.csv**
- [ ] Utilizando o dataset limpo, realize as seguintes análises:
	- [ ] Calcule o total de vendas (Quantidade * Preço) por produto.
	- [ ] Identifique o produto com o maior número de vendas totais.
- [ ] **Salve seu código e nomeie adequadamente.**