# Case Quod - Simulação e Tratamento dos Dados

## Geração de dados

In [2]:
import pandas as pd  # Análise e manipulação de dados (DataFrames).
from datetime import datetime, timedelta  # datetime (data/hora) e timedelta (duração).
import random as rd  # Geração de números e seleções pseudoaleatórias.

 Informações sobre a simulação de dados

- **Tipo de dataset:** Vendas
- **Quantidade mínima de registros:** 50
- **Colunas incluídas:**
  - `ID`
  - `Data`
  - `Produto`
  - `Categoria`
  - `Quantidade`
  - `Preço`

In [3]:
def data_aleatoria(inicio, fim):
    # Gera e retorna uma data aleatória dentro do intervalo [inicio, fim].
    try:
        delta = fim - inicio  # Calcula a diferença total de tempo (timedelta).

        # Gera um número aleatório de dias dentro do intervalo total.
        dias_aleatorios = rd.randint(0, delta.days)

        # Retorna a data inicial somada ao número de dias aleatórios.
        return inicio + timedelta(days=dias_aleatorios)

    except Exception as e:
        print(e, "Erro ao gerar data aleatória.", sep='/')  # Trata e imprime qualquer erro.

In [4]:
selecionar = lambda x: rd.choice([x, None])  # Retorna 'x' ou None aleatoriamente (usado para simular valores faltantes).

In [5]:
def gerar_dados(data_inicial: datetime, data_final: datetime, produtos: list, tamanho: int, semente:int) -> pd.DataFrame:
    # Gera um DataFrame de dados simulados com base nas listas de produtos e datas.

    lista = []  # Lista para armazenar os registros/linhas (dicionários).

    rd.seed(semente)  # Fixa a semente para garantir reprodutibilidade dos dados aleatórios.

    for _ in range(tamanho):  # Loop para gerar o número de linhas .
        try:
            valor = rd.choice(produtos)  # Seleciona um registro de produto aleatório da lista.

            # Cria um dicionário (linha) com valores aleatórios/selecionados.
            lista.append({
                # selecionar insere um valor ou None, simulando dados faltantes.
                "id": selecionar(valor[0]),
                # data_aleatoria gera uma data no intervalo.
                "Data": selecionar(data_aleatoria(data_inicial, data_final)),
                "Produto": selecionar(valor[1]),
                "Categoria": selecionar(valor[2]),
                # valor[3] (faixa de Quantidade) deve ser uma tupla/lista (min, max).
                "Quantidade": selecionar(rd.randint(valor[3][0], valor[3][1])),
                # valor[4] (faixa de Preço) deve ser uma tupla/lista (min, max).
                "Preço": selecionar(round(rd.uniform(valor[4][0], valor[4][1]), 2))
            })

        except Exception as e:
            print(e, "Erro ao gerar linha do dataframe.", sep='/') # Trata e reporta erros na geração da linha.

    return pd.DataFrame(lista)  # Converte a lista de dicionários no DataFrame final.

A função `gerar_dados` cria um DataFrame selecionando valores aleatórios usando a biblioteca `random`.  
A ideia principal é permitir que os métodos de aleatoriedade escolham as linhas do DataFrame.

**Parâmetros para gerar os dados:**
1. **Intervalo de datas:** Define o período para criação de datas aleatórias.
2. **Lista de listas com produtos:** Cada sublista deve conter `ID`, `Produto` e `Categoria`.
3. **Tamanho do DataFrame:** Número de registros desejados.
4. **Semente geradora (`seed`):** Para garantir que a tabela gerada seja sempre a mesma.


In [6]:
produtos_pc = [
    [1,"Processador Intel Core i7 13ª Geração", "Processador",(1,3),(1500.00, 2500.00)],
    [2,"Placa-mãe ASUS Prime B660M", "Placa-mãe",(1,25),(800.00, 1400.00)],
    [3,"Memória RAM DDR5 16GB 5200MHz", "Memória RAM",(2,60),(300.00, 600.00)],
    [4,"SSD NVMe 1TB", "Armazenamento",(5,8),(350.00, 700.00)],
    [5,"Placa de vídeo NVIDIA RTX 4070 Ti", "Placa de vídeo",(1,15),(4000.00, 5500.00)],
    [6,"Fonte modular 750W 80 Plus Gold", "Fonte",(3,5),(400.00, 800.00)],
    [7,"Gabinete ATX com lateral em vidro", "Gabinete",(2,40),(250.00, 600.00)],
    [8,"Cooler a ar para CPU", "Cooler a ar",(5,7),(120.00, 300.00)],
    [9,"Water cooler 240mm", "Water cooler",(1,2),(350.00, 700.00)],
    [10,"Ventoinha RGB 120mm", "Ventoinha",(5,10),(50.00, 120.00)],
]

In [7]:
inicio = datetime(2023,1,1)
fim = datetime(2023,12,31)

dados = gerar_dados(inicio, fim, produtos_pc, 5000, 190)
dados

Unnamed: 0,id,Data,Produto,Categoria,Quantidade,Preço
0,2.0,NaT,Placa-mãe ASUS Prime B660M,Placa-mãe,,1372.60
1,2.0,2023-10-28,,,13.0,
2,,2023-12-22,,,7.0,
3,4.0,2023-07-12,,,,673.41
4,5.0,2023-05-16,Placa de vídeo NVIDIA RTX 4070 Ti,,,4169.27
...,...,...,...,...,...,...
4995,,2023-09-05,Placa-mãe ASUS Prime B660M,Placa-mãe,,1246.99
4996,,NaT,,Fonte,5.0,471.13
4997,,2023-02-15,,,2.0,
4998,,NaT,,Memória RAM,35.0,


## Tratamento de dados


Tratamento de dados, ou limpeza de dados, é o processo de identificar e corrigir erros em um conjunto de dados.  
Exemplo: remoção de registros duplicados.


### Verificação da Tipagem dos dados

In [8]:
def tabela_tipagem(dados: pd.DataFrame) -> pd.DataFrame:
    # Cria e retorna um DataFrame com o nome e o tipo de dado (dtype) de cada coluna.

    tabela = pd.DataFrame({
        "Coluna": dados.columns,  # Obtém os nomes de todas as colunas.
        # Usa list comprehension para obter o dtype de cada coluna.
        "Tipo de Dado": [dados[coluna].dtype for coluna in dados.columns]
    })

    return tabela  # Retorna a tabela de tipagem.

In [9]:
# Exibe a tabela de tipagem dos dados gerados.
tabela_tipagem(dados)

Unnamed: 0,Coluna,Tipo de Dado
0,id,float64
1,Data,datetime64[ns]
2,Produto,object
3,Categoria,object
4,Quantidade,float64
5,Preço,float64


Observou-se que duas colunas apresentam tipagem incorreta: `ID` e `Quantidade`.  
Ambas deveriam ser do tipo **inteiro**.

In [10]:
# Realizando o método de mudança de tipagem
dados["id"] = pd.to_numeric(dados["id"], errors='coerce').astype('Int64') # Converte a coluna 'id' para numérico, tratando erros e convertendo para Int64.
dados["Quantidade"] = pd.to_numeric(dados["Quantidade"], errors='coerce').astype('Int64') # Converte a coluna 'Quantidade' para numérico, tratando erros e convertendo para Int64.

Verificando a alteração:


In [11]:
# Verifica a tipagem após a conversão.
tabela_tipagem(dados)

Unnamed: 0,Coluna,Tipo de Dado
0,id,Int64
1,Data,datetime64[ns]
2,Produto,object
3,Categoria,object
4,Quantidade,Int64
5,Preço,float64


### Verificação de duplicatas e valores nulos

Verificando se os dados gerados contêm valores duplicados, ou seja, linhas iguais.

In [12]:
# Verifica a quantidade de valores duplicados no DataFrame.
dados.duplicated().sum()

np.int64(846)

Observa-se que os dados possuem um total de 846 linhas duplicadas.

In [13]:
# Removendo os dados duplicados
dados = dados.drop_duplicates().reset_index(drop=True)

In [14]:
# Verifica a quantidade de valores duplicados no DataFrame.
dados.duplicated().sum()

np.int64(0)

Através do método `drop_duplicates`, observa-se que as linhas duplicadas foram removidas com sucesso.


In [15]:
# Criando função para verificar valores nulos
def verificar_nulos(dados: pd.DataFrame) -> pd.DataFrame:
    # Gera uma tabela com a contagem e o percentual de valores nulos por coluna.

    tabela_nulos = pd.DataFrame({
        "Coluna": dados.columns,  # Nomes das colunas.
        # Conta a soma de valores nulos por coluna.
        "Quantidade de Valores Nulos": [dados[coluna].isnull().sum() for coluna in dados.columns],
        # Calcula o percentual de nulos
        "Percentual de Valores Nulos": [round(dados[coluna].isnull().sum()/len(dados[coluna]) * 100, 2) for coluna in dados.columns]

    })

    return tabela_nulos  # Retorna o DataFrame com a análise de nulos.

In [16]:
# Verifica a presença de valores nulos no DataFrame.
verificar_nulos(dados)

Unnamed: 0,Coluna,Quantidade de Valores Nulos,Percentual de Valores Nulos
0,id,2068,49.78
1,Data,1689,40.66
2,Produto,2055,49.47
3,Categoria,2075,49.95
4,Quantidade,1972,47.47
5,Preço,1614,38.85


Observa-se que os dados apresentam uma alta ocorrência de informações ausentes.  
Embora seja possível realizar imputações, a grande quantidade de valores faltantes torna essa abordagem pouco viável no momento.  
Portanto, os registros com dados ausentes serão excluídos.

In [17]:
dados.dropna(inplace=True) # Remove linhas com valores nulos do DataFrame 'dados' diretamente (inplace=True).

In [18]:
dados.shape # dimensão do DataFrame após remoção de nulos.

(79, 6)

Por fim, permaneceremos apenas com os dados tratados, sem inconsistências.

## Cálculo do Total de Vendas

quantidade*preço

In [None]:
dados['Total de Vendas'] = dados['Quantidade'] * dados['Preço'] # Cria uma nova coluna Total de Vendas 
dados.head()

Unnamed: 0,id,Data,Produto,Categoria,Quantidade,Preço,Total de Vendas
104,2,2023-11-27,Placa-mãe ASUS Prime B660M,Placa-mãe,2,1263.57,2527.14
125,1,2023-03-22,Processador Intel Core i7 13ª Geração,Processador,1,1938.78,1938.78
202,4,2023-01-25,SSD NVMe 1TB,Armazenamento,5,444.64,2223.2
273,9,2023-10-17,Water cooler 240mm,Water cooler,2,440.26,880.52
347,1,2023-04-19,Processador Intel Core i7 13ª Geração,Processador,3,1657.05,4971.15


In [20]:
dados[dados['Total de Vendas'] == dados['Total de Vendas'].max()]

Unnamed: 0,id,Data,Produto,Categoria,Quantidade,Preço,Total de Vendas
3149,5,2023-05-11,Placa de vídeo NVIDIA RTX 4070 Ti,Placa de vídeo,12,5473.04,65676.48


## Salvando arquivos

In [22]:
dados.to_csv("dados_vendas.csv", index=False) # Salva o DataFrame em um arquivo CSV 

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Criar conexão (ajuste usuário, senha, host, porta e banco)
engine = create_engine("postgresql+psycopg2://usuario:senha@localhost:5432/case")

# Salvar no PostgreSQL
dados.to_sql(
    name="vendas",      # nome da tabela
    con=engine,
    if_exists="replace", 
    index=False          # não salvar índice do pandas
)
