<a href="https://colab.research.google.com/github/nicolas-takimo/AVlTree/blob/main/LimpezadeDados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

# Função para gerar datas aleatórias para o dataset de vendas
def random_date(start_date, end_date):
    delta = end_date - start_date
    random_days = random.randint(0, delta.days)
    return start_date + timedelta(days=random_days)

# Parâmetros gerais para simulação
num_records = 500
start_date = datetime.now() - timedelta(days=365 * 2)
end_date = datetime.now()
regioes = estados = ['Acre', 'Alagoas', 'Amapá', 'Amazonas', 'Bahia', 'Ceará', 'Espírito Santo', 'Goiás', 'Maranhão', 'Mato Grosso', 'Mato Grosso do Sul', 'Minas Gerais', 'Pará', 'Paraíba', 'Paraná', 'Pernambuco', 'Piauí', 'Rio de Janeiro', 'Rio Grande do Norte', 'Rio Grande do Sul', 'Rondônia', 'Roraima', 'Santa Catarina', 'São Paulo', 'Sergipe', 'Tocantins']
tipos_produto = ['Eletrônicos', 'Roupas', 'Alimentos', 'Móveis']
canais_aquisicao = ['Facebook', 'Instagram', 'Google Ads', 'Email', 'TV']
segmentos_mercado = ['B2B', 'B2C']

# Dataset de Vendas
vendas_data = {
    'Data': [random_date(start_date, end_date).strftime('%Y-%m-%d') for _ in range(num_records)],
    'Quantidade': [random.randint(1, 20) for _ in range(num_records)],
    'Receita': [round(random.uniform(50, 5000), 2) for _ in range(num_records)],
    'Regiao': [random.choice(regioes) for _ in range(num_records)],
    'Pais': ['Brasil' for _ in range(num_records)],
    'Tipo_Produto': [random.choice(tipos_produto) for _ in range(num_records)]
}
vendas_df = pd.DataFrame(vendas_data)

# Dataset de Clientes
clientes_data = {
    'ID_Cliente': range(1, num_records + 1),
    'Idade': [random.randint(18, 70) for _ in range(num_records)],
    'Genero': [random.choice(['Masculino', 'Feminino', 'Outro']) for _ in range(num_records)],
    'Localizacao': [random.choice(regioes) for _ in range(num_records)],
    'Segmento_Mercado': [random.choice(segmentos_mercado) for _ in range(num_records)]
}
clientes_df = pd.DataFrame(clientes_data)

# Dataset Financeiro
financeiro_data = {
    'ID_Operacao': range(1, num_records + 1),
    'Receita': [round(random.uniform(100, 10000), 2) for _ in range(num_records)],
    'Custo': [round(random.uniform(50, 8000), 2) for _ in range(num_records)],
}
financeiro_data['Lucro'] = [round(receita - custo, 2) for receita, custo in zip(financeiro_data['Receita'], financeiro_data['Custo'])]
financeiro_data['Margem'] = [round((lucro / receita) * 100, 2) if receita != 0 else 0 for lucro, receita in zip(financeiro_data['Lucro'], financeiro_data['Receita'])]
financeiro_df = pd.DataFrame(financeiro_data)

# Dataset de Marketing
marketing_data = {
    'ID_Campanha': range(1, num_records + 1),
    'Canal_Aquisicao': [random.choice(canais_aquisicao) for _ in range(num_records)],
    'Engajamento': [round(random.uniform(0, 100), 2) for _ in range(num_records)]
}
marketing_df = pd.DataFrame(marketing_data)

# Introdução de dados sujos em cada dataset
for _ in range(200):  # x registros "sujos" em cada dataset
    idx = random.randint(0, num_records - 1)

    # Dataset de Vendas
    if random.choice([True, False]):
        vendas_df.at[idx, 'Quantidade'] = np.nan  # Valor ausente
    else:
        vendas_df.at[idx, 'Receita'] = 'Erro'  # Erro de tipo

    # Dataset de Clientes
    if random.choice([True, False]):
        clientes_df.at[idx, 'Idade'] = 200  # Idade fora do limite
    else:
        clientes_df.at[idx, 'Genero'] = 'Desconhecido'  # Valor inconsistente

    # Dataset Financeiro
    if random.choice([True, False]):
        financeiro_df.at[idx, 'Custo'] = -50  # Valor negativo
    else:
        financeiro_df.at[idx, 'Margem'] = 'Inválido'  # Erro de tipo

    # Dataset de Marketing
    if random.choice([True, False]):
        marketing_df.at[idx, 'Engajamento'] = np.nan  # Valor ausente
    else:
        marketing_df.at[idx, 'Canal_Aquisicao'] = 'Redes'  # Valor inconsistente

# Salvando cada dataset em arquivos CSV
vendas_df.to_csv('vendas_data.csv', index=False)
clientes_df.to_csv('clientes_data.csv', index=False)
financeiro_df.to_csv('financeiro_data.csv', index=False)
marketing_df.to_csv('marketing_data.csv', index=False)

print("Datasets gerados e salvos com sucesso!")


Datasets gerados e salvos com sucesso!


  vendas_df.at[idx, 'Receita'] = 'Erro'  # Erro de tipo
  financeiro_df.at[idx, 'Margem'] = 'Inválido'  # Erro de tipo


In [20]:
vendas_df=vendas_df.drop_duplicates()
vendas_df.to_csv('vendas_data.csv', index=False)

clientes_df = clientes_df.drop_duplicates()
clientes_df.to_csv('clientes_data.csv', index=False)

financeiro_df = financeiro_df.drop_duplicates()
financeiro_df.to_csv('financeiro_data.csv', index=False)

marketing_df = marketing_df.drop_duplicates()
marketing_df.to_csv('marketing_data.csv', index=False)



In [32]:
vendas_df['Quantidade'] = vendas_df['Quantidade'].replace(np.nan,0)
vendas_df.to_csv('vendas_data.csv', index=False)

In [34]:
vendas_df['Receita'] = vendas_df['Receita'].replace('Erro',0)
vendas_df.to_csv('vendas_data.csv', index=False)

In [37]:
vendas_df['Receita'] = vendas_df['Receita'].replace(0,vendas_df['Receita'].mean())
vendas_df.to_csv('vendas_data.csv', index=False)

In [38]:
clientes_df['Idade'] = clientes_df['Idade'].replace(200,clientes_df['Idade'].mean())
clientes_df.to_csv('clientes_data.csv', index=False)


In [40]:
clientes_df['Idade'] = clientes_df['Idade'].astype(int)
clientes_df.to_csv('clientes_data.csv', index=False)

In [41]:
clientes_df['Genero'] = clientes_df['Genero'].replace('Desconhecido','Outro')
clientes_df.to_csv('clientes_data.csv', index=False)

In [44]:
financeiro_df.loc[financeiro_df['Custo'] < 0, 'Custo'] = financeiro_df['Custo'].mean()
financeiro_df.to_csv('financeiro_data.csv', index=False)


In [48]:
financeiro_df['Margem'] = financeiro_df['Margem'].replace(0,financeiro_df['Margem'].mean())
financeiro_df.to_csv('financeiro_data.csv', index=False)
#

In [49]:
marketing_df['Engajamento'] = marketing_df['Engajamento'].replace(np.nan,0)
marketing_df.to_csv('marketing_data.csv', index=False)
#

In [52]:
marketing_df['Engajamento'] = marketing_df['Engajamento'].astype(int)
marketing_df.to_csv('marketing_data.csv', index=False)
#

In [51]:
marketing_df['Engajamento']=marketing_df['Engajamento'].replace(0,marketing_df['Engajamento'].mean())
marketing_df.to_csv('marketing_data.csv', index=False)