### **Criação do arquivo CSV para simulação**

In [0]:
import pandas as pd
import random
from datetime import datetime, timedelta

# Gerar 30 linhas de dados fictícios
produtos = ["Mouse", "Teclado", "Monitor", "Headset", "Notebook", "Cadeira Gamer"]
clientes = ["Ana", "Bruno", "Carla", "Diego", "Eduarda", "Felipe", "Gabriela", "Hugo"]
regioes = ["Sul", "Sudeste", "Nordeste", "Centro-Oeste", "Norte"]

dados = []

for i in range(30):
    data_venda = datetime(2024, 1, 1) + timedelta(days=random.randint(0, 200))
    produto = random.choice(produtos)
    quantidade = random.randint(1, 5)
    valor_unitario = round(random.uniform(50, 1500), 2)
    cliente = random.choice(clientes)
    regiao = random.choice(regioes)
    
    dados.append([i+1, data_venda.strftime("%Y-%m-%d"), produto, quantidade, valor_unitario, cliente, regiao])

df = pd.DataFrame(dados, columns=["id_venda", "data_venda", "produto", "quantidade", "valor_unitario", "cliente", "regiao"])

# Criar pasta e salvar o CSV
import os
os.makedirs("dados", exist_ok=True)
df.to_csv("dados/vendas.csv", index=False, encoding="utf-8-sig")

print("✅ Base de vendas criada com sucesso em 'dados/vendas.csv'!")
print(df.head())


✅ Base de vendas criada com sucesso em 'dados/vendas.csv'!
   id_venda  data_venda   produto  ...  valor_unitario   cliente        regiao
0         1  2024-06-28   Monitor  ...          336.92      Hugo  Centro-Oeste
1         2  2024-06-17     Mouse  ...         1035.53  Gabriela           Sul
2         3  2024-04-19   Headset  ...         1119.52   Eduarda           Sul
3         4  2024-03-10  Notebook  ...         1164.36     Bruno  Centro-Oeste
4         5  2024-03-22   Monitor  ...          667.73     Bruno       Sudeste

[5 rows x 7 columns]


### **Projeto de Tratamento de Dados**

In [0]:
# Importar bibliotecas
import pandas as pd
import os
%pip install openpyxl

# =================================================

# Definir o caminho do arquivo
caminho_entrada = "/Workspace/Users/otavioalvescruz@gmail.com/Automações Python/Automacao_Limpeza/dados/vendas.csv"
caminho_saida = "/Workspace/Users/otavioalvescruz@gmail.com/Automações Python/Automacao_Limpeza/dados/vendas_tratadas.csv"
caminho_saida_excel = "/Workspace/Users/otavioalvescruz@gmail.com/Automações Python/Automacao_Limpeza/dados/vendas_tratadas.xlsx"

# =================================================

# Ler o arquivo CSV
df = pd.read_csv(caminho_entrada)
print("Base carregada com sucesso!")
print(df.head())

# =================================================

# Remover linhas duplicadas
df = df.drop_duplicates()

# =================================================

# Tratar valores ausentes
df = df.fillna({
    "produto":"Desconhecido",
    "categoria":"Não informada"
})

# ==================================================

# Criar nova coluna: total da venda
df["total_venda"] = df["quantidade"] * df["valor_unitario"]

# ==================================================

# Calcular resumo simples das vendas por produto
resumo_produto = df.groupby("produto")["total_venda"].sum().reset_index()
print("Total de vendas por produto: ")
print(resumo_produto)

# =================================================

# Exportar os arquivos tratados
os.makedirs("dados", exist_ok=True)
df.to_csv(caminho_saida, index=False)
df.to_excel(caminho_saida_excel, index=False)

print("Arquivos tratados exportados com sucesso!!")



### **Script Automatizado com Funções em Python**

In [0]:
import pandas as pd
import os

# ======================================
# Leitura do arquivo CSV
def leitura_arquivo(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo)
    print("Arquivo lido com sucesso!")
    return df

# ======================================
# Remover linhas duplicadas
def remover_duplicadas(df):
    df = df.drop_duplicates()
    return df

# ======================================
# Tratar dados nulos
def tratar_dados_nulos(df):
    df = df.fillna({
        "produto": "Desconhecido",
        "categoria": "Não informada"
    })
    return df

# ======================================
# Criar coluna "total da venda"
def total_venda(df):
    df["total_venda"] = df["quantidade"] * df["valor_unitario"]
    return df

# ======================================
# Criar um resumo por produto
def resumo_produto(df):
    resumo = df.groupby("produto")["total_venda"].sum().reset_index()
    print("Resumo por produto criado com sucesso!")
    return resumo

# ======================================
# Exportar CSV e Excel
def exportar_arquivos(df):
    os.makedirs("dados", exist_ok=True)
    df.to_csv("dados/vendas_tratadas.csv", index=False)
    df.to_excel("dados/vendas_tratadas.xlsx", index=False)
    print("Arquivos exportados com sucesso!")

# ======================================
# Função principal
def main():
    caminho_arquivo = "/Workspace/Users/otavioalvescruz@gmail.com/Automações Python/Automacao_Limpeza/dados/vendas.csv"

    df = leitura_arquivo(caminho_arquivo)
    df = remover_duplicadas(df)
    df = tratar_dados_nulos(df)
    df = total_venda(df)
    resumo = resumo_produto(df)

    exportar_arquivos(df)
    print("Automação finalizada com sucesso!")

# ======================================
main()


Arquivo lido com sucesso!
Resumo por produto criado com sucesso!
Arquivos exportados com sucesso!
Automação finalizada com sucesso!
