In [None]:
import pandas as pd
import numpy as np # manipulação eficiente de arrays (vetores e matrizes) 
from pathlib import Path # manipular caminhos do sistema de arquivos
import chardet # (Character Encoding Detector) detectar automaticamente a codificação de caracteres 
# (encoding) de um arquivo de texto ou de um fluxo de dados (bytes). 

In [82]:
# Caminhos Absolutos e pathlib
output_dir = Path.cwd() / "dados"
output_dir.mkdir(exist_ok=True)

print(f"Gerando arquivos em: {output_dir.resolve()}\n")

Gerando arquivos em: C:\Aula\5ADSC\dados



In [83]:
# Identificar o encoding do arquivo
def detectar_encoding(caminho_arquivo):
    with open(caminho_arquivo, 'rb') as f:
        resultado = chardet.detect(f.read())
    
    return resultado['encoding']

In [84]:
# tratar NaN
def tratar_nan(df):
    """
    Substitui todos os valores NaN/NaT do DataFrame por None.
    Isso é útil para integração com bancos de dados ou APIs que 
    não reconhecem o padrão float NaN do Pandas.
    """
    # Substituímos onde o valor é nulo pelo objeto None
    # df_tratado = df.where(pd.notnull(df), None)
    df_tratado = df.astype(object).where(pd.notnull(df), None)
    df_tratado = df_tratado.astype(str)
    return df_tratado

In [85]:
# tratar caracteres especiais
def tratar_caracteres(df):
    """
    Remove quebras de linha, tabulações e espaços extras 
    em todas as colunas de texto do DataFrame.
    """
    df_limpo = df.copy()

    for coluna in df_limpo.columns:
        
        # 1. Convertemos para string e removemos espaços no início e fim (.strip())
        # 2. .replace com regex=True para buscar padrões invisíveis:
        # \n = quebra de linha
        # \r = retorno de carro
        # \t = tabulação
        df_limpo[coluna] = (
            df_limpo[coluna]
            .astype(str)
            .str.replace(r'[\n\r\t]', ' ', regex=True) # Troca quebras/tabs por um espaço
            .str.replace(r'\s+', ' ', regex=True)      # Troca múltiplos espaços por um só
            .str.strip()                               # Remove espaços das extremidades
        )
            
    return df_limpo

In [86]:
# tratar datas
def tratar_data(df_data):
   
    for coluna in df_data.columns:
        if df_data[coluna].dtype == 'str':
            # Remove espaços ocultos
            df_data[coluna] = df_data[coluna].astype(str).str.strip()
            
            # Converte para datetime (coerce evita erro)
            datas_convertidas = pd.to_datetime(
                df_data[coluna],
                format="%d/%m/%Y",
                errors="coerce"
            )
            
            # Só aplica se houver pelo menos uma data válida
            if datas_convertidas.notna().any():
                df_data[coluna] = datas_convertidas.dt.strftime("%Y-%m-%d")
    
    return df_data

In [87]:
# tratar dados float

def tratar_moeda(df):
    df_convertido = df.copy()

    for coluna in df_convertido.columns:
        # Forçamos a conversão para string e removemos espaços extras
        # Isso garante que o .str.replace funcione em qualquer cenário
        coluna_temp = df_convertido[coluna].astype(str).str.strip()

        # Verificamos se a coluna contém o padrão de vírgula decimal brasileira
        # Filtramos para ignorar colunas que já são puramente numéricas
        if coluna_temp.str.contains(r'\d,\d', regex=True).any():
            try:
                # 1. Removemos o símbolo de R$ se existir
                coluna_temp = coluna_temp.str.replace('R$', '', regex=False).str.strip()
                
                # 2. Removemos o ponto de milhar
                coluna_temp = coluna_temp.str.replace('.', '', regex=False)
                
                # 3. Substituímos a vírgula pelo ponto
                coluna_temp = coluna_temp.str.replace(',', '.', regex=False)
                
                # 4. Convertendo para numérico (o que não for número vira NaN)
                df_convertido[coluna] = pd.to_numeric(coluna_temp, errors='coerce')
                
                #print(f"Sucesso: Coluna '{coluna}' convertida para float.")
            except Exception as e:
                #print(f"Erro na coluna '{coluna}': {e}")
                pass
                
    return df_convertido

In [88]:
# Ler arquivo com encoding correto

arquivo = Path.cwd() / "dados" / "dados_vendas.csv"

encoding_detectado = detectar_encoding(arquivo)
print('Encoding Detectado: ', encoding_detectado)

# # Formato 1
# df = pd.read_csv(
#     arquivo,
#     encoding=encoding_detectado,
#     index_col=0,  # define que o index é a coluna 0 do arquivo evitando q o python a crie
#     sep=';', 
# )

# Formato 2
df = pd.read_csv(
    arquivo,
    encoding=encoding_detectado,
    sep=';', 
)


Encoding Detectado:  ascii


In [89]:
print(df.dtypes)

id_transacao      int64
data                str
produto             str
quantidade        int64
valor_unitario      str
cliente_regiao      str
status              str
valor_total         str
dtype: object


In [90]:
df

Unnamed: 0,id_transacao,data,produto,quantidade,valor_unitario,cliente_regiao,status,valor_total
0,1,01/01/2024,Notebook,3,"4.593,89",Norte,Aprovado,"13.781,67"
1,2,02/01/2024,Smartphone,2,"3.410,19",Norte,Aprovado,"6.820,38"
2,3,03/01/2024,Mouse Wireless,5,13502,Norte,Aprovado,67510
3,4,04/01/2024,Mouse Wireless,3,28826,Sul,Aprovado,86478
4,5,05/01/2024,Monitor,3,"1.792,04",Leste,Cancelado,"5.376,12"
...,...,...,...,...,...,...,...,...
95,96,05/04/2024,Smartphone,4,"3.367,21",Leste,Pendente,"13.468,84"
96,97,06/04/2024,Mouse Wireless,4,25453,Centro,Aprovado,"1.018,12"
97,98,07/04/2024,Cadeira Gamer,1,"1.614,02",Leste,Cancelado,"1.614,02"
98,99,08/04/2024,Smartphone,3,"1.883,95",Leste,Aprovado,"5.651,85"


In [91]:
# boa prática, manter o dataframe original
df_copia = df.copy()
# 1a Etapa, limpar caracteres "especiais"
df = tratar_caracteres(df)
print(df.dtypes)

id_transacao      str
data              str
produto           str
quantidade        str
valor_unitario    str
cliente_regiao    str
status            str
valor_total       str
dtype: object


In [92]:
# tratar colunas NaN
df = tratar_nan(df)
df

Unnamed: 0,id_transacao,data,produto,quantidade,valor_unitario,cliente_regiao,status,valor_total
0,1,01/01/2024,Notebook,3,"4.593,89",Norte,Aprovado,"13.781,67"
1,2,02/01/2024,Smartphone,2,"3.410,19",Norte,Aprovado,"6.820,38"
2,3,03/01/2024,Mouse Wireless,5,13502,Norte,Aprovado,67510
3,4,04/01/2024,Mouse Wireless,3,28826,Sul,Aprovado,86478
4,5,05/01/2024,Monitor,3,"1.792,04",Leste,Cancelado,"5.376,12"
...,...,...,...,...,...,...,...,...
95,96,05/04/2024,Smartphone,4,"3.367,21",Leste,Pendente,"13.468,84"
96,97,06/04/2024,Mouse Wireless,4,25453,Centro,Aprovado,"1.018,12"
97,98,07/04/2024,Cadeira Gamer,1,"1.614,02",Leste,Cancelado,"1.614,02"
98,99,08/04/2024,Smartphone,3,"1.883,95",Leste,Aprovado,"5.651,85"


In [93]:
# converter a coluna de quantidade para int após retirade de caracteres especiais e espaços
df["quantidade"] = df["quantidade"].astype(int)
df["id_transacao"] = df["id_transacao"].astype(int)
print(df.dtypes)

id_transacao      int64
data                str
produto             str
quantidade        int64
valor_unitario      str
cliente_regiao      str
status              str
valor_total         str
dtype: object


In [94]:
# 2a Etapa, tratar dados, no caso vou fazer os valores
df = tratar_moeda(df)
df

Unnamed: 0,id_transacao,data,produto,quantidade,valor_unitario,cliente_regiao,status,valor_total
0,1,01/01/2024,Notebook,3,4593.89,Norte,Aprovado,13781.67
1,2,02/01/2024,Smartphone,2,3410.19,Norte,Aprovado,6820.38
2,3,03/01/2024,Mouse Wireless,5,135.02,Norte,Aprovado,675.10
3,4,04/01/2024,Mouse Wireless,3,288.26,Sul,Aprovado,864.78
4,5,05/01/2024,Monitor,3,1792.04,Leste,Cancelado,5376.12
...,...,...,...,...,...,...,...,...
95,96,05/04/2024,Smartphone,4,3367.21,Leste,Pendente,13468.84
96,97,06/04/2024,Mouse Wireless,4,254.53,Centro,Aprovado,1018.12
97,98,07/04/2024,Cadeira Gamer,1,1614.02,Leste,Cancelado,1614.02
98,99,08/04/2024,Smartphone,3,1883.95,Leste,Aprovado,5651.85


In [95]:
print(df.dtypes)

id_transacao        int64
data                  str
produto               str
quantidade          int64
valor_unitario    float64
cliente_regiao        str
status                str
valor_total       float64
dtype: object


In [96]:
# 3a Etapa, tratar dados, datas
df = tratar_data(df)
df

Unnamed: 0,id_transacao,data,produto,quantidade,valor_unitario,cliente_regiao,status,valor_total
0,1,2024-01-01,Notebook,3,4593.89,Norte,Aprovado,13781.67
1,2,2024-01-02,Smartphone,2,3410.19,Norte,Aprovado,6820.38
2,3,2024-01-03,Mouse Wireless,5,135.02,Norte,Aprovado,675.10
3,4,2024-01-04,Mouse Wireless,3,288.26,Sul,Aprovado,864.78
4,5,2024-01-05,Monitor,3,1792.04,Leste,Cancelado,5376.12
...,...,...,...,...,...,...,...,...
95,96,2024-04-05,Smartphone,4,3367.21,Leste,Pendente,13468.84
96,97,2024-04-06,Mouse Wireless,4,254.53,Centro,Aprovado,1018.12
97,98,2024-04-07,Cadeira Gamer,1,1614.02,Leste,Cancelado,1614.02
98,99,2024-04-08,Smartphone,3,1883.95,Leste,Aprovado,5651.85


In [97]:
print(df.dtypes)

id_transacao        int64
data                  str
produto               str
quantidade          int64
valor_unitario    float64
cliente_regiao        str
status                str
valor_total       float64
dtype: object


In [98]:
# converter a coluna data
df["data"] = pd.to_datetime(df["data"])
print(df.dtypes)

id_transacao               int64
data              datetime64[us]
produto                      str
quantidade                 int64
valor_unitario           float64
cliente_regiao               str
status                       str
valor_total              float64
dtype: object


In [99]:
df

Unnamed: 0,id_transacao,data,produto,quantidade,valor_unitario,cliente_regiao,status,valor_total
0,1,2024-01-01,Notebook,3,4593.89,Norte,Aprovado,13781.67
1,2,2024-01-02,Smartphone,2,3410.19,Norte,Aprovado,6820.38
2,3,2024-01-03,Mouse Wireless,5,135.02,Norte,Aprovado,675.10
3,4,2024-01-04,Mouse Wireless,3,288.26,Sul,Aprovado,864.78
4,5,2024-01-05,Monitor,3,1792.04,Leste,Cancelado,5376.12
...,...,...,...,...,...,...,...,...
95,96,2024-04-05,Smartphone,4,3367.21,Leste,Pendente,13468.84
96,97,2024-04-06,Mouse Wireless,4,254.53,Centro,Aprovado,1018.12
97,98,2024-04-07,Cadeira Gamer,1,1614.02,Leste,Cancelado,1614.02
98,99,2024-04-08,Smartphone,3,1883.95,Leste,Aprovado,5651.85


In [100]:
# gerando um arquivo CSV de saída tratado
# Gerando um arquivo CSV
arquivo = Path.cwd() / "dados" / "dados_tratados.csv"

# Remove a coluna chamada 'ID' (ajuste o nome para o que aparece no seu arquivo)
#df = df.drop(columns=['id_transacao'])

df.to_csv(arquivo, index=False, sep=';', encoding='utf-8')

In [101]:
# Gerando um arquivo Excel
arquivo = Path.cwd() / "dados" / "dados_tratados.xlsx"
df.to_excel(arquivo, index=False)

In [None]:
# script para criação da tabela no MySQL

# create database if not exists aula;

# create table if not exists aula.vendas_tratadas(
# id              int not null auto_increment comment'Identificador Unico da tabela',
# data            date comment 'Data da Venda',
# produto         varchar(100) comment 'Nome do Produto',
# quantidade      int comment 'Qtde Vendida',
# valor_unitario  decimal(15,2) comment 'Valor Unitário da Venda',
# cliente_regiao  varchar(50) comment 'Região de Vendas',
# status          varchar(20) comment 'Status da Venda',
# valor_total     decimal(15,2) comment 'Valor Total da Venda',
# primary key pk_id(id)) comment 'Tabela de Vendas no Varejo';
%pip install sqlalchemy mysql-connector-python
from sqlalchemy import create_engine  # Gerencia a conexão entre o Python e bancos de dados (SQL)

In [104]:
# Em vez de usar o 'cursor', crie um 'engine'
# Formato: mysql+mysqlconnector://usuario:senha@host:porta/nome_do_banco
engine = create_engine('mysql+mysqlconnector://adados:12345@localhost:3306/aula')

print("Engine de conexão criado com sucesso!")

Engine de conexão criado com sucesso!


In [111]:
# Lista das colunas que você quer manter
colunas_desejadas = ['data', 'produto', 'quantidade', 'valor_unitario', 'cliente_regiao', 'status', 'valor_total']

# Criando o novo DataFrame
df_sql = df[colunas_desejadas].copy()
df_sql

Unnamed: 0,data,produto,quantidade,valor_unitario,cliente_regiao,status,valor_total
0,2024-01-01,Notebook,3,4593.89,Norte,Aprovado,13781.67
1,2024-01-02,Smartphone,2,3410.19,Norte,Aprovado,6820.38
2,2024-01-03,Mouse Wireless,5,135.02,Norte,Aprovado,675.10
3,2024-01-04,Mouse Wireless,3,288.26,Sul,Aprovado,864.78
4,2024-01-05,Monitor,3,1792.04,Leste,Cancelado,5376.12
...,...,...,...,...,...,...,...
95,2024-04-05,Smartphone,4,3367.21,Leste,Pendente,13468.84
96,2024-04-06,Mouse Wireless,4,254.53,Centro,Aprovado,1018.12
97,2024-04-07,Cadeira Gamer,1,1614.02,Leste,Cancelado,1614.02
98,2024-04-08,Smartphone,3,1883.95,Leste,Aprovado,5651.85


In [113]:
try:
    # 4. Grave o DataFrame no MySQL

    df_sql.to_sql(
        name='vendas_tratadas', 
        con=engine, 
        if_exists='append', # Replace: Substitui a tabela se ela já existir / Append:Adiciona os dados na tabela que você já criou
        index=False,         # Remove a coluna 0 (índice)
        chunksize=1000       # Melhora a performance em grandes volumes
    )
    print("Dados gravados no MySQL com sucesso!")
except Exception as e:
    print(f"Erro ao gravar no banco: {e}")

Dados gravados no MySQL com sucesso!
