In [863]:
import pandas as pd
import numpy as np

In [864]:
jvnq = pd.read_csv('vendas_modificado.csv')

In [865]:
jvnq.head()

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,"R$ 16,87",13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,"R$ 3,25",3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,"R$ 1,63",9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba
3,20809,2022-06-04,08:41:23,LEVI RIBEIRO AMORIM,Carvão,"R$ 8,74",4,54.96,Em Separação,Campos dos Goytacazes,RJ,Brasil,28000-000,20.0,Pix,GABRIEL QUEIROZ DE AGUIAR,Marca-Brás
4,47123,2019-05-04,13:38:45,GABRIEL MATOS LIMA DA CUNHA,Café,"R$ 9,48",2,18.96,Em Separação,Conselheiro Lafaiete,MG,Brasil,36400-000,0.0,Cartão de Crédito,HENRICO MATOS LIMA DA CUNHA,3 Corações


In [866]:
print(jvnq.dtypes)

id_da_compra      int64
data             object
hora             object
cliente          object
produto          object
valor            object
quantidade        int64
total           float64
status           object
cidade           object
estado           object
pais             object
cep              object
frete           float64
pagamento        object
vendedor         object
marca            object
dtype: object


In [867]:
jvnq['data'] = pd.to_datetime(jvnq['data'], errors='coerce').dt.strftime('%Y-%m-%d')

In [868]:
jvnq['hora'] = pd.to_datetime(jvnq['hora'], format='%H:%M:%S', errors='coerce').dt.strftime('%H:%M:%S')

In [869]:
print(jvnq[['data', 'hora']].head())

         data      hora
0  2021-03-20  23:35:51
1  2020-10-30  09:00:53
2  2021-06-09  15:30:28
3  2022-06-04  08:41:23
4  2019-05-04  13:38:45


In [870]:

colunas_numericas = ['quantidade', 'total', 'frete']

for coluna in colunas_numericas:
    jvnq[coluna] = pd.to_numeric(jvnq[coluna], errors='coerce')


print(jvnq.dtypes)

id_da_compra      int64
data             object
hora             object
cliente          object
produto          object
valor            object
quantidade        int64
total           float64
status           object
cidade           object
estado           object
pais             object
cep              object
frete           float64
pagamento        object
vendedor         object
marca            object
dtype: object


In [871]:
print(jvnq[['produto']].head())

            produto
0  Queijo Mussarela
1   Molho de Tomate
2      Água Mineral
3            Carvão
4              Café


In [872]:
import re

In [873]:
# Remover caracteres especiais da coluna 'produto'
jvnq['produto'] = jvnq['produto'].astype(str).apply(
    lambda x: re.sub(r'[^A-Za-z0-9À-ÿ\s]', '', x)
)

In [874]:
from fuzzywuzzy import process

produtos_unicos = jvnq['produto'].unique()
for prod in produtos_unicos:
    print(process.extract(prod, produtos_unicos, limit=3))

[('Queijo Mussarela', 100), ('Qbeijo Mussarela', 94), ('Queijo Mussarelz', 94)]
[('Molho de Tomate', 100), ('Mopho de Tomate', 93), ('Molmo de Tomate', 93)]
[('Água Mineral', 100), ('Água Mineras', 91), ('Água Mineual', 91)]
[('Carvão', 100), ('Açúcar', 67), ('Macarrão', 67)]
[('Café', 100), ('Caft', 86), ('Caff', 86)]
[('Feijão', 100), ('ieijão', 80), ('Queijo Mussarela', 72)]
[('Condicionador', 100), ('Condicioiador', 92), ('Condibionador', 92)]
[('Sabonete', 100), ('zabonete', 88), ('Sabonepe', 88)]
[('Açúcar', 100), ('Macarrão', 90), ('Açúcaz', 75)]
[('Manteiga', 100), ('Manteigt', 88), ('Amaciante', 59)]
[('Papel Higiênico', 100), ('Papel Toalha', 56), ('Papel qoalha', 56)]
[('Óleo de Soja', 100), ('Pão de Forma', 64), ('Molho de Tomate', 62)]
[('Vinho', 100), ('Papel Higiênico', 54), ('Farinha de Trigo', 54)]
[('Macarrão', 100), ('Açúcar', 90), ('Macawrão', 86)]
[('Shampoo', 100), ('Sal', 60), ('Sabão em Pó', 50)]
[('Presunto', 100), ('Presuntd', 88), ('Papel Toalha', 45)]
[('Cer

In [875]:
correcao_produto = {
    "Qbeijo Mussarela": "Queijo Mussarela",
    "Queijo Mussarelz": "Queijo Mussarela",
    "Mopho de Tomate": "Molho de Tomate",
    "Água Mineras": "Água Mineral",
    "Água Mineual": "Água Mineral",
    "Condicioiador": "Condicionador",
    "Condibionador": "Condicionador",
    "zabonete": "Sabonete",
    "Sabonepe": "Sabonete",
    "Macawrão": "Macarrão",
    "Manteigt": "Manteiga",
    "Papel qoalha": "Papel Toalha",
    "Papel Twalha": "Papel Toalha",
    "Presuntd": "Presunto",
    "Amaciayte": "Amaciante",
    "Desinfetanue": "Desinfetante",
    "Desinfekante": "Desinfetante",
    "Refrigkrante": "Refrigerante",
    "Arroc": "Arroz",
    "Deqergente": "Detergente",
    "Deterwente": "Detergente",
    "Cafc": "Café",
    "Caft": "Café"
}
jvnq['produto'] = jvnq['produto'].replace(correcao_produto)

In [876]:
print(jvnq[['produto']].head())

            produto
0  Queijo Mussarela
1   Molho de Tomate
2      Água Mineral
3            Carvão
4              Café


In [877]:
print(jvnq.isnull().sum())

id_da_compra       0
data               0
hora               0
cliente            0
produto            0
valor              0
quantidade         0
total           3685
status             0
cidade             0
estado             0
pais               0
cep                0
frete           7371
pagamento          0
vendedor        3680
marca              0
dtype: int64


In [878]:
jvnq['valor'] = jvnq['valor'].str.replace(r'R\$', '', regex=True).str.strip()

In [879]:
jvnq.head(3)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,1687,13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,325,3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,163,9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba


In [880]:
estado_correto = {
    'São Paulo': 'SP',
    'MTSa': 'MT',
    'PSC': 'SC'
}
jvnq['estado'] = jvnq['estado'].replace(estado_correto)

In [881]:
jvnq['Frete_Check1'] = jvnq.groupby(['cidade', 'estado'])['frete'].transform('median')

In [882]:
jvnq.head(3)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca,Frete_Check1
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,1687,13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre,0.0
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,325,3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini,0.0
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,163,9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba,22.0


In [883]:
jvnq['Frete_Check2'] = jvnq.frete.fillna(jvnq.groupby (['cidade', 'estado'])['frete'].transform('median'))

In [884]:
jvnq = jvnq[(jvnq['frete'] >= 0) & (jvnq['total'] >= 0)]

In [885]:
jvnq.head(3)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca,Frete_Check1,Frete_Check2
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,1687,13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre,0.0,20.0
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,325,3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini,0.0,0.0
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,163,9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba,22.0,22.0


In [886]:
jvnq['frete'] =   jvnq.frete.fillna(jvnq.groupby (['cidade', 'estado'])['frete'].transform('median'))

In [887]:
jvnq = jvnq.drop(columns=['Frete_Check1', 'Frete_Check2'])

In [888]:
jvnq.head(3)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,1687,13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,325,3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,163,9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba


In [889]:
print(jvnq.isnull().sum())

id_da_compra       0
data               0
hora               0
cliente            0
produto            0
valor              0
quantidade         0
total              0
status             0
cidade             0
estado             0
pais               0
cep                0
frete              0
pagamento          0
vendedor        3518
marca              0
dtype: int64


In [890]:
def corrigir_valor(valor):
    match = re.search(r'\d{1,3}(,\d{2})?', str(valor))  
    if match:
        return match.group().replace(',', '.')
    return np.nan

jvnq['valor'] = jvnq['valor'].apply(corrigir_valor).astype(float)

In [891]:
# Calcular o total correto
jvnq['total_calculado'] = jvnq['valor'] * jvnq['quantidade'] + jvnq['frete']

In [892]:
jvnq[jvnq.total.isnull()].head(6)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca,total_calculado


In [893]:
jvnq['total'] = np.where(
    np.abs(jvnq['total'] - jvnq['total_calculado']) < 0.01,
    jvnq['total'],
    jvnq['total_calculado']
)

In [894]:
jvnq.drop(columns=['total_calculado'], inplace=True)

In [895]:
jvnq.head(6)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,16.87,13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,3.25,3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,1.63,9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba
3,20809,2022-06-04,08:41:23,LEVI RIBEIRO AMORIM,Carvão,8.74,4,54.96,Em Separação,Campos dos Goytacazes,RJ,Brasil,28000-000,20.0,Pix,GABRIEL QUEIROZ DE AGUIAR,Marca-Brás
4,47123,2019-05-04,13:38:45,GABRIEL MATOS LIMA DA CUNHA,Café,9.48,2,18.96,Em Separação,Conselheiro Lafaiete,MG,Brasil,36400-000,0.0,Cartão de Crédito,HENRICO MATOS LIMA DA CUNHA,3 Corações
5,38623,2018-02-19,17:32:01,LUCAS ANTÔNIO DE SOUZA NETO,Café,10.16,1,20.16,Entregue com Sucesso,Resende Costa,MG,Brasil,36340-000,10.0,Transferência Bancária,VICTOR GONÇALVES DONADONI,3 Corações


In [896]:
print(jvnq.isnull().sum())

id_da_compra       0
data               0
hora               0
cliente            0
produto            0
valor              0
quantidade         0
total              0
status             0
cidade             0
estado             0
pais               0
cep                0
frete              0
pagamento          0
vendedor        3518
marca              0
dtype: int64


In [897]:
jvnq[jvnq.vendedor.isnull()].head(6)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
112,52388,2018-07-30,07:10:51,MIGUEL ANTÔNIO DE DECCO OLIVEIRA,Manteiga,8.77,5,56.85,Pagamento Confirmado,Juiz de Fora,MG,Brasil,36000-000,13.0,Cartão de Crédito,,Aviação
425,46034,2019-12-28,14:14:40,RAFAEL HENRIQUE COSTA BARNABE MARAZO,Suco de Laranja,825.0,5,4125.0,Aguardando Pagamento,Leopoldina,MG,Brasil,367XXXXX,0.0,Boleto,,Prats
525,30444,2022-09-11,21:39:42,LUCAS GONÇALVES DONADONI,Café,10.33,2,20.66,Em Separação,Niterói,RJ,Brasil,24000-000,-0.0,Transferência Bancária,,3 Corações
543,41142,2020-10-16,12:47:08,GABRIEL CARLOS DE SOUZA,Vinho,28.89,1,28.89,Pagamento Confirmado,Coronel Xavier Chaves,MG,Brasil,36330-000,0.0,Cartão de Crédito,,Miolo
544,194,2020-06-28,12:28:55,MATEUS Araujo Kuhn,Suco de Laranja,6.86,6,51.16,Em Separação,Lima Duarte,MG,Brasil,36140-000,10.0,Pix,,Prats
623,55288,2020-05-08,14:08:29,SAMUEL HENRIQUE CAÇADOR,Queijo Mussarela,17.69,1,17.69,Entregue,Niterói,RJ,Brasil,24000-000,0.0,Transferência Bancária,,Quatá


In [898]:
jvnq['vendedor'] = jvnq['vendedor'].fillna('DESCONHECIDO')

In [899]:
jvnq.head(6)

Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
0,13679,2021-03-20,23:35:51,LUCAS Araujo Kuhn,Queijo Mussarela,16.87,13,239.31,Pagamento Confirmado,Niterói,RJ,Brasil,24000-000,20.0,Cartão de Crédito,SAMUEL HENRIQUE CAÇADOR,Porto Alegre
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,3.25,3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini
2,47484,2021-06-09,15:30:28,FELIPE AUGUSTO NERY SILVA,Água Mineral,1.63,9,36.67,Pagamento Confirmado,Cabo Frio,RJ,Brasil,28900-000,22.0,Transferência Bancária,HENRICO MATOS LIMA DA CUNHA,Minalba
3,20809,2022-06-04,08:41:23,LEVI RIBEIRO AMORIM,Carvão,8.74,4,54.96,Em Separação,Campos dos Goytacazes,RJ,Brasil,28000-000,20.0,Pix,GABRIEL QUEIROZ DE AGUIAR,Marca-Brás
4,47123,2019-05-04,13:38:45,GABRIEL MATOS LIMA DA CUNHA,Café,9.48,2,18.96,Em Separação,Conselheiro Lafaiete,MG,Brasil,36400-000,0.0,Cartão de Crédito,HENRICO MATOS LIMA DA CUNHA,3 Corações
5,38623,2018-02-19,17:32:01,LUCAS ANTÔNIO DE SOUZA NETO,Café,10.16,1,20.16,Entregue com Sucesso,Resende Costa,MG,Brasil,36340-000,10.0,Transferência Bancária,VICTOR GONÇALVES DONADONI,3 Corações


In [900]:

jvnq = jvnq.drop_duplicates()

In [901]:
status_correto = {
    'PC': 'Pagamento Confirmado',
    'Pgto Confirmado': 'Pagamento Confirmado',
    'AP': 'Aguardando Pagamento',
    'Aguardando Pgto': 'Aguardando Pagamento',
    'aguardando pagamento': 'Aguardando Pagamento',
    'Sep': 'Em Separação',
    'Separando': 'Em Separação',
    'Transp': 'Em Transporte',
    'Transportando': 'Em Transporte',
    'Entg': 'Entregue com Sucesso',
    'Entregue': 'Entregue com Sucesso'
}
jvnq['status'] = jvnq['status'].replace(status_correto)

In [902]:
for col in jvnq.select_dtypes(include='object').columns:
    jvnq[col] = jvnq[col].astype(str).str.strip()

In [903]:
jvnq = jvnq.drop_duplicates()


In [904]:
colunas_numericas = ['valor', 'quantidade', 'frete', 'total']
for col in colunas_numericas:
    if col in jvnq.columns:
        jvnq = jvnq[jvnq[col] >= 0]

In [905]:
if 'produto' in jvnq.columns:
    jvnq['produto'] = jvnq['produto'].astype(str).str.strip().str.lower()

In [906]:
jvnq = jvnq[
    (jvnq["valor"] >= 0) &
    (jvnq["quantidade"] >= 0) &
    (jvnq["frete"] >= 0) &
    (jvnq["total"] >= 0)
]


In [907]:

print(jvnq.isnull().sum())

print(jvnq[jvnq.isnull().any(axis=1)])


id_da_compra    0
data            0
hora            0
cliente         0
produto         0
valor           0
quantidade      0
total           0
status          0
cidade          0
estado          0
pais            0
cep             0
frete           0
pagamento       0
vendedor        0
marca           0
dtype: int64
Empty DataFrame
Columns: [id_da_compra, data, hora, cliente, produto, valor, quantidade, total, status, cidade, estado, pais, cep, frete, pagamento, vendedor, marca]
Index: []


In [908]:
jvnq = jvnq.dropna()


In [909]:
jvnq = jvnq.drop_duplicates(subset=['produto'])

In [910]:
mapeamento_produtos = {
    'produto a': 'produto a',
    'produto b': 'produto b'
}

jvnq['produto'] = jvnq['produto'].map(mapeamento_produtos).fillna(jvnq['produto'])


In [911]:
dados_faltantes = jvnq.isna().sum().sum()

In [912]:
linhas_com_nan = jvnq[jvnq.isnull().any(axis=1)]

In [913]:
valores_inconsistentes = {}
for col in ['valor', 'quantidade', 'frete', 'total']:
    if col in jvnq.columns:
        inconsistentes = jvnq[jvnq[col] <= 0]
        if not inconsistentes.empty:
            valores_inconsistentes[col] = inconsistentes

In [914]:
jvnq = jvnq[jvnq['produto'].str.match('^[A-Za-z0-9\s]+$')]  


  jvnq = jvnq[jvnq['produto'].str.match('^[A-Za-z0-9\s]+$')]


In [915]:
valores_inconsistentes = jvnq[~jvnq['produto'].str.match('^[A-Za-z0-9\s]+$')].shape[0]

  valores_inconsistentes = jvnq[~jvnq['produto'].str.match('^[A-Za-z0-9\s]+$')].shape[0]


In [916]:
jvnq['produto'] = jvnq['produto'].replace('Produto@123', 'ProdutoCorreto')


In [917]:
produtos_unicos = jvnq['produto'].unique()

In [918]:
produtos_unicos = jvnq['produto'].astype(str).unique()
produtos_duplicados = jvnq['produto'].duplicated().sum()  
padronizacao_produtos = jvnq['produto'].str.lower().unique()

In [919]:
import unicodedata
jvnq['produto'] = jvnq['produto'].apply(lambda x: ''.join(c for c in unicodedata.normalize('NFD', x) if unicodedata.category(c) != 'Mn'))

In [920]:
produtos_unicos = jvnq['produto'].unique()

In [921]:
dados_faltantes = jvnq.isna().sum()  
total_faltante = jvnq.isna().sum().sum()

In [922]:
print(jvnq['produto'].unique())


['queijo mussarela' 'molho de tomate' 'condicionador' 'sabonete'
 'manteiga' 'vinho' 'shampoo' 'presunto' 'cerveja' 'papel toalha'
 'pasta de dente' 'amaciante' 'desinfetante' 'refrigerante' 'arroz'
 'farinha de trigo' 'biscoito recheado' 'sal' 'suco de laranja'
 'leite integral' 'detergente' 'scl' 'sucoyde laranja' 'farinha de tripo'
 'tal' 'caff' 'biscoitq recheado']


In [923]:
jvnq['produto'] = jvnq['produto'].astype(str).str.strip().str.lower()


In [924]:
jvnq = jvnq[jvnq['cep'].astype(str).str.match(r'^\d{5}-\d{3}$')]

In [925]:
for col in jvnq.select_dtypes(include='object').columns:
    jvnq[col] = jvnq[col].str.strip()

In [926]:
jvnq.to_csv('final_corrigido.csv', index=False, encoding='utf-8-sig')


## <p align="center"><strong><span style="color:blue;">Relatório Resumido</span></strong></p>

Etapas da Limpeza de Dados:
Datas:
Todas as datas foram padronizadas no formato internacional AAAA-MM-DD, facilitando a organização e a leitura dos registros.

Horários:
Os horários foram ajustados para o modelo de 24 horas, no formato HH:MM:SS, garantindo consistência nas análises envolvendo tempo.

Valores Numéricos:
As colunas com valores monetários e quantitativos como valor, quantidade, frete e total. Depois foram convertidas para tipos numéricos adequados (float ou int).

Durante esse processo, foram removidos símbolos como “R$” e vírgulas, adotando o ponto (.) como separador decimal. Para facilitar essa limpeza, utilizamos expressões regulares com a biblioteca re.

Tratamento de Dados Incompletos ou Duplicados:
Campos Vazios
Registros com informações essenciais faltando, como valor ou quantidade, foram removidos.
Já os campos que não comprometem a integridade dos dados foram preenchidos com estratégias específicas. Por exemplo, o frete foi substituído pela média dos valores existentes, e datas ausentes foram preenchidas com o valor mais frequente (moda).

Registros Duplicados:
Também foi feita uma verificação de duplicatas. Um total de X registros repetidos foi identificado e excluído, priorizando sempre a versão mais completa ou mais recente.

Correção do Campo "Total":
Para garantir que os valores do campo total estavam corretos, aplicamos a fórmula-padrão:

python
Copiar
Editar
total = (valor * quantidade) + frete
Quando identificamos divergências, os valores foram recalculados e atualizados com base nessa regra.