## üîç Importa√ß√£o das Bibliotecas e Leitura do Arquivo CSV
Neste passo, vamos importar as bibliotecas necess√°rias e carregar o arquivo CSV para an√°lise.



In [32]:
import pandas as pd
import numpy as np
# Caminho do arquivo CSV
caminho_arquivo = 'vendas_modificado.csv'

# Leitura do CSV com fallback de encoding corrigido via bytes
df = pd.read_csv(caminho_arquivo, encoding='latin1')


# Corre√ß√£o de textos com poss√≠vel corrup√ß√£o de UTF-8
def corrigir_encoding(texto):
    try:
        return texto.encode('latin1').decode('utf-8')
    except:
        return texto


# Aplicar em campos textuais princicep
for coluna in ['cliente', 'produto', 'vendedor', 'marca', 'cidade', 'estado', 'cep', 'pagamento']:
    df[coluna] = df[coluna].astype(str).apply(corrigir_encoding)


## üîç Limpeza de Dados - Tratamento de Data e Hora
O objetivo √© garantir que a coluna `data` esteja no formato `YYYY-MM-DD` e a coluna `hora` no formato `HH:MM:SS`.

### Passos:
1. Converter o campo `data` para o formato `YYYY-MM-DD`.
2. Ajustar o campo `hora` para o formato `HH:MM:SS`.


In [33]:
# Limpeza do campo 'data' para o formato 'YYYY-MM-DD'
df['data'] = pd.to_datetime(df['data'], errors='coerce').dt.strftime('%Y-%m-%d')

# Limpeza do campo 'hora' para o formato 'HH:MM:SS'
# Supondo que o formato seja 'HH:MM' ou 'HH:MM:SS'
df['hora'] = pd.to_datetime(df['hora'], format='%H:%M:%S', errors='coerce').dt.strftime('%H:%M:%S')

# Verificar as primeiras linhas ap√≥s a limpeza
df[['data', 'hora']].head()


Unnamed: 0,data,hora
0,2021-03-20,23:35:51
1,2020-10-30,09:00:53
2,2021-06-09,15:30:28
3,2022-06-04,08:41:23
4,2019-05-04,13:38:45


# üîç Verificar valores inv√°lidos (NaT) nos campos 'data' e 'hora'


In [34]:
# Reconvertendo os campos para datetime para valida√ß√£o
data_invalidas = pd.to_datetime(df['data'], errors='coerce', format='%Y-%m-%d').isna()
hora_invalidas = pd.to_datetime(df['hora'], errors='coerce', format='%H:%M:%S').isna()

# Total de valores inv√°lidos
print("üìÖ Datas inv√°lidas:", data_invalidas.sum())
print("‚è∞ Horas inv√°lidas:", hora_invalidas.sum())

# (Opcional) Exibir algumas linhas com problemas
df[data_invalidas | hora_invalidas][['data', 'hora']].head(10)


üìÖ Datas inv√°lidas: 0
‚è∞ Horas inv√°lidas: 0


Unnamed: 0,data,hora


## üë§ Verifica√ß√£o da coluna `cliente`

Nesta etapa, vamos verificar poss√≠veis problemas com os dados de clientes, como:
- Valores nulos ou vazios
- Espa√ßos desnecess√°rios
- Inconsist√™ncias de formata√ß√£o (mai√∫sculas/min√∫sculas)
- Registros inv√°lidos ou muito curtos


In [35]:
# Remover espa√ßos desnecess√°rios
df['cliente'] = df['cliente'].astype(str).str.strip()

# Verificar valores nulos ou vazios
clientes_nulos = df['cliente'].isna() | (df['cliente'] == '')
print("üë§ Clientes vazios ou nulos:", clientes_nulos.sum())

# Verificar nomes curtos (com 2 ou menos caracteres)
clientes_curto = df['cliente'].str.len() <= 2
print("üë§ Clientes com nomes muito curtos (<= 2 caracteres):", clientes_curto.sum())

# Exibir amostra de poss√≠veis problemas
df[clientes_nulos | clientes_curto]['cliente'].value_counts().head(10)


üë§ Clientes vazios ou nulos: 0
üë§ Clientes com nomes muito curtos (<= 2 caracteres): 0


Series([], Name: count, dtype: int64)

## üîç Verifica√ß√£o adicional e normaliza√ß√£o de nomes de clientes

Agora, vamos verificar poss√≠veis problemas adicionais, como espa√ßos extras, inconsist√™ncias na capitaliza√ß√£o e duplicatas. Em seguida, vamos normalizar todos os nomes para **letras mai√∫sculas**.


In [36]:
# Remover espa√ßos extras (in√≠cio e fim)
df['cliente'] = df['cliente'].str.strip()

# Normalizar para mai√∫sculas
df['cliente'] = df['cliente'].str.upper()

# Verificar se h√° nomes com n√∫meros ou s√≠mbolos (considerando nomes v√°lidos)
# Vamos filtrar apenas se contiver n√∫meros ou caracteres n√£o alfab√©ticos
clientes_invalidos = df['cliente'].str.contains(r'[^A-Z\s√á√Å√â√ç√ì√ö√£√¢√£√°√†]', regex=True)

print("üö® Clientes com caracteres inv√°lidos:", clientes_invalidos.sum())

# Exibir amostra de clientes inv√°lidos
df[clientes_invalidos]['cliente'].drop_duplicates().head(10)

# Verificar duplicatas
duplicatas = df['cliente'].duplicated().sum()
print(f"üîÅ Total de clientes duplicados: {duplicatas}")


üö® Clientes com caracteres inv√°lidos: 53132
üîÅ Total de clientes duplicados: 368104


In [37]:
# Verificar se h√° registros id√™nticos (mesmo cliente, mesmo produto, mesma data e hora)
duplicatas_identicas = df.duplicated(subset=['cliente', 'produto', 'data', 'hora'], keep=False)
print(f"üö® Total de registros id√™nticos (mesmo cliente, produto e data/hora): {duplicatas_identicas.sum()}")

# Exibir registros id√™nticos
df[duplicatas_identicas].head(20)


üö® Total de registros id√™nticos (mesmo cliente, produto e data/hora): 136359


Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca
0,13679,2021-03-20,23:35:51,LUCAS ARAUJO KUHN,Queijo Mussarela,"R$ 16,87",13,239.31,Pagamento Confirmado,Niter√≥i,RJ,Brasil,24000-000,20.0,Cart√£o de Cr√©dito,SAMUEL HENRIQUE CA√áADOR,Porto Alegre
1,28070,2020-10-30,09:00:53,MICAEL SOUZA RONCETE,Molho de Tomate,"R$ 3,25",3,9.75,Pagamento Confirmado,Mariana,MG,Brasil,35420-000,0.0,Pix,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Fugini
4,47123,2019-05-04,13:38:45,GABRIEL MATOS LIMA DA CUNHA,Caf√©,"R$ 9,48",2,18.96,Em Separa√É¬ß√É¬£o,Conselheiro Lafaiete,MG,Brasil,36400-000,0.0,Cart√£o de Cr√©dito,HENRICO MATOS LIMA DA CUNHA,3 Cora√ß√µes
5,38623,2018-02-19,17:32:01,LUCAS ANT√îNIO DE SOUZA NETO,Caf√©,"R$ 10,16",1,20.16,Entregue com Sucesso,Resende Costa,MG,Brasil,36340-000,10.0,Transfer√™ncia Banc√°ria,VICTOR GON√áALVES DONADONI,3 Cora√ß√µes
9,10575,2018-10-01,18:36:45,HENRICO DA CUNHA TEIXEIRA,Sabonete,"R$ 1,25",2,13.0,Em Separa√É¬ß√É¬£o,S√£o Jo√£o del-Rei,MG,Brasil,36300-000,10.5,Boleto,GABRIEL QUEIROZ DE AGUIAR,Dove
10,43813,2021-06-04,21:07:04,PEDRO MATOS LIMA DA CUNHA,A√ß√∫car,"R$ 3,59",1,3.59,Aguardando Pagamento,S√£o Gon√ßalo,RJ,Brasil,24400-000,0.0,Transfer√™ncia Banc√°ria,SAMUEL HENRIQUE CA√áADOR,Caravelas
12,10784,2020-07-03,22:34:21,MATEUS VICTOR ALVES,Manteiga,"R$ 6,61",8,71.88,Em Transporte,Duque de Caxias,RJ,Brasil,25000-000,19.0,Pix √† Vista,SAMUEL HENRIQUE CA√áADOR,Itamb√©
13,1271,2021-04-18,10:56:01,CARLOS ASSIS NOGUEIRA SILVA,Papel Higi√™nico,"R$ 3,89",12,46.68,Em Separa√É¬ß√É¬£o,Maca√©,RJ,Brasil,27900-000,0.0,Transfer√™ncia Banc√°ria,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,Neve
15,5650,2021-06-11,14:18:25,VICTOR DA CUNHA TEIXEIRA,Caf√©,"R$ 5,29",1,5.29,Em Separa√É¬ß√É¬£o,Vi√ßosa,MG,Brasil,36570-000,0.0,Transfer√™ncia Banc√°ria,MICAEL MALAQUIAS DE SOUZA OLIVEIRA,3 Cora√ß√µes
17,24847,2022-06-23,12:15:47,THIAGO LACERDA PORTUGAL DA SILVA,A√ß√∫car,"R$ 3,75",3,24.25,Em Separa√É¬ß√É¬£o,Juiz de Fora,MG,Brasil,36000-000,13.0,Transfer√™ncia Banc√°ria,SAMUEL HENRIQUE CA√áADOR,Caravelas


In [38]:
# Convertendo todos os nomes para mai√∫sculas
df['cliente'] = df['cliente'].str.upper()


### üî¢ Verifica√ß√£o de Formato de Valores Monet√°rios

Este c√≥digo verifica se os valores na coluna `valor` est√£o no formato correto de moeda brasileira: "R$ 10,23".

**Como funciona:**

1. **Express√£o Regular**: Utiliza uma regex para garantir que o valor esteja no padr√£o correto.
2. **Filtragem de Valores Inv√°lidos**: Identifica os valores que n√£o seguem o formato esperado.
3. **Exibi√ß√£o dos Valores Inv√°lidos**: Mostra os primeiros valores fora do padr√£o.

O objetivo √© identificar e corrigir valores que n√£o est√£o no formato correto.


In [39]:
import re

# Remover espa√ßos em branco extras
df['valor'] = df['valor'].str.strip()

# Criar uma express√£o regular para verificar o formato esperado "R$ xx,xx"
pattern = r"^R\$\s\d{1,3}(\.\d{3})*(,\d{2})?$"

# Verificar quais valores n√£o est√£o no formato esperado
invalid_values = df[~df['valor'].str.match(pattern, na=False)]

# Mostrar os valores inv√°lidos
invalid_values[['valor']].head()


Unnamed: 0,valor
64,"R$ 586,8800000000001"
72,"R$ 14,1"
73,"R$ 2,9"
82,"R$ 2,9"
92,"R$ 14,6"


In [40]:
import pandas as pd
import numpy as np

# Converter a coluna 'valor' para num√©rico ap√≥s limpar o formato
df['valor'] = pd.to_numeric(
    df['valor'].astype(str)
        .str.replace(r'R\$', '', regex=True)
        .str.replace(',', '.'),
    errors='coerce'
)

# Verificar e reportar os valores n√£o num√©ricos
valores_nao_numericos = df['valor'].isna().sum()
if valores_nao_numericos > 0:
    print(f"üîç Total de valores n√£o num√©ricos ou n√£o convertidos: {valores_nao_numericos}")
else:
    print("‚úîÔ∏è Todos os valores foram convertidos com sucesso para num√©rico.")

# C√°lculo dos quartis e IQR
Q1 = df['valor'].quantile(0.25)
Q3 = df['valor'].quantile(0.75)
IQR = Q3 - Q1

# Limites para detec√ß√£o de outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Identificar outliers
outliers = df[(df['valor'] < limite_inferior) | (df['valor'] > limite_superior)]
if not outliers.empty:
    print("üö® Outliers encontrados:")
    print(outliers[['valor']].head())
else:
    print("‚úîÔ∏è Nenhum outlier encontrado.")

# Substituir outliers por NaN
df.loc[(df['valor'] < limite_inferior) | (df['valor'] > limite_superior), 'valor'] = np.nan

# Preencher com a mediana
mediana = df['valor'].median()
df['valor'] = df['valor'].fillna(mediana)

# Exibir resultado final
print("\n‚úîÔ∏è Dados tratados (outliers substitu√≠dos pela mediana):")
print(df.head())




üîç Total de valores n√£o num√©ricos ou n√£o convertidos: 83
üö® Outliers encontrados:
     valor
23   30.35
35   33.33
62   23.89
64  586.88
99  454.57

‚úîÔ∏è Dados tratados (outliers substitu√≠dos pela mediana):
   id_da_compra        data      hora                      cliente  \
0         13679  2021-03-20  23:35:51            LUCAS ARAUJO KUHN   
1         28070  2020-10-30  09:00:53         MICAEL SOUZA RONCETE   
2         47484  2021-06-09  15:30:28    FELIPE AUGUSTO NERY SILVA   
3         20809  2022-06-04  08:41:23          LEVI RIBEIRO AMORIM   
4         47123  2019-05-04  13:38:45  GABRIEL MATOS LIMA DA CUNHA   

            produto  valor  quantidade   total                status  \
0  Queijo Mussarela  16.87          13  239.31  Pagamento Confirmado   
1   Molho de Tomate   3.25           3    9.75  Pagamento Confirmado   
2      √Ågua Mineral   1.63           9   36.67  Pagamento Confirmado   
3            Carv√£o   8.74           4   54.96        Em Separa√É¬ß√É¬£o

### üßπ Tratamento da Coluna `valor` e Continuidade do Pr√©-processamento

Anteriormente, realizamos um pr√©-processamento na coluna `valor` para garantir a qualidade e consist√™ncia dos dados:

- **Convers√£o de dados**: Transformamos a coluna `valor` de texto para o tipo num√©rico (`float`), removendo o s√≠mbolo `R$` e substituindo v√≠rgulas por pontos para padronizar o formato monet√°rio.
- **Detec√ß√£o e tratamento de outliers**: Identificamos valores at√≠picos (outliers) usando o m√©todo do IQR (Intervalo Interquart√≠lico) e os substitu√≠mos pela mediana da coluna para evitar distor√ß√µes na an√°lise.
- **Tratamento de valores ausentes**: Valores n√£o convertidos foram tratados como `NaN` e preenchidos tamb√©m com a mediana.

---

Agora, vamos **aplicar o mesmo processo √†s colunas `quantidade`, `total` e `frete`**, pois essas colunas:

- Tamb√©m devem estar no formato num√©rico para permitir an√°lises estat√≠sticas e c√°lculos corretos.
- Podem conter outliers que afetam a qualidade dos dados.
- Precisam estar consistentes para garantir que o campo `total` obede√ßa √† f√≥rmula esperada:

```
    total = valor * quantidade + frete
```

Al√©m disso, vamos verificar se **existem valores ausentes** nessas colunas e definir uma estrat√©gia de tratamento adequada (remo√ß√£o ou preenchimento por mediana).



## üìã Convers√£o das colunas para float e arredondamento
Convertendo as colunas de valor, quantidade, frete e total para float, arredondando com round(2) para padroniza√ß√£o.

In [41]:
# Removendo s√≠mbolos e transformando strings num√©ricas
def limpar_valor(col):
    return pd.to_numeric(
        col.astype(str)
           .str.replace(r'R\$', '', regex=True)
           .str.replace(',', '.'),
        errors='coerce'
    )

# Aplicando para as colunas relevantes
df['valor'] = limpar_valor(df['valor']).round(2)
df['frete'] = limpar_valor(df['frete']).round(2)
df['quantidade'] = limpar_valor(df['quantidade']).round(2)
df['total'] = limpar_valor(df['total']).round(2)

## üß™ Verificando valores faltantes ap√≥s a convers√£o

In [42]:
print("Valores nulos por coluna ap√≥s convers√£o:")
print(df[['valor', 'frete', 'quantidade', 'total']].isna().sum())


Valores nulos por coluna ap√≥s convers√£o:
valor            0
frete         7371
quantidade       0
total         3685
dtype: int64


## üßπ Tratamento de outliers e negativos no frete
Identificando e corrigindo outliers, valores negativos e NaN na coluna frete.

In [43]:
# Detectando outliers pelo m√©todo IQR
Q1 = df['frete'].quantile(0.25)
Q3 = df['frete'].quantile(0.75)
IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Criando m√°scara de valores problem√°ticos
frete_problema = (
    (df['frete'] < 0) |
    (df['frete'].isna()) |
    (df['frete'] < limite_inferior) |
    (df['frete'] > limite_superior)
)

print(f"Entradas com frete inv√°lido: {frete_problema.sum()}")


Entradas com frete inv√°lido: 14533


## üèôÔ∏è Agrupando frete mais comum por cidade



In [44]:
# Obter o frete mais comum por cidade (moda)
frete_mais_comum = df[~frete_problema].groupby('cidade')['frete'].agg(lambda x: x.mode().iloc[0])
print("\nFretes mais comuns por cidade:")
print(frete_mais_comum)



Fretes mais comuns por cidade:
cidade
Angra dos Reis            0.0
Astolfo Dutra             0.0
Barbacena                12.0
Barroso                   0.0
Belford Roxo             19.0
Belo Horizonte            0.0
Bicas                     0.0
Cabo Frio                22.0
Campinas                  0.0
Campos dos Goytacazes     0.0
Caranda√≠                  9.0
Cataguases                0.0
Congonhas                10.5
Conselheiro Lafaiete      0.0
Coronel Xavier Chaves     0.0
Duque de Caxias           0.0
Ewbank da C√¢mara          0.0
Guarulhos                 0.0
Itabora√≠                  0.0
Juiz de Fora             13.0
Lagoa Dourada            10.0
Leopoldina                0.0
Lima Duarte               0.0
Maca√©                     0.0
Mag√©                     18.0
Mariana                   0.0
Matias Barbosa           10.0
Muria√©                    0.0
Niter√≥i                   0.0
Nova Igua√ßu               0.0
Ouro Branco               0.0
Ouro Preto             

## üîÅ Corrigindo fretes inv√°lidos com base na cidade

In [45]:
# Preencher fretes inv√°lidos com a moda por cidade
def substituir_frete(row):
    if frete_problema.loc[row.name]:
        return frete_mais_comum.get(row['cidade'], np.nan)
    return row['frete']

df['frete'] = df.apply(substituir_frete, axis=1).round(2)

print("\n‚úîÔ∏è Fretes corrigidos com base na cidade.")



‚úîÔ∏è Fretes corrigidos com base na cidade.


## üìê Verifica√ß√£o da f√≥rmula do total: `total = valor * quantidade + frete`


In [46]:
# Calculando o total te√≥rico
df['total_calculado'] = (df['valor'] * df['quantidade'] + df['frete']).round(2)

# Verificando diverg√™ncias
inconsistentes = df[df['total'] != df['total_calculado']]
print(f"\n‚ö†Ô∏è Linhas com total inconsistente: {inconsistentes.shape[0]}")
print(inconsistentes[['valor', 'quantidade', 'frete', 'total', 'total_calculado']].head())



‚ö†Ô∏è Linhas com total inconsistente: 31922
    valor  quantidade  frete   total  total_calculado
23   4.01           3    8.5   99.55            20.53
35   4.01           6   20.0  219.98            44.06
62   4.01           7    0.0  167.23            28.07
64   4.01           6    0.0   26.88            24.06
73   2.90          13    0.0   48.70            37.70


## üõ†Ô∏è Corrigindo valores de `total` com base na f√≥rmula


In [47]:
df['total'] = df['total_calculado']
df.drop(columns=['total_calculado'], inplace=True)
print("\n‚úîÔ∏è Coluna 'total' corrigida com base na f√≥rmula.")



‚úîÔ∏è Coluna 'total' corrigida com base na f√≥rmula.


### Limpeza da Coluna `status`

Agora, vamos focar na limpeza da coluna `status`. Essa coluna pode conter valores inconsistentes, como espa√ßos extras, varia√ß√µes de mai√∫sculas/min√∫sculas e valores inesperados que precisam ser tratados. O objetivo √© garantir que os dados dessa coluna sejam uniformes e estejam no formato correto para an√°lise e processamento.

#### Passos a serem seguidos:

1. **Verificar valores √∫nicos**: Vamos listar todos os valores distintos presentes na coluna `status` para identificar inconsist√™ncias.
2. **Contagem de valores**: A contagem de frequ√™ncias de cada valor ajudar√° a ver se algum valor aparece de maneira inesperada ou errada.
3. **Limpeza dos valores**:
   - Removeremos espa√ßos extras que possam estar presentes em torno


In [48]:
# Verificar todos os valores √∫nicos na coluna 'status'
valores_unicos_status = df['status'].unique()

# Exibir os valores √∫nicos
print(valores_unicos_status)


['Pagamento Confirmado' 'Em Separa√É¬ß√É¬£o' 'Entregue com Sucesso'
 'Aguardando Pagamento' 'Em Transporte' 'AP' 'Entregue' 'PC' 'Sep'
 'Separando' 'Pgto Confirmado' 'Transp' 'Transportando' 'Entg'
 'aguardando pagamento' 'Aguardando Pgto']


### üîç Limpeza e Padroniza√ß√£o da Coluna `status`

Agora, vamos proceder com a limpeza e padroniza√ß√£o dos valores da coluna `status`. O objetivo √© garantir que todos os valores estejam consistentes, facilitando a an√°lise dos dados. A coluna cont√©m v√°rias varia√ß√µes de status, incluindo abrevia√ß√µes, erros de codifica√ß√£o e diferen√ßas de mai√∫sculas/min√∫sculas.

#### A√ß√µes que ser√£o realizadas:

1. **Padroniza√ß√£o de abrevia√ß√µes**: Algumas abrevia√ß√µes, como "AP", "PC", "Sep", "Transp" e "Entg", s√£o formas curtas de status conhecidos. Vamos substitu√≠-las pelas vers√µes completas e consistentes, como "Pagamento Confirmado", "Separando", "Transportando", etc.

2. **Corre√ß√£o de erros de codifica√ß√£o**: O valor "Em Separa√É¬ß√É¬£o" cont√©m caracteres corrompidos, provavelmente devido a um problema de codifica√ß√£o de caracteres. Vamos corrigir para "Em Separa√ß√£o".

3. **Uniformiza√ß√£o de mai√∫sculas e min√∫sculas**: Para evitar discrep√¢ncias como "Aguardando Pagamento" e "aguardando pagamento", vamos normalizar todos os valores para min√∫sculas.

4. **Tratamento de valores ausentes**: Caso existam valores nulos ou faltantes, vamos definir a melhor estrat√©gia, seja removendo os registros ou imputando valores apropriados.

Ap√≥s essas modifica√ß√µes, a coluna estar√° mais limpa e padronizada, pronta para an√°lises e relat√≥rios.


In [49]:
# Dicion√°rio de mapeamento de abrevia√ß√µes para valores completos

status_map = {
    'Em Separa√É¬ß√É¬£o' : 'em separa√ß√£o',
    'AP' : 'aguardando pagamento',
    'Entregue com Sucesso' : 'entregue',
    'Sep' : 'em separa√ß√£o',
    'PC' : 'pagamento confirmado',
    'Separando' : 'em separa√ß√£o',
    'Pgto Confirmado' : 'pagamento confirmado',
    'Transp' : 'em transporte',
    'Transportando': 'em transporte',
    'Entg' : 'entregue',
    'Aguardando Pgto' : 'aguardando pagamento',
}


# Substituir as abrevia√ß√µes e corrigir a codifica√ß√£o
df['status'] = df['status'].replace(status_map)

# Corrigir poss√≠veis problemas com espa√ßos extras
df['status'] = df['status'].str.replace(r'\s+', ' ', regex=True)  # Substitui m√∫ltiplos espa√ßos por um √∫nico

# Remover espa√ßos extras antes ou depois dos textos
df['status'] = df['status'].str.strip()

# Uniformizar os valores para min√∫sculas
df['status'] = df['status'].str.lower()

# Verificar se h√° valores ausentes (nulos) e trat√°-los
df['status'] = df['status'].fillna('n√£o definido')

# Verificar o resultado
df['status'].value_counts()


status
em separa√ß√£o            110609
pagamento confirmado    109870
aguardando pagamento     74938
em transporte            36840
entregue                 36495
Name: count, dtype: int64

### Tratamento da Coluna `pagamento`

Agora, vamos realizar a limpeza e padroniza√ß√£o da coluna `pagamento` para garantir que os valores estejam consistentes e sem erros. O processo ser√° o seguinte:

1. **Verificar as Ocorr√™ncias Atuais**:
   - Vamos usar `value_counts()` para listar todas as ocorr√™ncias na coluna `pagamento` e verificar se existem abrevia√ß√µes, erros de digita√ß√£o ou valores inconsistentes. Isso nos ajudar√° a identificar se h√° valores como "boleto", "pix", "cart√£o", entre outros, de forma inconsistente ou com varia√ß√µes que precisam ser unificadas.

2. **Aplicar Mapeamento de Valores**:
   - Iremos mapear os diferentes tipos de pagamento, como "boleto", "pix", "cart√£o", etc., para valores consistentes. Isso inclui corrigir abrevia√ß√µes, erros de digita√ß√£o ou varia√ß√µes de capitaliza√ß√£o. Por exemplo, se houver "boleto banc√°rio" e "boleto", ambos devem ser mapeados para o mesmo valor.

3. **Limpeza de Espa√ßos Extras**:
   - Vamos remover espa√ßos extras antes e depois dos valores, e tamb√©m substituir m√∫ltiplos espa√ßos consecutivos por um √∫nico espa√ßo, caso haja algum.

4. **Transformar para Min√∫sculas**:
   - Para uniformizar a coluna, vamos garantir que todos os valores estejam em min√∫sculas, eliminando discrep√¢ncias relacionadas √† capitaliza√ß√£o, como "BOLETO" e "boleto", que devem ser tratados da mesma forma.

5. **Tratar Valores Ausentes**:
   - Se houver valores ausentes (nulos) na coluna `pagamento`, vamos trat√°-los substituindo-os por um valor padr√£o, como 'N√£o Definido' ou 'N√£o Informado', para evitar dados faltantes.

6. **Rever os Resultados**:
   - Ap√≥s todas as modifica√ß√µes, vamos verificar as ocorr√™ncias novamente para garantir que todos os valores estejam consistentes e que a coluna esteja pronta para an√°lise.

Esse processo garantir√° que a coluna `pagamento` tenha dados mais limpos, consistentes e prontos para serem usados em an√°lises e relat√≥rios, al√©m de facilitar a categoriza√ß√£o por tipo de pagamento.


In [50]:
# Verificar as ocorr√™ncias de cada tipo na coluna 'pagamento'
df['pagamento'].value_counts()


pagamento
Cart√£o de Cr√©dito         108459
Transfer√™ncia Banc√°ria    106721
Pix                       106504
Boleto                     36005
Pix √† Vista                 1717
Cart√£o Cr√©dito √† Vista      1677
Pagamento Instant√¢neo       1676
Cart√£o Cr√©dito              1647
TED                         1633
DOC                         1602
Boleto √† Vista               593
Boleto no Dinheiro           518
Name: count, dtype: int64

In [51]:
# Dicion√°rio de mapeamento de abrevia√ß√µes para valores completos no campo 'pagamento'
pagamento_map = {
    'Boleto √† Vista': 'boleto',
    'Boleto no Dinheiro': 'boleto',
    'Cart√£o Cr√©dito √† Vista': 'cr√©dito √† vista',
    'Cart√£o de Cr√©dito': 'cart√£o de cr√©dito',
    'TED': 'transfer√™ncia banc√°ria',
    'DOC': 'transfer√™ncia banc√°ria',
    'Pagamento Instant√¢neo': 'pix',
    'Pix √† Vista': 'pix',
}

# Substituir valores incorretos
df['pagamento'] = df['pagamento'].replace(pagamento_map)

# Corrigir poss√≠veis problemas com espa√ßos extras
df['pagamento'] = df['pagamento'].str.replace(r'\s+', ' ', regex=True)  # Substitui m√∫ltiplos espa√ßos por um √∫nico

# Remover espa√ßos extras antes ou depois dos textos
df['pagamento'] = df['pagamento'].str.strip()

# Uniformizar os valores para min√∫sculas
df['pagamento'] = df['pagamento'].str.lower()

# Verificar se h√° valores ausentes (nulos) e trat√°-los
df['pagamento'] = df['pagamento'].fillna('n√£o definido')

# Verificar o resultado
df['pagamento'].value_counts()


pagamento
transfer√™ncia banc√°ria    109956
pix                       109897
cart√£o de cr√©dito         108459
boleto                     37116
cr√©dito √† vista             1677
cart√£o cr√©dito              1647
Name: count, dtype: int64

In [52]:
# Verificar valores √∫nicos na coluna de pagamento
valores_unicos_pagamento = df['pagamento'].unique()
print("Valores √∫nicos em 'pagamento':")
print(valores_unicos_pagamento)

# Verificar se h√° valores ausentes ou nulos
valores_nulos_pagamento = df['pagamento'].isnull().sum()
print(f"Valores nulos na coluna 'pagamento': {valores_nulos_pagamento}")

Valores √∫nicos em 'pagamento':
['cart√£o de cr√©dito' 'pix' 'transfer√™ncia banc√°ria' 'boleto'
 'cr√©dito √† vista' 'cart√£o cr√©dito']
Valores nulos na coluna 'pagamento': 0


### üåç Limpeza e Padroniza√ß√£o da Coluna `estado`

Agora iremos realizar a limpeza e padroniza√ß√£o da coluna `estado` do nosso conjunto de dados. O objetivo √© garantir consist√™ncia nos valores representando os estados brasileiros.

#### Etapas previstas:
1. **Inspe√ß√£o dos valores √∫nicos**: Verificar quais valores diferentes est√£o presentes na coluna `estado`, identificando poss√≠veis erros de digita√ß√£o, abrevia√ß√µes inconsistentes ou valores inv√°lidos.
2. **Cria√ß√£o de um dicion√°rio de mapeamento**: Construir um dicion√°rio para padronizar os nomes e siglas dos estados. Por exemplo, transformar "sp", "SP ", "S√£o Paulo", etc., em "SP".
3. **Aplica√ß√£o do mapeamento**: Substituir os valores inconsistentes pelos padronizados, utilizando o dicion√°rio de mapeamento.
4. **Tratamento de valores ausentes**: Se houver estados ausentes (`NaN`),


In [53]:
# Verificar valores √∫nicos na coluna de estado
valores_unicos_estado = df['estado'].unique()
print("Valores √∫nicos em 'estado':")
print(valores_unicos_estado)

# Verificar se h√° valores ausentes ou nulos
valores_nulos_estado = df['estado'].isnull().sum()
print(f"Valores nulos na coluna 'estado': {valores_nulos_estado}")


Valores √∫nicos em 'estado':
['RJ' 'MG' 'SP' 'MTSa' 'S√£o Paulo' 'RS' 'PR' 'PSC']
Valores nulos na coluna 'estado': 0


In [54]:
# Dicion√°rio de mapeamento para padronizar os estados
estado_map = {
    'S√£o Paulo': 'SP',
    'MTSa': 'MT',
    'PSC': 'SC'
}

# Aplicar o mapeamento
df['estado'] = df['estado'].replace(estado_map)

# Verificar os valores √∫nicos ap√≥s a substitui√ß√£o
df['estado'].unique()


array(['RJ', 'MG', 'SP', 'MT', 'RS', 'PR', 'SC'], dtype=object)

## üèôÔ∏è Conex√£o entre as Colunas 'CEP' e 'Cidade'

### Objetivo:
O objetivo de realizar uma valida√ß√£o combinada entre as colunas **CEP** e **Cidade** √© garantir que os dados de localiza√ß√£o estejam consistentes, completos e correspondam corretamente entre si. Isso √© crucial para garantir a qualidade e precis√£o dos dados, al√©m de permitir an√°lises e opera√ß√µes futuras sem erros ou inconsist√™ncias.

### Por que Validar 'CEP' e 'Cidade' Juntas?

1. **Consist√™ncia de Dados**:
   - O **CEP** √© um c√≥digo postal utilizado para identificar a localiza√ß√£o geogr√°fica de um endere√ßo, e ele √© diretamente relacionado √† **cidade** em que est√° localizado. Portanto, √© importante que, ao validarmos o **CEP**, tamb√©m verifiquemos se ele corresponde √† cidade associada.
   - Se a cidade for v√°lida, mas o **CEP** n√£o corresponder ou estiver em um formato inv√°lido, isso pode indicar um erro nos dados ou uma incoer√™ncia no registro.

2. **Garantir Integridade Geogr√°fica**:
   - O processo de valida√ß√£o cruzada entre o **CEP** e a **Cidade** permite evitar casos em que o **CEP** esteja registrado para uma cidade inexistente ou errada.
   - Tamb√©m ajuda a filtrar entradas onde o **CEP** pode ser incompleto ou mal formatado, assegurando que o formato do **CEP** esteja correto, e que ele perten√ßa √† cidade informada.

3. **Preven√ß√£o de Dados Inconsistentes**:
   - Ao realizar a valida√ß√£o combinada, evitamos problemas como:
     - Cidades com **CEPs** inv√°lidos.
     - Cidades n√£o existentes ou mal escritas associadas a **CEPs** reais.
     - Dados faltantes, que podem ser preenchidos corretamente se a verifica√ß√£o for feita com base em ambas as colunas.

### Como Funciona a Valida√ß√£o Cruzada:

1. **Valida√ß√£o da Cidade**:
   - A primeira etapa consiste em garantir que o nome da cidade na coluna **cidade** seja v√°lido. Isso envolve verificar se a cidade cont√©m apenas caracteres alfab√©ticos e espa√ßos (evitar n√∫meros, caracteres especiais e valores nulos).
   - Caso algum valor da cidade seja inv√°lido (como cidades com n√∫meros ou caracteres n√£o alfab√©ticos), ele ser√° convertido para `NaN`.

2. **Valida√ß√£o do CEP**:
   - O **CEP** ser√° verificado para garantir que esteja no formato correto (ex: `00000-000`).
   - O **CEP** ser√° validado para garantir que ele n√£o contenha valores incompletos, nulos ou inv√°lidos.
   - Em paralelo, √© importante que o **CEP** se associe corretamente √† **cidade**, caso haja necessidade de valida√ß√£o geogr√°fica adicional.

3. **Valida√ß√£o Combinada**:
   - Ap√≥s a verifica√ß√£o individual, ser√° realizada uma an√°lise de consist√™ncia cruzada entre o **CEP** e a **Cidade** para garantir que a cidade associada ao **CEP** seja v√°lida.
   - Caso o **CEP** ou a **Cidade** apresentem discrep√¢ncias (como uma cidade que n√£o corresponda a um **CEP** v√°lido ou vice-versa), essas entradas ser√£o marcadas como `NaN` para posterior an√°lise e corre√ß√£o.



In [55]:
# Verificar valores √∫nicos e nulos nas colunas de 'cidade' e 'cep'
valores_unicos_cidade = df['cidade'].unique()
valores_nulos_cidade = df['cidade'].isnull().sum()

valores_unicos_cep = df['cep'].unique()
valores_nulos_cep = df['cep'].isnull().sum()

# Exibir as informa√ß√µes
print("Valores √∫nicos em 'cidade':")
print(valores_unicos_cidade)
print(f"Valores nulos na coluna 'cidade': {valores_nulos_cidade}\n")

print("Valores √∫nicos em 'cep':")
print(valores_unicos_cep)
print(f"Valores nulos na coluna 'cep': {valores_nulos_cep}\n")


Valores √∫nicos em 'cidade':
['Niter√≥i' 'Mariana' 'Cabo Frio' 'Campos dos Goytacazes'
 'Conselheiro Lafaiete' 'Resende Costa' 'S√£o Paulo' 'Bicas'
 'S√£o Jo√£o del-Rei' 'S√£o Gon√ßalo' 'S√£o Bernardo do Campo'
 'Duque de Caxias' 'Maca√©' 'Vi√ßosa' 'Juiz de Fora' 'Guarulhos'
 'Matias Barbosa' 'Campinas' 'Barroso' 'Caranda√≠' 'Barbacena' 'Itabora√≠'
 'Muria√©' 'Petr√≥polis' 'Ouro Branco' 'Prados' 'Santos Dumont' 'Cataguases'
 'S√£o Jo√£o de Meriti' 'Ub√°' 'Palma' 'Sim√£o Pereira' 'Mag√©'
 'Ewbank da C√¢mara' 'Santana do Garamb√©u' 'Astolfo Dutra'
 'S√£o Jo√£o Nepomuceno' 'Belo Horizonte' 'Tocantins' 'Congonhas'
 'S√£o Vicente de Minas' 'Coronel Xavier Chaves' 'Leopoldina'
 'Belford Roxo' 'Rit√°polis' 'Lagoa Dourada' 'Rio de Janeiro' 'Nova Igua√ßu'
 'S√£o Tiago' 'S√£o Jos√© dos Campos' 'Volta Redonda' 'Lima Duarte'
 'Santo Andr√©' 'Tiradentes' 'Ouro Preto' 'Angra dos Reis']
Valores nulos na coluna 'cidade': 0

Valores √∫nicos em 'cep':
['24000-000' '35420-000' '28900-000' '28000-000' '36

In [56]:
# Exemplo de dicion√°rio com CEPs v√°lidos para algumas cidades (o mapeamento deve ser mais completo)
cidade_para_cep = {
    'Niter√≥i': '24000-000',
    'Mariana': '35420-000',
    'Cabo Frio': '28900-000',
    'Campos dos Goytacazes': '28000-000',
    'Conselheiro Lafaiete': '36400-970',
    'Resende Costa': '36340-000',
    'S√£o Paulo': '01000-000',
    'Bicas': '36600-032',
    'S√£o Jo√£o del-Rei': '36300-001',
    'S√£o Gon√ßalo': '24410-000',
    'S√£o Bernardo do Campo': '09600-004',
    'Duque de Caxias': '25000-000',
    'Maca√©': '27975-170',
    'Vi√ßosa': '36570-000',
    'Juiz de Fora': '36000-000',
    'Guarulhos': '07000-000',
    'Matias Barbosa': '36120-000',
    'Campinas': '13000-000',
    'Barroso': '36212-000',
    'Caranda√≠': '36280-000',
    'Barbacena': '36200-000',
    'Itabora√≠': '24800-000',
    'Muria√©': '36880-000',
    'Petr√≥polis': '25600-000',
    'Ouro Branco': '36420-000',
    'Prados': '36320-000',
    'Santos Dumont': '36240-000',
    'Cataguases': '36770-000',
    'S√£o Jo√£o de Meriti': '25500-000',
    'Ub√°': '36500-000',
    'Palma': '36710-000',
    'Sim√£o Pereira': '36123-000',
    'Mag√©': '25900-000',
    'Ewbank da C√¢mara': '36108-000',
    'Santana do Garamb√©u': '36146-000',
    'Astolfo Dutra': '36780-000',
    'S√£o Jo√£o Nepomuceno': '36196-000',
    'Belo Horizonte': '30100-000',
    'Tocantins': '36680-000',
    'Congonhas': '36415-000',
    'S√£o Vicente de Minas': '36510-000',
    'Coronel Xavier Chaves': '36415-000',
    'Leopoldina': '36770-000',
    'Belford Roxo': '26100-000',
    'Rit√°polis': '36335-000',
    'Lagoa Dourada': '36240-000',
    'Rio de Janeiro': '20000-000',
    'Nova Igua√ßu': '26200-000',
    'S√£o Tiago': '36280-000',
    'S√£o Jos√© dos Campos': '12200-000',
    'Volta Redonda': '27200-000',
    'Lima Duarte': '36140-000',
    'Santo Andr√©': '09000-000',
    'Tiradentes': '36325-000',
    'Ouro Preto': '35400-000',
    'Angra dos Reis': '23900-000'
}

# Fun√ß√£o para corrigir CEPs inv√°lidos
def corrigir_cep(row):
    if 'X' in row['cep'] or len(row['cep']) != 9:
        return cidade_para_cep.get(row['cidade'], row['cep'])  # Substitui se a cidade tiver um CEP v√°lido mapeado
    return row['cep']

# Aplicar a fun√ß√£o ao DataFrame
df['cep'] = df.apply(corrigir_cep, axis=1)

# Salvar o DataFrame atualizado
df.to_csv('vendas_limpo.csv', index=False)


In [57]:
# Verificar valores √∫nicos e nulos nas colunas de 'cidade' e 'cep'
valores_unicos_cidade = df['cidade'].unique()
valores_nulos_cidade = df['cidade'].isnull().sum()

valores_unicos_cep = df['cep'].unique()
valores_nulos_cep = df['cep'].isnull().sum()

# Exibir as informa√ß√µes
print("Valores √∫nicos em 'cidade':")
print(valores_unicos_cidade)
print(f"Valores nulos na coluna 'cidade': {valores_nulos_cidade}\n")

print("Valores √∫nicos em 'cep':")
print(valores_unicos_cep)
print(f"Valores nulos na coluna 'cep': {valores_nulos_cep}\n")


Valores √∫nicos em 'cidade':
['Niter√≥i' 'Mariana' 'Cabo Frio' 'Campos dos Goytacazes'
 'Conselheiro Lafaiete' 'Resende Costa' 'S√£o Paulo' 'Bicas'
 'S√£o Jo√£o del-Rei' 'S√£o Gon√ßalo' 'S√£o Bernardo do Campo'
 'Duque de Caxias' 'Maca√©' 'Vi√ßosa' 'Juiz de Fora' 'Guarulhos'
 'Matias Barbosa' 'Campinas' 'Barroso' 'Caranda√≠' 'Barbacena' 'Itabora√≠'
 'Muria√©' 'Petr√≥polis' 'Ouro Branco' 'Prados' 'Santos Dumont' 'Cataguases'
 'S√£o Jo√£o de Meriti' 'Ub√°' 'Palma' 'Sim√£o Pereira' 'Mag√©'
 'Ewbank da C√¢mara' 'Santana do Garamb√©u' 'Astolfo Dutra'
 'S√£o Jo√£o Nepomuceno' 'Belo Horizonte' 'Tocantins' 'Congonhas'
 'S√£o Vicente de Minas' 'Coronel Xavier Chaves' 'Leopoldina'
 'Belford Roxo' 'Rit√°polis' 'Lagoa Dourada' 'Rio de Janeiro' 'Nova Igua√ßu'
 'S√£o Tiago' 'S√£o Jos√© dos Campos' 'Volta Redonda' 'Lima Duarte'
 'Santo Andr√©' 'Tiradentes' 'Ouro Preto' 'Angra dos Reis']
Valores nulos na coluna 'cidade': 0

Valores √∫nicos em 'cep':
['24000-000' '35420-000' '28900-000' '28000-000' '36

# üìù An√°lise de Produtos e Marcas - Documenta√ß√£o de Processos

## üîç Objetivo

O objetivo dessa etapa foi realizar uma an√°lise explorat√≥ria na base de dados, com foco em verificar e corrigir valores de produtos e marcas. Tamb√©m foram realizadas verifica√ß√µes para identificar dados faltantes e inconsist√™ncias nos nomes dos produtos. Para isso, foi utilizado um dicion√°rio de corre√ß√µes para garantir que os nomes dos produtos estejam uniformizados.

## üõ†Ô∏è Etapas Realizadas

### 1. **Verifica√ß√£o de Valores Nulos**
Antes de iniciar qualquer an√°lise, √© importante verificar se existem valores nulos na base de dados. Isso ajuda a identificar poss√≠veis problemas de qualidade de dados. Foram realizadas as seguintes verifica√ß√µes:

- **Produtos Nulos**: Verificamos quantos produtos est√£o ausentes (`NaN`).
- **Marcas Nulas**: Verificamos quantas marcas est√£o ausentes (`NaN`).

```python
# Verificar valores nulos
print("üîç Produtos nulos:", df['produto'].isna().sum())
print("üîç Marcas nulas:", df['marca'].isna().sum())


In [58]:
# Verificar valores nulos
print("üîç Produtos nulos:", df['produto'].isna().sum())
print("üîç Marcas nulas:", df['marca'].isna().sum())

# Verificar valores √∫nicos
print("\nüì¶ Produtos √∫nicos:")
print(df['produto'].value_counts())

print("\nüè∑Ô∏è Marcas √∫nicas:")
print(df['marca'].value_counts())

# Checar por valores estranhos (ex: espa√ßos extras, letras mai√∫sculas/min√∫sculas diferentes)
print("\nüîé Valores de 'produto' √∫nicos (ordenados):")
print(sorted(df['produto'].dropna().unique()))

print("\nüîé Valores de 'marca' √∫nicos (ordenados):")
print(sorted(df['marca'].dropna().unique()))


üîç Produtos nulos: 0
üîç Marcas nulas: 0

üì¶ Produtos √∫nicos:
produto
Pasta de Dente      25710
Queijo Mussarela    25634
Sabonete            24278
Manteiga            23769
Caf√©                21916
                    ...  
Macirr√£o                1
Deqergente              1
Cafc                    1
Queijo Mussarelz        1
Deterwente              1
Name: count, Length: 99, dtype: int64

üè∑Ô∏è Marcas √∫nicas:
marca
Dove            15224
Itamb√©           9553
Colgate          8819
Porto Alegre     8806
Quat√°            8804
                ...  
Brilhante        1001
Tixan             990
Gen√©rico          553
Marca-Br√°s        515
Ki-Brasa          515
Name: count, Length: 88, dtype: int64

üîé Valores de 'produto' √∫nicos (ordenados):
['Amaciante', 'Amaciante#$@!', 'Amaciayte', 'Arroc', 'Arroz', 'Arroz#$@!', 'A√ß√∫car', 'A√ß√∫car#$@!', 'A√ß√∫caz', 'Biscoito Recheado', 'Biscoito Recheado#$@!', 'Biscoitq Recheado', 'Cafc', 'Caff', 'Caft', 'Caf√©', 'Caf√©#$@!', 'Carv√£

## An√°lise de Produtos por Marca
Queremos entender quantos produtos diferentes existem para cada marca. Para isso, usamos a fun√ß√£o groupby para contar o n√∫mero de produtos √∫nicos por marca.

In [59]:
# Verificar quantos produtos √∫nicos cada marca tem
produtos_por_marca = df.groupby('marca')['produto'].nunique().sort_values(ascending=False)
print("\nüìä Produtos √∫nicos por marca:")
print(produtos_por_marca)


üìä Produtos √∫nicos por marca:
marca
Dove          7
3 Cora√ß√µes    6
Pantene       5
Itamb√©        5
Seda          5
             ..
Tixan         2
Uni√£o         2
Urbano        2
Veja          2
Wickbold      2
Name: produto, Length: 88, dtype: int64


# üßπ Limpeza de Dados com Dicion√°rio de Corre√ß√µes

 Durante a an√°lise, encontramos v√°rios erros de digita√ß√£o e varia√ß√µes nos nomes dos produtos. Para corrigir isso de forma eficiente, utilizamos um **dicion√°rio de corre√ß√µes**. O dicion√°rio cont√©m pares de valores, onde as chaves representam os nomes incorretos ou variantes, e os valores correspondem aos nomes corretos dos produtos.

### Abaixo, mostramos um exemplo de como os nomes dos produtos foram corrigidos:

In [60]:
dict_produtos_corrigidos = {
    'Cafc': 'Caf√©', 'Caff': 'Caf√©', 'Caft': 'Caf√©', 'Clf√©': 'Caf√©', 'Cnf√©': 'Caf√©',
    'Caf√©#$@!': 'Caf√©',

    'Qbeijo Mussarela': 'Queijo Mussarela',
    'Queijo Mussarelz': 'Queijo Mussarela',
    'Queijo Mussarela#$@!': 'Queijo Mussarela',

    'zabonete': 'Sabonete', 'Sabonepe': 'Sabonete',
    'Sabonete#$@!': 'Sabonete',

    'Deqergente': 'Detergente', 'Deterwente': 'Detergente',
    'Detergente#$@!': 'Detergente',

    'Desinfekante': 'Desinfetante', 'Desinfetanue': 'Desinfetante',
    'Desinfetante#$@!': 'Desinfetante',

    'Macirr√£o': 'Macarr√£o', 'Macawr√£o': 'Macarr√£o', 'Majarr√£o': 'Macarr√£o', 'Mqcarr√£o': 'Macarr√£o',
    'Macarr√£o#$@!': 'Macarr√£o',

    'Papel Twalha': 'Papel Toalha', 'Papel qoalha': 'Papel Toalha',
    'Papel Toalha#$@!': 'Papel Toalha',

    'Condibionador': 'Condicionador', 'Condicioiador#$@!': 'Condicionador', 'Condicionador#$@!': 'Condicionador',

    '√Ågua Mineras': '√Ågua Mineral', '√Ågua Mineual': '√Ågua Mineral',
    '√Ågua Mineral#$@!': '√Ågua Mineral',

    'Arroc': 'Arroz', 'Arroz#$@!': 'Arroz',

    'A√ß√∫caz': 'A√ß√∫car', 'A√ß√∫car#$@!': 'A√ß√∫car',

    'Vinho#$@!': 'Vinho',

    'Shampoo#$@!': 'Shampoo',

    'Amaciante#$@!': 'Amaciante', 'Amaciayte': 'Amaciante',

    'Scl': 'Sal', 'Sal#$@!': 'Sal',

    'Presuntd': 'Presunto', 'Presunto#$@!': 'Presunto',

    'Sab√£o em P√≥#$@!': 'Sab√£o em P√≥',
    'sab√£o em p√≥': 'Sab√£o em P√≥',

    'Leite Integral#$@!': 'Leite Integral',

    'ieij√£o': 'Feij√£o', 'Feij√£o#$@!': 'Feij√£o',

    'P√£o de Forma#$@!': 'P√£o de Forma',
    'p√£o de forma': 'P√£o de Forma',

    'Sucoyde Laranja': 'Suco de Laranja', 'Suco de Laranja#$@!': 'Suco de Laranja',
    'suco de laranja': 'Suco de Laranja',

    'pasta de dente#$@!': 'Pasta de Dente',
    'pasta de dente': 'Pasta de Dente',

    'manteigt': 'Manteiga',
    'manteiga': 'Manteiga',
    'manteiga#$@!': 'Manteiga',

    'molho de tomate': 'Molho de Tomate',
    'Molho de Tomate': 'Molho de Tomate',
    'mopho de tomate': 'Molho de Tomate',
    'molho de tomate#$@!': 'Molho de Tomate',
    'Molho de Tomate#$@!': 'Molho de Tomate',
    'molmo de tomate': 'Molho de Tomate',

    'refrigerante#$@!': 'Refrigerante',
    'refrigkrante': 'Refrigerante',
    'cerveja#$@!': 'Cerveja',

    'Biscoito Recheado': 'Biscoito Recheado',
    'biscoito recheado#$@!': 'Biscoito Recheado',
    'Biscoitq Recheado': 'Biscoito Recheado',

    '√ìleo de Soja': '√ìleo de Soja',
    '√≥leo de soja#$@!': '√ìleo de Soja',

    'Farinha de Trigo': 'Farinha de Trigo',
    'farinha de trigo#$@!': 'Farinha de Trigo',
    'farinha de tripo': 'Farinha de Trigo',

    'papel higi√™nico#$@!': 'Papel Higi√™nico',
    'carv√£o#$@!': 'Carv√£o',
    'tal': 'Talco'
}
dict_produtos_corrigidos = {k.lower(): v for k, v in dict_produtos_corrigidos.items()}
df['produto'] = df['produto'].str.lower()
df['produto'] = df['produto'].replace(dict_produtos_corrigidos)
df['produto'] = df['produto'].str.title()
print("üîç Produtos √∫nicos ap√≥s corre√ß√£o:")
print(df['produto'].value_counts())

üîç Produtos √∫nicos ap√≥s corre√ß√£o:
produto
Pasta De Dente       26250
Queijo Mussarela     26161
Sabonete             24764
Manteiga             24224
Caf√©                 22372
A√ß√∫car               22150
Papel Toalha         18742
Desinfetante         18544
Molho De Tomate      12546
Condicionador        11423
Refrigerante          9643
√Ågua Mineral          9609
Farinha De Trigo      9537
Macarr√£o              9529
Sal                   9497
Biscoito Recheado     9486
Presunto              9484
Vinho                 9472
Detergente            9458
Shampoo               9443
√ìleo De Soja          9389
Suco De Laranja       9261
Cerveja               8626
P√£o De Forma          6799
Feij√£o                6317
Arroz                 6279
Papel Higi√™nico       5463
Amaciante             4972
Leite Integral        4730
Sab√£o Em P√≥           2998
Carv√£o                1583
Talco                    1
Name: count, dtype: int64


# üîç An√°lise e Debug da Coluna `vendedores`

Nesta c√©lula, vamos realizar uma an√°lise completa da coluna `vendedores` para identificar:

1. **Valores nulos** (`NaN`)
2. **Strings vazias** ou compostas apenas por espa√ßos
3. **Tipos de dados inconsistentes**
4. **Padr√µes inv√°lidos** (por exemplo, entradas num√©ricas, s√≠mbolos ou formata√ß√£o incorreta)
5. **Valores √∫nicos** para inspe√ß√£o manual

Essas verifica√ß√µes ajudam a garantir a qualidade dos dados antes de qualquer an√°lise ou uso da coluna em modelos.


In [61]:
# üîç Debug da coluna 'vendedor'

# 1. Verificar quantidade de valores nulos
nulos = df['vendedor'].isnull().sum()
print(f'üü® Valores nulos na coluna "vendedor": {nulos}')

# 2. Visualizar linhas com valores nulos
print("\nüßæ Linhas com valores nulos:")
display(df[df['vendedor'].isnull()])

# 3. Verificar valores que s√£o strings vazias ou s√≥ espa√ßos
espacos_vazios = df['vendedor'].astype(str).str.strip() == ''
print(f'\n‚ö†Ô∏è Linhas com string vazia ou espa√ßos em branco: {espacos_vazios.sum()}')
display(df[espacos_vazios])

# 4. Verificar tipos de dados na coluna
print("\nüß¨ Tipos de dados encontrados na coluna:")
print(df['vendedor'].apply(type).value_counts())

# 5. Verificar padr√µes inv√°lidos (exemplo: algo que n√£o seja apenas letras e espa√ßos)
padrao_valido = df['vendedor'].astype(str).str.match(r'^[A-Za-z√Ä-√ø\s]+$')
valores_invalidos = df[~padrao_valido]
print(f'\nüö´ Valores com padr√£o inv√°lido: {valores_invalidos.shape[0]}')
display(valores_invalidos)

# 6. Exibir valores √∫nicos (para inspe√ß√£o manual)
print("\nüîé Valores √∫nicos na coluna")
print(df['vendedor'].unique())


üü® Valores nulos na coluna "vendedor": 0

üßæ Linhas com valores nulos:


Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca



‚ö†Ô∏è Linhas com string vazia ou espa√ßos em branco: 0


Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca



üß¨ Tipos de dados encontrados na coluna:
vendedor
<class 'str'>    368752
Name: count, dtype: int64

üö´ Valores com padr√£o inv√°lido: 0


Unnamed: 0,id_da_compra,data,hora,cliente,produto,valor,quantidade,total,status,cidade,estado,pais,cep,frete,pagamento,vendedor,marca



üîé Valores √∫nicos na coluna
['SAMUEL HENRIQUE CA√áADOR' 'MICAEL MALAQUIAS DE SOUZA OLIVEIRA'
 'HENRICO MATOS LIMA DA CUNHA' 'GABRIEL QUEIROZ DE AGUIAR'
 'VICTOR GON√áALVES DONADONI' 'FELIPE HENRIQUE COSTA BARNABE MARAZO'
 'HENRICO VICTOR ALVES' 'CARLOS QUEIROZ DE AGUIAR'
 'LUCAS VITOR FA√áANHA NEVES' 'PAULO SOUZA RONCETE' 'nan']


## ‚úÖ Conclus√£o da An√°lise da Coluna `vendedor`

Bom, como n√£o encontramos erros estruturais na coluna `vendedor`, aqui est√° o resumo:

- üü® **Valores nulos reais** (`NaN`): 0
- ‚ö†Ô∏è **Strings vazias ou compostas apenas por espa√ßos**: 0
- üö´ **Padr√µes inv√°lidos (ex: n√∫meros ou s√≠mbolos)**: 0
- üß¨ **Todos os dados s√£o do tipo `str`**
- üîé **Valores √∫nicos verificados mostram um caso suspeito: `'nan'` (string)**

Embora n√£o seja um `NaN` real, o valor `'nan'` √© sem√¢ntico e logicamente inv√°lido, provavelmente resultado de uma convers√£o ou importa√ß√£o mal interpretada.

A seguir, vamos tratar esse caso espec√≠fico substituindo `'nan'` (como string) por `np.nan`, para ser tratado corretamente em opera√ß√µes futuras.


In [62]:
import numpy as np

# üéØ Substituir valores 'nan' (como string) por np.nan
df['vendedor'] = df['vendedor'].replace('nan', np.nan)

# Verificar novamente ap√≥s substitui√ß√£o
nulos_corrigidos = df['vendedor'].isnull().sum()
print(f'‚úÖ Ap√≥s corre√ß√£o, valores nulos na coluna "vendedor": {nulos_corrigidos}')


‚úÖ Ap√≥s corre√ß√£o, valores nulos na coluna "vendedor": 3680


## üí° Exemplo de l√≥gica para preenchimento:
* Ideia 1 : Se o mesmo cliente comprou o mesmo produto na mesma data, e em outra linha o vendedor est√° preenchido, podemos usar esse dado.

* Ideia 2: Se uma combina√ß√£o de produto, marca e cidade sempre aparece com o mesmo vendedor, podemos assumir esse vendedor para os nulos.

In [63]:
# Primeiro, vamos ver quantas linhas t√™m vendedor == NaN (ap√≥s a limpeza anterior)
faltando = df[df['vendedor'].isna()]
print(f"üîé Linhas com vendedor faltando: {faltando.shape[0]}")

# Exemplo: tentar preencher usando cliente + produto como chave
# Criamos um mapeamento de pares cliente-produto com vendedor conhecido
mapeamento = (
    df[df['vendedor'].notna()]
    .groupby(['cliente', 'produto'])['vendedor']
    .agg(lambda x: x.mode()[0] if not x.mode().empty else np.nan)
)

# Aplicar esse mapeamento para preencher os nulos
def preencher_vendedor(row):
    if pd.isna(row['vendedor']):
        return mapeamento.get((row['cliente'], row['produto']), np.nan)
    return row['vendedor']

df['vendedor'] = df.apply(preencher_vendedor, axis=1)

# Verificar quantos ainda ficaram sem valor
faltando_apos = df['vendedor'].isnull().sum()
print(f"‚úÖ Linhas com vendedor ainda faltando ap√≥s tentativa de preenchimento: {faltando_apos}")


üîé Linhas com vendedor faltando: 3680
‚úÖ Linhas com vendedor ainda faltando ap√≥s tentativa de preenchimento: 4


In [64]:
# Remover as linhas com vendedor ainda faltando
df = df[df['vendedor'].notna()].reset_index(drop=True)

print(f"‚úÖ Base final sem valores nulos em 'vendedor': {df.shape[0]} linhas")


‚úÖ Base final sem valores nulos em 'vendedor': 368748 linhas


In [66]:
# Normalizando o texto da coluna 'produto' para evitar inconsist√™ncias
df['produto'] = df['produto'].str.strip().str.lower()

# Removendo o item 'talco' da an√°lise
if (df['produto'] == 'talco').sum() == 1:
    df = df[df['produto'] != 'talco']
    print("‚úÖ Produto 'talco' removido com sucesso.")
else:
    print("‚ö†Ô∏è Produto 'talco' aparece mais de uma vez.")

‚úÖ Produto 'talco' removido com sucesso.


In [67]:
df.to_csv('vendas_limpo.csv', index=False)
print("‚úÖ Arquivo salvo como 'vendas_limpos.csv'")


‚úÖ Arquivo salvo como 'vendas_limpos.csv'


In [69]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth, association_rules

# üßπ Garante que est√° trabalhando com uma c√≥pia segura do DataFrame
df = df.copy()

# üß© Cria uma nova coluna com Produto + Pagamento
df.loc[:, 'item'] = df['produto'].astype(str).str.strip() + ' | ' + df['pagamento'].astype(str).str.strip()

# üõí Agrupa por compra (id_da_compra), gerando listas de itens por transa√ß√£o
transacoes = df.groupby('id_da_compra')['item'].apply(list).tolist()

# üîÑ Transforma as transa√ß√µes para formato bin√°rio (necess√°rio para FP-Growth)
te = TransactionEncoder()
df_bin = pd.DataFrame(te.fit(transacoes).transform(transacoes), columns=te.columns_)

# ‚õèÔ∏è Executa FP-Growth para encontrar conjuntos frequentes
frequentes = fpgrowth(df_bin, min_support=0.02, use_colnames=True)

# üîó Gera regras de associa√ß√£o com confian√ßa m√≠nima de 50%
regras = association_rules(frequentes, metric="confidence", min_threshold=0.5)

# üîç Exibe as 10 regras com maior lift (maior poder de associa√ß√£o)
regras_ordenadas = regras[['antecedents', 'consequents', 'support', 'confidence', 'lift']].sort_values(by='lift', ascending=False)

# üëÅÔ∏è Mostra os resultados
print(regras_ordenadas.head(10))


                                   antecedents  \
10     (refrigerante | transfer√™ncia banc√°ria)   
11  (suco de laranja | transfer√™ncia banc√°ria)   
7                         (refrigerante | pix)   
8                      (suco de laranja | pix)   
13          (desinfetante | cart√£o de cr√©dito)   
12          (papel toalha | cart√£o de cr√©dito)   
31                        (desinfetante | pix)   
30                        (papel toalha | pix)   
33     (papel toalha | transfer√™ncia banc√°ria)   
32     (desinfetante | transfer√™ncia banc√°ria)   

                                   consequents   support  confidence  \
10  (suco de laranja | transfer√™ncia banc√°ria)  0.020683    0.552538   
11     (refrigerante | transfer√™ncia banc√°ria)  0.020683    0.570575   
7                      (suco de laranja | pix)  0.021567    0.560659   
8                         (refrigerante | pix)  0.021567    0.575111   
13          (papel toalha | cart√£o de cr√©dito)  0.039817    0.625065   