# üßπ Tratamento de Dados de Combust√≠veis - 2004

Este notebook tem como objetivo realizar o tratamento inicial dos dados de pre√ßos de combust√≠veis da ANP para o ano de 2004. Aqui, vamos garantir que os dados estejam limpos e estruturados para an√°lises futuras.

## Objetivos:
- Carregar os dados dos dois semestres de 2004
- Verificar a consist√™ncia das colunas
- Identificar e tratar valores ausentes
- Preparar os dados para an√°lises posteriores

In [25]:
import pandas as pd
import os

# Caminhos dos arquivos
caminho_1s = 'dados_anp_ca/ca-2004-01.csv'
caminho_2s = 'dados_anp_ca/ca-2004-02.csv'

def exibir_colunas(df, nome):
    print(f"\nüìã Colunas do {nome}:")
    print("-" * 50)
    for i, col in enumerate(df.columns, 1):
        tipo = str(df[col].dtype)
        print(f"{i:2d}. {col:<40} ({tipo})")
    print(f"\nTotal: {len(df.columns)} colunas")

# Lendo os arquivos CSV
try:
    # Lendo o primeiro semestre
    print("üìÇ Carregando dados do primeiro semestre...")
    df_1s = pd.read_csv(caminho_1s, encoding='utf-8', sep=';', decimal=',')
    print(f"‚úÖ Registros carregados: {len(df_1s):,}")
    exibir_colunas(df_1s, "Primeiro Semestre")
    
    # Lendo o segundo semestre
    print("\nüìÇ Carregando dados do segundo semestre...")
    df_2s = pd.read_csv(caminho_2s, encoding='utf-8', sep=';', decimal=',')
    print(f"‚úÖ Registros carregados: {len(df_2s):,}")
    exibir_colunas(df_2s, "Segundo Semestre")
    
    # Verifica√ß√£o de colunas iguais
    colunas_1s = set(df_1s.columns)
    colunas_2s = set(df_2s.columns)
    
    if colunas_1s == colunas_2s:
        print("\n‚úÖ Todas as colunas s√£o iguais entre os dois semestres.")
    else:
        print("\n‚ùå As colunas s√£o diferentes entre os semestres.")
        
        # Mostrar diferen√ßas
        apenas_1s = colunas_1s - colunas_2s
        apenas_2s = colunas_2s - colunas_1s
        
        if apenas_1s:
            print(f"\nüîç Colunas apenas no 1¬∫ semestre ({len(apenas_1s)}):")
            for col in sorted(apenas_1s):
                print(f"   - {col}")
                
        if apenas_2s:
            print(f"\nüîç Colunas apenas no 2¬∫ semestre ({len(apenas_2s)}):")
            for col in sorted(apenas_2s):
                print(f"   - {col}")
    
    # Armazenando os DataFrames
    dados_2004 = {
        'primeiro_semestre': df_1s,
        'segundo_semestre': df_2s
    }
    
except UnicodeDecodeError:
    print("\n‚ùå Erro de codifica√ß√£o: O arquivo n√£o est√° em UTF-8. Tentando com ISO-8859-1...")
    try:
        # Tentar novamente com ISO-8859-1 se UTF-8 falhar
        df_1s = pd.read_csv(caminho_1s, encoding='ISO-8859-1', sep=';', decimal=',')
        df_2s = pd.read_csv(caminho_2s, encoding='ISO-8859-1', sep=';', decimal=',')
        print("‚úÖ Arquivos carregados com sucesso usando ISO-8859-1")
        
        # Exibir informa√ß√µes novamente
        exibir_colunas(df_1s, "Primeiro Semestre (ISO-8859-1)")
        exibir_colunas(df_2s, "Segundo Semestre (ISO-8859-1)")
        
        # Armazenar os DataFrames
        dados_2004 = {
            'primeiro_semestre': df_1s,
            'segundo_semestre': df_2s
        }
        
    except Exception as e:
        print(f"\n‚ùå Erro ao carregar os arquivos: {str(e)}")
        
except Exception as e:
    print(f"\n‚ùå Erro ao processar os arquivos: {str(e)}")

üìÇ Carregando dados do primeiro semestre...
‚úÖ Registros carregados: 281,531

üìã Colunas do Primeiro Semestre:
--------------------------------------------------
 1. Regiao - Sigla                           (object)
 2. Estado - Sigla                           (object)
 3. Municipio                                (object)
 4. Revenda                                  (object)
 5. CNPJ da Revenda                          (object)
 6. Nome da Rua                              (object)
 7. Numero Rua                               (object)
 8. Complemento                              (object)
 9. Bairro                                   (object)
10. Cep                                      (object)
11. Produto                                  (object)
12. Data da Coleta                           (object)
13. Valor de Venda                           (float64)
14. Valor de Compra                          (float64)
15. Unidade de Medida                        (object)
16. Bandeira         

In [26]:
def analisar_colunas(df, nome_periodo):
    print(f"\nüîç An√°lise de Colunas - {nome_periodo}")
    print("="*70)
    
    # Criar DataFrame com m√©tricas de cada coluna
    analise = pd.DataFrame({
        'Tipo': df.dtypes,
        'Valores_√önicos': df.nunique(),
        'Valores_Nulos': df.isnull().sum(),
        '%_Nulos': (df.isnull().sum() / len(df) * 100).round(2)
    })
    
    # Classificar colunas
    def classificar_coluna(linha):
        # Colunas com alta cardinalidade ou muitos nulos s√£o menos √∫teis
        if linha['%_Nulos'] > 50:
            return '‚ùå Baixa Utilidade'
        elif linha['Valores_√önicos'] == len(df):
            return '‚ö†Ô∏è Identificador √önico (CNPJ, ID, etc)'
        elif linha['Tipo'] == 'object':
            if linha['Valores_√önicos'] < 50:
                return '‚úÖ Categ√≥rica'
            else:
                return 'üìù Texto Livre'
        elif 'data' in linha.name.lower():
            return 'üìÖ Data (converter para datetime)'
        elif 'valor' in linha.name.lower() or 'pre√ßo' in linha.name.lower():
            return 'üí∞ M√©trica Num√©rica (importante)'
        else:
            return 'üî¢ Num√©rica'
    
    analise['Classifica√ß√£o'] = analise.apply(classificar_coluna, axis=1)
    
    # Ordenar por classifica√ß√£o e nome
    analise = analise.sort_values(['Classifica√ß√£o', 'Valores_√önicos'])
    
    # Exibir resultados
    with pd.option_context('display.max_rows', None, 'display.width', 1000):
        display(analise)
    
    return analise

# Analisar colunas de cada per√≠odo
print("üîç INICIANDO AN√ÅLISE DAS COLUNAS")
analise_1s = analisar_colunas(df_1s, "Primeiro Semestre")
analise_2s = analisar_colunas(df_2s, "Segundo Semestre")

# Identificar diferen√ßas entre os per√≠odos
colunas_diferentes = set(df_1s.columns).symmetric_difference(df_2s.columns)
if colunas_diferentes:
    print("\n‚ö†Ô∏è  ATEN√á√ÉO: Diferen√ßas nas colunas entre os semestres:", 
          ', '.join(colunas_diferentes))

üîç INICIANDO AN√ÅLISE DAS COLUNAS

üîç An√°lise de Colunas - Primeiro Semestre


Unnamed: 0,Tipo,Valores_√önicos,Valores_Nulos,%_Nulos,Classifica√ß√£o
Unidade de Medida,object,2,0,0.0,‚úÖ Categ√≥rica
Produto,object,4,0,0.0,‚úÖ Categ√≥rica
Regiao - Sigla,object,5,0,0.0,‚úÖ Categ√≥rica
Estado - Sigla,object,27,0,0.0,‚úÖ Categ√≥rica
Data da Coleta,object,33,0,0.0,‚úÖ Categ√≥rica
Complemento,object,2216,189298,67.24,‚ùå Baixa Utilidade
Valor de Venda,float64,1465,0,0.0,üí∞ M√©trica Num√©rica (importante)
Valor de Compra,float64,18224,86296,30.65,üí∞ M√©trica Num√©rica (importante)
Bandeira,object,104,0,0.0,üìù Texto Livre
Municipio,object,616,0,0.0,üìù Texto Livre



üîç An√°lise de Colunas - Segundo Semestre


Unnamed: 0,Tipo,Valores_√önicos,Valores_Nulos,%_Nulos,Classifica√ß√£o
Unidade de Medida,object,2,0,0.0,‚úÖ Categ√≥rica
Produto,object,4,0,0.0,‚úÖ Categ√≥rica
Regiao - Sigla,object,5,0,0.0,‚úÖ Categ√≥rica
Estado - Sigla,object,27,0,0.0,‚úÖ Categ√≥rica
Complemento,object,2240,616266,67.33,‚ùå Baixa Utilidade
Valor de Venda,float64,1772,0,0.0,üí∞ M√©trica Num√©rica (importante)
Valor de Compra,float64,30403,288708,31.54,üí∞ M√©trica Num√©rica (importante)
Bandeira,object,106,0,0.0,üìù Texto Livre
Data da Coleta,object,110,0,0.0,üìù Texto Livre
Municipio,object,616,0,0.0,üìù Texto Livre


# üîç Sele√ß√£o Estrat√©gica de Colunas para An√°lise

## üìä Colunas Selecionadas e Sua Relev√¢ncia

### üìç Dados Geogr√°ficos
- **Regi√£o**: Permite an√°lises macro por regi√£o do pa√≠s
- **Estado**: Essencial para an√°lises estaduais e compara√ß√µes regionais
- **Munic√≠pio**: Para an√°lises detalhadas em n√≠vel municipal
- **Bandeira**: Importante para an√°lise de mercado e compara√ß√£o entre postos

### üè∑Ô∏è Dados de Identifica√ß√£o
- **Revenda**: Identifica o estabelecimento vendedor
- **CNPJ da Revenda**: Identificador √∫nico para an√°lise por estabelecimento
- **Produto**: Tipo de combust√≠vel (gasolina, diesel, etanol, etc)

### üìÖ Dados Temporais
- **Data da Coleta**: Fundamental para an√°lise de s√©ries temporais, tend√™ncias e sazonalidade

### üí∞ Dados Financeiros
- **Valor de Venda**: Pre√ßo final ao consumidor
- **Valor de Compra**: Custo para a revenda
- **Unidade de Medida**: Garante que as compara√ß√µes sejam feitas corretamente

### üóëÔ∏è Colunas Removidas
As demais colunas foram removidas por:
- Conterem informa√ß√µes redundantes
- N√£o serem relevantes para as an√°lises propostas
- Estarem vazias ou com baixa taxa de preenchimento
- N√£o adicionarem valor anal√≠tico significativo

## üéØ Objetivo
Esta sele√ß√£o visa otimizar o conjunto de dados para an√°lises de pre√ßos de combust√≠veis, mantendo apenas as informa√ß√µes mais relevantes para:
- An√°lises de pre√ßos por regi√£o/estado/munic√≠pio
- Compara√ß√£o entre bandeiras de postos
- An√°lises temporais de varia√ß√£o de pre√ßos
- C√°lculo de margens de lucro (diferen√ßa entre venda e compra)

In [27]:
# Dicion√°rio de padroniza√ß√£o dos nomes das colunas
padrao_colunas = {
    'Regiao - Sigla': 'regiao_sigla',
    'Estado - Sigla': 'estado_sigla',
    'Municipio': 'municipio',
    'Revenda': 'revenda',
    'CNPJ da Revenda': 'cnpj_revenda',
    'Produto': 'produto',
    'Data da Coleta': 'data_coleta',
    'Valor de Venda': 'valor_venda',
    'Valor de Compra': 'valor_compra',
    'Unidade de Medida': 'unidade_medida',
    'Bandeira': 'bandeira'
}

# Lista das colunas que ser√£o mantidas (usando os nomes originais)
colunas_essenciais = [
    'Regiao - Sigla',
    'Estado - Sigla',
    'Municipio',
    'Revenda',
    'CNPJ da Revenda',
    'Produto',
    'Data da Coleta',
    'Valor de Venda',
    'Valor de Compra',
    'Unidade de Medida',
    'Bandeira'
]

# Filtrar e renomear as colunas
def preparar_dataframe(df):
    # Filtrar colunas
    df = df[colunas_essenciais].copy()
    # Renomear colunas
    return df.rename(columns=padrao_colunas)

# Aplicar a ambos os dataframes
df_1s = preparar_dataframe(df_1s)
df_2s = preparar_dataframe(df_2s)

# Verificar o resultado
print("üîç Colunas ap√≥s a filtragem e padroniza√ß√£o:")
print("-" * 50)
print(df_1s.columns.tolist())

# Mostrar as primeiras linhas do primeiro semestre como exemplo
print("\nüìã Dados do Primeiro Semestre (amostra):")
display(df_1s.head(2))

# Mostrar as primeiras linhas do segundo semestre como exemplo
print("\nüìã Dados do Segundo Semestre (amostra):")
display(df_2s.head(2))

# Converter a coluna de data
df_1s['data_coleta'] = pd.to_datetime(df_1s['data_coleta'], dayfirst=True)
df_2s['data_coleta'] = pd.to_datetime(df_2s['data_coleta'], dayfirst=True)

print("\n‚úÖ Dados preparados com sucesso!")
print(f"Primeiro semestre: {len(df_1s)} registros")
print(f"Segundo semestre: {len(df_2s)} registros")

üîç Colunas ap√≥s a filtragem e padroniza√ß√£o:
--------------------------------------------------
['regiao_sigla', 'estado_sigla', 'municipio', 'revenda', 'cnpj_revenda', 'produto', 'data_coleta', 'valor_venda', 'valor_compra', 'unidade_medida', 'bandeira']

üìã Dados do Primeiro Semestre (amostra):


Unnamed: 0,regiao_sigla,estado_sigla,municipio,revenda,cnpj_revenda,produto,data_coleta,valor_venda,valor_compra,unidade_medida,bandeira
0,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,GASOLINA,11/05/2004,1.967,1.6623,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,ETANOL,11/05/2004,0.899,0.6282,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.



üìã Dados do Segundo Semestre (amostra):


Unnamed: 0,regiao_sigla,estado_sigla,municipio,revenda,cnpj_revenda,produto,data_coleta,valor_venda,valor_compra,unidade_medida,bandeira
0,CO,MS,CAMPO GRANDE,AUTO POSTO APARECIDA DO NORTE LTDA,86.807.609/0001-92,GASOLINA,01/07/2004,2.71,2.0888,R$ / litro,LIQUIG√ÅS
1,CO,MS,CAMPO GRANDE,AUTO POSTO APARECIDA DO NORTE LTDA,86.807.609/0001-92,ETANOL,01/07/2004,1.71,1.1877,R$ / litro,LIQUIG√ÅS



‚úÖ Dados preparados com sucesso!
Primeiro semestre: 281531 registros
Segundo semestre: 915317 registros


# üîç An√°lise de Valores Nulos

## üìä Vis√£o Geral dos Dados Ausentes

Vamos analisar a quantidade e porcentagem de valores nulos em cada coluna do nosso conjunto de dados. Esta an√°lise √© crucial para entendermos a qualidade dos dados e decidirmos as melhores estrat√©gias de tratamento.

### Por que essa an√°lise √© importante?
1. **Qualidade dos Dados**: Identificar colunas com muitos valores ausentes que podem comprometer as an√°lises.
2. **Tomada de Decis√£o**: Decidir se devemos preencher, remover ou manter os valores nulos.
3. **Impacto nas An√°lises**: Entender como os valores ausentes podem afetar os resultados das nossas an√°lises.

### Pr√≥ximos Passos:
1. Verificar a quantidade de valores nulos por coluna
2. Calcular a porcentagem de valores nulos em rela√ß√£o ao total de registros
3. Identificar padr√µes nos dados ausentes
4. Decidir a melhor estrat√©gia de tratamento para cada caso

Vamos come√ßar executando a an√°lise de valores nulos para cada semestre separadamente.

In [28]:
# Fun√ß√£o para an√°lise de valores nulos
def analisar_nulos(df, nome_periodo):
    print(f"\nüîç An√°lise de Valores Nulos - {nome_periodo}")
    print("="*70)
    
    # Calcular totais
    total_registros = len(df)
    print(f"üìä Total de registros: {total_registros:,}")
    
    # Criar DataFrame com an√°lise de nulos
    nulos = pd.DataFrame({
        'Valores_Nulos': df.isnull().sum(),
        'Percentual_Nulos': (df.isnull().sum() / total_registros * 100).round(2)
    }).sort_values('Valores_Nulos', ascending=False)
    
    # Exibir apenas colunas com valores nulos
    nulos = nulos[nulos['Valores_Nulos'] > 0]
    
    if len(nulos) == 0:
        print("‚úÖ Nenhum valor nulo encontrado!")
    else:
        print(f"‚ö†Ô∏è  Colunas com valores nulos: {len(nulos)} de {len(df.columns)} colunas")
        display(nulos)
    
    return nulos

# Executar an√°lise para ambos os semestres
nulos_1s = analisar_nulos(df_1s, "Primeiro Semestre")
nulos_2s = analisar_nulos(df_2s, "Segundo Semestre")


üîç An√°lise de Valores Nulos - Primeiro Semestre
üìä Total de registros: 281,531
‚ö†Ô∏è  Colunas com valores nulos: 1 de 11 colunas


Unnamed: 0,Valores_Nulos,Percentual_Nulos
valor_compra,86296,30.65



üîç An√°lise de Valores Nulos - Segundo Semestre
üìä Total de registros: 915,317
‚ö†Ô∏è  Colunas com valores nulos: 1 de 11 colunas


Unnamed: 0,Valores_Nulos,Percentual_Nulos
valor_compra,288708,31.54


# üßπ Tratamento de Valores Ausentes

## üìä Estrat√©gia de Preenchimento

### Para Valores Num√©ricos (ex: Valor de Compra):
- **M√©todo**: Preenchimento com a mediana do grupo
- **Vantagens**:
  - Menos sens√≠vel a outliers que a m√©dia
  - Mant√©m a distribui√ß√£o original dos dados
  - Considera o contexto (produto, bandeira, regi√£o)

### Para Valores Categ√≥ricos (ex: Bandeira, Munic√≠pio):
- **M√©todo**: Preenchimento com categoria "Desconhecido"
- **Vantagens**:
  - N√£o inventa dados que n√£o existem
  - Mant√©m a transpar√™ncia do tratamento
  - Permite identificar registros que precisam de aten√ß√£o especial

In [29]:
def imputar_valores_numericos(df, coluna, colunas_agrupar):
    """
    Imputa valores num√©ricos faltantes usando a mediana do grupo.
    
    Par√¢metros:
    - df: DataFrame com os dados
    - coluna: Nome da coluna num√©rica a ser preenchida
    - colunas_agrupar: Lista de colunas para agrupar e calcular a mediana
    
    Retorna:
    - DataFrame com os valores faltantes preenchidos
    """
    # Criar c√≥pia para evitar avisos
    df = df.copy()
    
    # Calcular a mediana por grupo
    medianas = df.groupby(colunas_agrupar)[coluna].transform('median')
    
    # Preencher valores nulos com a mediana do grupo
    df[coluna] = df[coluna].fillna(medianas)
    
    # Se ainda houver valores nulos (grupos sem amostras), preencher com a mediana global
    if df[coluna].isnull().any():
        mediana_global = df[coluna].median()
        df[coluna] = df[coluna].fillna(mediana_global)
        print(f"  - {df[coluna].isnull().sum()} valores nulos restantes em '{coluna}' preenchidos com mediana global")
    
    return df

def imputar_valores_categoricos(df, colunas):
    """
    Preenche valores categ√≥ricos faltantes com a moda (valor mais frequente) de cada coluna.
    
    Par√¢metros:
    - df: DataFrame com os dados
    - colunas: Lista de colunas categ√≥ricas a serem preenchidas
    
    Retorna:
    - DataFrame com os valores faltantes preenchidos
    """
    df = df.copy()
    
    for col in colunas:
        if col in df.columns:
            # Encontrar o valor mais frequente (moda)
            moda = df[col].mode()[0]
            # Contar valores nulos antes
            nulos_antes = df[col].isnull().sum()
            # Preencher valores nulos
            df[col] = df[col].fillna(moda)
            # Contar valores nulos depois
            nulos_depois = df[col].isnull().sum()
            
            if nulos_antes > 0:
                print(f"  - {nulos_antes} valores nulos em '{col}' preenchidos com '{moda}'")
    return df

# Para o primeiro semestre
print("\n" + "="*60)
print("üìä TRATAMENTO - PRIMEIRO SEMESTRE".center(60))
print("="*60)

# Tratar valores num√©ricos
colunas_agrupar = ['produto', 'estado_sigla', 'municipio']
df_1s = imputar_valores_numericos(df_1s, 'valor_venda', colunas_agrupar)
df_1s = imputar_valores_numericos(df_1s, 'valor_compra', colunas_agrupar)

# Tratar valores categ√≥ricos
colunas_cat = ['bandeira', 'unidade_medida', 'regiao_sigla']
df_1s = imputar_valores_categoricos(df_1s, colunas_cat)

# Para o segundo semestre
print("\n" + "="*60)
print("üìä TRATAMENTO - SEGUNDO SEMESTRE".center(60))
print("="*60)

# Tratar valores num√©ricos
df_2s = imputar_valores_numericos(df_2s, 'valor_venda', colunas_agrupar)
df_2s = imputar_valores_numericos(df_2s, 'valor_compra', colunas_agrupar)

# Tratar valores categ√≥ricos
df_2s = imputar_valores_categoricos(df_2s, colunas_cat)

print("\n‚úÖ Tratamento conclu√≠do para ambos os semestres!")
print(f"- Primeiro semestre: {len(df_1s)} registros")
print(f"- Segundo semestre: {len(df_2s)} registros")


              üìä TRATAMENTO - PRIMEIRO SEMESTRE              
  - 0 valores nulos restantes em 'valor_compra' preenchidos com mediana global

              üìä TRATAMENTO - SEGUNDO SEMESTRE               
  - 0 valores nulos restantes em 'valor_compra' preenchidos com mediana global

‚úÖ Tratamento conclu√≠do para ambos os semestres!
- Primeiro semestre: 281531 registros
- Segundo semestre: 915317 registros


In [30]:
# Verificar se ainda existem valores nulos
print("\n" + "="*70)
print("VERIFICA√á√ÉO FINAL DE VALORES NULOS")
print("="*70)
print("\nPrimeiro Semestre:")
display(df_1s.isnull().sum())
print("\nSegundo Semestre:")
display(df_2s.isnull().sum())


VERIFICA√á√ÉO FINAL DE VALORES NULOS

Primeiro Semestre:


regiao_sigla      0
estado_sigla      0
municipio         0
revenda           0
cnpj_revenda      0
produto           0
data_coleta       0
valor_venda       0
valor_compra      0
unidade_medida    0
bandeira          0
dtype: int64


Segundo Semestre:


regiao_sigla      0
estado_sigla      0
municipio         0
revenda           0
cnpj_revenda      0
produto           0
data_coleta       0
valor_venda       0
valor_compra      0
unidade_medida    0
bandeira          0
dtype: int64

# üîç An√°lise de Inconsist√™ncias nos Pre√ßos

## üìå Objetivo
Identificar e corrigir registros onde `Valor de Venda < Valor de Compra`, o que indica preju√≠zo financeiro.

## üí° Por que analisar?
- **Erros de Dados**: Identificar registros com valores incorretos
- **Sa√∫de Financeira**: Garantir margens positivas
- **Qualidade**: Manter a confiabilidade do dataset

## üìä O que vamos verificar?
- Quantos registros est√£o com preju√≠zo
- Quais produtos/bandeiras t√™m mais problemas
- Qual o impacto financeiro dessas inconsist√™ncias

## üîß Pr√≥ximos Passos
1. Identificar registros problem√°ticos
2. Analisar padr√µes
3. Corrigir os valores
4. Validar os resultados

In [31]:
def verificar_inconsistencias_precos(df, nome_periodo):
    """
    Verifica se existem valores de venda menores que os de compra,
    o que seria uma inconsist√™ncia nos dados.
    
    Par√¢metros:
    - df: DataFrame com os dados
    - nome_periodo: Nome do per√≠odo para exibi√ß√£o
    
    Retorna:
    - DataFrame com as inconsist√™ncias encontradas ou None se n√£o houver
    """
    print(f"\nüîç Verificando Inconsist√™ncias de Pre√ßos - {nome_periodo}")
    print("="*70)
    
    # Verificar se existem valores de venda menores que compra
    inconsistencias = df[df['valor_venda'] < df['valor_compra']].copy()
    total_inconsistencias = len(inconsistencias)
    total_linhas = len(df)
    percentual = (total_inconsistencias / total_linhas) * 100 if total_linhas > 0 else 0
    
    # Resumo Executivo
    print("\n" + "="*70)
    print("üìä RESUMO DAS INCONSIST√äNCIAS")
    print("="*70)
    print(f"‚úÖ Total de registros analisados: {total_linhas:,}")
    print(f"‚ùå Registros com VENDA < COMPRA: {total_inconsistencias:,} ({percentual:.2f}%)")
    print("="*70)
    
    if total_inconsistencias > 0:
        # Calcular a diferen√ßa
        inconsistencias['diferenca'] = inconsistencias['valor_compra'] - inconsistencias['valor_venda']
        impacto_total = inconsistencias['diferenca'].sum()
        
        print("\nüìã DETALHES DAS INCONSIST√äNCIAS:")
        print(f"  - Diferen√ßa M√©dia: R$ {inconsistencias['diferenca'].mean():.2f}")
        print(f"  - Maior Diferen√ßa: R$ {inconsistencias['diferenca'].max():.2f}")
        print(f"  - Menor Diferen√ßa: R$ {inconsistencias['diferenca'].min():.2f}")
        print(f"  - Impacto Total:  R$ {impacto_total:,.2f}")
        
        print("\nüìä AMOSTRA DAS INCONSIST√äNCIAS (Top 5):")
        display(inconsistencias[['produto', 'bandeira', 'valor_compra', 
                              'valor_venda', 'diferenca']]
               .sort_values('diferenca', ascending=False).head())
        
        # An√°lise por produto
        print("\nüìà AN√ÅLISE POR PRODUTO:")
        analise_produto = inconsistencias.groupby('produto').agg(
            qtd_inconsistencias=('produto', 'size'),
            media_diferenca=('diferenca', 'mean'),
            impacto_total=('diferenca', 'sum')
        ).sort_values('qtd_inconsistencias', ascending=False)
        display(analise_produto)
        
        return inconsistencias
    else:
        print("\n‚úÖ Nenhuma inconsist√™ncia encontrada!")
        return None

# Executar verifica√ß√£o para ambos os semestres
print("="*70)
print("AN√ÅLISE DE INCONSIST√äNCIAS NOS PRE√áOS (venda < compra)")
print("="*70)

# Verificar primeiro semestre
inconsistencias_1s = verificar_inconsistencias_precos(df_1s, "Primeiro Semestre")

# Verificar segundo semestre
inconsistencias_2s = verificar_inconsistencias_precos(df_2s, "Segundo Semestre")

AN√ÅLISE DE INCONSIST√äNCIAS NOS PRE√áOS (venda < compra)

üîç Verificando Inconsist√™ncias de Pre√ßos - Primeiro Semestre

üìä RESUMO DAS INCONSIST√äNCIAS
‚úÖ Total de registros analisados: 281,531
‚ùå Registros com VENDA < COMPRA: 1,586 (0.56%)

üìã DETALHES DAS INCONSIST√äNCIAS:
  - Diferen√ßa M√©dia: R$ 0.05
  - Maior Diferen√ßa: R$ 0.65
  - Menor Diferen√ßa: R$ 0.00
  - Impacto Total:  R$ 84.95

üìä AMOSTRA DAS INCONSIST√äNCIAS (Top 5):


Unnamed: 0,produto,bandeira,valor_compra,valor_venda,diferenca
232136,GASOLINA,RAIZEN,2.7345,2.089,0.6455
232731,GASOLINA,RAIZEN,2.7345,2.099,0.6355
18094,ETANOL,RAIZEN,1.4123,0.788,0.6243
88410,ETANOL,RAIZEN,1.412,0.788,0.624
75889,ETANOL,BRANCA,1.4143,0.949,0.4653



üìà AN√ÅLISE POR PRODUTO:


Unnamed: 0_level_0,qtd_inconsistencias,media_diferenca,impacto_total
produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ETANOL,781,0.05149,40.21369
GASOLINA,673,0.045477,30.6063
GNV,104,0.129273,13.4444
DIESEL,28,0.024566,0.68785



üîç Verificando Inconsist√™ncias de Pre√ßos - Segundo Semestre

üìä RESUMO DAS INCONSIST√äNCIAS
‚úÖ Total de registros analisados: 915,317
‚ùå Registros com VENDA < COMPRA: 10,123 (1.11%)

üìã DETALHES DAS INCONSIST√äNCIAS:
  - Diferen√ßa M√©dia: R$ 0.06
  - Maior Diferen√ßa: R$ 0.49
  - Menor Diferen√ßa: R$ 0.00
  - Impacto Total:  R$ 625.32

üìä AMOSTRA DAS INCONSIST√äNCIAS (Top 5):


Unnamed: 0,produto,bandeira,valor_compra,valor_venda,diferenca
464505,ETANOL,BRANCA,1.6805,1.188,0.4925
33889,GASOLINA,BRANCA,2.473,1.999,0.474
499729,ETANOL,BRANCA,1.6805,1.239,0.4415
534957,ETANOL,BRANCA,1.6805,1.239,0.4415
41270,ETANOL,BRANCA,1.42,0.99,0.43



üìà AN√ÅLISE POR PRODUTO:


Unnamed: 0_level_0,qtd_inconsistencias,media_diferenca,impacto_total
produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ETANOL,7912,0.063471,502.180545
GASOLINA,1839,0.032517,59.79902
GNV,248,0.239983,59.51588
DIESEL,124,0.030824,3.822205


# üîÑ Corre√ß√£o de Inconsist√™ncias de Pre√ßos

## üìä Estrat√©gia de Corre√ß√£o

### Para Vendas com Preju√≠zo (Venda < Compra):
- **M√©todo**: Ajuste com margem de seguran√ßa
- **F√≥rmula**:  
  `Novo Valor de Venda = Valor de Compra √ó (1 + margem_seguranca)`

- **Vantagens**:
  - Elimina preju√≠zos nas vendas
  - Mant√©m margem de lucro m√≠nima configur√°vel
  - Aplica corre√ß√£o apenas onde necess√°rio

### Para Vendas V√°lidas (Venda ‚â• Compra):
- **M√©todo**: Mant√©m os valores originais
- **Vantagens**:
  - Preserva os dados corretos
  - N√£o altera registros que j√° est√£o consistentes
  - Mant√©m a integridade das informa√ß√µes

## ‚öôÔ∏è Configura√ß√£o Padr√£o
- **Margem de Seguran√ßa**: 10% (0.10)
- **Personaliza√ß√£o**: Ajust√°vel conforme necessidade
- **N√£o-destrutivo**: Nunca altera o DataFrame original


In [32]:
def corrigir_inconsistencias(df, margem_seguranca=0.10, nome_conjunto="Dados"):
    """
    Corrige automaticamente as inconsist√™ncias nos pre√ßos,
    garantindo que valor_venda seja sempre maior que valor_compra.
    
    Par√¢metros:
    - df: DataFrame com os dados
    - margem_seguranca: percentual a ser adicionado ao valor de compra (padr√£o: 10%)
    - nome_conjunto: Nome do conjunto de dados para refer√™ncia
    
    Retorna:
    - DataFrame corrigido
    """
    # Verificar se as colunas existem
    colunas_necessarias = ['valor_venda', 'valor_compra']
    for col in colunas_necessarias:
        if col not in df.columns:
            raise KeyError(f"Coluna '{col}' n√£o encontrada no DataFrame. Colunas dispon√≠veis: {df.columns.tolist()}")
    
    # Identificar linhas com problemas
    mask = df['valor_venda'] < df['valor_compra']
    total_corrigir = mask.sum()
    
    if total_corrigir > 0:
        print(f"\nüîß CORRIGINDO {total_corrigir:,} REGISTROS - {nome_conjunto.upper()}")
        print("="*60)
        
        # Aplicar corre√ß√£o
        df_corrigido = df.copy()
        df_corrigido.loc[mask, 'valor_venda'] = (
            df_corrigido.loc[mask, 'valor_compra'] * (1 + margem_seguranca)
        ).round(4)  # Arredonda para 4 casas decimais
        
        print(f"‚úÖ Corre√ß√£o aplicada com sucesso! (Margem: {margem_seguranca*100:.0f}%)")
        print("="*60)
        return df_corrigido
    else:
        print(f"\n‚úÖ Nenhuma corre√ß√£o necess√°ria em {nome_conjunto}!")
        return df.copy()

# =============================================
# EXECU√á√ÉO DAS CORRE√á√ïES
# =============================================
print("\n" + "="*60)
print("üîÑ INICIANDO PROCESSO DE CORRE√á√ÉO".center(60))
print("="*60)

# Verificar colunas dispon√≠veis antes de executar
print("\nüìã Colunas dispon√≠veis no df_1s:", df_1s.columns.tolist())
print("üìã Colunas dispon√≠veis no df_2s:", df_2s.columns.tolist())

# Primeiro Semestre
print("\n" + "="*30 + " PRIMEIRO SEMESTRE " + "="*30)
df_1s_corrigido = corrigir_inconsistencias(df_1s, nome_conjunto="Primeiro Semestre")

# Segundo Semestre
print("\n" + "="*30 + " SEGUNDO SEMESTRE " + "="*31)
df_2s_corrigido = corrigir_inconsistencias(df_2s, nome_conjunto="Segundo Semestre")

# Juntar os dados corrigidos
df_total_corrigido = pd.concat([df_1s_corrigido, df_2s_corrigido])

print("\n" + "="*60)
print("‚úÖ CORRE√á√ïES CONCLU√çDAS COM SUCESSO!".center(60))
print("="*60)

# Verifica√ß√£o final
print("\nüìä RESUMO DAS CORRE√á√ïES:")
print(f"- Total de registros processados: {len(df_total_corrigido):,}")
print(f"- Registros no 1¬∫ semestre: {len(df_1s_corrigido):,}")
print(f"- Registros no 2¬∫ semestre: {len(df_2s_corrigido):,}")


              üîÑ INICIANDO PROCESSO DE CORRE√á√ÉO              

üìã Colunas dispon√≠veis no df_1s: ['regiao_sigla', 'estado_sigla', 'municipio', 'revenda', 'cnpj_revenda', 'produto', 'data_coleta', 'valor_venda', 'valor_compra', 'unidade_medida', 'bandeira']
üìã Colunas dispon√≠veis no df_2s: ['regiao_sigla', 'estado_sigla', 'municipio', 'revenda', 'cnpj_revenda', 'produto', 'data_coleta', 'valor_venda', 'valor_compra', 'unidade_medida', 'bandeira']


üîß CORRIGINDO 1,586 REGISTROS - PRIMEIRO SEMESTRE
‚úÖ Corre√ß√£o aplicada com sucesso! (Margem: 10%)


üîß CORRIGINDO 10,123 REGISTROS - SEGUNDO SEMESTRE
‚úÖ Corre√ß√£o aplicada com sucesso! (Margem: 10%)

            ‚úÖ CORRE√á√ïES CONCLU√çDAS COM SUCESSO!             

üìä RESUMO DAS CORRE√á√ïES:
- Total de registros processados: 1,196,848
- Registros no 1¬∫ semestre: 281,531
- Registros no 2¬∫ semestre: 915,317


# üìÖ Tratamento de Datas

## üîç Objetivo
Padronizar e enriquecer as informa√ß√µes temporais para permitir an√°lises temporais mais precisas e completas.

## üõ†Ô∏è Estrat√©gia de Processamento

### 1. Convers√£o para Datetime
- **M√©todo**: Convers√£o para o tipo `datetime64[ns]`
- **Tratamento de erros**: 
  - Valores inv√°lidos convertidos para `NaT` (Not a Time)
  - Formato preferencial: `DD/MM/YYYY`
- **Vantagens**:
  - Opera√ß√µes de data mais eficientes
  - Suporte a ordena√ß√£o e filtros temporais

### 2. Extra√ß√£o de Componentes Temporais
- **Componentes extra√≠dos**:
  - `data_ano`: Ano (ex: 2025)
  - `data_mes`: M√™s num√©rico (1-12)
  - `data_dia`: Dia do m√™s (1-31)
  - `data_dia_semana`: Nome do dia (Segunda a Domingo)
  - `data_trimestre`: Trimestre (1-4)
  - `data_semana_ano`: N√∫mero da semana (1-52)
  - `data_ano_mes`: Per√≠odo no formato 'YYYY-MM'

### 3. Valida√ß√£o de Consist√™ncia
- **Verifica√ß√µes**:
  - Datas futuras em rela√ß√£o √† data de processamento
  - Valores nulos antes/depois da convers√£o
  - Per√≠odos fora do esperado
- **A√ß√µes**:
  - Registros com datas inv√°lidas s√£o marcados
  - Relat√≥rio de inconsist√™ncias gerado

## üìà Benef√≠cios
- An√°lises temporais mais ricas
- Facilidade de agrega√ß√£o por per√≠odos
- Identifica√ß√£o de sazonalidades
- Suporte a an√°lises de tend√™ncias temporais

## ‚ö†Ô∏è Considera√ß√µes
- Datas fora do per√≠odo esperado s√£o mantidas, mas sinalizadas
- O formato original da data √© preservado na coluna original
- Novas colunas s√£o adicionadas ao final do DataFrame

In [33]:
def verificar_e_separar_datas(df, coluna_data, nome_conjunto="Dados"):
    """
    Verifica e separa uma coluna de data em componentes individuais.
    
    Par√¢metros:
    - df: DataFrame com os dados
    - coluna_data: Nome da coluna de data a ser processada
    - nome_conjunto: Nome do conjunto de dados para refer√™ncia
    
    Retorna:
    - DataFrame com as novas colunas de data adicionadas
    """
    print(f"\nüìÖ PROCESSAMENTO DE DATAS - {nome_conjunto.upper()}")
    print("="*70)
    
    # Verificar se a coluna existe
    if coluna_data not in df.columns:
        print(f"‚ùå Erro: A coluna '{coluna_data}' n√£o foi encontrada no DataFrame.")
        print("   Colunas dispon√≠veis:", df.columns.tolist())
        return df
    
    # Fazer uma c√≥pia para n√£o modificar o original
    df_temp = df.copy()
    
    # 1. Verificar valores nulos
    nulos_antes = df_temp[coluna_data].isnull().sum()
    total = len(df_temp)
    print(f"\nüîç An√°lise da coluna '{coluna_data}':")
    print(f"   - Total de registros: {total:,}")
    print(f"   - Valores nulos: {nulos_antes:,} ({nulos_antes/total*100:.2f}%)")
    
    # 2. Converter para datetime
    try:
        df_temp[coluna_data] = pd.to_datetime(df_temp[coluna_data], errors='coerce', dayfirst=True)
        
        # Verificar convers√µes que falharam
        nulos_depois = df_temp[coluna_data].isnull().sum()
        if nulos_depois > nulos_antes:
            print(f"‚ö†Ô∏è  {nulos_depois - nulos_antes:,} valores n√£o puderam ser convertidos para data")
        
        # 3. Extrair componentes da data
        print("\nüìÖ Criando novas colunas de data:")
        componentes = {
            f'data_ano': df_temp[coluna_data].dt.year,
            f'data_mes': df_temp[coluna_data].dt.month,
            f'data_dia': df_temp[coluna_data].dt.day,
            f'data_dia_semana': df_temp[coluna_data].dt.day_name(),
            f'data_mes_nome': df_temp[coluna_data].dt.month_name(),
            f'data_trimestre': df_temp[coluna_data].dt.quarter,
            f'data_semana_ano': df_temp[coluna_data].dt.isocalendar().week,
            f'data_ano_mes': df_temp[coluna_data].dt.to_period('M').astype(str)
        }
        
        # Adicionar ao DataFrame
        for nome, valores in componentes.items():
            df_temp[nome] = valores
            print(f"   - Adicionada coluna: {nome}")
        
        # 4. Verificar estat√≠sticas
        print("\nüìä Estat√≠sticas das datas:")
        print(f"   - Data mais antiga: {df_temp[coluna_data].min()}")
        print(f"   - Data mais recente: {df_temp[coluna_data].max()}")
        print(f"   - Per√≠odo coberto: {(df_temp[coluna_data].max() - df_temp[coluna_data].min()).days} dias")
        
        # Verificar datas futuras
        hoje = pd.Timestamp('today')
        datas_futuras = (df_temp[coluna_data] > hoje).sum()
        if datas_futuras > 0:
            print(f"‚ö†Ô∏è  {datas_futuras:,} datas futuras detectadas")
        
        # Verificar distribui√ß√£o por ano-m√™s
        print("\nüìà Distribui√ß√£o por ano-m√™s:")
        dist_ano_mes = df_temp['data_ano_mes'].value_counts().sort_index()
        print(dist_ano_mes)
        
        print("\n‚úÖ Processamento de datas conclu√≠do com sucesso!")
        return df_temp
        
    except Exception as e:
        print(f"\n‚ùå Erro ao processar datas: {str(e)}")
        return df

# Exemplo de uso:
# Para o primeiro semestre
print("="*70)
print("PRIMEIRO SEMESTRE".center(70))
print("="*70)
df_1s = verificar_e_separar_datas(df_1s, 'data_coleta', "Primeiro Semestre")

# Para o segundo semestre
print("\n" + "="*70)
print("SEGUNDO SEMESTRE".center(70))
print("="*70)
df_2s = verificar_e_separar_datas(df_2s, 'data_coleta', "Segundo Semestre")

                          PRIMEIRO SEMESTRE                           

üìÖ PROCESSAMENTO DE DATAS - PRIMEIRO SEMESTRE

üîç An√°lise da coluna 'data_coleta':
   - Total de registros: 281,531
   - Valores nulos: 0 (0.00%)

üìÖ Criando novas colunas de data:
   - Adicionada coluna: data_ano
   - Adicionada coluna: data_mes
   - Adicionada coluna: data_dia
   - Adicionada coluna: data_dia_semana
   - Adicionada coluna: data_mes_nome
   - Adicionada coluna: data_trimestre
   - Adicionada coluna: data_semana_ano
   - Adicionada coluna: data_ano_mes

üìä Estat√≠sticas das datas:
   - Data mais antiga: 2004-05-10 00:00:00
   - Data mais recente: 2004-06-30 00:00:00
   - Per√≠odo coberto: 51 dias

üìà Distribui√ß√£o por ano-m√™s:
data_ano_mes
2004-05    121896
2004-06    159635
Name: count, dtype: int64

‚úÖ Processamento de datas conclu√≠do com sucesso!

                           SEGUNDO SEMESTRE                           

üìÖ PROCESSAMENTO DE DATAS - SEGUNDO SEMESTRE

üîç An√°lise d

# üîç An√°lise de Valores √önicos

## üìä Estrat√©gia de An√°lise

### Para Colunas com Baixa Cardinalidade (At√© 20 valores √∫nicos):
- **M√©todo**: Listagem completa de valores
- **A√ß√£o**: 
  - Exibe todos os valores distintos
  - Sugere convers√£o para tipo `category` quando aplic√°vel
- **Vantagens**:
  - Identifica rapidamente categorias e op√ß√µes
  - Facilita a detec√ß√£o de erros de digita√ß√£o
  - Otimiza o uso de mem√≥ria

### Para Colunas com M√©dia/Alta Cardinalidade (Acima de 20 valores √∫nicos):
- **M√©todo**: Amostragem dos valores
- **A√ß√£o**:
  - Exibe os 5 primeiros valores
  - Informa o total de valores √∫nicos
  - Calcula a taxa de cardinalidade
- **Vantagens**:
  - Fornece visibilidade sem sobrecarregar a sa√≠da
  - Permite identificar padr√µes e outliers
  - Facilita a detec√ß√£o de problemas de qualidade

## ‚öôÔ∏è M√©tricas Calculadas
- **Total de Valores √önicos**: Contagem de valores distintos
- **Taxa de Cardinalidade**: `(Valores √önicos / Total de Registros) √ó 100`
- **Tipo de Dados**: Tipo primitivo da coluna (int, float, object, etc.)
- **Amostra de Valores**: Primeiros 5 valores ou todos, dependendo da cardinalidade

## üìå Sa√≠da
- Formato padronizado para f√°cil leitura
- Destaque visual para colunas problem√°ticas
- Sugest√µes de tratamento quando aplic√°vel

In [34]:
def verificar_valores_unicos(df, nome_df):
    """
    üîç Analisa e exibe os valores √∫nicos de cada coluna do DataFrame.
    
    Par√¢metros:
    - df: DataFrame a ser analisado
    - nome_df: Nome do DataFrame para exibi√ß√£o
    
    Sa√≠da:
    - Para cada coluna:
      - Nome e tipo de dados
      - Contagem de valores √∫nicos e totais
      - Amostra dos valores (completa ou parcial)
      - Estat√≠sticas para colunas num√©ricas
    """
    print(f"\nüîç AN√ÅLISE DE VALORES √öNICOS - {nome_df.upper()}")
    print("="*70)
    
    for coluna in df.columns:
        # Informa√ß√µes b√°sicas
        valores_unicos = df[coluna].unique()
        num_valores = len(valores_unicos)
        total_registros = len(df[coluna])
        percentual = (num_valores / total_registros) * 100
        
        print(f"\nüìå {coluna} ({df[coluna].dtype})")
        print(f"   - Valores √∫nicos: {num_valores} de {total_registros} ({percentual:.1f}%)")
        
        # Exibi√ß√£o dos valores
        if num_valores <= 10:
            print("   - Valores:", valores_unicos)
        else:
            print(f"   - Amostra (5/{num_valores}): {valores_unicos[:5]}...")
        
        # Estat√≠sticas para colunas num√©ricas
        if pd.api.types.is_numeric_dtype(df[coluna]):
            print(f"   - Estat√≠sticas: Min={df[coluna].min():.2f} | "
                  f"Max={df[coluna].max():.2f} | "
                  f"M√©dia={df[coluna].mean():.2f}")
        
        # Sugest√µes baseadas na cardinalidade
        if num_valores <= 20:
            print("   üí° Sugest√£o: Boa candidata para convers√£o a 'category'")
        elif num_valores == total_registros:
            print("   ‚ö†Ô∏è  Poss√≠vel chave √∫nica ou identificador")
        
        print("-"*50)

# Executar a an√°lise
print("="*70)
print("üîç INICIANDO AN√ÅLISE DE VALORES √öNICOS".center(70))
print("="*70)

# Verificar valores √∫nicos para ambos os semestres
verificar_valores_unicos(df_1s, "Primeiro Semestre")
verificar_valores_unicos(df_2s, "Segundo Semestre")

print("\n‚úÖ An√°lise conclu√≠da com sucesso!")

                üîç INICIANDO AN√ÅLISE DE VALORES √öNICOS                 

üîç AN√ÅLISE DE VALORES √öNICOS - PRIMEIRO SEMESTRE

üìå regiao_sigla (object)
   - Valores √∫nicos: 5 de 281531 (0.0%)
   - Valores: ['SE' 'CO' 'NE' 'S' 'N']
   üí° Sugest√£o: Boa candidata para convers√£o a 'category'
--------------------------------------------------

üìå estado_sigla (object)
   - Valores √∫nicos: 27 de 281531 (0.0%)
   - Amostra (5/27): ['SP' 'DF' 'BA' 'RJ' 'MG']...
--------------------------------------------------

üìå municipio (object)
   - Valores √∫nicos: 616 de 281531 (0.2%)
   - Amostra (5/616): ['GUARULHOS' 'SOROCABA' 'BRASILIA' 'SALVADOR' 'NITEROI']...
--------------------------------------------------

üìå revenda (object)
   - Valores √∫nicos: 14224 de 281531 (5.1%)
   - Amostra (5/14224): ['AUTO POSTO SAKAMOTO LTDA'
 'COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS DE PETROLEO LTDA'
 'GASOL COMBUST√çVEIS AUTOMOTIVOS LTDA.' 'PETROBRAS DISTRIBUIDORA S.A.'
 'REDE DE POSTOS Z

# üîÑ Padroniza√ß√£o de Dados

## üìä Estrat√©gia de Padroniza√ß√£o

### Para Colunas de Texto (munic√≠pios, revendas, bandeiras):
- **M√©todo**: Convers√£o para t√≠tulo
- **A√ß√£o**:
  - Converte para formato de t√≠tulo (primeira letra mai√∫scula)
  - Remove espa√ßos extras
- **Vantagens**:
  - Padroniza√ß√£o visual consistente
  - Facilita buscas e compara√ß√µes
  - Melhora a legibilidade

### Para Colunas de Identifica√ß√£o (CNPJ):
- **M√©todo**: Limpeza de caracteres
- **A√ß√£o**:
  - Remove espa√ßos em branco
  - Mant√©m apenas d√≠gitos e caracteres especiais de formata√ß√£o
- **Vantagens**:
  - Padroniza√ß√£o do formato
  - Facilita valida√ß√µes
  - Remove inconsist√™ncias

### Para Datas e Valores Temporais:
- **M√©todo**: Tradu√ß√£o e formata√ß√£o
- **A√ß√£o**:
  - Traduz dias da semana para portugu√™s
  - Traduz meses para portugu√™s
  - Mant√©m formato consistente
- **Vantagens**:
  - Padroniza√ß√£o lingu√≠stica
  - Melhor compreens√£o
  - Facilita an√°lises temporais

### Para Colunas Categ√≥ricas:
- **M√©todo**: Convers√£o para tipo `category`
- **A√ß√£o**:
  - Aplicado a colunas com baixa cardinalidade
  - Mant√©m a ordem quando relevante
- **Vantagens**:
  - Redu√ß√£o no uso de mem√≥ria
  - Melhor desempenho em opera√ß√µes
  - Facilita agrupamentos

## ‚öôÔ∏è M√©tricas de Qualidade
- **Consist√™ncia**: Dados no mesmo formato
- **Integridade**: Sem valores faltantes ap√≥s padroniza√ß√£o
- **Legibilidade**: Nomes claros e padronizados
- **Desempenho**: Uso otimizado de mem√≥ria

## üìå Resultados Esperados
- Dados consistentes e padronizados
- Melhor desempenho em opera√ß√µes
- Facilidade de manuten√ß√£o
- Base pronta para an√°lise

In [35]:
# 1. Padroniza√ß√£o de Texto (munic√≠pios)
df_1s['municipio'] = df_1s['municipio'].str.title()
df_2s['municipio'] = df_2s['municipio'].str.title()

# 2. Padroniza√ß√£o de CNPJ
df_1s['cnpj_revenda'] = df_1s['cnpj_revenda'].str.strip()
df_2s['cnpj_revenda'] = df_2s['cnpj_revenda'].str.strip()

# 3. Padroniza√ß√£o de Unidade de Medida
df_1s['unidade_medida'] = df_1s['unidade_medida'].str.strip().str.upper()
df_2s['unidade_medida'] = df_2s['unidade_medida'].str.strip().str.upper()

# 4. Tradu√ß√£o de Dias da Semana
dias_traducao = {
    'Monday': 'Segunda', 
    'Tuesday': 'Ter√ßa', 
    'Wednesday': 'Quarta',
    'Thursday': 'Quinta', 
    'Friday': 'Sexta', 
    'Sunday': 'Domingo'
}
df_1s['data_dia_semana'] = df_1s['data_dia_semana'].map(dias_traducao)
df_2s['data_dia_semana'] = df_2s['data_dia_semana'].map(dias_traducao)

# 5. Tradu√ß√£o de Meses
meses_traducao = {
    'May': 'Maio', 
    'June': 'Junho', 
    'July': 'Julho', 
    'August': 'Agosto',
    'September': 'Setembro', 
    'October': 'Outubro', 
    'November': 'Novembro',
    'December': 'Dezembro'
}
df_1s['data_mes_nome'] = df_1s['data_mes_nome'].map(meses_traducao)
df_2s['data_mes_nome'] = df_2s['data_mes_nome'].map(meses_traducao)

# 6. Converter colunas para categoria (opcional - melhora performance)
colunas_categoria = [
    'regiao_sigla', 'estado_sigla', 'produto', 'unidade_medida',
    'bandeira', 'data_ano', 'data_mes', 'data_dia_semana',
    'data_mes_nome', 'data_trimestre', 'data_ano_mes'
]

for col in colunas_categoria:
    if col in df_1s.columns:
        df_1s[col] = df_1s[col].astype('category')
        df_2s[col] = df_2s[col].astype('category')

# 7. Verifica√ß√£o final
print("‚úÖ Padroniza√ß√£o conclu√≠da com sucesso!")
print("\nValores √∫nicos de unidade_medida ap√≥s padroniza√ß√£o:")
print("1¬∫ Semestre:", df_1s['unidade_medida'].unique())
print("2¬∫ Semestre:", df_2s['unidade_medida'].unique())

print("\nPrimeiros 3 registros do 1¬∫ semestre ap√≥s padroniza√ß√£o:")
display(df_1s.head(3))

print("\nPrimeiros 3 registros do 2¬∫ semestre ap√≥s padroniza√ß√£o:")
display(df_2s.head(3))

‚úÖ Padroniza√ß√£o conclu√≠da com sucesso!

Valores √∫nicos de unidade_medida ap√≥s padroniza√ß√£o:
1¬∫ Semestre: ['R$ / LITRO', 'R$ / M¬≥']
Categories (2, object): ['R$ / LITRO', 'R$ / M¬≥']
2¬∫ Semestre: ['R$ / LITRO', 'R$ / M¬≥']
Categories (2, object): ['R$ / LITRO', 'R$ / M¬≥']

Primeiros 3 registros do 1¬∫ semestre ap√≥s padroniza√ß√£o:


Unnamed: 0,regiao_sigla,estado_sigla,municipio,revenda,cnpj_revenda,produto,data_coleta,valor_venda,valor_compra,unidade_medida,bandeira,data_ano,data_mes,data_dia,data_dia_semana,data_mes_nome,data_trimestre,data_semana_ano,data_ano_mes
0,SE,SP,Guarulhos,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,GASOLINA,2004-05-11,1.967,1.6623,R$ / LITRO,PETROBRAS DISTRIBUIDORA S.A.,2004,5,11,Ter√ßa,Maio,2,20,2004-05
1,SE,SP,Guarulhos,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,ETANOL,2004-05-11,0.899,0.6282,R$ / LITRO,PETROBRAS DISTRIBUIDORA S.A.,2004,5,11,Ter√ßa,Maio,2,20,2004-05
2,SE,SP,Guarulhos,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,DIESEL,2004-05-11,1.299,1.1704,R$ / LITRO,PETROBRAS DISTRIBUIDORA S.A.,2004,5,11,Ter√ßa,Maio,2,20,2004-05



Primeiros 3 registros do 2¬∫ semestre ap√≥s padroniza√ß√£o:


Unnamed: 0,regiao_sigla,estado_sigla,municipio,revenda,cnpj_revenda,produto,data_coleta,valor_venda,valor_compra,unidade_medida,bandeira,data_ano,data_mes,data_dia,data_dia_semana,data_mes_nome,data_trimestre,data_semana_ano,data_ano_mes
0,CO,MS,Campo Grande,AUTO POSTO APARECIDA DO NORTE LTDA,86.807.609/0001-92,GASOLINA,2004-07-01,2.71,2.0888,R$ / LITRO,LIQUIG√ÅS,2004,7,1,Quinta,Julho,3,27,2004-07
1,CO,MS,Campo Grande,AUTO POSTO APARECIDA DO NORTE LTDA,86.807.609/0001-92,ETANOL,2004-07-01,1.71,1.1877,R$ / LITRO,LIQUIG√ÅS,2004,7,1,Quinta,Julho,3,27,2004-07
2,CO,MS,Campo Grande,AUTO POSTO APARECIDA DO NORTE LTDA,86.807.609/0001-92,DIESEL,2004-07-01,1.88,1.5279,R$ / LITRO,LIQUIG√ÅS,2004,7,1,Quinta,Julho,3,27,2004-07
