In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)


In [2]:
class AnalisadorAcidentesPBIC:
    def __init__(self, pasta_dados='./'):
        """
        Inicializa o analisador de acidentes PBIC
        Args:
            pasta_dados (str): Caminho para a pasta com os arquivos CSV
        """
        self.pasta_dados = Path(pasta_dados)
        self.df = None
        self.df_limpo = None
        self.encoders = {}
        
    def carregar_dados(self):
        """Carrega e combina todos os arquivos CSV de 2020-2025"""
        print("üîÑ Carregando dados de acidentes (2020-2025)...")
        
        arquivos_csv = list(self.pasta_dados.glob("acidentes*_todas_causas_tipos.csv"))
        arquivos_csv.sort()
        
        if not arquivos_csv:
            raise FileNotFoundError("Nenhum arquivo de acidentes encontrado!")
        
        dataframes = []
        for arquivo in arquivos_csv:
            print(f"   üìÅ Carregando {arquivo.name}...")
            
            encodings = ['utf-8', 'latin1', 'iso-8859-1', 'cp1252']
            df_temp = None
            
            for encoding in encodings:
                try:
                    df_temp = pd.read_csv(arquivo, sep=';', encoding=encoding, low_memory=False)
                    print(f"      ‚úÖ Encoding {encoding} funcionou")
                    break
                except UnicodeDecodeError:
                    continue
            
            if df_temp is None:
                raise ValueError(f"N√£o foi poss√≠vel ler o arquivo {arquivo.name} com nenhum encoding testado")
            
            ano = arquivo.name.split('acidentes')[1][:4]
            df_temp['ano_arquivo'] = int(ano)
            
            dataframes.append(df_temp)
            print(f"      ‚úÖ {len(df_temp):,} registros carregados")
        
        self.df = pd.concat(dataframes, ignore_index=True)
        print(f"\n‚úÖ Dados combinados: {len(self.df):,} registros totais")
        print(f"üìä Per√≠odo: {self.df['ano_arquivo'].min()} - {self.df['ano_arquivo'].max()}")
        
        return self.df
    
    def explorar_dados_basicos(self):
        """An√°lise explorat√≥ria b√°sica dos dados"""
        print("\n" + "="*60)
        print("üìä AN√ÅLISE EXPLORAT√ìRIA B√ÅSICA")
        print("="*60)
        
        print(f"üìà Dimens√µes do dataset: {self.df.shape}")
        print(f"üìÖ Per√≠odo dos dados: {self.df['ano_arquivo'].min()} - {self.df['ano_arquivo'].max()}")
        
        print(f"\nüîç Informa√ß√µes das colunas:")
        print(f"   ‚Ä¢ Total de colunas: {len(self.df.columns)}")
        print(f"   ‚Ä¢ Valores ausentes: {self.df.isnull().sum().sum():,}")
        
        print(f"\nüìä Distribui√ß√£o de acidentes por ano:")
        dist_ano = self.df['ano_arquivo'].value_counts().sort_index()
        for ano, qtd in dist_ano.items():
            print(f"   ‚Ä¢ {ano}: {qtd:,} acidentes")
        
        print(f"\nüöë Estat√≠sticas de v√≠timas:")
        for col in ['ilesos', 'feridos_leves', 'feridos_graves', 'mortos']:
            if col in self.df.columns:
                total = self.df[col].sum()
                print(f"   ‚Ä¢ {col.replace('_', ' ').title()}: {total:,}")
        
        return self.df.describe()
    
    def limpar_dados(self):
        """Limpeza e prepara√ß√£o dos dados"""
        print("\n" + "="*60)
        print("üßπ LIMPEZA E PREPARA√á√ÉO DOS DADOS")
        print("="*60)
        
        self.df_limpo = self.df.copy()
        
        if 'data_inversa' in self.df_limpo.columns:
            self.df_limpo['data_inversa'] = pd.to_datetime(self.df_limpo['data_inversa'], errors='coerce')
            self.df_limpo['mes'] = self.df_limpo['data_inversa'].dt.month
            self.df_limpo['dia_mes'] = self.df_limpo['data_inversa'].dt.day
            print("‚úÖ Data convertida e features temporais criadas")
        
        if 'horario' in self.df_limpo.columns:
            self.df_limpo['hora'] = pd.to_datetime(self.df_limpo['horario'], format='%H:%M:%S', errors='coerce').dt.hour
            print("‚úÖ Hor√°rio convertido")
        
        self.df_limpo['gravidade_numerica'] = 0
        if 'feridos_leves' in self.df_limpo.columns:
            self.df_limpo.loc[self.df_limpo['feridos_leves'] > 0, 'gravidade_numerica'] = 1
        if 'feridos_graves' in self.df_limpo.columns:
            self.df_limpo.loc[self.df_limpo['feridos_graves'] > 0, 'gravidade_numerica'] = 2
        if 'mortos' in self.df_limpo.columns:
            self.df_limpo.loc[self.df_limpo['mortos'] > 0, 'gravidade_numerica'] = 3
        
        colunas_vitimas = ['ilesos', 'feridos_leves', 'feridos_graves', 'mortos']
        colunas_existentes = [col for col in colunas_vitimas if col in self.df_limpo.columns]
        if colunas_existentes:
            self.df_limpo['total_vitimas'] = self.df_limpo[colunas_existentes].sum(axis=1)
        
        antes = len(self.df_limpo)
        self.df_limpo = self.df_limpo.dropna(subset=['uf', 'municipio'])
        depois = len(self.df_limpo)
        
        print(f"‚úÖ Limpeza conclu√≠da: {antes - depois:,} registros removidos")
        print(f"üìä Dataset limpo: {depois:,} registros")
        
        return self.df_limpo
    
    def salvar_dados_limpos(self):
        """Salva o dataset limpo em arquivo CSV"""
        print("\n" + "="*60)
        print("üíæ SALVANDO DADOS LIMPOS")
        print("="*60)
        
        nome_arquivo = 'acidentes_pbic_2020_2025_limpo.csv'
        self.df_limpo.to_csv(nome_arquivo, index=False, encoding='utf-8')
        
        print(f"‚úÖ Dataset limpo salvo como: {nome_arquivo}")
        print(f"üìä Total de registros salvos: {len(self.df_limpo):,}")
        print(f"üìä Total de colunas: {len(self.df_limpo.columns)}")
        
        return nome_arquivo
    
    def relatorio_final(self):
        """Gera relat√≥rio final do processamento"""
        print("\n" + "="*60)
        print("üìã RELAT√ìRIO FINAL")
        print("="*60)
        
        print(f"‚úÖ Processamento conclu√≠do com sucesso!")
        print(f"üìä Total de registros processados: {len(self.df_limpo):,}")
        print(f"üìÖ Per√≠odo: {self.df_limpo['ano_arquivo'].min()} - {self.df_limpo['ano_arquivo'].max()}")
        
        if 'total_vitimas' in self.df_limpo.columns:
            total_vitimas = self.df_limpo['total_vitimas'].sum()
            print(f"üöë Total de v√≠timas no per√≠odo: {total_vitimas:,}")
        
        print(f"\nüìÅ Arquivo gerado:")
        print(f"   ‚Ä¢ acidentes_pbic_2020_2025_limpo.csv - Dataset limpo e combinado")
        
        print(f"\nüí° Pr√≥ximos passos sugeridos:")
        print(f"   ‚Ä¢ Usar o arquivo limpo para an√°lises espec√≠ficas")
        print(f"   ‚Ä¢ Consultar sugestoes_analises_pbic.md para ideias de an√°lises")
        print(f"   ‚Ä¢ Implementar visualiza√ß√µes e modelos de ML")
        
    def contar_dimensoes_por_ano(self):
        """
        Imprime o n√∫mero de linhas e colunas de cada ano separadamente,
        e depois mostra o total combinado de linhas e colunas.
        """
        if self.df is None:
            raise ValueError("Nenhum dado carregado. Execute carregar_dados() primeiro.")
        
        print("\n" + "="*60)
        print("üìä Contagem de linhas e colunas por ano")
        print("="*60)
        
        total_linhas = 0
        total_colunas = 0
        
        for ano in sorted(self.df['ano_arquivo'].unique()):
            df_ano = self.df[self.df['ano_arquivo'] == ano]
            linhas = len(df_ano)
            colunas = len(df_ano.columns)
            total_linhas += linhas
            total_colunas += colunas  # aqui somamos colunas de cada ano
            
            print(f"üìÖ Ano {ano}: {linhas:,} linhas, {colunas:,} colunas")
        
        print("\n" + "-"*60)
        print(f"‚úÖ Total combinado: {total_linhas:,} linhas, {total_colunas:,} colunas")
        print("-"*60)                           

In [3]:
# Inicializa o analisador
analisador = AnalisadorAcidentesPBIC('./DadosPRF')

# 1. Carregar dados
df = analisador.carregar_dados()
df.head()


üîÑ Carregando dados de acidentes (2020-2025)...
   üìÅ Carregando acidentes2020_todas_causas_tipos.csv...
      ‚úÖ Encoding latin1 funcionou
      ‚úÖ 384,640 registros carregados
   üìÅ Carregando acidentes2021_todas_causas_tipos.csv...
      ‚úÖ Encoding latin1 funcionou
      ‚úÖ 436,523 registros carregados
   üìÅ Carregando acidentes2022_todas_causas_tipos.csv...
      ‚úÖ Encoding latin1 funcionou
      ‚úÖ 507,204 registros carregados
   üìÅ Carregando acidentes2023_todas_causas_tipos.csv...
      ‚úÖ Encoding latin1 funcionou
      ‚úÖ 571,052 registros carregados
   üìÅ Carregando acidentes2024_todas_causas_tipos.csv...
      ‚úÖ Encoding latin1 funcionou
      ‚úÖ 603,215 registros carregados
   üìÅ Carregando acidentes2025_todas_causas_tipos.csv...
      ‚úÖ Encoding latin1 funcionou
      ‚úÖ 279,907 registros carregados

‚úÖ Dados combinados: 2,782,541 registros totais
üìä Per√≠odo: 2020 - 2025


Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_principal,causa_acidente,ordem_tipo_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,id_veiculo,tipo_veiculo,marca,ano_fabricacao_veiculo,tipo_envolvido,estado_fisico,idade,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop,ano_arquivo
0,260031.0,578988.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,18.0,Masculino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020
1,260031.0,578987.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,20.0,Masculino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020
2,260031.0,578991.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,17.0,Feminino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020
3,260031.0,578986.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,16.0,Feminino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020
4,260031.0,578475.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Condutor,Les√µes Graves,33.0,Feminino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020


In [4]:
# 2. An√°lise explorat√≥ria b√°sica
analisador.explorar_dados_basicos()



üìä AN√ÅLISE EXPLORAT√ìRIA B√ÅSICA
üìà Dimens√µes do dataset: (2782541, 38)
üìÖ Per√≠odo dos dados: 2020 - 2025

üîç Informa√ß√µes das colunas:
   ‚Ä¢ Total de colunas: 38
   ‚Ä¢ Valores ausentes: 3,011,605

üìä Distribui√ß√£o de acidentes por ano:
   ‚Ä¢ 2020: 384,640 acidentes
   ‚Ä¢ 2021: 436,523 acidentes
   ‚Ä¢ 2022: 507,204 acidentes
   ‚Ä¢ 2023: 571,052 acidentes
   ‚Ä¢ 2024: 603,215 acidentes
   ‚Ä¢ 2025: 279,907 acidentes

üöë Estat√≠sticas de v√≠timas:
   ‚Ä¢ Ilesos: 1,021,198.0
   ‚Ä¢ Feridos Leves: 865,058.0
   ‚Ä¢ Feridos Graves: 320,351.0
   ‚Ä¢ Mortos: 131,563.0


Unnamed: 0,id,pesid,br,ordem_tipo_acidente,id_veiculo,ano_fabricacao_veiculo,idade,ilesos,feridos_leves,feridos_graves,mortos,ano_arquivo
count,2782541.0,2510785.0,2774532.0,2782541.0,2683028.0,2683028.0,2265150.0,2510785.0,2510785.0,2510785.0,2510785.0,2782541.0
mean,494193.2,1096391.0,216.142,1.712527,881360.2,1905.128,39.53279,0.4067246,0.3445369,0.12759,0.05239915,2022.507
std,123448.1,277655.0,127.6409,0.9986492,220048.6,451.5307,40.25365,0.4912228,0.4752171,0.3336328,0.2228307,1.558924
min,260031.0,578461.0,10.0,1.0,464097.0,0.0,0.0,0.0,0.0,0.0,0.0,2020.0
25%,387016.0,864586.0,116.0,1.0,700804.0,2007.0,27.0,0.0,0.0,0.0,0.0,2021.0
50%,506141.0,1107283.0,163.0,1.0,892059.5,2012.0,37.0,0.0,0.0,0.0,0.0,2023.0
75%,598696.0,1335107.0,343.0,2.0,1069945.0,2018.0,49.0,1.0,1.0,0.0,0.0,2024.0
max,705883.0,1571987.0,498.0,15.0,1254449.0,2025.0,2024.0,1.0,1.0,1.0,1.0,2025.0


In [5]:
# Contagem de linhas e colunas por ano e total
analisador.contar_dimensoes_por_ano()



üìä Contagem de linhas e colunas por ano
üìÖ Ano 2020: 384,640 linhas, 38 colunas
üìÖ Ano 2021: 436,523 linhas, 38 colunas
üìÖ Ano 2022: 507,204 linhas, 38 colunas
üìÖ Ano 2023: 571,052 linhas, 38 colunas
üìÖ Ano 2024: 603,215 linhas, 38 colunas
üìÖ Ano 2025: 279,907 linhas, 38 colunas

------------------------------------------------------------
‚úÖ Total combinado: 2,782,541 linhas, 228 colunas
------------------------------------------------------------


In [6]:
# 3. Limpeza dos dados
df_limpo = analisador.limpar_dados()
df_limpo.head()



üßπ LIMPEZA E PREPARA√á√ÉO DOS DADOS
‚úÖ Data convertida e features temporais criadas
‚úÖ Hor√°rio convertido
‚úÖ Limpeza conclu√≠da: 0 registros removidos
üìä Dataset limpo: 2,782,541 registros


Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_principal,causa_acidente,ordem_tipo_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,id_veiculo,tipo_veiculo,marca,ano_fabricacao_veiculo,tipo_envolvido,estado_fisico,idade,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop,ano_arquivo,mes,dia_mes,hora,gravidade_numerica,total_vitimas
0,260031.0,578988.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,18.0,Masculino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020,1,1,1,2,1.0
1,260031.0,578987.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,20.0,Masculino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020,1,1,1,2,1.0
2,260031.0,578991.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,17.0,Feminino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020,1,1,1,2,1.0
3,260031.0,578986.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Passageiro,Les√µes Graves,16.0,Feminino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020,1,1,1,2,1.0
4,260031.0,578475.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Sim,Animais na Pista,2,Sa√≠da de leito carro√ß√°vel,Com V√≠timas Feridas,Plena Noite,Crescente,Nublado,Simples,Reta,N√£o,464101.0,Autom√≥vel,FIAT/SIENA ATTRACTIV 1.4/SIENA ATTRACTIV 1.4,2012.0,Condutor,Les√µes Graves,33.0,Feminino,0.0,0.0,1.0,0.0,-1177460203,-4910744996,SPRF-TO,DEL02-TO,UOP02-DEL01-TO,2020,1,1,1,2,1.0


In [7]:
# 5. Relat√≥rio final
analisador.relatorio_final()



üìã RELAT√ìRIO FINAL
‚úÖ Processamento conclu√≠do com sucesso!
üìä Total de registros processados: 2,782,541
üìÖ Per√≠odo: 2020 - 2025
üöë Total de v√≠timas no per√≠odo: 2,338,170.0

üìÅ Arquivo gerado:
   ‚Ä¢ acidentes_pbic_2020_2025_limpo.csv - Dataset limpo e combinado

üí° Pr√≥ximos passos sugeridos:
   ‚Ä¢ Usar o arquivo limpo para an√°lises espec√≠ficas
   ‚Ä¢ Consultar sugestoes_analises_pbic.md para ideias de an√°lises
   ‚Ä¢ Implementar visualiza√ß√µes e modelos de ML


In [1]:
# Substitua 'nome_do_seu_arquivo.csv' pelo nome do arquivo que voc√™ carregou
df = pd.read_csv('acidentes_pbic_2020_2025_limpo.csv')

# Para visualizar as primeiras linhas do DataFrame
display(df.head())

NameError: name 'pd' is not defined

In [4]:
# Passo 2: Verificar n√∫mero de linhas e colunas
num_linhas, num_colunas = df.shape
print(f"N√∫mero de linhas: {num_linhas}")
print(f"N√∫mero de colunas: {num_colunas}\n")

N√∫mero de linhas: 2782541
N√∫mero de colunas: 43



In [5]:
# Passo 3: Verificar colunas duplicadas
colunas_duplicadas = df.columns[df.columns.duplicated()].tolist()
if colunas_duplicadas:
    print(f"Colunas duplicadas: {colunas_duplicadas}")
else:
    print("N√£o h√° colunas duplicadas.")

N√£o h√° colunas duplicadas.


In [6]:

# Passo 4: Verificar linhas duplicadas
linhas_duplicadas = df[df.duplicated()]
print(f"N√∫mero de linhas duplicadas: {linhas_duplicadas.shape[0]}\n")

# Passo 5: Verificar valores nulos

N√∫mero de linhas duplicadas: 0



In [7]:
# Passo 5: Verificar valores nulos
valores_nulos = df.isnull().sum()
print("Valores nulos por coluna:")
print(valores_nulos[valores_nulos > 0], "\n")

Valores nulos por coluna:
pesid                     271756
br                          8009
km                          8009
tipo_acidente                  1
classificacao_acidente        86
id_veiculo                 99513
tipo_veiculo               99513
ano_fabricacao_veiculo     99513
tipo_envolvido            271756
estado_fisico             271756
idade                     517391
sexo                      271756
ilesos                    271756
feridos_leves             271756
feridos_graves            271756
mortos                    271756
regional                     369
delegacia                   1430
uop                         3723
dtype: int64 

