1) Carrega bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

2) Carrega dataset

In [2]:
caminho_dados = 'dados/acidentes.csv'

try:
    df = pd.read_csv(caminho_dados, sep=';', encoding='utf-8')
    print("CSV original lido com sucesso!")
except FileNotFoundError:
    print(f"Erro: Arquivo '{caminho_dados}' não encontrado. Verifique o caminho.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

CSV original lido com sucesso!


3) Entende dataframe

In [3]:
# Lista as cinco primeira linhas
print("\nCinco primeiras linhas:")
print(df.head())

# Mostra o número de linhas e colunas
print("\nDimensões do Dataset (linhas, colunas)")
print(df.shape)

# Mostra tipo de dados, valores não nulos
print("\nInformações gerais do DataFrame:")
df.info()

# Conta valores ausentes por coluna
print("\nContagem de Valores Ausentes por Coluna")
print(df.isnull().sum())



Cinco primeiras linhas:
         data_extracao  predial1  queda_arr                 data  feridos  \
0  2025-06-01 01:33:13       0.0        0.0  2020-10-17 00:00:00        1   
1  2025-06-01 01:33:13     598.0        0.0  2020-01-01 00:00:00        1   
2  2025-06-01 01:33:13    1271.0        0.0  2020-01-01 00:00:00        1   
3  2025-06-01 01:33:13    1901.0        0.0  2020-01-02 00:00:00        2   
4  2025-06-01 01:33:13    3302.0        0.0  2020-01-02 00:00:00        1   

   feridos_gr  mortes  morte_post  fatais  auto  ...  longitude   latitude  \
0           0       0           0       0     3  ...   0.000000   0.000000   
1           0       0           0       0     0  ...        NaN        NaN   
2           1       0           0       0     1  ...        NaN        NaN   
3           0       0           0       0     0  ...        NaN        NaN   
4           0       0           0       0     1  ... -51.211535 -30.081535   

                 log1              log2    

4) Limpa nomes colunas

In [19]:
# Remove espaços em branco no início/fim dos nomes das colunas (boa prática)
df.columns = df.columns.str.strip()

# Lista nome de colunas
print(df.columns)

Index(['data_extracao', 'predial1', 'queda_arr', 'data', 'feridos',
       'feridos_gr', 'mortes', 'morte_post', 'fatais', 'auto', 'taxi',
       'lotacao', 'onibus_urb', 'onibus_met', 'onibus_int', 'caminhao', 'moto',
       'carroca', 'bicicleta', 'outro', 'cont_vit', 'ups', 'patinete',
       'idacidente', 'longitude', 'latitude', 'log1', 'log2', 'tipo_acid',
       'dia_sem', 'hora', 'noite_dia', 'regiao', 'consorcio'],
      dtype='object')


5) Remove colunas 'data_extracao' e 'consorcio'

In [4]:
# Remove colunas 'data_extracao' e 'consorcio'
remover = ['data_extracao', 'consorcio']
existe = [col for col in remover if col in df.columns]

if existe:
    df = df.drop(columns=existe)

else:
    print("Nenhuma das colunas presente")

# Lista nome de colunas depois remoção
print(df.columns)

Index(['predial1', 'queda_arr', 'data', 'feridos', 'feridos_gr', 'mortes',
       'morte_post', 'fatais', 'auto', 'taxi', 'lotacao', 'onibus_urb',
       'onibus_met', 'onibus_int', 'caminhao', 'moto', 'carroca', 'bicicleta',
       'outro', 'cont_vit', 'ups', 'patinete', 'idacidente', 'longitude',
       'latitude', 'log1', 'log2', 'tipo_acid', 'dia_sem', 'hora', 'noite_dia',
       'regiao'],
      dtype='object')


6) Transforma tipos e remove inválidos

In [7]:
# Mostra tipo de dados, valores não nulos
print("\nInformações gerais do DataFrame:")
df.info()

# Converte 'data' para datetime
df['data'] = pd.to_datetime(df['data'], errors='coerce')
print("Coluna 'data' convertida com sucesso.")

# Cria coluna 'hora_acidente' como Int64 (permite NaN )
df['hora_acidente'] = pd.to_datetime(df['hora'], format='%H:%M:%S.%f', errors='coerce').dt.hour.astype('Int64')
print("Coluna 'hora' convertida com sucesso.")

print("\nInformações após:")
df.info()


Informações gerais do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69521 entries, 0 to 69520
Data columns (total 33 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   predial1       65442 non-null  float64       
 1   queda_arr      69521 non-null  float64       
 2   data           69520 non-null  datetime64[ns]
 3   feridos        69521 non-null  int64         
 4   feridos_gr     69521 non-null  int64         
 5   mortes         69521 non-null  int64         
 6   morte_post     69521 non-null  int64         
 7   fatais         69521 non-null  int64         
 8   auto           69521 non-null  int64         
 9   taxi           69521 non-null  int64         
 10  lotacao        69521 non-null  int64         
 11  onibus_urb     69521 non-null  int64         
 12  onibus_met     69521 non-null  int64         
 13  onibus_int     69521 non-null  int64         
 14  caminhao       69521 non-null  int64