In [1]:
import pandas as pd
import numpy as np

# Leitura do arquivo bruto
df = pd.read_csv("acidentes_bruto.csv")

# Visualização inicial
df.head()


Unnamed: 0,data_extracao,predial1,queda_arr,data,feridos,feridos_gr,mortes,morte_post,fatais,auto,...,longitude,latitude,log1,log2,tipo_acid,dia_sem,hora,noite_dia,regiao,consorcio
0,2025-03-21 08:36:35,0.0,0.0,2020-10-17 00:00:00,1,0,0,0,0,3,...,0.0,0.0,R MARCOS MOREIRA,R GASTON ENGLERT,ABALROAMENTO,SÁBADO,19:00:00.0000000,NOITE,NORTE,
1,2025-03-21 08:36:35,598.0,0.0,2020-01-01 00:00:00,1,0,0,0,0,0,...,,,AV BENTO GONCALVES,,ABALROAMENTO,QUARTA-FEIRA,03:00:00.0000000,NOITE,LESTE,
2,2025-03-21 08:36:35,1271.0,0.0,2020-01-01 00:00:00,1,1,0,0,0,1,...,,,AV INDEPENDENCIA,,ATROPELAMENTO,QUARTA-FEIRA,23:00:00.0000000,NOITE,LESTE,
3,2025-03-21 08:36:35,1901.0,0.0,2020-01-02 00:00:00,2,0,0,0,0,0,...,,,AV EDUARDO PRADO,,ATROPELAMENTO,QUINTA-FEIRA,00:05:00.0000000,NOITE,SUL,
4,2025-03-21 08:36:35,3302.0,0.0,2020-01-02 00:00:00,1,0,0,0,0,1,...,-51.211535,-30.081535,AV TERESOPOLIS,,ABALROAMENTO,QUINTA-FEIRA,09:00:00.0000000,DIA,SUL,


In [2]:
# Padronizando nomes de colunas (letras minúsculas, sem espaços)
df.columns = df.columns.str.lower().str.strip().str.replace(" ", "_")

In [3]:
# Convertendo para datetime se necessário
df["data"] = pd.to_datetime(df["data"], errors='coerce')

# Criando colunas auxiliares
df["ano"] = df["data"].dt.year
df["mes"] = df["data"].dt.month
df["dia"] = df["data"].dt.day
df["dia_semana"] = df["data"].dt.day_name()


In [4]:
# Percentual de valores ausentes
percent_na = df.isnull().mean().sort_values(ascending=False)
print(percent_na[percent_na > 0])

# Drop de colunas com muitos nulos
df.drop(columns=["log2", "consorcio"], inplace=True)

# Tratando colunas com poucos nulos
df["hora"] = df["hora"].fillna("00:00")

# Drop de linhas sem data
df = df.dropna(subset=["data"])

consorcio     0.968272
log2          0.724061
longitude     0.147712
latitude      0.147712
predial1      0.058209
hora          0.007950
log1          0.000723
dia_semana    0.000029
ano           0.000029
mes           0.000029
data          0.000029
dia           0.000029
regiao        0.000014
dtype: float64


In [5]:
# Exemplo: convertendo tipo_acid e regiao para categórico
df["tipo_acid"] = df["tipo_acid"].astype("category")
df["regiao"] = df["regiao"].astype("category")
df["dia_sem"] = df["dia_sem"].astype("category")

In [6]:
# Verificando valores únicos suspeitos
print(df["dia_sem"].unique())
# Pode padronizar se necessário (segunda-feira → Segunda-feira)

df["dia_sem"] = df["dia_sem"].str.capitalize()

['SÁBADO', 'QUARTA-FEIRA', 'QUINTA-FEIRA', 'SEXTA-FEIRA', 'DOMINGO', 'SEGUNDA-FEIRA', 'TERÇA-FEIRA']
Categories (7, object): ['DOMINGO', 'QUARTA-FEIRA', 'QUINTA-FEIRA', 'SEGUNDA-FEIRA', 'SEXTA-FEIRA', 'SÁBADO', 'TERÇA-FEIRA']


In [8]:
# Salvando a versão tratada
df.to_csv("acidentes_tratado.csv", index=False)