In [17]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from datetime import datetime
from sqlalchemy import text

In [18]:
url = "C:\\Users\\lucas\\Downloads\\acidentes2023\\acidentes2023.csv"

df = pd.read_csv(url, sep=';', encoding='latin1')

In [19]:
df.head()

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,...,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop
0,496519,1082160,2023-01-01,domingo,02:00:00,ES,101,114,SOORETAMA,Ausência de reação do condutor,...,Masculino,0,1,0,0,-1909484877,-4005095848,SPRF-ES,DEL04-ES,UOP01-DEL04-ES
1,496543,1082181,2023-01-01,domingo,03:40:00,SP,116,1131,TAUBATE,Entrada inopinada do pedestre,...,Não Informado,0,0,0,0,-230445658,-4558259814,SPRF-SP,DEL02-SP,UOP02-DEL02-SP
2,496590,1082406,2023-01-01,domingo,01:40:00,MT,163,1112,GUARANTA DO NORTE,Reação tardia ou ineficiente do condutor,...,Masculino,0,0,1,0,-970020602,-5487588757,SPRF-MT,DEL06-MT,UOP03-DEL06-MT
3,496610,1082326,2023-01-01,domingo,10:40:00,PR,376,3148,ORTIGUEIRA,Velocidade Incompatível,...,Masculino,1,0,0,0,-23985512,-51083555,SPRF-PR,DEL07-PR,UOP02-DEL07-PR
4,496659,1082547,2023-01-01,domingo,14:55:00,MG,116,5694,MANHUACU,Acumulo de água sobre o pavimento,...,Masculino,1,0,0,0,-2010007457,-4217884091,SPRF-MG,DEL06-MG,UOP03-DEL06-MG


In [20]:
df.dtypes

id                         int64
pesid                      int64
data_inversa              object
dia_semana                object
horario                   object
uf                        object
br                         int64
km                        object
municipio                 object
causa_acidente            object
tipo_acidente             object
classificacao_acidente    object
fase_dia                  object
sentido_via               object
condicao_metereologica    object
tipo_pista                object
tracado_via               object
uso_solo                  object
id_veiculo                 int64
tipo_veiculo              object
marca                     object
ano_fabricacao_veiculo     int64
tipo_envolvido            object
estado_fisico             object
idade                      int64
sexo                      object
ilesos                     int64
feridos_leves              int64
feridos_graves             int64
mortos                     int64
latitude  

In [21]:
df_backup = df.copy

df['data_inversa'] = pd.to_datetime(df['data_inversa'], format='%Y-%m-%d')

In [22]:
df[['data_inversa']].dtypes

data_inversa    datetime64[ns]
dtype: object

In [23]:
df['uso_solo'] = df['uso_solo'].str.strip().str.lower().map({
    'Sim' : True,
    'Não' : False,
    'nao' : False
})
df['uso_solo'] = df['uso_solo'].where(df['uso_solo'].notnull(), None)
df['uso_solo'] = df['uso_solo'].astype('bool')

In [24]:
df['km'] = df['km'].astype(str)
df['km'] = df['km'].str.replace('.', '', regex=False)
df['km'] = df['km'].str.replace(',', '.', regex=False)
df['km'] = df['km'].astype(float)

In [25]:
df['latitude'] = df['latitude'].str.replace(',', '.', regex=False)
df['longitude'] = df['longitude'].str.replace(',', '.', regex=False)
df['latitude'] = pd.to_numeric(df['latitude'], errors='coerce')
df['longitude'] = pd.to_numeric(df['longitude'], errors='coerce')

In [26]:
for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].astype(str).str.strip()

In [27]:
print(df.isnull().sum())

id                        0
pesid                     0
data_inversa              0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
id_veiculo                0
tipo_veiculo              0
marca                     0
ano_fabricacao_veiculo    0
tipo_envolvido            0
estado_fisico             0
idade                     0
sexo                      0
ilesos                    0
feridos_leves             0
feridos_graves            0
mortos                    0
latitude                  0
longitude                 0
regional                  0
delegacia                 0
uop                       0
dtype: int64


In [28]:
df.drop_duplicates(inplace=True)

In [29]:
if df['id'].duplicated().any():
    print('ATENÇÃO: IDs duplicados encontrados!')
else:
    print('ATENÇÃO: IDs duplicados não encontrados!')

ATENÇÃO: IDs duplicados encontrados!


In [30]:
# -------------------------------------------------------------
# CONFIGURAÇÃO DA CONEXÃO COM O POSTGRESQL
# -------------------------------------------------------------
# Formato da string de conexão: 
# postgresql://usuario:senha@endereco:porta/nome_do_banco
# Substitua pelos dados do seu ambiente:
usuario = "postgres"
senha = "postgres"
host = "localhost"
porta = "5432"
banco = "dbs_ontl"

# Cria o motor de conexão
engine = create_engine(f'postgresql://{usuario}:{senha}@{host}:{porta}/{banco}')

In [31]:
with engine.connect() as conn:
    with conn.begin():             #Cria a conexão de forma segura, garantindo que não vamos perder algo por conta de qualquer erro
        conn.execute(text("""
            DELETE FROM raw.acidentes2025
            WHERE EXTRACT(YEAR FROM data_inversa) = 2023
"""))      #Deleta os dados antigos apenas dos anos de 2025

In [32]:
df.to_sql(
    'acidentes2025',
    schema='raw',
    con=engine,
    if_exists='append',
    index=False
)

297