In [18]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from datetime import datetime
from sqlalchemy import text

In [19]:
# -------------------------------------------------------------
# CONFIGURAÇÃO DA CONEXÃO COM O POSTGRESQL
# -------------------------------------------------------------
# Formato da string de conexão: 
# postgresql://usuario:senha@endereco:porta/nome_do_banco
# Substitua pelos dados do seu ambiente:
usuario = "postgres"
senha = "postgres"
host = "localhost"
porta = "5432"
banco = "dbs_ontl"

# Cria o motor de conexão
engine = create_engine(f'postgresql://{usuario}:{senha}@{host}:{porta}/{banco}')

In [20]:
url = "C:\\Users\\lucas\\Downloads\\acidentes2025\\acidentes2025.csv"

df = pd.read_csv(url, sep=";", encoding="latin1")

In [21]:
df.columns

Index(['id', 'pesid', 'data_inversa', 'dia_semana', 'horario', 'uf', 'br',
       'km', 'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'id_veiculo', 'tipo_veiculo', 'marca', 'ano_fabricacao_veiculo',
       'tipo_envolvido', 'estado_fisico', 'idade', 'sexo', 'ilesos',
       'feridos_leves', 'feridos_graves', 'mortos', 'latitude', 'longitude',
       'regional', 'delegacia', 'uop'],
      dtype='object')

In [22]:
print(df[['estado_fisico']])

       estado_fisico
0      Não Informado
1              Ileso
2              Ileso
3              Ileso
4              Ileso
...              ...
76620          Óbito
76621          Ileso
76622  Lesões Graves
76623          Ileso
76624   Lesões Leves

[76625 rows x 1 columns]


In [23]:
df.head(5)

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,...,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop
0,652493,1467686,2025-01-01,quarta-feira,06:20:00,SP,116,225,GUARULHOS,Reação tardia ou ineficiente do condutor,...,Não Informado,0,0,0,0,-2348586772,-4654075317,SPRF-SP,DEL01-SP,UOP01-DEL01-SP
1,652519,1467833,2025-01-01,quarta-feira,07:50:00,CE,116,5462,PENAFORTE,Pista esburacada,...,Masculino,1,0,0,0,-7812288,-3908333306,SPRF-CE,DEL05-CE,UOP03-DEL05-CE
2,652522,1468042,2025-01-01,quarta-feira,08:45:00,PR,369,882,CORNELIO PROCOPIO,Reação tardia ou ineficiente do condutor,...,Masculino,1,0,0,0,-23182565,-50637228,SPRF-PR,DEL07-PR,UOP05-DEL07-PR
3,652544,1467849,2025-01-01,quarta-feira,11:00:00,PR,116,74,CAMPINA GRANDE DO SUL,Reação tardia ou ineficiente do condutor,...,Masculino,1,0,0,0,-2536517687,-4904223028,SPRF-PR,DEL01-PR,UOP02-DEL01-PR
4,652549,1467791,2025-01-01,quarta-feira,09:30:00,MG,251,471,FRANCISCO SA,Velocidade Incompatível,...,Masculino,1,0,0,0,-1646801304,-4343121303,SPRF-MG,DEL12-MG,UOP01-DEL12-MG


In [24]:
df.dtypes

id                         int64
pesid                      int64
data_inversa              object
dia_semana                object
horario                   object
uf                        object
br                         int64
km                        object
municipio                 object
causa_acidente            object
tipo_acidente             object
classificacao_acidente    object
fase_dia                  object
sentido_via               object
condicao_metereologica    object
tipo_pista                object
tracado_via               object
uso_solo                  object
id_veiculo                 int64
tipo_veiculo              object
marca                     object
ano_fabricacao_veiculo     int64
tipo_envolvido            object
estado_fisico             object
idade                      int64
sexo                      object
ilesos                     int64
feridos_leves              int64
feridos_graves             int64
mortos                     int64
latitude  

In [25]:
df_backup = df.copy()  
df['data_inversa'] = pd.to_datetime(df['data_inversa'], format="%Y-%m-%d")

In [26]:
df['uso_solo'] = df['uso_solo'].str.strip().str.lower().map({
    'Sim' : True,
    'Não' : False,
    'nao' : False
})
df['uso_solo'] = df['uso_solo'].where(df['uso_solo'].notnull(), None)
df['uso_solo'] = df['uso_solo'].astype('bool')

In [27]:
df['km'] = df['km'].str.replace('.', '', regex=False)
df['km'] = df['km'].str.replace(',', '.', regex=False)
df['km'] = df['km'].astype(float)

In [28]:
df['latitude'] = df['latitude'].str.replace(',', '.', regex=False)
df['longitude'] = df['longitude'].str.replace(',', '.', regex=False)
df['latitude'] = pd.to_numeric(df['latitude'], errors='coerce')
df['longitude'] = pd.to_numeric(df['longitude'], errors='coerce')

In [29]:
for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].astype(str).str.strip()

In [30]:
print(df.isnull().sum())

id                        0
pesid                     0
data_inversa              0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
id_veiculo                0
tipo_veiculo              0
marca                     0
ano_fabricacao_veiculo    0
tipo_envolvido            0
estado_fisico             0
idade                     0
sexo                      0
ilesos                    0
feridos_leves             0
feridos_graves            0
mortos                    0
latitude                  0
longitude                 0
regional                  0
delegacia                 0
uop                       0
dtype: int64


In [31]:
df.drop_duplicates(inplace=True)

In [32]:
if df['id'].duplicated().any():
    print('ATENÇÃO: IDs duplicados encontrados!')
else:
    print('ATENÇÃO: IDs duplicados não encontrados!')

ATENÇÃO: IDs duplicados encontrados!


In [33]:
with engine.connect() as conn:
    with conn.begin():
        conn.execute(text("""
            DELETE FROM raw.acidentes2025
            WHERE EXTRACT(YEAR FROM data_inversa) = 2025
"""))

In [34]:
df.to_sql(
    'acidentes2025',
    schema='raw',
    con=engine,
    if_exists='append',
    index=False
)

37