In [16]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from datetime import datetime
from sqlalchemy import text

In [17]:
url = "C:\\Users\\lucas\\Downloads\\acidentes2024\\acidentes2024.csv"

df = pd.read_csv(url, sep=';', encoding='latin1' )

In [18]:
df[['latitude', 'longitude']].dtypes

latitude     float64
longitude    float64
dtype: object

In [19]:
df.dtypes

id                        float64
pesid                       int64
data_inversa               object
dia_semana                 object
horario                    object
uf                         object
br                          int64
km                         object
municipio                  object
causa_acidente             object
tipo_acidente              object
classificacao_acidente     object
fase_dia                   object
sentido_via                object
condicao_metereologica     object
tipo_pista                 object
tracado_via                object
uso_solo                   object
id_veiculo                  int64
tipo_veiculo               object
marca                      object
ano_fabricacao_veiculo      int64
tipo_envolvido             object
estado_fisico              object
idade                       int64
sexo                       object
ilesos                      int64
feridos_leves               int64
feridos_graves              int64
mortos        

In [20]:
df_backup = df.copy

df['data_inversa'] = pd.to_datetime(df['data_inversa'], format="%Y-%m-%d")

In [21]:
df[['data_inversa']].dtypes

data_inversa    datetime64[ns]
dtype: object

In [22]:
df['uso_solo'] = df['uso_solo'].str.strip().str.lower().map({
    'Sim' : True,
    'Não' : False,
    'nao' : False
})
df['uso_solo'] = df['uso_solo'].where(df['uso_solo'].notnull(), None)
df['uso_solo'] = df['uso_solo'].astype('bool')

In [23]:
df['km'] = df['km'].str.replace('.', '', regex=False)
df['km'] = df['km'].str.replace(',', '.', regex=False)
df['km'] = df['km'].astype(float)

In [24]:
for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].astype(str).str.strip()

In [25]:
print(df.isnull().sum())

id                        0
pesid                     0
data_inversa              0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
id_veiculo                0
tipo_veiculo              0
marca                     0
ano_fabricacao_veiculo    0
tipo_envolvido            0
estado_fisico             0
idade                     0
sexo                      0
ilesos                    0
feridos_leves             0
feridos_graves            0
mortos                    0
latitude                  0
longitude                 0
regional                  0
delegacia                 0
uop                       0
dtype: int64


In [26]:
df.drop_duplicates(inplace=True)

In [27]:
if df['id'].duplicated().any():
    print('ATENÇÃO: IDs duplicados encontrados!')
else:
    print('ATENÇÃO: IDs duplicados não encontrados!')

ATENÇÃO: IDs duplicados encontrados!


In [28]:
# -------------------------------------------------------------
# CONFIGURAÇÃO DA CONEXÃO COM O POSTGRESQL
# -------------------------------------------------------------
# Formato da string de conexão: 
# postgresql://usuario:senha@endereco:porta/nome_do_banco
# Substitua pelos dados do seu ambiente:
usuario = "postgres"
senha = "postgres"
host = "localhost"
porta = "5432"
banco = "dbs_ontl"

# Cria o motor de conexão
engine = create_engine(f'postgresql://{usuario}:{senha}@{host}:{porta}/{banco}')

In [29]:
with engine.connect() as conn:
    with conn.begin():             #Cria a conexão de forma segura, garantindo que não vamos perder algo por conta de qualquer erro
        conn.execute(text("""
            DELETE FROM raw.acidentes2025
            WHERE EXTRACT(YEAR FROM data_inversa) = 2024
"""))      #Deleta os dados antigos apenas dos anos de 2025

In [30]:
df.to_sql(
    'acidentes2025',
    schema='raw',
    con=engine,
    if_exists='append',
    index=False
)

166