In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from datetime import datetime
from sqlalchemy import text

In [2]:
url = "C:\\Users\\lucas\\Downloads\\datatran2023\\datatran2023.csv"

df = pd.read_csv(url, sep=';', encoding='latin1')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67766 entries, 0 to 67765
Data columns (total 30 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   id                      67766 non-null  int64 
 1   data_inversa            67766 non-null  object
 2   dia_semana              67766 non-null  object
 3   horario                 67766 non-null  object
 4   uf                      67766 non-null  object
 5   br                      67766 non-null  int64 
 6   km                      67766 non-null  object
 7   municipio               67766 non-null  object
 8   causa_acidente          67766 non-null  object
 9   tipo_acidente           67766 non-null  object
 10  classificacao_acidente  67765 non-null  object
 11  fase_dia                67766 non-null  object
 12  sentido_via             67766 non-null  object
 13  condicao_metereologica  67766 non-null  object
 14  tipo_pista              67766 non-null  object
 15  tr

In [4]:
df['data_inversa'] = pd.to_datetime(df['data_inversa'], format='%Y-%m-%d')

In [5]:
df['km'] = df['km'].str.replace('.', '', regex=False)
df['km'] = df['km'].str.replace(',', '.', regex=False)
df['km'] = df['km'].astype(float)

In [6]:
df['uso_solo'] = df['uso_solo'].str.strip().str.lower().map({
    'Sim' : True,
    'Não' : False
}).astype('bool')

In [7]:
df[['uso_solo']].dtypes

uso_solo    bool
dtype: object

In [8]:
df['latitude'] = df['latitude'].replace(',', '.', regex=False)
df['longitude'] = df['longitude'].replace(',', '.', regex=False)

df['latitude'] = pd.to_numeric(df['latitude'], errors='coerce')
df['longitude'] = pd.to_numeric(df['longitude'], errors='coerce')

In [9]:
for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].astype(str).str.strip()

In [10]:
print(df.isnull().sum())

id                            0
data_inversa                  0
dia_semana                    0
horario                       0
uf                            0
br                            0
km                            0
municipio                     0
causa_acidente                0
tipo_acidente                 0
classificacao_acidente        0
fase_dia                      0
sentido_via                   0
condicao_metereologica        0
tipo_pista                    0
tracado_via                   0
uso_solo                      0
pessoas                       0
mortos                        0
feridos_leves                 0
feridos_graves                0
ilesos                        0
ignorados                     0
feridos                       0
veiculos                      0
latitude                  67752
longitude                 67751
regional                      0
delegacia                     0
uop                           0
dtype: int64


In [11]:
if df['id'].duplicated().any():
    print('ATENÇÃO: IDs duplicados encontrados!')
else:
        print('ATENÇÃO: IDs duplicados não encontrados!')

ATENÇÃO: IDs duplicados não encontrados!


In [12]:
# -------------------------------------------------------------
# CONFIGURAÇÃO DA CONEXÃO COM O POSTGRESQL
# -------------------------------------------------------------
# Formato da string de conexão: 
# postgresql://usuario:senha@endereco:porta/nome_do_banco
# Substitua pelos dados do seu ambiente:
usuario = "postgres"
senha = "postgres"
host = "localhost"
porta = "5432"
banco = "dbs_ontl"

# Cria o motor de conexão
engine = create_engine(f'postgresql://{usuario}:{senha}@{host}:{porta}/{banco}')

In [13]:
with engine.connect() as conn:
    with conn.begin():             #Cria a conexão de forma segura, garantindo que não vamos perder algo por conta de qualquer erro
        conn.execute(text("""
            DELETE FROM raw.datatran2025
            WHERE EXTRACT(YEAR FROM data_inversa) = 2023
"""))      #Deleta os dados antigos apenas dos anos de 2025

In [14]:
df.to_sql(
    'datatran2025',    # Nome da tabela SEM o schema
    schema='raw',                     # Schema do banco
    con=engine,                       # Conexão
    if_exists='append',               # Adiciona os dados (não sobrescreve)
    index=False                       # Não carrega o índice do DataFrame como coluna
)

766