<a href="https://colab.research.google.com/github/joaogabriel87/A3---Inteligencia-Artificial/blob/main/AED.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [10]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [11]:
# Carregar e padronizar as colunas
anos = range(2015, 2025)
dfs = []

In [12]:
for ano in anos:
    try:
        df = pd.read_csv(f"acidentes_{ano}.csv", sep=";", encoding='utf-8')  # Carregar arquivo
        df.rename(columns={"data": "Data"}, inplace=True)  # Padronizar nomes de colunas
        df["Ano"] = ano  # Adicionar coluna de ano
        dfs.append(df)
        print(f"Successfully loaded data for year {ano}")  # Mensagem de confirmação
    except Exception as e:
        print(f"Error reading file for year {ano}: {e}")

        # Verificar quantidade de DataFrames carregados
print(f"Total DataFrames loaded: {len(dfs)}")

Successfully loaded data for year 2015
Successfully loaded data for year 2016
Successfully loaded data for year 2017
Successfully loaded data for year 2018
Successfully loaded data for year 2019
Successfully loaded data for year 2020
Successfully loaded data for year 2021
Successfully loaded data for year 2022
Successfully loaded data for year 2023
Successfully loaded data for year 2024
Total DataFrames loaded: 10


In [13]:
# Concatenar todos os DataFrames
df_principal = pd.concat(dfs, ignore_index=True)
print("Anos disponíveis:", df_principal['Ano'].unique())

Anos disponíveis: [2015 2016 2017 2018 2019 2020 2021 2022 2023 2024]


In [14]:
# Padronizar datas
df_2018_2019 = df_principal[(df_principal['Ano'] == 2018) | (df_principal['Ano'] == 2019)]
df_2018_2019['Data'] = pd.to_datetime(df_2018_2019['Data'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')
df_principal.loc[df_2018_2019.index, 'Data'] = df_2018_2019['Data']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2018_2019['Data'] = pd.to_datetime(df_2018_2019['Data'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')


In [15]:
# Identificar colunas categóricas automaticamente
colunas_categoricas = df_principal.select_dtypes(include=['object']).columns
print("Colunas categóricas identificadas:", colunas_categoricas)

Colunas categóricas identificadas: Index(['tipo', 'situacao', 'Data', 'hora', 'bairro', 'endereco', 'numero',
       'complemento', 'natureza', 'descricao', 'auto', 'moto', 'ciclom',
       'ciclista', 'pedestre', 'onibus', 'caminhao', 'viatura', 'outros',
       'vitimas', 'natureza_acidente', 'detalhe_endereco_acidente',
       'endereco_cruzamento', 'numero_cruzamento', 'referencia_cruzamento',
       'bairro_cruzamento', 'vitimasfatais', 'num_semaforo', 'sentido_via',
       'acidente_verificado', 'tempo_clima', 'situacao_semaforo',
       'sinalizacao', 'condicao_via', 'conservacao_via', 'ponto_controle',
       'situacao_placa', 'velocidade_max_via', 'mao_direcao', 'divisao_via1',
       'divisao_via2', 'divisao_via3', 'Protocolo'],
      dtype='object')


In [16]:
# Codificar as colunas categóricas usando Label Encoding
label_encoders = {}
for coluna in colunas_categoricas:
    print(f"Codificando a coluna: {coluna}")
    le = LabelEncoder()
    try:
        # Substituir NaN temporariamente, pois LabelEncoder não lida com valores nulos
        df_principal[coluna] = le.fit_transform(df_principal[coluna].astype(str).fillna('null'))
        label_encoders[coluna] = le  # Armazenar o codificador para uso futuro
    except Exception as e:
        print(f"Erro ao codificar a coluna {coluna}: {e}")


Codificando a coluna: tipo
Codificando a coluna: situacao
Codificando a coluna: Data
Codificando a coluna: hora
Codificando a coluna: bairro
Codificando a coluna: endereco
Codificando a coluna: numero
Codificando a coluna: complemento
Codificando a coluna: natureza
Codificando a coluna: descricao
Codificando a coluna: auto
Codificando a coluna: moto
Codificando a coluna: ciclom
Codificando a coluna: ciclista
Codificando a coluna: pedestre
Codificando a coluna: onibus
Codificando a coluna: caminhao
Codificando a coluna: viatura
Codificando a coluna: outros
Codificando a coluna: vitimas
Codificando a coluna: natureza_acidente
Codificando a coluna: detalhe_endereco_acidente
Codificando a coluna: endereco_cruzamento
Codificando a coluna: numero_cruzamento
Codificando a coluna: referencia_cruzamento
Codificando a coluna: bairro_cruzamento
Codificando a coluna: vitimasfatais
Codificando a coluna: num_semaforo
Codificando a coluna: sentido_via
Codificando a coluna: acidente_verificado
Codific

In [17]:
# Substituir valores nulos restantes por uma string
df_principal.fillna("null", inplace=True)

In [18]:
# Verificar as primeiras linhas dos dados processados
print(df_principal.head())

   tipo  situacao  Data  hora  bairro  endereco  numero  complemento  \
0    34         0   185  1227      31       161    6096        54117   
1    34         8     0   624      49       254    6096        34954   
2    34         8     0   801      17      1413    6096        52289   
3    34         8     0   805       2       215    6096         1277   
4    34         0     0   819      80       715    6096        17760   

   natureza  descricao  ...  condicao_via  conservacao_via  ponto_controle  \
0         5       6170  ...             4                5               6   
1         5      10197  ...             4                5               6   
2         5       9943  ...             4                5               6   
3         5       3740  ...             4                5               6   
4         5       8393  ...             4                5               6   

   situacao_placa  velocidade_max_via  mao_direcao  divisao_via1  \
0              37             

In [19]:
# Salvar o DataFrame processado em um novo arquivo CSV
df_principal.to_csv("acidentes_2015_2024_label_encoded.csv", index=False)

Arquivo salvo como 'acidentes_2015_2024_label_encoded.csv'.
