### Importando as bibliotecas necessárias para iniciar a leitura dos arquivos

In [None]:
import pandas as pd

#### Lendo os dados da base única de 2011 a 2021

In [None]:
df_accidents = pd.read_csv("../../databases/acidentes2011_2021.csv")
df_accidents.info()
df_accidents.describe(include="all").T

#### Verificando se o dataframe tem linhas duplicadas

In [None]:
df_accidents.duplicated().sum()

#### Verificando dados faltantes na coluna "br" antes do tratamento

In [None]:
df_accidents["br"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "br"

In [None]:
df_accidents["br"].apply(type).value_counts()
#id 1058931.0

#### Alterando o tipo de dados da coluna "br" para "str" e tratando dados faltantes como "Desconhecido", pois é apenas uma informação que não necessita ser numérica para esta análise

In [None]:
df_accidents["br"] = df_accidents["br"].fillna("Desconhecido").astype("str")
df_accidents["br"].apply(type).value_counts()
df_accidents[df_accidents["br"] == "Desconhecido"].shape

#### Verificando dados faltantes na coluna "km" antes do tratamento

In [None]:
df_accidents["km"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "km"

In [None]:
df_accidents["km"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "km" para "str" e tratando dados faltantes como "Desconhecido", pois é apenas uma informação que não necessita ser numérica para esta análise

In [None]:
df_accidents["km"] = df_accidents["km"].fillna("Desconhecido").astype("str")
df_accidents["km"].apply(type).value_counts()
df_accidents[df_accidents["km"] == "Desconhecido"].shape

#### Verificando dados faltantes na coluna "id_veiculo" antes do tratamento

In [None]:
df_accidents["id_veiculo"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "id_veiculo"

In [None]:
df_accidents["id_veiculo"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "id_veiculo" para "str" e tratando dados faltantes como "Desconhecido", pois é apenas uma informação que não necessita ser numérica para esta análise

In [None]:
df_accidents["id_veiculo"] = df_accidents["id_veiculo"].fillna("Desconhecido").astype("str")
df_accidents["id_veiculo"].apply(type).value_counts()
df_accidents[df_accidents["id_veiculo"] == "Desconhecido"].shape

#### Verificando dados faltantes na coluna "ano_fabricacao_veiculo" antes do tratamento

In [None]:
df_accidents["ano_fabricacao_veiculo"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "ano_fabricacao_veiculo"

In [None]:
df_accidents["ano_fabricacao_veiculo"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "ano_fabricacao_veiculo" para "str" e tratando dados faltantes como "Desconhecido", pois é apenas uma informação que não necessita ser numérica para esta análise

In [None]:
df_accidents["ano_fabricacao_veiculo"] = df_accidents["ano_fabricacao_veiculo"].fillna("Desconhecido").astype("str")
df_accidents["ano_fabricacao_veiculo"].apply(type).value_counts()
df_accidents[df_accidents["ano_fabricacao_veiculo"] == "Desconhecido"].shape

#### Verificando dados faltantes na coluna "nacionalidade" antes do tratamento

In [None]:
df_accidents["nacionalidade"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "nacionalidade"

In [None]:
df_accidents["nacionalidade"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "nacionalidade" para "str" e tratando dados faltantes como "Não Informado", seguindo os padrões da própria base de dados

In [None]:
df_accidents["nacionalidade"] = df_accidents["nacionalidade"].fillna("Não Informado").astype("str")
df_accidents["nacionalidade"].apply(type).value_counts()
df_accidents[df_accidents["nacionalidade"] == "Não Informado"].shape

#### Verificando dados faltantes na coluna "naturalidade" antes do tratamento

In [None]:
df_accidents["naturalidade"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "naturalidade"

In [None]:
df_accidents["naturalidade"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "naturalidade" para "str" e tratando dados faltantes como "Não Informado", seguindo os padrões da própria base de dados

In [None]:
df_accidents["naturalidade"] = df_accidents["naturalidade"].fillna("Não Informado").astype("str")
df_accidents["naturalidade"].apply(type).value_counts()
df_accidents[df_accidents["naturalidade"] == "Não Informado"].shape

#### Verificando dados faltantes na coluna "latitude" antes do tratamento

In [None]:
df_accidents["latitude"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "latitude"

In [None]:
df_accidents["latitude"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "latitude" para "str" e tratando dados faltantes como "Desconhecida", pois dos anos de 2011 a 2016 essa informação não existia

In [None]:
df_accidents["latitude"] = df_accidents["latitude"].fillna("Desconhecida").astype("str")
df_accidents["latitude"].apply(type).value_counts()
df_accidents[df_accidents["latitude"] == "Desconhecida"].shape

#### Verificando dados faltantes na coluna "longitude" antes do tratamento

In [None]:
df_accidents["longitude"].isna().sum()

#### Verificando os tipos de dados presentes na coluna "longitude"

In [None]:
df_accidents["longitude"].apply(type).value_counts()

#### Alterando o tipo de dados da coluna "longitude" para "str" e tratando dados faltantes como "Desconhecida", pois dos anos de 2011 a 2016 essa informação não existia

In [None]:
df_accidents["longitude"] = df_accidents["longitude"].fillna("Desconhecida").astype("str")
df_accidents["longitude"].apply(type).value_counts()
df_accidents[df_accidents["longitude"] == "Desconhecida"].shape

#### Salvando os dados em um novo CSV após o tratamento de dados das colunas acima para ter uma base mais limpa

In [None]:
with open("../../databases/acidentes2011_2021_tratada_v1.csv", "w") as f:
    df_accidents.to_csv(f, index=False)