# Pandas - Limpeza e Tratamento de Dados

<div style="text-align: center">
    <img src="../images/Pandas_logo.svg.png" alt="" width="400">
</div>


Limpar e tratar os dados com Pandas é essencial para garantir a qualidade, precisão e confiabilidade dos resultados. 
**<span style="color: red;">Dados brutos geralmente contêm erros, valores ausentes e inconsistências que podem afetar as análises e gerar conclusões erradas.</span>**


Documentação Pandas:
"https://pandas.pydata.org/docs/"

## DataFrame: ANÁLISE DE ACIDENTES DE TRÂNSITO NO BRASIL

Os dados escolhidos foram disponibilizados pela Polícia Rodoviária Federal e compreendem o período entre 2021 e 2024.


## Objetivos:
- Ler e manipular arquivos;
 
- Limpeza e tratamento dos dados (verificar valores nulos e/ou ausentes, tipagem e formatação dos dados, identificar valores inconsistentes, ...);

- Manipular os dados de uma forma geral;

- Criar novas variáveis e/ou colunas para análise.

## Ações:
- Concatenar os DataFrames para criar um único conjunto de dados abrangendo todos os anos;

- Salvar o conjunto de dados consolidado.

- Extração de informações de data: dia da semana, mês, ano, período do dia (PERIODO DIA).

- Cálculo do total de feridos (TOTAL FERIDOS) combinando feridos leves e graves.

- Explorar a criação de categorias ou faixas para variáveis contínuas. Por exemplo, podemos extrair o horário dos acidentes, que seria uma coluna com valores contínuos de 0 a 23 e então classificar em categorias como MADRUGADA, MANHÃ, TARDE E NOITE.
 

# 1. Introdução


 ## 1.1 Importando a biblioteca Pandas.

 ## Por que usar o Pandas?

- A biblioteca Pandas é uma poderosa ferramenta para manipulação, análise e visualização de dados estruturados, especialmente tabelas.
- A biblioteca Pandas é essencial para limpeza de dados porque fornece ferramentas eficientes para **<span style="color: red;"> manipular, transformar e organizar grandes conjuntos de dados de forma estruturada. <span>**




In [199]:
# Importando a biblioteca Pandas.




#import pandas as pd

In [135]:
# Configuração básica para exibir todas as colunas do nosso dataframe.

pd.set_option('display.max_columns', None)

## 1.2. O que é um Dataframe?

<div style="text-align: center">
    <img src="../images/dataframe.jpg" alt="" width="400">
</div>

Um DataFrame é uma estrutura de dados bidimensional (tabela) muito poderosa para armazenar, manipular e analisar dados. Ele é como uma planilha ou uma tabela em um banco de dados, contendo linhas e colunas. Cada coluna pode ter um tipo de dado diferente, como números, strings, datas, etc




## 1.3. Leitura/Escrita de arquivos.

A leitura de um arquivo geralmente se refere ao processo de **<span style="color: red;"> importar dados de um arquivo externo (como um arquivo CSV, Excel, ou JSON) para um DataFrame <span>.**

<div style="text-align: center">
    <img src="../images/2write_read.jpg" alt="" width="700">
</div>





In [137]:
# Lendo um arquivo .csv





#df2021 = pd.read_csv("2021.csv", sep = ";", encoding = "ISO-8859-1")

## 1.4. Manipulando dados

In [283]:
# Visualizando as primeiras linhas do dataframe.


#df2021.head()

In [284]:
# Visualizando as últimas linhas do dataframe.



#df2021.tail()

In [285]:
# Selecionando uma coluna do dataframe.



#df2021['data_inversa']

In [286]:
# Selecionando mais colunas do dataframe



#df2021[["municipio", "sentido_via"]]

In [287]:
# Selecionando as 10 primeiras linhas específicas de uma coluna.


#df2021["municipio"][0:10]

In [288]:
# Selecionando linhas específicas de várias colunas.


#df2021[["municipio", "sentido_via"]][100:120]

In [153]:
# Renomeando uma coluna específica.



#df2021.rename(columns={"municipio":"cidade"})

In [289]:
# Renomeando várias colunas.



#df2021.rename(columns={"municipio":"cidade", "fase_dia":"período"})

In [290]:
# Renomeando e gravando a alteração.


#df2021.rename(columns = {"municipio":"cidade"}, inplace = True)

In [291]:
# Adicionando colunas



#df2021["coluna_nova"] = df2021["feridos_leves"] + df2021["feridos_graves"]

In [292]:
# Deletando uma coluna.



#df2021.drop(columns = "coluna_nova")

# 2. Limpeza e Tratamento dos dados

## 2.1. Concatenando arquivos

In [293]:
# Fazendo a leitura de todos os arquivos.

df2021 = pd.read_csv("2021.csv", sep = ";", encoding = "ISO-8859-1")
df2022 = pd.read_csv("2022.csv", sep = ",", encoding = "ISO-8859-1")
df2023 = pd.read_csv("2023.csv", sep = ";", encoding = "ISO-8859-1")
df2024 = pd.read_csv("2024.csv", sep = ",")

In [294]:
# Verificando a dimensão de um dataframe.

#df2021.shape

In [295]:
print(f'Dados 2021:{df2021.shape}')
print(f'Dados 2022:{df2022.shape}')
print(f'Dados 2023:{df2023.shape}')
print(f'Dados 2024:{df2024.shape}')

Dados 2021:(64567, 30)
Dados 2022:(64606, 30)
Dados 2023:(67766, 30)
Dados 2024:(53950, 30)


In [296]:
# Concatenando os dataframes.


#df_concatenado = pd.concat([df2021, df2022, df2023, df2024])

In [298]:
# Verificando as dimensões do arquivo concatenado.



#df_concatenado.shape

## 2.2. Salvar arquivo como csv.


<div style="text-align: center">
    <img src="../images/2write_read.jpg" alt="" width="700">
</div>



In [299]:
# Salvando o dataframe como um arquivo csv



#df_concatenado.to_csv("dados2021_2024.csv", sep = ";", index = False)

# 3. Limpeza e Tratamento dos dados.


In [301]:
# Leitura de dados.



#df = pd.read_csv('dados2021_2024.csv', sep = ';')

In [302]:
# Tipo dos dados



#df.dtypes

---

### .isna()

O método .isna() da biblioteca pandas é usado para verificar quais valores em um DataFrame são NaN (Not a Number) ou valores ausentes. Ele retorna um objeto do mesmo formato com valores booleanos:

True → indica que o valor está ausente (NaN)

False → indica que o valor não está ausente

In [303]:
# Verificando valores ausentes e/ou nulos.



#df.isna()

In [304]:
# Verificando valores ausentes e/ou nulos.


#df.isna().sum()

Colunas com valores ausentes e/ou nulos
- classificacao_acidente      4
- regional                   23
- delegacia                  85
- uop                       219

***
### .duplicated()

O método duplicated() no pandas identifica linhas duplicadas em um DataFrame. Ele retorna uma series booleana, onde:

True → significa que a linha é uma duplicata (exceto a primeira ocorrência).

False → significa que a linha não é uma duplicata (ou é a primeira ocorrência).

In [305]:
# Verificando linhas duplicadas.


#df.duplicated()

In [306]:
# Verificando linhas duplicadas


#df[df.duplicated()]

## 3.1. Tipagem dos Dados

---
### .astype()
O método .astype() no pandas é usado para converter o tipo de dados de colunas em um DataFrame.


In [307]:
# Verificando o tipo dos dados

#df.dtypes

### Coluna:  <font color="red"> id <font>
    id(float64) → id(int)

In [232]:
# Coluna id.


#df['id'] = df['id'].astype(int)

---
### to_datetime()

Este método é usado para converter dados em formato de data e hora (datetime).

### Coluna:  <font color="red"> data_inversa <font>
    
    data_inversa(object) → data_inversa(datetime)

In [234]:
# Coluna de data_inversa.


#df['data_inversa'] = pd.to_datetime(df['data_inversa'])

### Coluna:  <font color="red"> km <font>
    km(object) → km(float)

In [237]:
# Coluna km trocando ',' por '.'


#df['km'] = df['km'].str.replace(',','.')

In [240]:
# Alterando a tipagem da coluna



#df['km'] = df['km'].astype(float)

### Coluna:  <font color="red"> latitude  <font> e <font color='red'> longitude <font>
    latitude(object) → latitude(float);
    longitude(object) → longitude(float).

In [244]:
# Colunas latitude e longitude

df['latitude'] = df['latitude'].str.replace(',','.')
df['longitude'] = df['longitude'].str.replace(',','.')

df['latitude'] = df['latitude'].astype(float)
df['longitude'] = df['longitude'].astype(float)

## Valores Nulos e/ou Ausentes

Colunas com valores ausentes e/ou nulos
- classificacao_acidente      4
- regional                   23
- delegacia                  85
- uop                       219


### Coluna: <font color="red"> classificacao_acidente </font>

---
### .describe()
Gera um resumo estatístico dos dados de um DataFrame ou Series. Ele retorna estatísticas descritivas como média, mediana, desvio padrão, valores mínimos e máximos, entre outras.



In [246]:
# Verificando valores.



#df['classificacao_acidente'].describe()

count                  250885
unique                      6
top       Com Vítimas Feridas
freq                   141444
Name: classificacao_acidente, dtype: object

---
### .fillna()
Usado para preencher valores ausentes (NaN) em um DataFrame ou Series. Ele permite substituir valores NaN por números, strings, médias, valores anteriores ou posteriores, entre outras opções.

In [249]:
# Trocando valores Nulos ou ausentes pela moda da coluna.



#df['classificacao_acidente'] = df['classificacao_acidente'].fillna('Com Vítimas Feridas')

In [308]:
# Verificando a alteração.


#df.isna().sum()

### Coluna: <font color="red"> regional </font>


In [309]:
# Verificando valores.



#df['regional'].describe()

In [254]:
# Excluindo coluna regional.



#df = df.drop(columns='regional')

### Coluna: <font color="red"> delegagia </font>


In [310]:
# Verificando valores.



#df['delegacia'].describe()

A coluna `delegacia` possui 85 valores nulos e/ou ausentes. Como está coluna não irá impactar diretamente em nossa análise, também iremos excluir este coluna

In [257]:
# Excluindo coluna delegacia.



#df = df.drop(columns='delegacia')

### Coluna: <font color="red"> uop </font>

In [258]:
# Verificando valores.



#df['uop'].describe()

count             250670
unique               404
top       UOP01-DEL01-SC
freq                4088
Name: uop, dtype: object

A coluna `uop` possui 219 valores nulos e/ou ausentes. Como está coluna não irá impactar diretamente em nossa análise.

In [259]:
# Excluindo coluna uop.



#df = df.drop(columns='uop')

In [311]:
# Verificando a alteração


#df.isna().sum()

## 4. Engenharia de Atributos

- Extração de informações de data: dia da semana, mês, ano, período do dia (PERIODO DIA).

- Cálculo do total de feridos (TOTAL FERIDOS) combinando feridos leves e graves.

- Explorar a criação de categorias ou faixas para variáveis contínuas. Por exemplo, podemos extrair o horário dos acidentes, que seria uma coluna com valores contínuos de 0 a 23 e então classificar em categorias como MADRUGADA, MANHÃ, TARDE E NOITE.
 

## Criação de Colunas

Colunas:
- Ano;
- Mês;
- Período do dia;
- Total de feridos.

In [268]:
# Criando a coluna data_completa (ano, mês, dia e horário) que corresponde a soma das colunas data_inversa e horário.


#df['data_completa'] = df['data_inversa'].astype(str) + ' ' + df['horario'].astype(str)

In [312]:
# Verificando a alteração

#df.dtypes

In [271]:
# Convertendo a coluna para datetime



#df['data_completa'] = pd.to_datetime(df['data_completa'])

In [273]:
# Extraindo o ano, mês e hora.





#df['Ano'] = df['data_completa'].dt.year
#df['mes'] = df['data_completa'].dt.month
#df['horas'] = df['data_completa'].dt.hour
#df['periodo'] = df['data_completa'].dt.hour

### Coluna Mês

In [275]:
# Criando um dicionário para os meses.

dic_mes = {
    1:'Janeiro',
    2:'Fevereiro',
    3:'Março',
    4:'Abril',
    5:'Maio',
    6:'Junho',
    7:'Julho',
    8:'Agosto',
    9:'Setembro',
    10:'Outubro',
    11:'Novembro',
    12:'Dezembro'
}



In [276]:
# Atribuindo valores de meses para coluna mes.


#df['mes_string'] = df['mes'].map(dic_mes)

### Coluna total_feriados

Coluna que contém a soma da coluna `feriados_leves`  e `feriados_graves`

In [279]:
# Criar a nova coluna total_feriados combinando feridos leves e graves



#df['total_feridos'] = df['feridos_leves'] + df['feridos_graves']

### Coluna Período

Coluna com base no horário em que o acidente aconteceu.
- 00 até 05 Madrugada;
- 06 até 11 Manhã;
- 12 até 17 Tarde;
- 18 até 23 Noite. 

In [281]:
# Criando a coluna período de acordo com o intervalo de horas com relação a cada período do dia.



#df['periodo'] = pd.cut(df['horas'], 
#                             bins = [0, 5, 11, 17, 23],
 #                            labels = ['Madrugada', 'Manhã', 'Tarde', 'Noite']
  #                          )