# <font color='gray'>  Importando a Biblioteca Pandas

----

Sempre que abrimos um arquivo notebook precisamos importar a biblioteca Pandas.

In [None]:
# importando a biblioteca Pandas
import pandas as pd

# <font color='gray'>  Carregando os dados

----  

**fonte:** https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes

In [None]:
# carregando os dados
dados = pd.read_csv('dados/acidentes2025.csv', sep=';', encoding="latin-1")
dados.head()

# <font color='gray'>  Inspecionando os dados

----

In [None]:
# verificando a dimensao do dataframe
dados.shape

In [None]:
# informacoes do dataframe
dados.info()

In [None]:
# verificando os dados unicos da variavel 'data_inversa'
dados['data_inversa'].nunique()

#  <font color='gray'>  Tratamento de dados

----

Para iniciar nossas análises precisamos fazer alguns tratamentos nos dados.

**Documentação:**

Tratamento de  data:
https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html

In [None]:
# convertendo o tipo objeto para tipo de data
dados["data_inversa"] = pd.to_datetime(dados["data_inversa"])
dados["data_inversa"].dtypes

In [None]:
# convertendo o tipo objeto para tipo float
dados["km"] = dados["km"].astype("float")
dados["km"].dtypes

In [None]:
# substituindo o "," por ".""
dados["km"] = dados["km"].str.replace(",", ".")
dados["km"].dtypes

In [None]:
# convertendo o tipo objeto para tipo float
dados["km"] = dados["km"].astype("float")
dados["km"].dtypes

## <font color='gray'> Criando novas colunas

---


In [None]:
# criando uma nova coluna com a informacao do ano
dados["ano"] = dados["data_inversa"].dt.year
dados

In [None]:
# criando uma nova coluna com a informacao do mes
dados["mes"] = dados["data_inversa"].dt.month
dados

In [None]:
# criando uma nova coluna com a informacao do dia
dados["dia"] = dados["data_inversa"].dt.day
dados

In [None]:
# criando uma nova coluna com a informacao do dia da semana - Monday=0 e Sunday=6
dados['dia_semana_nova'] = dados['data_inversa'].dt.weekday
dados

In [None]:
# excluindo coluna 
dados.drop(columns='dia_semana_nova', axis=1)

## <font color='gray'> Estatística Descritiva

---

**Documentação:**

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

In [None]:
# média
dados["mortos"].mean()

In [None]:
# mediana
dados["mortos"].median()

In [None]:
# mmoda
dados["mortos"].mode()

In [None]:
# minímo
dados["mortos"].min()

In [None]:
# maxímo
dados["mortos"].max()

In [None]:
# método describe
dados.describe()

In [None]:
# formatando os valores float
pd.options.display.float_format = '{:,.2f}'.format

# <font color='gray'> Bora praticar... 

Pensando que precisamos saber quais os valores minímo, máximo, média de mortes dos Estados de SP, MG.

* 1. Criar um *dataframe* com dados apenas de cada Estado ;
* 2. Utilizar o método *describe*; 

In [None]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url="https://media.giphy.com/media/hwvxuIKLEayDS/giphy.gif?cid=ecf05e47rxh2pqwr8rifkd01m1xblbozrww386bxy1xt50bm&rid=giphy.gif&ct=g")

In [None]:
# resposta

# <font color='gray'> Analisando os dados

---
**Documentacao:**

https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html

https://pandas.pydata.org/docs/reference/groupby.html

https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html

In [None]:
# Qual a distribuicao de pessoas envolvidads em acidentes por dia da semana? (valor absoluto)
dados["dia_semana"].value_counts()

In [None]:
# Qual a distribuicao de pessoas envolvidads em acidentes por dia da semana? (percentual)
dados["dia_semana"].value_counts(normalize=True)

In [None]:
# Qual era a condicao metereologica na hora do acidentes?
#  groupby com a função agg, usando as duas funções conseguimos definir qual coluna vamos agrupar os dados e com coluna vamos usar para ter os valores. 
dados.groupby(by='condicao_metereologica', as_index=False)['id'].agg(['count'])


In [None]:
# Além da quantidade, qual foi a média de feridos leve por condicao metereologica
dados.groupby(by='condicao_metereologica', as_index=False)['feridos_leves'].agg(['count', 'mean'])

In [None]:
# Além da quantidade, qual foi a média, min e max de feridos leve por condicao metereologica
dados.groupby(by='condicao_metereologica', as_index=False)['feridos_leves'].agg(['count', 'mean', "min", "max"])

In [None]:
# Agora, vamos analisar observando também a fase do dia
# groupby com a função agg, usando as duas funções conseguimos definir qual coluna vamos agrupar os dados e com coluna vamos usar para ter os valores. 
# 'condicao_metereologica', 'fase_dia'
dados.groupby(by=['condicao_metereologica', 'fase_dia'], as_index=False)['mortos'].agg(['count', 'min', 'max', 'mean', 'median'])
                           


In [None]:
# Agg com colunas e métricas diferentes para analisar feridos leves e mortos por condicao e fase do dia
dados.groupby(by=['condicao_metereologica', 'fase_dia'], as_index=False).\
                               agg({'feridos_leves': ['sum', 'min', 'max'],
                                    'mortos':  ['sum', 'min', 'max']})


In [None]:
# outra maneira de agrupar os dados
dados.pivot_table(index='condicao_metereologica',
                              columns='fase_dia',
                              values='mortos',
                              aggfunc='sum',
                              margins=True,
                              margins_name='Total')

# <font color='gray'> O que mais vocês analisariam?

---

In [None]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url="https://media.giphy.com/media/hwvxuIKLEayDS/giphy.gif?cid=ecf05e47rxh2pqwr8rifkd01m1xblbozrww386bxy1xt50bm&rid=giphy.gif&ct=g")