In [36]:
# Importando as bibliotecas NumPy e Pandas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [19]:
# Importando a base de dados de infrações de trânsito no mês de julho de 2020
db = pd.read_csv('julho.csv', sep=';')

In [None]:
# Verificando o cabeçalho do arquivo
db.head()

In [None]:
# Avaliando o tamanho do arquivo
db.shape

In [None]:
# Avaliando os tipos de dados do dataframe
db.dtypes

In [23]:
# Ao avaliar os tipos de dados, já se nota uma necessidade: alterar o tipo de dado da coluna "cometimento" de object (string) para data
db["cometimento"] = pd.to_datetime(db["cometimento"])

In [33]:
# Verificando se a transformação de tipos de dados ocorreu
db.dtypes

tipo_infracao                      object
descricao                          object
tipo_infrator                      object
tipo_veiculo                       object
cometimento                datetime64[ns]
hora_cometimento                   object
auinf_local_rodovia                object
auinf_local_km                    float64
auinf_local_referencia             object
auinf_local_complemento            object
auinf_local_latitude               object
auinf_local_longitude              object
grav_tipo                          object
dia_cometimento                   float64
dtype: object

In [29]:
# Uma vez que uma das questões do problema é obter o número de infrações diárias, já vou criar uma coluna para separar o dia. Foi necessário pedir para filtrar pelo mês, em função do formato da data.
db["dia_cometimento"] = (db["cometimento"].dt.month)

In [None]:
# Verificando se a coluna foi criada
db.dtypes

In [None]:
db.tail(20)

In [34]:
# Verificando a existência de valores nulos
db.isnull().sum()
#Verifica-se que há dados faltantes em algumas colunas, principalmente nos dados do local de cometimento da infração.

tipo_infracao                 0
descricao                     0
tipo_infrator                 1
tipo_veiculo                  1
cometimento                   1
hora_cometimento              1
auinf_local_rodovia           2
auinf_local_km             3916
auinf_local_referencia     3974
auinf_local_complemento    4721
auinf_local_latitude       3954
auinf_local_longitude      3954
grav_tipo                     1
dia_cometimento               1
dtype: int64

In [None]:
# Avaliando a quantidade de infrações de cada tipo
db["grav_tipo"].value_counts(ascending=True)

In [None]:
# Avaliando o número de infrações diárias
db.groupby("dia_cometimento")["tipo_infracao"].count()

In [None]:
# Realizando a análise de correlação entre as variáveis do dataframe
db.corr()
# A análise de correlação ficou comprometida pelo fato de que há muitos dados vazios nas variáveis quantitativas.

In [None]:
# Construção de um gráfico de barras com a paleta de cor qualitativa "Set2", representando o número de infrações por tipo de infrator
sns.catplot(x ="tipo_infrator", kind="count", palette="Set2", data=db)
plt.title("Quantidade de ocorrências por tipo de infrator")

In [None]:
# Construção de um gráfico de barras com a paleta de cor qualitativa "Set2", representando o número de infrações por tipo de veículo
sns.catplot(x ="tipo_veiculo", kind="count", palette="Set2", data=db)
plt.title("Quantidade de ocorrências por tipo de infrator")
