In [15]:
# Importando as bibliotecas NumPy e Pandas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px


In [2]:
# Importando a base de dados de infrações de trânsito no mês de julho de 2020
db = pd.read_csv('julho.csv', sep=';')

In [None]:
# Verificando o cabeçalho do arquivo
db.head()

In [None]:
# Avaliando o tamanho do arquivo
db.shape

In [None]:
# Avaliando os tipos de dados do dataframe
db.dtypes

In [6]:
# Ao avaliar os tipos de dados, já se nota uma necessidade: alterar o tipo de dado da coluna "cometimento" de object (string) para data
db["cometimento"] = pd.to_datetime(db["cometimento"])

In [None]:
# Verificando se a transformação de tipos de dados ocorreu
db.dtypes

In [8]:
# Uma vez que uma das questões do problema é obter o número de infrações diárias, já vou criar uma coluna para separar o dia. Foi necessário pedir para filtrar pelo mês, em função do formato da data.
db["dia_cometimento"] = (db["cometimento"].dt.month)

In [None]:
# Verificando se a coluna foi criada
db.dtypes

In [None]:
db.tail(20)

In [None]:
# Verificando a existência de valores nulos
db.isnull().sum()
#Verifica-se que há dados faltantes em algumas colunas, principalmente nos dados do local de cometimento da infração.

In [25]:
# Agrupando o número de infrações por tipo e por dia
tipo_infracoes_dia = db.groupby(["dia_cometimento"])["grav_tipo"].value_counts().to_frame("quantidade").reset_index()

In [None]:
# Verificando se o agrupamento funcionou
tipo_infracoes_dia

In [None]:
# Criando o gráfico de dispersão
fig = px.scatter(tipo_infracoes_dia, x="dia_cometimento", y="quantidade", color="grav_tipo")
fig.show()

In [None]:
# Criando o gráfico de linhas
fig = px.line(tipo_infracoes_dia, x="dia_cometimento", y="quantidade", color="grav_tipo")
fig.show()