In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
pd.set_option('display.max_colwidth', None)
df = pd.read_csv('../input/infracoes-de-transito-no-distrito-federal/InfracaoTransito.csv', sep=';')
meses = ["Janeiro", "Fevereiro", "Março", "Abril", "Maio", "Junho", "Julho", "Agosto", "Setembro", "Outubro", "Novembro", "Dezembro"]
df["mes_cometimento"] = pd.Categorical(df["mes_cometimento"], categories = meses)

df.head()

In [None]:
# Quantidade de infrações ao longo do tempo:

# Selecionando o ano e o mes
infracoes_tempo = df[["ano_cometimento","mes_cometimento"]]

# Agrupando por ano e mes, e somando a quantidade de infrações por mes
infracoes_tempo = infracoes_tempo.groupby(["ano_cometimento","mes_cometimento"]).agg({'mes_cometimento':['count']}).reset_index()

# Renomeando as colunas
infracoes_tempo.columns = ['Ano','Mes','Quantidade_Infracoes']

# Excluindo os mes que não tem dados (meses anteriores a julho 2018 e posteriores a fevereiro 2021).
infracoes_tempo = infracoes_tempo[infracoes_tempo['Quantidade_Infracoes'] > 0]

# Selecionando as colunas de mes e quantidade de infrações para plotar o gráfico
infracoes_tempo = infracoes_tempo[['Mes','Quantidade_Infracoes']]

# Plotando o gráfico de linhas
infracoes_tempo.plot.line(x='Mes')

In [None]:
# Os pricipais tipo de infrações:

# Selecionando código e a descrição da infração
maiores_tipo_infracao = df[["tipo_infracao","descricao"]]

# Agrupando por código de infração, e somando a quantidade de infrações por tipo de infração
maiores_tipo_infracao = maiores_tipo_infracao.groupby(["tipo_infracao","descricao"]).agg({'tipo_infracao':['count']}).reset_index()

# Renomenando as colunas
maiores_tipo_infracao.columns = ['Codigo_Infracao','Descricao','Quantidade_Infracoes']

# Ordenando pela quantidade de infrações em ordem decrescente
maiores_tipo_infracao = maiores_tipo_infracao.sort_values(by=['Quantidade_Infracoes'],ascending=False)

# Selecionando os dez primeiros resultados
maiores_tipo_infracao = maiores_tipo_infracao[0:10]

# Plotando o gráfico
maiores_tipo_infracao.plot.barh(x='Codigo_Infracao')

# Imprimindo os dez primeiros resultados
maiores_tipo_infracao.head(10)

In [None]:
# Os pricipais tipo de infrações:

# Selecionando código, a descrição e a gravidade da infração
maiores_tipo_infracao_leve = df[["tipo_infracao","descricao","grav_tipo"]]

# Filtrando pelo tipo de gravidade "Leve"
maiores_tipo_infracao_leve = maiores_tipo_infracao_leve[maiores_tipo_infracao_leve['grav_tipo']=='Leve']

# Agrupando por código de infração, e somando a quantidade de infrações por tipo de infração
maiores_tipo_infracao_leve = maiores_tipo_infracao_leve.groupby(["tipo_infracao","descricao"]).agg({'tipo_infracao':['count']}).reset_index()

# Renomenando as colunas
maiores_tipo_infracao_leve.columns = ['Codigo_Infracao','Descricao','Quantidade_Infracoes']

# Ordenando pela quantidade de infrações em ordem decrescente
maiores_tipo_infracao_leve = maiores_tipo_infracao_leve.sort_values(by=['Quantidade_Infracoes'],ascending=False)

# Selecionando os cinco primeiros resultados:
maiores_tipo_infracao_leve = maiores_tipo_infracao_leve[0:5]

# Plotando o gráfico
maiores_tipo_infracao_leve.plot.barh(x='Codigo_Infracao')

# Imprimindo os dez primeiros resultados
maiores_tipo_infracao_leve.head(10)

In [None]:
# Os pricipais tipo de infrações:

# Selecionando código, a descrição e a gravidade da infração
maiores_tipo_infracao_media = df[["tipo_infracao","descricao","grav_tipo"]]

# Filtrando pelo tipo de gravidade "Média"
maiores_tipo_infracao_media = maiores_tipo_infracao_media[maiores_tipo_infracao_media['grav_tipo']=='Média']

# Agrupando por código de infração, e somando a quantidade de infrações por tipo de infração
maiores_tipo_infracao_media = maiores_tipo_infracao_media.groupby(["tipo_infracao","descricao"]).agg({'tipo_infracao':['count']}).reset_index()

# Renomenando as colunas
maiores_tipo_infracao_media.columns = ['Codigo_Infracao','Descricao','Quantidade_Infracoes']

# Ordenando pela quantidade de infrações em ordem decrescente
maiores_tipo_infracao_media = maiores_tipo_infracao_media.sort_values(by=['Quantidade_Infracoes'],ascending=False)

# Selecionando os cinco primeiros resultados:
maiores_tipo_infracao_media = maiores_tipo_infracao_media[0:5]

# Plotando o gráfico
maiores_tipo_infracao_media.plot.barh(x='Codigo_Infracao')

# Imprimindo os dez primeiros resultados
maiores_tipo_infracao_media.head(10)

In [None]:
# Os pricipais tipo de infrações:

# Selecionando código, a descrição e a gravidade da infração
maiores_tipo_infracao_grave = df[["tipo_infracao","descricao","grav_tipo"]]

# Filtrando pelo tipo de gravidade "Grave"
maiores_tipo_infracao_grave = maiores_tipo_infracao_grave[maiores_tipo_infracao_grave['grav_tipo']=='Grave']

# Agrupando por código de infração, e somando a quantidade de infrações por tipo de infração
maiores_tipo_infracao_grave = maiores_tipo_infracao_grave.groupby(["tipo_infracao","descricao"]).agg({'tipo_infracao':['count']}).reset_index()

# Renomenando as colunas
maiores_tipo_infracao_grave.columns = ['Codigo_Infracao','Descricao','Quantidade_Infracoes']

# Ordenando pela quantidade de infrações em ordem decrescente
maiores_tipo_infracao_grave = maiores_tipo_infracao_grave.sort_values(by=['Quantidade_Infracoes'],ascending=False)

# Selecionando os cinco primeiros resultados:
maiores_tipo_infracao_grave = maiores_tipo_infracao_grave[0:5]

# Plotando o gráfico
maiores_tipo_infracao_grave.plot.barh(x='Codigo_Infracao')

# Imprimindo os dez primeiros resultados
maiores_tipo_infracao_grave.head(10)

In [None]:
# Os pricipais tipo de infrações:

# Selecionando código, a descrição e a gravidade da infração
maiores_tipo_infracao_gravissima = df[["tipo_infracao","descricao","grav_tipo"]]

# Filtrando pelo tipo de gravidade "Gravíssima"
maiores_tipo_infracao_gravissima = maiores_tipo_infracao_gravissima[maiores_tipo_infracao_gravissima['grav_tipo']=='Gravíssima']

# Agrupando por código de infração, e somando a quantidade de infrações por tipo de infração
maiores_tipo_infracao_gravissima = maiores_tipo_infracao_gravissima.groupby(["tipo_infracao","descricao"]).agg({'tipo_infracao':['count']}).reset_index()

# Renomenando as colunas
maiores_tipo_infracao_gravissima.columns = ['Codigo_Infracao','Descricao','Quantidade_Infracoes']

# Ordenando pela quantidade de infrações em ordem decrescente
maiores_tipo_infracao_gravissima = maiores_tipo_infracao_gravissima.sort_values(by=['Quantidade_Infracoes'],ascending=False)

# Selecionando os cinco primeiros resultados:
maiores_tipo_infracao_gravissima = maiores_tipo_infracao_gravissima[0:5]

# Plotando o gráfico
maiores_tipo_infracao_gravissima.plot.barh(x='Codigo_Infracao')

# Imprimindo os dez primeiros resultados
maiores_tipo_infracao_gravissima.head(10)

In [None]:
# As porcentagens total das gravidades :

# Selecionando as gravidades
gravidade_infracao = df[["grav_tipo"]]

# Excluindo as "Em Branco"
gravidade_infracao = gravidade_infracao[gravidade_infracao["grav_tipo"]!="Em Branco"]

# Agrupando pela gravidade, e somando a quantidade de infrações por tipo de gravidade
gravidade_infracao = gravidade_infracao.groupby(["grav_tipo"]).agg({'grav_tipo':['count']}).reset_index()

# Renomeando as colunas
gravidade_infracao.columns = ['Gravidade','Quantidade_Infracoes']

# Definindo a coluna gravidade como index, para plotar o gráfico.
gravidade_infracao = gravidade_infracao.set_index('Gravidade')

# Plotando o gráfico
gravidade_infracao.plot.pie(y='Quantidade_Infracoes', title = "Divisão das infraçoes por gravidade",legend = False, radius = 1.2, autopct='%1.1f%%', pctdistance=0.75, labeldistance=1, ylabel='')

# Imprimindo os dez primeiros resultados
gravidade_infracao.head(10)

In [None]:
# As porcentagens total das gravidades :

# Selecionando as gravidades
tipo_veiculo = df[["tipo_veiculo"]]

# Excluindo as "Em Branco"
tipo_veiculo = tipo_veiculo[tipo_veiculo["tipo_veiculo"]!="Em Branco"]

# Agrupando pela gravidade, e somando a quantidade de infrações por tipo de gravidade
tipo_veiculo = tipo_veiculo.groupby(["tipo_veiculo"]).agg({'tipo_veiculo':['count']}).reset_index()

# Renomeando as colunas
tipo_veiculo.columns = ['Tipo_Veiculo','Quantidade_Infracoes']

# Ordenando os tipo de veículos com mais infrações
tipo_veiculo = tipo_veiculo.sort_values('Quantidade_Infracoes', ascending=False)

# Selecionando os 5 principais veículos
top_5_tipo_veiculo = tipo_veiculo[:5]

# Selecionando os outros tipo de veículos restantes
outros_tipo_veiculo = tipo_veiculo[5:]

# Somando todos os valores dos tipos de veículos com menos infrações
outros_tipo_veiculo = outros_tipo_veiculo.agg({'Quantidade_Infracoes':['sum']})

# Atribuindo valor da soma de todos veículos como "Outros"
outros_tipo_veiculo['Tipo_Veiculo'] = 'Outros'

# Concatenando os Top 5 com os outros veículos
tipo_veiculo = pd.concat([top_5_tipo_veiculo,outros_tipo_veiculo], axis=0).reset_index(drop=True)

# Definindo a coluna gravidade como index, para plotar o gráfico.
tipo_veiculo = tipo_veiculo.set_index('Tipo_Veiculo')

# Plotando o gráfico
tipo_veiculo.plot.pie(y='Quantidade_Infracoes', title = "Divisão das infraçoes por tipos de veiculo",legend = False, radius = 1.2, autopct='%1.1f%%', pctdistance=0.75, labeldistance=1, ylabel='')

# Imprimindo os dez primeiros resultados
# tipo_veiculo.head(10)

In [None]:
import matplotlib.pyplot as plt

# Quantificação por tipo de infrações entre 2019 - 2020:

infracoes_ano = df[["grav_tipo","ano_cometimento"]]

infracoes_ano = infracoes_ano.groupby(["grav_tipo","ano_cometimento"]).agg({'grav_tipo':['count']}).reset_index()

infracoes_ano.columns = ['Gravidade','Ano','Quantidade_Infracoes']

infracoes_ano = infracoes_ano.sort_values(by=['Ano','Gravidade'],ascending=True)

infr_2019 = infracoes_ano[infracoes_ano['Ano'] == 2019]
print(infr_2019)

infr_2020 = infracoes_ano[infracoes_ano['Ano'] == 2020]
print(infr_2020)

fig,ax = plt.subplots()

plt.title(f'{"Quantificação por tipo de infrações entre 2019 e 2020:"}', fontsize=15)

plt.bar(np.arange(len(infr_2020['Gravidade'])) - 0.2,infr_2020['Quantidade_Infracoes'], 0.4, label='2020')

plt.bar(np.arange(len(infr_2019['Gravidade'])) + 0.2, infr_2019['Quantidade_Infracoes'], 0.4, label='2019')

plt.xticks(np.arange(len(infr_2020['Gravidade'])), infr_2020['Gravidade'])

leg = ax.legend();

plt.show()