## Dicionários das variáveis

| Nome Atual                         | Descrição                                        |                                                                                   
|------------------------------------|--------------------------------------------------|                                                                                   
| Número do Auto                     | Identificador único do auto de infração          |                                                                                   
| Data da Infração (DD/MM/AAAA)      | Data da infração no formato dd/mm/aaaa           |                                                                                   
| Indicador de Abordagem             | Identifica se houve abordagem do veículo         |                                                                                   
| Assinatura do Auto                 | Informa se o infrator assinou o auto de infração |                                                                                   
| Indicador Veiculo Estrangeiro      | Informa se o veículo é estrangeiro               |                                                                                   
| Sentido Trafego                    | Sentido da via onde ocorreu a infração           |                                                                                   
| UF Placa                           | Unidade federativa da placa do veículo           |                                                                                   
| UF Infração                        | Unidade federativa do local da infração          |                                                                                   
| BR Infração                        | Identificador da BR onde ocorreu a infração      |                                                                                   
| Km Infração                        | Identificação do quilômetro da infração          |                                                                                   
| Município                          | Nome do município onde ocorreu a infração        |                                                                                   
| Código da Infração                 | Não há correspondência                           |                                                                                   
| Descrição Abreviada Infração       | Descrição abreviada da infração                  |                                                                                   
| Enquadramento da Infração          | Enquadramento da infração de acordo com o CTB    |                                                                                   
| Início Vigência da Infração        | Data do início da vigência da infração           |                                                                                   
| Fim Vigência Infração              | Data do fim da vigência da infração              |                                                                                   
| Medição Infração                   | Registro da medição realizada                    |                                                                                   
| Descrição Especie Veículo          | Espécie do veículo                               |                                                                                   
| Descrição Marca Veículo            | Marca do veículo                                 |                                                                                   
| Hora Infração                      | Horário em que ocorreu a infração                |                                                                                   
| Medição Considerada                | Medição considerada para o registro da infração  |                                                                                   
| Excesso Verificado                 | Excesso verificado nas infrações                 |                                                                                   
| Qtd Infrações                      | Quantidade de infrações (sempre 1)               |                                                                                   
| Descrição Tipo Veículo             | Espécie do veículo                               |                                                                                   
| Descrição Modelo Veiculo           | Modelo do veículo                                |                                                                                   

## Bibliotecas

In [111]:
# Manipulação de dados
import numpy as np
import pandas as pd

# Visualização de dados
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Ignorar avisos
import warnings
warnings.filterwarnings('ignore')

## Leitura das bases

In [112]:
# Mostrar mais colunas no display
pd.set_option('display.max_columns', None)

In [113]:
# Importa a base de dados em parquet
df = pd.read_parquet('Base_Consolidada.parquet')

## Estudo da base

Inicialmente, vamos verificar a estrutura de dados da nossa base. Para isso, começaremos analizando as 5 primeiras e as 5 últimas entradas, analisando as colunas disponíveis e observando a quantidade de nulos.

In [114]:
# Visualizar a base que importamos
display(df)

Unnamed: 0,Número do Auto,Data da Infração (DD/MM/AAAA),Indicador de Abordagem,Assinatura do Auto,Indicador Veiculo Estrangeiro,Sentido Trafego,UF Placa,UF Infração,BR Infração,Km Infração,Município,Código da Infração,Descrição Abreviada Infração,Enquadramento da Infração,Início Vigência da Infração,Fim Vigência Infração,Medição Infração,Descrição Especie Veículo,Descrição Marca Veículo,Hora Infração,Medição Considerada,Excesso Verificado,Qtd Infrações,Descrição Tipo Veículo,Descrição Modelo Veiculo
0,2b0d033ac754fc6,2020-01-16,S,N,N,C,'-1,RS,290,111,ELDORADO DO SUL,58350,Desobedecer às ordens emanadas da autorid comp...,195,2016-11-01,,Nenhuma,CARGA,VW,0,0,0,1,,
1,e1f8917e70ebf38,2020-01-18,S,N,N,C,'-1,RS,116,327,BARRA DO RIBEIRO,58350,Desobedecer às ordens emanadas da autorid comp...,195,2016-11-01,,Nenhuma,CARGA,OUTRA,0,0,0,1,,
2,dfd71eeac1fe06b,2020-01-25,C,N,N,D,RS,RS,116,292,ELDORADO DO SUL,65992,Conduzir o veículo registrado que não esteja d...,230 * V,2016-11-01,,Nenhuma,PASSAGEIRO,FORD,21,0,0,1,,
3,558685c5e4dbcca,2020-01-30,C,N,N,C,GO,MT,364,387,CUIABA,65991,Conduzir o veículo que não esteja registrado,230 * V,2016-11-01,,Nenhuma,TRAÇÃO,OUTRA,14,0,0,1,,
4,aac0a90d941bb4e,2020-01-31,C,N,N,C,RJ,RJ,101,65,CAMPOS DOS GOITACAZES,65992,Conduzir o veículo registrado que não esteja d...,230 * V,2016-11-01,,Nenhuma,PASSAGEIRO,OUTRA,15,0,0,1,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14559354,60b97427863ac79,2020-12-31,S,N,N,C,,SP,381,88,SAO PAULO,52070,Dirigir sem atenção ou sem os cuidados indispe...,169,2016-11-01,,Nenhuma,PASSAGEIRO,YAMAHA,16,0,0,1,,
14559355,6aaf2f7cd1925a5,2020-12-31,S,N,N,C,,SP,381,88,SAO PAULO,67690,Conduzir o veíc c/ com defeito no sist de ilum...,230 XXII,2016-11-01,,Nenhuma,PASSAGEIRO,FIAT,16,0,0,1,,
14559356,5f77ab593b62b93,2020-12-31,C,N,N,C,,MG,381,218,NAQUE,66450,Conduzir o veículo com equip obrigatório em de...,230 X,2016-11-01,,Nenhuma,CARGA,FORD,6,0,0,1,,
14559357,fe3d0ab71ecfba9,2020-12-31,C,N,N,C,,MG,381,218,NAQUE,66450,Conduzir o veículo com equip obrigatório em de...,230 X,2016-11-01,,Nenhuma,PASSAGEIRO,MERCEDES BENZ,6,0,0,1,,


In [115]:
# Exibe colunas disponíveis
df.columns

Index(['Número do Auto', 'Data da Infração (DD/MM/AAAA)',
       'Indicador de Abordagem', 'Assinatura do Auto',
       'Indicador Veiculo Estrangeiro', 'Sentido Trafego', 'UF Placa',
       'UF Infração', 'BR Infração', 'Km Infração', 'Município',
       'Código da Infração', 'Descrição Abreviada Infração',
       'Enquadramento da Infração', 'Início Vigência da Infração',
       'Fim Vigência Infração', 'Medição Infração',
       'Descrição Especie Veículo', 'Descrição Marca Veículo', 'Hora Infração',
       'Medição Considerada', 'Excesso Verificado', 'Qtd Infrações',
       'Descrição Tipo Veículo', 'Descrição Modelo Veiculo'],
      dtype='object')

In [116]:
# Verifica tipo de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14559359 entries, 0 to 14559358
Data columns (total 25 columns):
 #   Column                         Dtype 
---  ------                         ----- 
 0   Número do Auto                 object
 1   Data da Infração (DD/MM/AAAA)  object
 2   Indicador de Abordagem         object
 3   Assinatura do Auto             object
 4   Indicador Veiculo Estrangeiro  object
 5   Sentido Trafego                object
 6   UF Placa                       object
 7   UF Infração                    object
 8   BR Infração                    object
 9   Km Infração                    object
 10  Município                      object
 11  Código da Infração             object
 12  Descrição Abreviada Infração   object
 13  Enquadramento da Infração      object
 14  Início Vigência da Infração    object
 15  Fim Vigência Infração          object
 16  Medição Infração               object
 17  Descrição Especie Veículo      object
 18  Descrição Marca Veíc

In [117]:
# Verifica a existência de valores nulos
df.isnull().sum()

Número do Auto                   0
Data da Infração (DD/MM/AAAA)    0
Indicador de Abordagem           0
Assinatura do Auto               0
Indicador Veiculo Estrangeiro    0
Sentido Trafego                  0
UF Placa                         0
UF Infração                      0
BR Infração                      0
Km Infração                      0
Município                        0
Código da Infração               0
Descrição Abreviada Infração     0
Enquadramento da Infração        0
Início Vigência da Infração      0
Fim Vigência Infração            0
Medição Infração                 0
Descrição Especie Veículo        0
Descrição Marca Veículo          0
Hora Infração                    0
Medição Considerada              0
Excesso Verificado               0
Qtd Infrações                    0
Descrição Tipo Veículo           0
Descrição Modelo Veiculo         0
dtype: int64

In [118]:
# Verifica a quantidade de valores únicos
df.nunique()

Número do Auto                   14559326
Data da Infração (DD/MM/AAAA)        1096
Indicador de Abordagem                  2
Assinatura do Auto                      2
Indicador Veiculo Estrangeiro           4
Sentido Trafego                         3
UF Placa                               91
UF Infração                            27
BR Infração                           132
Km Infração                          1261
Município                            2355
Código da Infração                    389
Descrição Abreviada Infração          398
Enquadramento da Infração             246
Início Vigência da Infração             9
Fim Vigência Infração                   2
Medição Infração                        5
Descrição Especie Veículo              14
Descrição Marca Veículo             20570
Hora Infração                          24
Medição Considerada                 21401
Excesso Verificado                  13985
Qtd Infrações                           2
Descrição Tipo Veículo            

**Observações iniciais:**

• Observamos aqui que a base possui 25 colunas e 14.559.359 linhas (que também representa a quantidade de infrações nesses três anos de análise).

• Ainda, vemos que todas as colunas estão definidas como "object", requerendo conversão de tipos.

• Sobre os valores nulos, observamos que todos estão com zero, mas isso provavelmente é uma interpretação incorreta, já que a base parece considerar o valor "nan" como string. Portanto, é importante tratar esses valores adequadamente, convertendo-os para o formato nulo (NaN) reconhecido pelo pandas.

• Também interessante de notar é que a coluna "Número do Auto", que representa uma espécie de identificador da infração, tem menos valores únicos que o total de linha. Isso sugere a possibilidade de existirem duplicatas ou repetições na coluna. É essencial investigar e tratar esses casos para garantir a integridade dos dados e a precisão das análises realizadas.


## Tratamento da base

In [119]:
# Converte "nan" que está como string, para valor nulo
df = df.replace('nan', np.nan)

In [120]:
# Verifica novamente a existência de valores nulos
df.isnull().sum()

Número do Auto                          0
Data da Infração (DD/MM/AAAA)           0
Indicador de Abordagem                  0
Assinatura do Auto                      0
Indicador Veiculo Estrangeiro         744
Sentido Trafego                         0
UF Placa                          9940077
UF Infração                             0
BR Infração                             0
Km Infração                             0
Município                               0
Código da Infração                      0
Descrição Abreviada Infração            0
Enquadramento da Infração               0
Início Vigência da Infração             0
Fim Vigência Infração            14559358
Medição Infração                        0
Descrição Especie Veículo             794
Descrição Marca Veículo              1792
Hora Infração                           0
Medição Considerada                     0
Excesso Verificado                      0
Qtd Infrações                           0
Descrição Tipo Veículo           1

In [122]:
# Excluir colunas com valores nulos: Indicador Veiculo Estrangeiro, UF Placa, Fim Vigência Infração, Descrição Especie Veículo, Descrição Marca Veículo, Descrição Tipo Veículo, Descrição Modelo Veiculo
df = df.dropna(axis='columns')

In [124]:
# Converte data para datetime
df['Data da Infração (DD/MM/AAAA)'] = pd.to_datetime( df['Data da Infração (DD/MM/AAAA)'])

In [126]:
# Verificar período da base
inicio = df['Data da Infração (DD/MM/AAAA)'].dt.date.min()
print(f'Data inicial: {inicio}')

fim = df['Data da Infração (DD/MM/AAAA)'].dt.date.max()
print(f'Data final: {fim}')

Data inicial: 2020-01-01
Data final: 2022-12-31


In [127]:
# Converte a coluna 'Hora Infação' para int
df['Hora Infração'] = df['Hora Infração'].astype(int)

# Define intervalos e rótulos
bins = [0, 6, 12, 18, 24.01]
labels = ['Entre 0 e 6 horas', 'Entre 6 e 12 horas', 'Entre 12 e 18 horas', 'Entre 18 e 24 horas']

# Cria categorização da coluna 'Hora Infração', que será utilizada posteriormente em análise
df['Hora Infração Categorizada'] = pd.cut(df['Hora Infração'], bins = bins, labels = labels, right = False)

In [129]:
# Extraindo mês e dia das datas
df['mes'] = pd.to_datetime( df['Data da Infração (DD/MM/AAAA)'] ).dt.month
df['ano'] = pd.to_datetime( df['Data da Infração (DD/MM/AAAA)'] ).dt.year


**Tratamentos iniciais realizados:**

• Exclusão de colunas com valores nulos: Foi realizada a exclusão das colunas que continham valores nulos, uma vez que esses valores podem levar a interpretações errôneas e não seriam necessárias para a análise inicial do conjunto de dados.

• Conversão da data para o formato datetime: A coluna contendo as datas das infrações foi convertida para o formato datetime, visando facilitar sua manipulação e possibilitar a extração de informações específicas, como o mês e o ano.

• Criação da coluna "Hora Infração Categorizada": Com base na coluna que armazena o horário das infrações, foi criada uma nova coluna denominada "Hora Infração Categorizada". Essa coluna agrupa os horários em intervalos específicos, permitindo uma análise mais simplificada dos dados relacionados aos diferentes períodos do dia.

• Criação das colunas "mês" e "ano": Com o intuito de possibilitar análises temporais mais detalhadas, foram criadas duas novas colunas, "mês" e "ano", que extraem as informações de mês e ano a partir da coluna de data das infrações. Essas colunas facilitam a realização de agrupamentos e comparações ao longo do tempo.


## Análises

#### Variação de infrações por Ano

In [131]:
df_ano = df.groupby('ano').agg(Soma_Autos = ('Número do Auto', 'count')).reset_index()
df_ano['Variação Percentual'] = df_ano['Soma_Autos'].pct_change() * 100
df_ano['Variação Percentual'] = df_ano['Variação Percentual'].round(2)

display(df_ano)

Unnamed: 0,ano,Soma_Autos,Variação Percentual
0,2020,5182537,
1,2021,5241299,1.13
2,2022,4135523,-21.1


#### Quantidade de infrações em cada mês

In [134]:
df_mes = df.groupby('mes').agg(Soma_Autos = ('Número do Auto', 'count')).reset_index()
df_mes = df_mes.sort_values('Soma_Autos', ascending = False)

display(df_mes)

Unnamed: 0,mes,Soma_Autos
1,2,1327215
9,10,1303301
11,12,1275938
0,1,1263155
7,8,1257932
8,9,1257497
6,7,1180487
5,6,1178581
2,3,1170239
4,5,1161589


In [149]:
# Gráfico de barras

plot_mes = px.bar(
    df_mes,
    x = 'mes',
    y = 'Soma_Autos',
    title = 'Soma de Autos por Mês no período de 2020-2022'
)

plot_mes.update_layout(xaxis = {'dtick' : 1}, yaxis = {'dtick' : 1})

display(plot_mes)

#### Quais tipos de veículos sofrem mais infrações?

In [None]:
df_tipos_veiculos = df['Descrição Tipo Veículo'].value_counts(dropna = True).nlargest(5)

display(df_tipos_veiculos)

Descrição Tipo Veículo
AUTOMOVEL          1672259
CAMINHAO            536740
CAMINHONETE         528558
MOTOCICLETA         446895
CAMINHAO TRATOR     373484
Name: count, dtype: int64


#### Qual o tipo de infração mais comum?

In [None]:
infracoes = df['Descrição Abreviada Infração'].value_counts(dropna = True).nlargest(5)

print(infracoes)

Descrição Abreviada Infração
Transitar em velocidade superior à máxima permitida em até 20%                     5407392
Transitar em velocidade superior à máxima permitida em mais de 20% até 50%          817103
Ultrapassar pela contramão linha de divisão de fluxos opostos, contínua amarela     692306
Deixar o condutor de usar o cinto segurança                                         497094
Conduzir o veículo registrado que não esteja devidamente licenciado                 493663
Name: count, dtype: int64


#### Quais os estados com maior ocorrência de infração?

In [None]:
estados = df['UF Infração'].value_counts(dropna = True).nlargest(5)

print(estados)

UF Infração
RJ    2263220
MG    1799596
SP    1554159
BA    1282636
MS    1008968
Name: count, dtype: int64


**Conclusões:**

• Exclusão de colunas com valores nulos: Foi realizada a exclusão das colunas que continham valores nulos, uma vez que esses valores podem levar a interpretações errôneas e não seriam necessárias para a análise inicial do conjunto de dados.

• Conversão da data para o formato datetime: A coluna contendo as datas das infrações foi convertida para o formato datetime, visando facilitar sua manipulação e possibilitar a extração de informações específicas, como o mês e o ano.

• Criação da coluna "Hora Infração Categorizada": Com base na coluna que armazena o horário das infrações, foi criada uma nova coluna denominada "Hora Infração Categorizada". Essa coluna agrupa os horários em intervalos específicos, permitindo uma análise mais simplificada dos dados relacionados aos diferentes períodos do dia.

• Criação das colunas "mês" e "ano": Com o intuito de possibilitar análises temporais mais detalhadas, foram criadas duas novas colunas, "mês" e "ano", que extraem as informações de mês e ano a partir da coluna de data das infrações. Essas colunas facilitam a realização de agrupamentos e comparações ao longo do tempo.

In [None]:
a

NameError: name 'a' is not defined

In [None]:
# Multas por dia
# Value counts conta agrupando
# sort agrupa a coluna
# reset_index retorna um dataframe

multas_dia = df['Data da Infração (DD/MM/AAAA)'].value_counts().sort_index().reset_index()


# Renomear colunas
multas_dia.columns = ['data', 'quantidade', 'mes', 'dia']

# Média movel
multas_dia['media_movel'] = multas_dia['quantidade'].rolling(7).mean()

# Verificar
multas_dia.tail()

Unnamed: 0,data,quantidade,mes,dia,media_movel
360,2022-12-27,12077,12,27,13297.142857
361,2022-12-28,11332,12,28,13104.714286
362,2022-12-29,12226,12,29,13149.571429
363,2022-12-30,15801,12,30,13046.428571
364,2022-12-31,13216,12,31,12983.857143


In [None]:
# Informações
multas_dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   data         365 non-null    datetime64[ns]
 1   quantidade   365 non-null    int64         
 2   mes          365 non-null    int32         
 3   dia          365 non-null    int32         
 4   media_movel  359 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int32(2), int64(1)
memory usage: 11.5 KB


In [None]:
# Gráfico de linhas

px.line(
    multas_dia,
    x = 'data',
    y = 'quantidade'
)

In [None]:
# Go

go.Figure(
    go.Scatter(
        x = multas_dia['data'],
        y = multas_dia['quantidade']
    )
)

In [None]:
# Sistema Grid

# Grid

grid = make_subplots(rows = 1, cols = 2)

# Gráfico 1
grid.add_trace(
    go.Scatter(
        x= multas_dia['data'],
        y = multas_dia['quantidade'],
        mode = 'lines',
        name = 'qtd'
    ),
    row = 1, col = 1
)

# Gráfico 2
grid.add_trace(
    go.Scatter(
        x= multas_dia['data'],
        y = multas_dia['media_movel'],
        mode = 'lines',
        name = 'média móvel'
    ),
    row = 1, col = 2
)

# Ajuste de layout
grid.update_layout(
    # Título
    title = 'Sistema de Grid',
    # Legenda
    showlegend = True,

    # Ajuste o Plotply
    legend = dict(
        orientation = 'h',
        yanchor = 'bottom',
        y = 1.02,
        xanchor = 'right',
        x = 1
    )
)

grid