# Imports

In [34]:
import numpy as np
import pandas as pd
import requests

import plotly.express as px
import plotly.graph_objects as go

from plotly.subplots import make_subplots

import datetime

import warnings
warnings.filterwarnings('ignore')

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

# Get Data

In [2]:
print(datetime.datetime.now())

Base_Dados = pd.read_parquet('../data/base_consolidada/base_consolidada2.parquet')

print(datetime.datetime.now())

2023-09-14 11:03:16.232043
2023-09-14 11:03:23.330534


# EDA

In [3]:
type(Base_Dados)

pandas.core.frame.DataFrame

In [4]:
Base_Dados.columns

Index(['Número do Auto', 'Data da Infração (DD/MM/AAAA)', 'Indicador de Abordagem', 'Assinatura do Auto', 'Sentido Trafego', 'UF Infração', 'BR Infração', 'Km Infração', 'Município', 'Indicador Veiculo Estrangeiro', 'UF Placa', 'Descrição Especie Veículo', 'Descrição Marca Veículo', 'Descrição Tipo Veículo', 'Descrição Modelo Veiculo', 'Código da Infração', 'Descrição Abreviada Infração', 'Enquadramento da Infração', 'Início Vigência da Infração', 'Fim Vigência Infração', 'Medição Infração', 'Hora Infração', 'Medição Considerada', 'Excesso Verificado', 'Qtd Infrações'], dtype='object')

In [5]:
Base_Dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4135523 entries, 0 to 4135522
Data columns (total 25 columns):
 #   Column                         Dtype 
---  ------                         ----- 
 0   Número do Auto                 object
 1   Data da Infração (DD/MM/AAAA)  object
 2   Indicador de Abordagem         object
 3   Assinatura do Auto             object
 4   Sentido Trafego                object
 5   UF Infração                    object
 6   BR Infração                    object
 7   Km Infração                    object
 8   Município                      object
 9   Indicador Veiculo Estrangeiro  object
 10  UF Placa                       object
 11  Descrição Especie Veículo      object
 12  Descrição Marca Veículo        object
 13  Descrição Tipo Veículo         object
 14  Descrição Modelo Veiculo       object
 15  Código da Infração             object
 16  Descrição Abreviada Infração   object
 17  Enquadramento da Infração      object
 18  Início Vigência da Inf

In [6]:
Base_Dados.isnull().sum()

Número do Auto                   0
Data da Infração (DD/MM/AAAA)    0
Indicador de Abordagem           0
Assinatura do Auto               0
Sentido Trafego                  0
UF Infração                      0
BR Infração                      0
Km Infração                      0
Município                        0
Indicador Veiculo Estrangeiro    0
UF Placa                         0
Descrição Especie Veículo        0
Descrição Marca Veículo          0
Descrição Tipo Veículo           0
Descrição Modelo Veiculo         0
Código da Infração               0
Descrição Abreviada Infração     0
Enquadramento da Infração        0
Início Vigência da Infração      0
Fim Vigência Infração            0
Medição Infração                 0
Hora Infração                    0
Medição Considerada              0
Excesso Verificado               0
Qtd Infrações                    0
dtype: int64

In [7]:
Base_Dados.nunique()

Número do Auto                   4135523
Data da Infração (DD/MM/AAAA)        365
Indicador de Abordagem                 2
Assinatura do Auto                     2
Sentido Trafego                        2
UF Infração                           27
BR Infração                          119
Km Infração                         1223
Município                           2078
Indicador Veiculo Estrangeiro          3
UF Placa                              90
Descrição Especie Veículo             14
Descrição Marca Veículo            13173
Descrição Tipo Veículo                24
Descrição Modelo Veiculo           25719
Código da Infração                   378
Descrição Abreviada Infração         378
Enquadramento da Infração            239
Início Vigência da Infração            8
Fim Vigência Infração                  1
Medição Infração                       5
Hora Infração                         24
Medição Considerada                11978
Excesso Verificado                  8518
Qtd Infrações   

In [8]:
Base_Dados.head()

Unnamed: 0,Número do Auto,Data da Infração (DD/MM/AAAA),Indicador de Abordagem,Assinatura do Auto,Sentido Trafego,UF Infração,BR Infração,Km Infração,Município,Indicador Veiculo Estrangeiro,UF Placa,Descrição Especie Veículo,Descrição Marca Veículo,Descrição Tipo Veículo,Descrição Modelo Veiculo,Código da Infração,Descrição Abreviada Infração,Enquadramento da Infração,Início Vigência da Infração,Fim Vigência Infração,Medição Infração,Hora Infração,Medição Considerada,Excesso Verificado,Qtd Infrações
0,61eabcb9b7e0679,2022-01-14,C,S,D,MA,230,404,BALSAS,N,MA,ESPECIAL,FIAT/STRADA ENDURANCE CD,CAMINHONETE,STRADA ENDURANCE CD,65991,Conduzir o veículo que não esteja registrado,230 * V,2016-11-01,,Nenhuma,16,0,0,1
1,d97a34e658d2e6c,2022-01-30,C,N,D,MA,230,413,BALSAS,N,GO,PASSAGEIRO,VW/GOL 1.0,AUTOMOVEL,VW/GOL 1.0,50100,Dirigir veículo sem possuir CNH/PPD/ACC,162 I,2016-11-01,,Nenhuma,17,0,0,1
2,397168b4d993a8f,2022-01-30,C,N,D,MA,230,413,BALSAS,N,GO,PASSAGEIRO,VW/GOL 1.0,AUTOMOVEL,VW/GOL 1.0,51180,Permitir posse/condução do veículo a pessoa se...,164 c/c 162 I,2016-11-01,,Nenhuma,17,0,0,1
3,a86157cf8d604d0,2022-01-21,C,N,D,PR,277,31,MORRETES,N,PR,PASSAGEIRO,I/BMW R1200 GS,MOTOCICLETA,I/BMW R1200 GS,65992,Conduzir o veículo registrado que não esteja d...,230 * V,2016-11-01,,Nenhuma,12,0,0,1
4,1302ba8ba04bb2f,2022-01-24,C,S,D,MG,40,554,NOVA LIMA,N,RJ,MISTO,I/TOYOTA HILUX SWSRXA4FD,UTILITARIO,I/TOYOTA HILUX SWSRXA4FD,65991,Conduzir o veículo que não esteja registrado,230 * V,2016-11-01,,Nenhuma,17,0,0,1


In [9]:
Total_multa = int(Base_Dados.shape[0])
print(f'Total de multas nos 12 meses: {Total_multa}')

Total de multas nos 12 meses: 4135523


In [10]:
# Converter Data
Base_Dados['Data da Infração (DD/MM/AAAA)'] = pd.to_datetime(Base_Dados['Data da Infração (DD/MM/AAAA)'])

In [11]:
# Multas por dia
Multas_Dia = Base_Dados['Data da Infração (DD/MM/AAAA)'].value_counts().sort_index().reset_index()

In [12]:


# Extraíndo mês e dia das datas
Multas_Dia['Mes'] = pd.to_datetime(Multas_Dia['Data da Infração (DD/MM/AAAA)']).dt.month
Multas_Dia['Dia'] = pd.to_datetime(Multas_Dia['Data da Infração (DD/MM/AAAA)']).dt.month

# Renomeando colunas
Multas_Dia.columns = ['Data', 'Quantidade', 'Mes', 'Dia']

In [13]:
Multas_Dia.head()

Unnamed: 0,Data,Quantidade,Mes,Dia
0,2022-01-01,8533,1,1
1,2022-01-02,13146,1,1
2,2022-01-03,12012,1,1
3,2022-01-04,11248,1,1
4,2022-01-05,11159,1,1


In [14]:
Multas_Dia['Media_Movel'] = Multas_Dia['Quantidade'].rolling(7).mean()

In [15]:
Multas_Dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Data         365 non-null    datetime64[ns]
 1   Quantidade   365 non-null    int64         
 2   Mes          365 non-null    int32         
 3   Dia          365 non-null    int32         
 4   Media_Movel  359 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int32(2), int64(1)
memory usage: 11.5 KB


# Análise Gráfica

In [16]:
px.line(Multas_Dia, x = 'Data', y = 'Quantidade')

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [17]:
go.Figure(go.Scatter(x = Multas_Dia['Data'], y = Multas_Dia['Quantidade']))

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [18]:
# Sistema Grid

Grid = make_subplots(rows = 1, cols = 2)

Grid.add_trace(go.Scatter(
    x = Multas_Dia['Data'], 
    y = Multas_Dia['Quantidade'],
    mode = 'lines', name = 'Quantidade'), row = 1, col = 1)

Grid.add_trace(go.Scatter(
    x = Multas_Dia['Data'], 
    y = Multas_Dia['Quantidade'],
    mode = 'lines', name = 'Média Móvel'), row = 1, col = 2)

Grid.update_layout(
    title = 'Sistema de Grid',
    showlegend = True,
    legend = dict(
        orientation = 'h',
        yanchor = 'bottom',
        y = 1.02,
        xanchor = 'right',
        x = 1
    )
)

Grid


ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [19]:
# Sistema Grid

Grid = make_subplots(rows = 1, cols = 2)

Grid.add_trace(go.Scatter(
    x = Multas_Dia['Data'], 
    y = Multas_Dia['Quantidade'],
    mode = 'lines', name = 'Quantidade'), row = 1, col = 1)

Grid.add_trace(go.Scatter(
    x = Multas_Dia['Data'], 
    y = Multas_Dia['Media_Movel'],
    mode = 'lines', name = 'Média Móvel'), row = 1, col = 1)

Grid.update_layout(
    title = 'Análise de multas diária',
    showlegend = True,
    legend = dict(
        orientation = 'h',
        yanchor = 'bottom',
        y = 1.02,
        xanchor = 'right',
        x = 1
    )
)

Grid


ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [None]:
# Boxplot
px.box(Multas_Dia,
       x = 'Mes', 
       y = 'Quantidade',
       color = 'Mes',
       title = 'Distribuição de multas mês')

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

## Estados

In [20]:
Acumulado_Estados = Base_Dados['UF Infração'].value_counts()
Acumulado_Estados_Perc = Base_Dados['UF Infração'].value_counts(normalize = True)
Acumulado_Estados_Perc_Acum = Base_Dados['UF Infração'].value_counts(normalize = True).cumsum()

# Dict
Dicionario = {
    'Estados': Acumulado_Estados.index,
    'Qtd Multas': Acumulado_Estados.values,
    'Representação': Acumulado_Estados_Perc.values,
    'Acumulado': Acumulado_Estados_Perc_Acum.values
}

Tabela_Estados = pd.DataFrame(Dicionario)

Tabela_Estados.head()

Unnamed: 0,Estados,Qtd Multas,Representação,Acumulado
0,MG,448672,0.108492,0.108492
1,RJ,418981,0.101313,0.209805
2,BA,417092,0.100856,0.310661
3,SP,378074,0.091421,0.402082
4,RS,252059,0.06095,0.463032


In [21]:
px.funnel(
    Tabela_Estados[Tabela_Estados['Acumulado'] < 0.5],
    y = 'Estados',
    x = 'Qtd Multas',
    title = 'Concentração dos 50%'
)

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [None]:
px.bar(
    Tabela_Estados,
    x = 'Estados',
    y = 'Acumulado',
    title = 'Multas Acumuladas por Estado'
)

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

## Heatmap

In [22]:
Base_Dados['Mes'] = Base_Dados['Data da Infração (DD/MM/AAAA)'].dt.month

In [23]:
Anl_Estado_Mes = Base_Dados.groupby(by = ['Mes', 'UF Infração']).agg(Quantidade = ('Município', 'count')).reset_index()

In [24]:
Anl_Estado_Mes = Anl_Estado_Mes.pivot_table(index = 'Mes', columns = 'UF Infração', values = 'Quantidade')
Anl_Estado_Mes

UF Infração,AC,AL,AM,AP,BA,CE,DF,ES,GO,MA,MG,MS,MT,PA,PB,PE,PI,PR,RJ,RN,RO,RR,RS,SC,SE,SP,TO
Mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
1,1935.0,4145.0,1960.0,1065.0,29613.0,11819.0,3789.0,9814.0,12965.0,6152.0,25886.0,19957.0,15282.0,4518.0,8921.0,9599.0,6897.0,28441.0,47616.0,5390.0,7160.0,931.0,21648.0,9393.0,3347.0,35375.0,3320.0
2,1869.0,4442.0,1560.0,1290.0,37657.0,13540.0,4506.0,8171.0,21802.0,5899.0,30731.0,20966.0,15878.0,6924.0,7194.0,13019.0,10629.0,26903.0,43526.0,6567.0,8365.0,1289.0,24964.0,13186.0,3875.0,37702.0,3374.0
3,1626.0,3892.0,1451.0,1136.0,38322.0,12586.0,7749.0,9687.0,26626.0,7029.0,38961.0,22607.0,15729.0,6392.0,7931.0,14336.0,8104.0,25538.0,45218.0,7639.0,9425.0,1255.0,23029.0,14372.0,3806.0,34265.0,3950.0
4,1178.0,4175.0,2049.0,1670.0,42969.0,15011.0,13708.0,12860.0,25979.0,5965.0,51360.0,23967.0,14066.0,6836.0,7465.0,13093.0,8156.0,21734.0,48050.0,6544.0,8750.0,1523.0,23871.0,17591.0,3901.0,22893.0,3168.0
5,1056.0,2950.0,1658.0,1599.0,28583.0,11562.0,9927.0,14337.0,22472.0,4799.0,41442.0,15193.0,16188.0,7843.0,6707.0,14201.0,10491.0,18577.0,41165.0,6086.0,8190.0,703.0,19892.0,17870.0,3193.0,21472.0,3518.0
6,1199.0,2133.0,1780.0,1048.0,33048.0,7611.0,7566.0,15296.0,18386.0,4014.0,39351.0,15812.0,14364.0,5398.0,5165.0,9545.0,5515.0,12865.0,47713.0,5028.0,7654.0,610.0,15623.0,14244.0,1053.0,29731.0,3272.0
7,1491.0,1610.0,1450.0,876.0,32852.0,6897.0,8809.0,14789.0,18359.0,5540.0,29557.0,19015.0,12435.0,6650.0,4797.0,7816.0,5585.0,16983.0,36345.0,5192.0,6754.0,538.0,14714.0,12415.0,2429.0,31650.0,2698.0
8,1109.0,2560.0,1520.0,1177.0,34006.0,10619.0,3562.0,15743.0,17892.0,7213.0,37185.0,19180.0,13121.0,6465.0,6425.0,9846.0,6136.0,16044.0,22501.0,6374.0,9161.0,907.0,18305.0,14365.0,2660.0,31345.0,2702.0
9,1082.0,4449.0,1801.0,1626.0,34947.0,10264.0,3117.0,16495.0,17573.0,6990.0,41478.0,19202.0,14088.0,6303.0,6126.0,10821.0,6535.0,15283.0,20197.0,7185.0,9287.0,1013.0,19967.0,16094.0,3539.0,30824.0,2282.0
10,1339.0,3767.0,1361.0,1827.0,41016.0,11813.0,3465.0,16637.0,16130.0,7777.0,40813.0,19403.0,15057.0,8147.0,7186.0,11859.0,6570.0,17804.0,24220.0,7429.0,7893.0,921.0,21528.0,17167.0,3874.0,35017.0,3019.0


In [25]:
px.imshow(Anl_Estado_Mes, title = 'Mapa de calorMapa de calor | Multas mensais por estado em 2022')

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [26]:
Base_Dados['Enquadramento da Infração'].value_counts(normalize = True).cumsum() * 100

Enquadramento da Infração
218 I                   26.437889
167                     31.968581
203 V                   36.954649
230 * V                 41.899029
218 II                  46.308581
195                     50.183737
230 X                   53.910811
162 I                   57.340801
230 XIII                60.718004
230 XVIII               64.000249
230 IX                  66.831716
193                     68.585956
230, XXIII              70.231939
230 XXII                71.768794
162 V                   73.163201
230 XVI                 74.502620
250 I e                 75.807365
230 VI                  77.045443
165-A                   78.223190
252 IV                  79.217671
252,§ unico             80.138812
165-B                   81.054996
164 c/c 162 I           81.950046
168                     82.739257
244 I                   83.368367
244 X                   83.989329
202 I                   84.570368
185 II                  85.097532
230 VII               

Não há o valor das multas na base de dados, porém o enquadramento e no site do DETRAN, há essa informação. Vamos fazer Web Scrapping para conseguir estes dados.

# Web Scrapping

In [35]:
Url = 'https://www.detran.mg.gov.br/infracoes/consultar-tipos-infracoes/index/index/index/index/index/index/index/index/index/index/index/index/lista-de-infracoes?artigo=&descricao='

pd.read_html(Url)[0].head()

Unnamed: 0,Código,Desd.,Infração,Artigo,Infrator,Pts,Valor
0,5622,4,PARAR NOS CANTEIROS CENTRAIS OU DIVISORES DE P...,182 * VI,CON,3,8838
1,5622,5,PARAR NAS MARCAS DE CANALIZACAO,182 * VI,CON,3,8838
2,5630,0,PARAR NA AREA DE CRUZAMENTO DE VIAS,182 * VII,CON,4,13016
3,5649,1,PARAR NOS VIADUTOS,182 * VIII,CON,4,13016
4,5649,2,PARAR NAS PONTES,182 * VIII,CON,4,13016


In [40]:
# Loop no site do Detran e buscar os dados
Url = 'https://www.detran.mg.gov.br/infracoes/consultar-tipos-infracoes/index/index/index/index/index/index/index/index/index/index/index/index/index/lista-de-infracoes?artigo=&descricao=&page='

# Tabela vazia
Base_Consolidada = pd.DataFrame()

for Loop in range(1, 24):
    
    # Construindo a URL
    Link = f'{Url}{Loop}'
    
    # Lendo os dados da Web
    Dados_web = pd.read_html(Link)[0]
    
    # Consolidar
    Base_Consolidada = pd.concat([Base_Consolidada, Dados_web])


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa7 in position 96759: invalid start byte

In [None]:
Base_Consolidada.shape

In [None]:
Base_Consolidada.head()

In [None]:
Base_Consolidada['Valor'] = pd.to_numeric(Base_Consolidada['Valor'], errors='coerce')
Base_Consolidada = Base_Consolidada.dropna(subset=['Valor'])


In [None]:
Base_Consolidada['Valor'] = Base_Consolidada['Valor'] / 100

In [None]:
Base_Consolidada.rename(columns = {'Código': 'Código da Infração'}, inplace = True)

In [None]:
Base_Consolidada['Código da Infração'] = Base_Consolidada['Código da Infração'].astype('int64')

In [None]:
Tab_Preco = Base_Consolidada.groupby(by=['Código da Infração'])['Valor'].apply(lambda x: np.mean(x.astype(float))).reset_index()

In [None]:
# Reencresver a coluna de Infração
Base_Dados['Código da Infração'] = Base_Dados['Código da Infração'].apply( lambda Loop : Loop[0:4] )

In [None]:
# Converto para numero o codigo
Base_Dados['Código da Infração'] = pd.to_numeric( Base_Dados['Código da Infração'], errors = 'coerce')

In [None]:
Base_Dados['Código da Infração'].dtypes

In [None]:
Tab_Preco['Código da Infração'].dtypes

In [None]:
# Cruzando os dados
Cruzamento = pd.merge( Base_Dados, Tab_Preco, on='Código da Infração', how='left' )
Cruzamento.head()

In [None]:
# Analise por UF e Preço
Tab_Soma = Cruzamento.groupby(by='UF Infração').agg(
    {'Valor':['count', 'sum']},
)

Tab_Soma.columns = Tab_Soma.columns.droplevel()

Tab_Soma = Tab_Soma.reset_index()

Tab_Soma.head()

In [None]:
px.scatter( 
    Tab_Soma, 
    x='count', 
    y='sum', 
    color='UF Infração', 
    size='count', 
    log_x=True, 
    size_max=60, 
    title='Bubble PLOT' )

In [None]:
fig = px.scatter( Tab_Soma, x='count', y='sum', color='UF Infração', title='Scatter PLOT')
fig.update_traces(marker=dict(size=12) )

In [None]:
Analise_Valor_Mes = Cruzamento.groupby( by=['Mes'] )['Valor'].sum().reset_index()
Analise_Valor_Mes