<a href="https://colab.research.google.com/github/Barros313/Big-Data-1---Senac-TADS028/blob/main/pyspark/infracoes_pyspark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dataset: Infrações de Trânsito em Recife (2023)

## Introdução

### Configurando e inicializando ambiente

Instalando pyspark utilizando pip

In [1]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=58f8b4947463f2cc62f6e5ad9e5449f601dcbcf9e83925aaca46a4b84e0da21b
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1


Importando dependências, baixando CSV e criando dataframe

In [35]:
from os import sep
import urllib.request
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pyspark.sql import SparkSession

# URL do Dataset
url = 'http://dados.recife.pe.gov.br/dataset/6399f689-f1a7-453b-b839-413bd665c355/resource/c269789d-da47-4dde-8ce7-42fba10fe8e2/download/relatorioinfracoestransparencia-janeiro-ate-novembro-2023.csv'

# Nome dado ao arquivo gerado
output = 'infracoes.csv'

# Download do arquivo
urllib.request.urlretrieve(url, output)

# Inicialização do SparkSession
spark = SparkSession.builder.appName('infracoes').getOrCreate()

# Criação do Dataframe Spark
df = spark.read.csv('infracoes.csv', encoding='ISO-8859-1' ,sep=';', header=True, inferSchema=True)
df.printSchema()

root
 |-- datainfracao: date (nullable = true)
 |-- horainfracao: timestamp (nullable = true)
 |-- dataimplantacao: date (nullable = true)
 |-- agenteequipamento: string (nullable = true)
 |-- infracao: integer (nullable = true)
 |-- descricaoinfracao: string (nullable = true)
 |-- amparolegal: string (nullable = true)
 |-- localcometimento: string (nullable = true)



### Amostra

Amostra com 20 registro do dataframe com Pandas

In [43]:
# Exemplo do Dataframe com pandas
pd.DataFrame(df.take(20), columns=df.columns)

Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,2023-01-01,2024-06-17 00:01:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,7234,Quando o veículo estiver em movimento deixar d...,"Art. 250, Inc. I, alínea a","RUA RIBEIRO DE BRITO, SOB O SEMAFORO N. 155"
1,2023-01-01,2024-06-17 00:27:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5835,Desobedecer às ordens emanadas da autoridade c...,Art. 195,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
2,2023-01-01,2024-06-17 00:27:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5215,Dirigir ameaçando os pedestres que estejam atr...,Art. 170,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
3,2023-01-01,2024-06-17 00:52:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
4,2023-01-01,2024-06-17 00:52:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
5,2023-01-01,2024-06-17 00:54:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
6,2023-01-01,2024-06-17 00:55:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5452,Estacionar o veículo no passeio.,"Art. 181, Inc. VIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
7,2023-01-01,2024-06-17 00:55:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5452,Estacionar o veículo no passeio.,"Art. 181, Inc. VIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
8,2023-01-01,2024-06-17 00:55:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5452,Estacionar o veículo no passeio.,"Art. 181, Inc. VIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
9,2023-01-01,2024-06-17 00:57:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."


## Tratamento de dados


### Verificar valores nulos

Verificando por caracteres nulos em todas as colunas do dataframe

In [56]:
from pyspark.sql.functions import *

df.select([count(when(col(column).isNull(), column)).alias(column) for column in df.columns]).toPandas()

Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,0,0,0,0,0,0,0,0


### Passando atributos para maiúsculo

Amotra com 5 registros da tabela para identificar colunas com texto

In [45]:
# Amostra com 5 registros para identificar colunas com texto
pd.DataFrame(df.take(5), columns=df.columns)

Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,2023-01-01,2024-06-17 00:01:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,7234,Quando o veículo estiver em movimento deixar d...,"Art. 250, Inc. I, alínea a","RUA RIBEIRO DE BRITO, SOB O SEMAFORO N. 155"
1,2023-01-01,2024-06-17 00:27:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5835,Desobedecer às ordens emanadas da autoridade c...,Art. 195,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
2,2023-01-01,2024-06-17 00:27:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5215,Dirigir ameaçando os pedestres que estejam atr...,Art. 170,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
3,2023-01-01,2024-06-17 00:52:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
4,2023-01-01,2024-06-17 00:52:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."


Query com todas as colunas que contém atributos com texto

In [46]:
from pyspark.sql.functions import upper

# Query para alterar valores de colunas
df_uppercase_values = df.withColumn('agenteequipamento', upper(col('agenteequipamento'))) \
                        .withColumn('descricaoinfracao', upper(col('descricaoinfracao'))) \
                        .withColumn('amparolegal', upper(col('amparolegal'))) \
                        .withColumn('localcometimento', upper(col('localcometimento')))

# Teste
pd.DataFrame(df_uppercase_values.take(5), columns=df_uppercase_values.columns)

Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,2023-01-01,2024-06-17 00:01:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,7234,QUANDO O VEÍCULO ESTIVER EM MOVIMENTO DEIXAR D...,"ART. 250, INC. I, ALÍNEA A","RUA RIBEIRO DE BRITO, SOB O SEMAFORO N. 155"
1,2023-01-01,2024-06-17 00:27:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5835,DESOBEDECER ÀS ORDENS EMANADAS DA AUTORIDADE C...,ART. 195,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
2,2023-01-01,2024-06-17 00:27:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5215,DIRIGIR AMEAÇANDO OS PEDESTRES QUE ESTEJAM ATR...,ART. 170,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
3,2023-01-01,2024-06-17 00:52:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5550,ESTACIONAR O VEÍCULO EM LOCAIS E HORÁRIOS PROI...,"ART. 181, INC. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
4,2023-01-01,2024-06-17 00:52:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5550,ESTACIONAR O VEÍCULO EM LOCAIS E HORÁRIOS PROI...,"ART. 181, INC. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."


Importar resultados anteriores para o dataframe original 'df'

In [47]:
df = df_uppercase_values;

pd.DataFrame(df.take(5), columns=df.columns)

Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,2023-01-01,2024-06-17 00:01:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,7234,QUANDO O VEÍCULO ESTIVER EM MOVIMENTO DEIXAR D...,"ART. 250, INC. I, ALÍNEA A","RUA RIBEIRO DE BRITO, SOB O SEMAFORO N. 155"
1,2023-01-01,2024-06-17 00:27:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5835,DESOBEDECER ÀS ORDENS EMANADAS DA AUTORIDADE C...,ART. 195,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
2,2023-01-01,2024-06-17 00:27:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5215,DIRIGIR AMEAÇANDO OS PEDESTRES QUE ESTEJAM ATR...,ART. 170,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
3,2023-01-01,2024-06-17 00:52:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5550,ESTACIONAR O VEÍCULO EM LOCAIS E HORÁRIOS PROI...,"ART. 181, INC. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
4,2023-01-01,2024-06-17 00:52:00,2023-01-06,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO,5550,ESTACIONAR O VEÍCULO EM LOCAIS E HORÁRIOS PROI...,"ART. 181, INC. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."


### Verificando colunas individualmente


#### *Infração*

Verificando por caracteres não numéricos na coluna infração

In [62]:
infracao_nan_count = df.filter(isnan(col('infracao'))).count()

print(f'Caracteres não numéricos na coluna infracao: {infracao_nan_count}')

Caracteres não numéricos na coluna infracao: 0


#### Amparo Legal

Verificando valores únicos e ordenando por ordem alfabética para detectar valores inválidos



In [71]:
df.select('amparolegal').distinct().orderBy('amparolegal').toPandas()

Unnamed: 0,amparolegal
0,"ART. 162, INC. I"
1,"ART. 162, INC. II"
2,"ART. 162, INC. III"
3,"ART. 162, INC. V"
4,"ART. 162, INC. VI"
...,...
183,ART.168
184,"ART.244, INC. VII, C/C §1º"
185,"ILHA DO LEITE, SENTIDO BOA VIAGEM."
186,SENTIDO CIDADE/SUBURBIO.


Substituindo valores inválidos por 'INDEFINIDO'

In [72]:
df_amparolegal_adjusted = df.withColumn('amparolegal', when(col('amparolegal').contains('SENTIDO'), 'INDEFINIDO (VALOR INVÁLIDO)').otherwise(col('amparolegal')))

# Teste
df_amparolegal_adjusted.select('amparolegal').distinct().orderBy('amparolegal').toPandas()

Unnamed: 0,amparolegal
0,"ART. 162, INC. I"
1,"ART. 162, INC. II"
2,"ART. 162, INC. III"
3,"ART. 162, INC. V"
4,"ART. 162, INC. VI"
...,...
181,"ART. 254, INC. VI"
182,"ART. 278, § ÚNICO C/C 210"
183,ART.168
184,"ART.244, INC. VII, C/C §1º"


Atribuindo resultado para dataframe original

In [74]:
df = df_amparolegal_adjusted

df.select('amparolegal').distinct().orderBy('amparolegal').toPandas()

Unnamed: 0,amparolegal
0,"ART. 162, INC. I"
1,"ART. 162, INC. II"
2,"ART. 162, INC. III"
3,"ART. 162, INC. V"
4,"ART. 162, INC. VI"
...,...
181,"ART. 254, INC. VI"
182,"ART. 278, § ÚNICO C/C 210"
183,ART.168
184,"ART.244, INC. VII, C/C §1º"


## Análise de Dados