<a href="https://colab.research.google.com/github/Barros313/Big-Data-1---Senac-TADS028/blob/main/pyspark/infracoes_pyspark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dataset: Infrações de Trânsito em Recife (2023)

### Configurando e inicializando ambiente

Instalando pyspark utilizando pip

In [1]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=58f8b4947463f2cc62f6e5ad9e5449f601dcbcf9e83925aaca46a4b84e0da21b
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1


In [35]:
from os import sep
import urllib.request
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pyspark.sql import SparkSession

# URL do Dataset
url = 'http://dados.recife.pe.gov.br/dataset/6399f689-f1a7-453b-b839-413bd665c355/resource/c269789d-da47-4dde-8ce7-42fba10fe8e2/download/relatorioinfracoestransparencia-janeiro-ate-novembro-2023.csv'

# Nome dado ao arquivo gerado
output = 'infracoes.csv'

# Download do arquivo
urllib.request.urlretrieve(url, output)

# Inicialização do SparkSession
spark = SparkSession.builder.appName('infracoes').getOrCreate()

# Criação do Dataframe Spark
df = spark.read.csv('infracoes.csv', encoding='ISO-8859-1' ,sep=';', header=True, inferSchema=True)
df.printSchema()

root
 |-- datainfracao: date (nullable = true)
 |-- horainfracao: timestamp (nullable = true)
 |-- dataimplantacao: date (nullable = true)
 |-- agenteequipamento: string (nullable = true)
 |-- infracao: integer (nullable = true)
 |-- descricaoinfracao: string (nullable = true)
 |-- amparolegal: string (nullable = true)
 |-- localcometimento: string (nullable = true)



In [36]:
# Exemplo do Dataframe com pandas
pd.DataFrame(df.take(470000), columns=df.columns)

Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,2023-01-01,2024-06-17 00:01:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,7234,Quando o veículo estiver em movimento deixar d...,"Art. 250, Inc. I, alínea a","RUA RIBEIRO DE BRITO, SOB O SEMAFORO N. 155"
1,2023-01-01,2024-06-17 00:27:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5835,Desobedecer às ordens emanadas da autoridade c...,Art. 195,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
2,2023-01-01,2024-06-17 00:27:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5215,Dirigir ameaçando os pedestres que estejam atr...,Art. 170,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
3,2023-01-01,2024-06-17 00:52:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
4,2023-01-01,2024-06-17 00:52:00,2023-01-06,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
...,...,...,...,...,...,...,...,...
459708,2023-11-30,2024-06-17 21:48:51,2023-12-06,Código 5 - FOTO SENSOR,5746,Transitar em locais e horários não permitidos ...,"Art. 187, Inc. I","AV. CDE. DA BOA VISTA, SEMAFORO 486, Sentido:C..."
459709,2023-11-30,2024-06-17 21:51:48,2023-12-06,Código 5 - FOTO SENSOR,5746,Transitar em locais e horários não permitidos ...,"Art. 187, Inc. I","AV. CDE. DA BOA VISTA, SEMAFORO 486, Sentido:C..."
459710,2023-11-30,2024-06-17 21:59:00,2023-12-11,Código 7 - ZONA AZUL TALÃO ELETRÔNICO,5541,Estacionar o veículo em desacordo com as condi...,"Art. 181, Inc. XVII","PRACA DO DERBY, LADO OPOSTO AO N. 149"
459711,2023-11-30,2024-06-17 22:00:00,2023-12-11,Código 7 - ZONA AZUL TALÃO ELETRÔNICO,5541,Estacionar o veículo em desacordo com as condi...,"Art. 181, Inc. XVII","PRACA DO DERBY, LADO OPOSTO AO N. 149"


## Tratamento de dados


Passando todos os atributos para Maiúsculo

In [39]:
df.select("agenteequipamento").distinct().toPandas()

Unnamed: 0,agenteequipamento
0,Código 4 - RADAR
1,Código 5 - FOTO SENSOR
2,Código 8 - AUTOS NO TALÃO ELETRÔNICO
3,Código 3 - LOMBADA ELETRÔNICA
4,Código 7 - ZONA AZUL TALÃO ELETRÔNICO
5,Código 9 - FAIXA AZUL


In [42]:
from pyspark.sql.functions import col, upper

df_uppercase_values = df.withColumn('agenteequipamento', upper(col('agenteequipamento')))
df_uppercase_values.select('agenteequipamento').distinct().toPandas()

Unnamed: 0,agenteequipamento
0,CÓDIGO 7 - ZONA AZUL TALÃO ELETRÔNICO
1,CÓDIGO 4 - RADAR
2,CÓDIGO 5 - FOTO SENSOR
3,CÓDIGO 3 - LOMBADA ELETRÔNICA
4,CÓDIGO 8 - AUTOS NO TALÃO ELETRÔNICO
5,CÓDIGO 9 - FAIXA AZUL
