# Analise de dados - Registros de Acidentes da PRF - Por Ocorrências

In [0]:
# Leitura do arquivo no Blob Storage e mantendo arquivo em variavel
ocorrencias_2021 = "/mnt/landing/web_scraping/prf/raw/ocorrencias/datatran2021.csv"
ocorrencias_2020 = "/mnt/landing/web_scraping/prf/raw/ocorrencias/datatran2020.csv"
ocorrencias_2019 = "/mnt/landing/web_scraping/prf/raw/ocorrencias/datatran2019.csv"

In [0]:
# Criando Dataframes
df_ocorrencias_2021 = spark.read.csv(ocorrencias_2021, header=True, sep=";", encoding="iso8859-1")
df_ocorrencias_2020 = spark.read.csv(ocorrencias_2020, header=True, sep=";", encoding="iso8859-1")
df_ocorrencias_2019 = spark.read.csv(ocorrencias_2019, header=True, sep=";", encoding="iso8859-1")

In [0]:
# Unindo os 3 DataFrames em um - todos possuem as mesmas colunas
df_prf_oc = df_ocorrencias_2021.union(df_ocorrencias_2020)
df_prf_oc = df_prf_oc.union(df_ocorrencias_2019)

In [0]:
# Excluindo campos que não serão utilizados
df_oc_selec = df_prf_oc.drop(*['fase_dia', 'sentido_via', 'tipo_pista', 'tracado_via', 'uso_solo','pessoas', 'feridos', 'regional', 'delegacia', 'uop'])

In [0]:
# Importando a biblioteca de funções disponíveis para DataFrame
from pyspark.sql.functions import col

df_colunas_oc = df_oc_selec.select(col("id").alias("id"),
                           col("data_inversa").alias("data_acidente"),
                           col("dia_semana").alias("dia_semana"),
                           col("horario").alias("horario"),
                           col("uf").alias("uf"),
                           col("br").alias("BR_"),
                           col("km").alias("km"),
                           col("municipio").alias("municipio"),
                           col("causa_acidente").alias("causa_acidente"),
                           col("tipo_acidente").alias("tipo_acidente"),
                           col("classificacao_acidente").alias("classificacao_acidente"),
                           col("condicao_metereologica").alias("condicao_meteorologica"),
                           col("mortos").alias("mortos"),
                           col("feridos_leves").alias("feridos_leves"),
                           col("feridos_graves").alias("feridos_graves"),
                           col("ilesos").alias("ilesos"),
                           col("ignorados").alias("ignorados"),
                           col("veiculos").alias("veiculos"),
                           col("latitude").alias("latitude"),
                           col("longitude").alias("longitude")).filter("data_acidente >= '2019-01-01'")

In [0]:
# Importando a biblioteca de funções disponíveis para DataFrame .
import pyspark.sql.functions as sf

#Filtrando apenas registros de 'SP'
df_sp = df_colunas_oc.filter("uf == 'SP'")

#Conferindo a quantidade de registros do Estado de SP
df_sp.count()

In [0]:
# Inserindo 'BR' como prefixo no campo 'br' e criando novao campo 'Br'
df1 = df_sp.withColumn('br',sf.concat(sf.lit("BR "), col('BR_')))

#Excluindo a coluna br
df2 = df1.drop('BR_')

In [0]:
# Para cada valor zerado, altera para 'Nao Informado'
df_lat = df2.withColumn('latitude', sf.when(col('latitude') =='0,0',sf.lit('NAO INFORMADO')).otherwise(sf.col('latitude')))

# Para cada valor zerado, altera para 'Nao Informado'
df_long = df_lat.withColumn('longitude', sf.when(col('latitude') =='0,0',sf.lit('NAO INFORMADO')).otherwise(sf.col('longitude')))

In [0]:
# Para valores com 'km' menores que 0 , é substituido por '0'
df_km = df_long.withColumn('km', sf.when(col('km') < '0', sf.lit('0')).otherwise(sf.col('km')))

In [0]:
# Padroniza a formatação para campos 'NAO DISPONIVEL' para 'NAO INFORMADO'
df2 = df_km.select([sf.when(col(c) == 'NAO DISPONIVEL', sf.lit('NAO INFORMADO')).otherwise(col(c)).alias(c) for c in df_km.columns])   

In [0]:
# Padronizando para minúsculo o dia da semana
df_semana = df2.withColumn('dia_semana',sf.lower(sf.col("dia_semana")))

In [0]:
# Formatando o campo Hora no formato "HH:mm:ss" 
class DateUtils:
    def __init__(self, spark):
        self.spark = spark
        self.origin_date_format_list = ["yyyy-MM-dd HH:mm:ss", "yyyy-MM-dd'T'HH:mm:ss'Z'"]
        self.converted_date_format = "HH:mm:ss"

def convert_date(col):
    return sf.coalesce(*[sf.from_unixtime(sf.unix_timestamp(col, f), self.converted_date_format) for f in self.origin_date_format_list])
  
# Chamada da função convert_date  
df_hora = df_semana.withColumn("horario",df_semana["horario"])

In [0]:
# Formatando o campo data_acidente no formato 'yyyy-MM-dd'
class DateUtils:
    def __init__(self, spark):
        self.spark = spark
        self.origin_date_format_list = ["yyyy-MM-dd HH:mm:ss", "yyyy-MM-dd'T'HH:mm:ss'Z'"]
        self.converted_date_format = "yyyy-MM-dd"

def convert_date(col):
    return sf.coalesce(*[sf.from_unixtime(sf.unix_timestamp(col, f), self.converted_date_format) for f in self.origin_date_format_list])
      
# Chamada da função convert_date  
df_date = df_hora.withColumn("data_acidente",df_hora["data_acidente"])

In [0]:
#Padronizando o dia da semana
df3 = df_date.withColumn('dia_semana',sf.when(sf.col('dia_semana') == 'segunda', sf.lit('segunda-feira'))
                         .when(col('dia_semana') == 'terça', sf.lit('terça-feira'))
                         .when(col('dia_semana') == 'quarta', sf.lit('quarta-feira'))
                         .when(col('dia_semana') == 'quinta', sf.lit('quinta-feira'))
                         .when(col('dia_semana') == 'sexta', sf.lit('sexta-feira'))
                         .otherwise(col('dia_semana')))

In [0]:
df_prf_oc_final = df3

In [0]:
jdbc_connection = "jdbc:sqlserver://projeto-grupob.database.windows.net:1433;database=projetointegradogrupob;user=grupob@projeto-grupob;password=Fwk$MOSSgztl;encrypt=true;trustServerCertificate=false;hostNameInCertificate=*.database.windows.net;loginTimeout=30;"

In [0]:
(
  df_prf_oc_final
    .write
    .format('jdbc')
    .mode('overwrite')
    .option('url', jdbc_connection)
    .option('dbtable', 'stage.prf_ocorrencias')
    .save()
)