# Analise de dados - Tabela Acidentes Não Fatais

In [0]:
# Leitura do arquivo no Blob Storage e mantendo arquivo em variavel
acidentes_nao_fatais = "/mnt/landing/web_scraping/estadual/raw/csv/acidentes_nao_fatais.csv"

In [0]:
# Criando Dataframe
df_nao_fatais = spark.read.csv(acidentes_nao_fatais, header=True, sep=";", encoding="iso8859-1")

In [0]:
# Excluindo campos que não serão utilizados
df_nfatais_selec = df_nao_fatais.drop(* ['Ano/Mês do Acidente', 'Turno', 'Batalhão de Trânsito', 'Companhia de Trânsito', 'Administração', 'Conservação', 'Iluminação', 'Mão de direção', 'Relevo', 'Superfície da via', 'Tipo de pista', 'Tipo de Via', 'Turno + Dia de Semana'])

In [0]:
# Importando a biblioteca de funções disponíveis para DataFrame
from pyspark.sql.functions import col

df_colunas_nfatais = df_nao_fatais.select(col("ID").alias("id"),
                                          col("Data do Acidente").alias("data_acidente"),                                                                                                           col("Dia do Acidente").alias("dia_acidente"),
                                          col("Mês do Acidente").alias("mes_acidente"),
                                          col("Ano do Acidente").alias("ano_acidente"),
                                          col("Dia da Semana").alias("dia_semana"),
                                          col("Hora do Acidente").alias("hora_acidente"),                                                                                                           col("Município").alias("municipio"),
                                          col("Região Administrativa").alias("regiao"),
                                          col("Logradouro").alias("logradouro"),
                                          col("Numero/KM").alias("km"),
                                          col("Jurisdição").alias("jurisdicao"),
                                          col("LAT_(GEO)").alias("lat"),
                                          col("LONG_(GEO)").alias("long"),
                                          col("Condições Climáticas").alias("clima"),
                                          col("Tipo de pavimento").alias("tipo_pavimento"),
                                          col("Traçado").alias("tracado"),
                                          col("Veículos Envolvidos - Bicicleta").alias("vei_env_bicicleta"),
                                          col("Veículos Envolvidos - Caminhão").alias("vei_env_caminhao"),
                                          col("Veículos Envolvidos - Automóvel").alias("vei_env_automovel"),
                                          col("Veículos Envolvidos - Motocicleta").alias("vei_env_motocicleta"),
                                          col("Veículos Envolvidos - Ônibus").alias("vei_env_onibus"),
                                          col("Veículos Envolvidos - Pedestre").alias("vei_env_pedestre"),
                                          col("Pessoas Envolvidas - Grave").alias("pes_env_grave"),
                                          col("Pessoas Envolvidas - Ileso").alias("pes_env_ileso"),
                                          col("Pessoas Envolvidas - Leve").alias("pes_env_leve"),
                                          col("Serviço de Atendimento - Bombeiro").alias("ser_atend_bombeiro"),
                                          col("Serviço de Atendimento - PMRV").alias("ser_atend_pmrv"),
                                          col("Serviço de Atendimento - PRF").alias("ser_atend_prf"),
                                          col("Serviço de Atendimento - Radio Patrulha").alias("ser_atend_radio_patrulha"),
                                          col("Servciço de Atendimento - CPTRAN").alias("ser_atend_cptran"),
                                          col("Tipo de Acidente - Atropelamento").alias("tipo_acidente_atropelamento"),
                                          col("Tipo de Acidente - Choque").alias("tipo_acidente_choque"),
                                          col("Tipo de Acidente - Colisão").alias("tipo_acidente_colisao"),
                                          col("Tipo de Acidente - Outros tipos de Acidente").alias("tipo_acidente_outros")).filter("data_acidente >= '2019-01-01'")                               

In [0]:
# Importando a biblioteca de funções disponíveis para DataFrame .
import pyspark.sql.functions as sf

In [0]:
# Filtra dados nulos na coluna 'lat' e altera o campo para 'NAO INFORMADO'
df_ = df_colunas_nfatais.withColumn('lat', sf.when(col('lat').isNull(), sf.lit('NAO INFORMADO')).otherwise(sf.col('lat')))

# Para cada valor zerado, altera para 'Nao Informado'
df_lat = df_.withColumn('lat', sf.when(col('lat') =='0,0',sf.lit('NAO INFORMADO')).otherwise(sf.col('lat')))

In [0]:
# Filtra dados nulos na coluna 'long' e altera o campo para 'NAO INFORMADO'
df1 = df_lat.withColumn('long', sf.when(col('long').isNull(), sf.lit('NAO INFORMADO')).otherwise(sf.col('long')))

# Para cada valor zerado, altera para 'Nao Informado'
df_long = df1.withColumn('long', sf.when(col('lat') =='0,0',sf.lit('NAO INFORMADO')).otherwise(sf.col('long')))

In [0]:
# Para valores com 'km' menores que 0 , é substituido por '0'
df_km = df_long.withColumn('km', sf.when(col('km') < '0', sf.lit('0')).otherwise(sf.col('km')))

In [0]:
# Padroniza a formatação para campos 'NAO DISPONIVEL' para 'NAO INFORMADO'
df2 = df_km.select([sf.when(col(c) == 'NAO DISPONIVEL', sf.lit('NAO INFORMADO')).otherwise(col(c)).alias(c) for c in df_km.columns])   

In [0]:
# Padronizando para minúsculo o dia da semana
df_semana = df2.withColumn('dia_semana',sf.lower(sf.col("dia_semana")))

In [0]:
# Padronizando dia da semana
df3 = df_semana.withColumn('dia_semana',sf.when(sf.col('dia_semana') == 'segunda', sf.lit('segunda-feira'))
                         .when(col('dia_semana') == 'terça', sf.lit('terça-feira'))
                         .when(col('dia_semana') == 'quarta', sf.lit('quarta-feira'))
                         .when(col('dia_semana') == 'quinta', sf.lit('quinta-feira'))
                         .when(col('dia_semana') == 'sexta', sf.lit('sexta-feira'))
                         .otherwise(col('dia_semana')))

In [0]:
# Formatando o campo Hora no formato "HH:mm:ss" 
class DateUtils:
    def __init__(self, spark):
        self.spark = spark
        self.origin_date_format_list = ["yyyy-MM-dd HH:mm:ss", "yyyy-MM-dd'T'HH:mm:ss'Z'"]
        self.converted_date_format = "HH:mm:ss"

def convert_date(col):
    return sf.coalesce(*[sf.from_unixtime(sf.unix_timestamp(col, f), self.converted_date_format) for f in self.origin_date_format_list])
  
# Chamada da função convert_date  
df_hora = df3.withColumn("hora_acidente",df3["hora_acidente"])

In [0]:
# Formatando o campo data_acidente no formato 'yyyy-MM-dd'
class DateUtils:
    def __init__(self, spark):
        self.spark = spark
        self.origin_date_format_list = ["yyyy-MM-dd HH:mm:ss", "yyyy-MM-dd'T'HH:mm:ss'Z'"]
        self.converted_date_format = "yyyy-MM-dd"

def convert_date(col):
    return sf.coalesce(*[sf.from_unixtime(sf.unix_timestamp(col, f), self.converted_date_format) for f in self.origin_date_format_list])
      
# Chamada da função convert_date  
df_date = df_hora.withColumn("data_acidente",df_hora["data_acidente"])

In [0]:
df_nfatais_final= df_date

In [0]:
jdbc_connection = "jdbc:sqlserver://projeto-grupob.database.windows.net:1433;database=projetointegradogrupob;user=grupob@projeto-grupob;password=Fwk$MOSSgztl;encrypt=true;trustServerCertificate=false;hostNameInCertificate=*.database.windows.net;loginTimeout=30;"

In [0]:
(
  df_nfatais_final
    .write
    .format('jdbc')
    .mode('overwrite')
    .option('url', jdbc_connection)
    .option('dbtable', 'stage.acidentes_nao_fatais')
    .save()
)