In [0]:
'''
Iniciando clean_bronze_data_aircrafts
'''

'\nIniciando clean_bronze_data_aircrafts\n'

Importando funções comuns para uso no notebook


In [0]:
%run
./shared_silver_functions

Inicializando sessão spark e importando dados do banco bronze


In [0]:
from pyspark.sql import SparkSession
from pyspark import SparkFiles
from pyspark.sql import functions as F
import urllib


# Inicializa a sessão Spark
spark = SparkSession.builder.appName("accidents_analysis").getOrCreate()

# Pega os dados bronze
spark.catalog.listDatabases()
aircrafts_bronze_df = spark.read.format("delta").load('dbfs:/user/hive/warehouse/bronze_database.db/bronze_aircrafts')

aircrafts_bronze_df.display()

aircraft_name,aircraft_code,year_of_first_flight,manufacturer_country
A2 CZ Ellipse Spirit,ELSP,2011,OK
AAI RQ-7 Shadow,rq7,1991,N
AASI Jetcruzer,JCRU,1989,
Aceair AERIKS 200,ARKS,2002,
Aces High Cuby 2,CUB2,,C
Acro Sport 1,ACRO,1972,N
Acro Sport II,ACR2,1972,N
Advanced Aeromarine Buccaneer,BUCA,1984,N
AEA Maverick,MAVR,1987,
Aermacchi AL-60,LA60,1959,I


## Processamento
Seção para realizar a limpeza padrão de dados:
- Fazer o trim para remover espaços antes e ao final dos valores
- Transformar valores vazios ou sem caracteres em null
- Dropar duplicatas

In [0]:
from functools import reduce

# Lista de colunas que desejamos fazer o trim
all_columns = aircrafts_bronze_df.columns


# Função lambda para aplicar o trim em mais de uma coluna
aircrafts_bronze_df = reduce(
    lambda df, col: df.withColumn(col, F.trim(df[col])),
    all_columns,
    aircrafts_bronze_df
)

# Valores vazios transformar em null

# Função lambda para deixar como null colunas que não possuam nem texto, nem números, ou seja que tenham apenas caracteres especiais
aircrafts_bronze_df = reduce(
    lambda df, col: df.withColumn(col, F.when(F.regexp_like(col,F.lit('^[^\w]*$')), None).otherwise(F.col(col))),
    all_columns,
    aircrafts_bronze_df
)

# Função lambda para substituir valores vazios por null em uma coluna
aircrafts_bronze_df = reduce(
    lambda df, col: df.withColumn(col, F.when(F.col(col) == "", None).otherwise(F.col(col))),
    all_columns,
    aircrafts_bronze_df
)

# Drop em duplicatas
aircrafts_bronze_df = aircrafts_bronze_df.dropDuplicates()

aircrafts_bronze_df.display()

aircraft_name,aircraft_code,year_of_first_flight,manufacturer_country
Bell 429 GlobalRanger,B429,2007,N
Brumby 610,BR61,2011,VH
Embraer EMB-720,PA32,,N
Fiat G.212,g212,1947,I
Fournier RF-6,RF6,,G
Just SuperSTOL,jusu,,N
Kaman HH-43 Huskie,H43A,1953,N
Taylorcraft Auster 1,PLUS,,G
Valmet PIK-23 Towmaster,PK23,1982,
Victa Airtourer,TOUR,1959,VH


- Transformando a coluna ano em inteiro
- Avaliando se possui alguma aeronave cujo primeiro voo foi realizado antes de 1903 (o que seria inaceitável) e colocando como Null
- Avaliando se possui alguma aeronave cujo primeiro voo foi realizado depois do ano atual (o que seria inaceitável) e colocando como Null

In [0]:
# Transformar a coluna ano em inteiro
aircrafts_bronze_df = clean_and_cast_to_int(aircrafts_bronze_df, "year_of_first_flight")

# Colocando as datas de primeiro voo dentro dos limites aceitaveis (1903 e hoje)
aircrafts_bronze_df = aircrafts_bronze_df.withColumn("year_of_first_flight", F.when(F.col("year_of_first_flight") < 1903, F.lit(None)).otherwise(F.col("year_of_first_flight")))

import datetime as dt
current_year = dt.date.today().year

aircrafts_bronze_df = aircrafts_bronze_df.withColumn("year_of_first_flight", F.when(F.col("year_of_first_flight") > current_year, F.lit(None)).otherwise(F.col("year_of_first_flight")))


aircrafts_bronze_df.display()

aircraft_name,aircraft_code,year_of_first_flight,manufacturer_country
Bell 429 GlobalRanger,B429,2007.0,N
Brumby 610,BR61,2011.0,VH
Embraer EMB-720,PA32,,N
Fiat G.212,g212,1947.0,I
Fournier RF-6,RF6,,G
Just SuperSTOL,jusu,,N
Kaman HH-43 Huskie,H43A,1953.0,N
Taylorcraft Auster 1,PLUS,,G
Valmet PIK-23 Towmaster,PK23,1982.0,
Victa Airtourer,TOUR,1959.0,VH


Precisamos verificar se os países das aeronaves estão na lista dos países da base silver_countries

Se encontrarmos países que não estão dentro dos valores aceitáveis, vamos colocar como Null

In [0]:
# Verificar se a coluna de codigo de pais está presente na base de countries
# Obter os valores distintos da coluna
countries_df = spark.read.format("delta").load('dbfs:/user/hive/warehouse/silver_database.db/silver_countries')
distinct_countries_code = countries_df.select("country_code").distinct().collect()

# Converter os valores distintos para uma lista de strings
distinct_values_list = [row["country_code"] for row in distinct_countries_code]

# Identificar valores que não estão na lista permitida
aircrafts_with_invalid_countries = aircrafts_bronze_df.filter(~F.col("manufacturer_country").isin(distinct_values_list))

# Printar valores que não estão na lista permitida
print("Valores que não estão na lista permitida:")
aircrafts_with_invalid_countries.display()

# Transformar valores não permitidos em null
aircrafts_bronze_df = aircrafts_bronze_df.withColumn("manufacturer_country", F.when(F.col("manufacturer_country").isin(distinct_values_list), F.col("manufacturer_country")).otherwise(None))

aircrafts_bronze_df.display()

Valores que não estão na lista permitida:


aircraft_name,aircraft_code,year_of_first_flight,manufacturer_country
Apollo Fox,AFOX,,HU


aircraft_name,aircraft_code,year_of_first_flight,manufacturer_country
Bell 429 GlobalRanger,B429,2007.0,N
Brumby 610,BR61,2011.0,VH
Embraer EMB-720,PA32,,N
Fiat G.212,g212,1947.0,I
Fournier RF-6,RF6,,G
Just SuperSTOL,jusu,,N
Kaman HH-43 Huskie,H43A,1953.0,N
Taylorcraft Auster 1,PLUS,,G
Valmet PIK-23 Towmaster,PK23,1982.0,
Victa Airtourer,TOUR,1959.0,VH


## Avaliando a qualidade dos dados
- Testar se não há nulos em aircraft_name
- Testar se não há nulos em aircraft_code
- Testar o range de valores dos anos do primeiro voo. Devem estar entre 1903 e o ano atual

In [0]:
# Testes para verificar a qualidade de dados
test_col_not_null(aircrafts_bronze_df,"aircraft_name")
test_col_not_null(aircrafts_bronze_df,"aircraft_code")
test_value_range(aircrafts_bronze_df,'year_of_first_flight',f'> 1903 and year_of_first_flight <= {current_year} or year_of_first_flight is null ')

Avaliando a condição aircraft_name não contem nulos
Avaliando a condição aircraft_code não contem nulos
Avaliando a condição year_of_first_flight > 1903 and year_of_first_flight <= 2024 or year_of_first_flight is null 


## Registrando dados no banco
Após aprovação, salvamos o dado sanitizado no banco e verificamos se tivemos sucesso

In [0]:
# Cria o banco de dados se ele não existir
database_name = 'silver_database'
table_name = 'silver_aircrafts'


spark.sql(f"CREATE DATABASE IF NOT EXISTS {database_name}")

# Salva o DataFrame como tabela Delta
aircrafts_bronze_df.write.mode("overwrite").format("delta").option("mergeSchema", "true").saveAsTable(
    f"{database_name}.{table_name}"
)

In [0]:
%sql
SELECT * from silver_database.silver_aircrafts

aircraft_name,aircraft_code,year_of_first_flight,manufacturer_country
Bell 429 GlobalRanger,B429,2007.0,N
Brumby 610,BR61,2011.0,VH
Embraer EMB-720,PA32,,N
Fiat G.212,g212,1947.0,I
Fournier RF-6,RF6,,G
Just SuperSTOL,jusu,,N
Kaman HH-43 Huskie,H43A,1953.0,N
Taylorcraft Auster 1,PLUS,,G
Valmet PIK-23 Towmaster,PK23,1982.0,
Victa Airtourer,TOUR,1959.0,VH


In [0]:
'''
Finalizando clean_bronze_data_aircrafts
'''

'\nFinalizando clean_bronze_data_aircrafts\n'