# Importações necessárias para aplicação

In [19]:
import pandas as pd
import numpy as np
import os
from scipy import stats

# Função Principal - TransformedParquet
* Recebe um arquivo .parquet para tratamento.
* Realiza o tratamento no nome das colunas, substitue os valores nulos por 0 e remove as linhas duplicadas.
* Combina colunas com os mesmos significados (Os 2 lados dos motores em um única coluna).
* Remove outliers.
* Cria um grupo de tempos 'recording_time'.
* Segrega cada fase de voos em 30 linhas e realizar uma operação matemática de acordo com as análises de cada coluna.
* Retorna um arquivo .csv tratado

In [20]:
def transformParquet(parquet_path):
    df = pd.read_parquet(parquet_path)
    df.columns = df.columns.str.replace('-', '')
    df.fillna(0, inplace=True)
    df.drop_duplicates(inplace=True)
    df['aircraftSerNum1'] = df['aircraftSerNum1']
    df['amscChBasHealthStatus1'] = df['amscChBasHealthStatus1b'] + df['amscChBasHealthStatus1a']
    df['amscChBasHealthStatus2'] = df['amscChBasHealthStatus2b']
    df['amscHprsovDrivF1'] = df['amscHprsovDrivF1b']
    df['amscHprsovDrivF2'] = df['amscHprsovDrivF2b']
    df['amscPrsovDrivF1'] = df['amscPrsovDrivF1a'] + df['amscPrsovDrivF1b']
    df['amscPrsovDrivF2'] = df['amscPrsovDrivF2b']
    df['basBleedLowPressF1'] = df['basBleedLowPressF1a']
    df['basBleedLowPressF2'] = df['basBleedLowPressF2b']
    df['basBleedLowTempF1'] = df['basBleedLowTempF1a']
    df['basBleedLowTempF2'] = df['basBleedLowTempF2b']
    df['basBleedOverPressF1'] = df['basBleedOverPressF1a']
    df['basBleedOverPressF2'] = df['basBleedOverPressF2b']
    df['basBleedOverTempF1'] = df['basBleedOverTempF1a']
    df['basBleedOverTempF2'] = df['basBleedOverTempF2b']
    df['bleedAcsBleedConfigStatus1'] = df['bleedAcsBleedConfigStatus1b']
    df['bleedAcsBleedConfigStatus2'] = df['bleedAcsBleedConfigStatus2b']
    df['bleedFavTmCmd1'] = df['bleedFavTmCmd1a'] + df['bleedFavTmCmd1b']
    df['bleedFavTmCmd2'] = df['bleedFavTmCmd2b'] + df['bleedFavTmCmd2a']
    df['bleedFavTmFbk1'] = df['bleedFavTmFbk1a'] + df['bleedFavTmFbk1b']
    df['bleedFavTmFbk2'] = df['bleedFavTmFbk2b']
    df['bleedHprsovCmdStatus1'] = df['bleedHprsovCmdStatus1b'] + df['bleedHprsovCmdStatus1a']
    df['bleedHprsovCmdStatus2'] = df['bleedHprsovCmdStatus2b'] + df['bleedHprsovCmdStatus2a']
    df['bleedHprsovOpPosStatus1'] = df['bleedHprsovOpPosStatus1b'] + df['bleedHprsovOpPosStatus1a']
    df['bleedHprsovOpPosStatus2'] = df['bleedHprsovOpPosStatus2b'] + df['bleedHprsovOpPosStatus2a']
    df['bleedMonPress1'] = df['bleedMonPress1b'] + df['bleedMonPress1a']
    df['bleedMonPress2'] = df['bleedMonPress2b'] + df['bleedMonPress2a']
    df['bleedOnStatus1'] = df['bleedOnStatus1b'] + df['bleedOnStatus1a']
    df['bleedOnStatus2'] = df['bleedOnStatus2b']
    df['bleedOutTemp1'] = df['bleedOutTemp1b'] + df['bleedOutTemp1a']
    df['bleedOutTemp2'] = df['bleedOutTemp2b'] + df['bleedOutTemp2a']
    df['bleedOutTempTarget1'] = df['bleedOutTempTarget1b'] + df['bleedOutTempTarget1a']
    df['bleedOutTempTarget2'] = df['bleedOutTempTarget2b']
    df['bleedOverpressCas1'] = df['bleedOverpressCas1a']
    df['bleedOverpressCas2'] = df['bleedOverpressCas2b'] + df['bleedOverpressCas2a']
    df['bleedPrecoolDiffPress1'] = df['bleedPrecoolDiffPress1b'] + df['bleedPrecoolDiffPress1a']
    df['bleedPrecoolDiffPress2'] = df['bleedPrecoolDiffPress2b'] + df['bleedPrecoolDiffPress2a']
    df['bleedPrsovClPosStatus1'] = df['bleedPrsovClPosStatus1a']
    df['bleedPrsovClPosStatus2'] = df['bleedPrsovClPosStatus2a']
    df['bleedPrsovFbk1'] = df['bleedPrsovFbk1a'] + df['bleedPrsovFbk1b']
    df['bleedPrsovFbk2'] = df['bleedPrsovFbk2b']
    df['bleedPrsovOpPosStatus1'] = df['bleedPrsovOpPosStatus1a'] + df['bleedPrsovOpPosStatus1b']
    df['bleedPrsovOpPosStatus2'] = df['bleedPrsovOpPosStatus2a'] + df['bleedPrsovOpPosStatus2b']
    df['bleedPrsovTmCmd1'] = df['bleedPrsovTmCmd1a'] + df['bleedPrsovTmCmd1b']
    df['bleedPrsovTmCmd2'] = df['bleedPrsovTmCmd2a'] + df['bleedPrsovTmCmd2b']
    df['bleedSingleOperation1'] = df['bleedSingleOperation1a']
    df['bleedSingleOperation2'] = df['bleedSingleOperation2b']
    df['bleedSwPress1'] = df['bleedSwPress1a'] + df['bleedSwPress1b']
    df['bleedSwPress2'] = df['bleedSwPress2b'] + df['bleedSwPress2a']
    df['correctedCoreSpeed1a'] = df['correctedCoreSpeed1a']
    df['correctedCoreSpeed3a'] = df['correctedCoreSpeed3a']
    df['correctedN1Speed1a'] = df['correctedN1Speed1a']
    df['correctedN1Speed3a'] = df['correctedN1Speed3a']
    df['message0418DAA1'] = df['message0418DAA1']
    df['message0422DAA1'] = df['message0422DAA1']
    df['messageInhibitPhases1'] = df['messageInhibitPhases1']
    df['phaseOfFlight1'] = df['phaseOfFlight1']
    df['phaseOfFlightNavigation1'] = df['phaseOfFlightNavigation1']
    df['sfyBasFaultWord1Bit131'] = df['sfyBasFaultWord1Bit131a']
    df['sfyBasFaultWord1Bit132'] = df['sfyBasFaultWord1Bit132b']
    df['pressAltitude1'] = df['pressAltitude1a']
    df['pressAltitude2'] = df['pressAltitude2a']
    df['pressAltitude3'] = df['pressAltitude3a']
    df['pressAltitude4'] = df['pressAltitude4a']
    df['wOW1'] = df['wOW1a']
    df['wOW3'] = df['wOW3a']
    df.loc[df['message0422DAA1'] != 0, 'message0422DAA1'] = 1
    df.loc[df['message0418DAA1'] != 0, 'message0418DAA1'] = 1

    # Calcule o Z-score para a coluna 'recording_time'
    z_scores = stats.zscore(df['recording_time'])

    # Defina um limite para o Z-score que indica um outlier (por exemplo, 3 desvios padrão)
    limite_z = 3

    # Encontre os índices dos outliers
    indices_outliers = abs(z_scores) > limite_z

    # Remova as linhas que contêm outliers
    df = df[~indices_outliers]
    max_time = df['recording_time'].max()
    bins = np.linspace(0, max_time, 31)
    df['time_group'] = pd.cut(df['recording_time'], bins, labels=range(30), right=False)
    agg_dict = {
        "aircraftSerNum1": "max",
        "amscChBasHealthStatus1": "median",
        "amscChBasHealthStatus2": "median",
        "amscHprsovDrivF1": "median",
        "amscHprsovDrivF2": "median",
        "amscPrsovDrivF1": "median",
        "amscPrsovDrivF2": "median",
        "basBleedLowPressF1": "median",
        "basBleedLowPressF2": "median",
        "basBleedLowTempF1": "max",
        "basBleedLowTempF2": "max",
        "basBleedOverPressF1": "max",
        "basBleedOverPressF2": "max",
        "basBleedOverTempF1": "max",
        "basBleedOverTempF2": "max",
        "bleedAcsBleedConfigStatus1": "max",
        "bleedAcsBleedConfigStatus2": "max",
        "bleedFavTmCmd1": "sum",
        "bleedFavTmCmd2": "sum",
        "bleedFavTmFbk1": "sum",
        "bleedFavTmFbk2": "sum",
        "bleedHprsovCmdStatus1": "max",
        "bleedHprsovCmdStatus2": "max",
        "bleedHprsovOpPosStatus1": "max",
        "bleedHprsovOpPosStatus2": "max",
        "bleedMonPress1": "median",
        "bleedMonPress2": "median",
        "bleedOnStatus1": "median",
        "bleedOnStatus2": "median",
        "bleedOutTemp1": "max",
        "bleedOutTemp2": "max",
        "bleedOutTempTarget1": "sum",
        "bleedOutTempTarget2": "sum",
        "bleedOverpressCas1": "max",
        "bleedOverpressCas2": "max",
        "bleedPrecoolDiffPress1": "median",
        "bleedPrecoolDiffPress2": "median",
        "bleedPrsovClPosStatus1": "max",
        "bleedPrsovClPosStatus2": "max",
        "bleedPrsovFbk1": "median",
        "bleedPrsovFbk2": "median",
        "bleedPrsovOpPosStatus1": "max",
        "bleedPrsovOpPosStatus2": "max",
        "bleedPrsovTmCmd1": "median",
        "bleedPrsovTmCmd2": "median",
        "bleedSingleOperation1": "max",
        "bleedSingleOperation2": "max",
        "bleedSwPress1": "median",
        "bleedSwPress2": "median",
        "correctedCoreSpeed1a": "median",
        "correctedCoreSpeed3a": "median",
        "correctedN1Speed1a": "median",
        "correctedN1Speed3a": "median",
        "message0418DAA1": "max",
        "message0422DAA1": "max",
        "messageInhibitPhases1": "max",
        "phaseOfFlight1": "median",
        "phaseOfFlightNavigation1": "max",
        "sfyBasFaultWord1Bit131": "mean",
        "sfyBasFaultWord1Bit132": "mean",
        "pressAltitude1": "median",
        "pressAltitude2": "median",
        "pressAltitude3": "median",
        "pressAltitude4": "median",
        "wOW1": "max",
        "wOW3": "max",
    }
    df_agrupado_fases_voo = df.groupby('time_group').agg(agg_dict).reset_index(drop=True)
    return df_agrupado_fases_voo

### Esse código é reponsável por entrar no diretório, ver todos os arquivos que existem e retornar uma array com toda a lista de arquivos.

In [21]:
pasta = './parquets'
arquivos_na_pasta = os.listdir(pasta)

### Lógica que mediante a lista de todos os nomes dos aquivos coletados anteriormente, o 'for' vai entrar em cada um deles e realizar o tratamento pela função 'def transformed_parquet'. Após o tratamento, os arquivos seram salvos e concatenados em uma variável que por ultimo é gerado um arquivo .cvs com os dados tratados.

In [22]:
dados_agregados = pd.DataFrame()

In [23]:
for arquivo in arquivos_na_pasta:
    caminho = pasta + '/' + arquivo
    print("Transformando o arquivo: " + caminho)
    transformed_parquet = transformParquet(caminho)
    dados_agregados = pd.concat([dados_agregados, transformed_parquet], ignore_index=True)

Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120033_20221007005544.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120033_20221031141941.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120033_20230718235244.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120079_20230414180132.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120032_20230801103202.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120088_20230622152932.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120033_20221112234342.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120032_20220920051002.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120025_20230813102010.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120032_20221219082344.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120033_20230506215344.parquet
Transformando o arquivo: ./parquets/TCRF_ARCHIVE_06120033_20230330101142.parquet
Transformando o arquivo: ./p

In [24]:
dados_agregados.to_csv('dados_agregados.csv', index=False)