# Protótipo da Pipeline dos Conjuntos de Dados — Schiphol AircraftTypes

Este protótipo tem como objetivo validar o fluxo completo dos dados referente ao conjunto de dados AircraftTypes da api do Schiphol.  
A pipeline foi construída para verificar se os valores estão sendo disponibilizados corretamente em cada etapa.

O foco principal é garantir **consistência**, **integridade** e **precisão** dos dados antes da implementação final da arquitetura.

In [None]:

import pandas as pd

df = pd.read_csv(r'../data/aircraftTypes.csv', index_col=0)

dataframe_copy = df.copy()

pd.set_option('display.max_columns', None)   
pd.set_option('display.max_rows', None)      
pd.set_option('display.width', 300)         
pd.set_option('display.max_colwidth', None) 
pd.set_option('display.float_format', '{:.2f}'.format)

dataframe_copy.info()

Index(['iata_principal', 'iata_secundario', 'descricao_longa',
       'descricao_curta'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   iata_principal   20 non-null     object
 1   iata_secundario  20 non-null     object
 2   descricao_longa  20 non-null     object
 3   descricao_curta  20 non-null     object
dtypes: object(4)
memory usage: 800.0+ bytes


# Tratamento das Colunas do Dataset

Este documento descreve as ações previstas para tratar e padronizar as colunas:  
`iataMain`, `iataSub`, `longDescription`, `shortDescription`.

O foco é padronização, limpeza e validação.

---

## Checklist Geral (para todas as colunas)

- [x] Renomear colunas para português (`iataMain` → `iata_principal`, `iataSub` → `iata_secundario`, `longDescription` → `descricao_longa`, `shortDescription` → `descricao_curta`)
- [x] Converter todas as colunas para minúsculas ou aplicar capitalização conforme necessidade
- [x] Remover espaços extras (início, fim e múltiplos no meio)
- [x] Garantir que todas as colunas sejam do tipo string
- [x] Substituir valores inválidos (`"N/A"`, `"null"`, `"none"`, `"na"`, `"undefined"`) por (`Não informado`)
- [x] Remover símbolos indesejados ou duplicação de caracteres
---

## Traduzindo colunas

In [2]:
print(dataframe_copy.columns)

colunas_traduzidas = {
    'iataMain' : 'iata_principal', 
    'iataSub': 'iata_secundario', 
    'longDescription': 'descricao_longa', 
    'shortDescription': 'descricao_curta'
}


dataframe_copy = dataframe_copy.rename(columns=colunas_traduzidas)
print(dataframe_copy.columns)

Index(['iata_principal', 'iata_secundario', 'descricao_longa', 'descricao_curta'], dtype='object')
Index(['iata_principal', 'iata_secundario', 'descricao_longa', 'descricao_curta'], dtype='object')


# Converter todas as colunas para minúsculas ou aplicar capitalização conforme necessidade

In [3]:
for coluna in ['descricao_curta', 'descricao_longa']:
    dataframe_copy[coluna] = dataframe_copy[coluna].str.title()

for coluna in ['iata_principal', 'iata_secundario']:
    dataframe_copy[coluna] = dataframe_copy[coluna].str.upper()
    
dataframe_copy

Unnamed: 0,iata_principal,iata_secundario,descricao_longa,descricao_curta
0,100,100,Fokker 100,Fk100
1,146,141,British Aerospace 146-100,Bae 146-100
2,146,142,British Aerospace 146-200 Passenger,Bae 146-200P
3,146,143,British Aerospace 146-300,Bae 146-300
4,14F,14Y,British Aerospace 146-200 Freighter,Bae 146-200F
5,220,221,Airbus A220-100,Airbus A220-1
6,220,223,Airbus A220-300,Airbus A220-3
7,310,313,Airbus A310-300 Passenger,A310-300
8,31F,31Y,Airbus A310-300 Freighter,A310-300F
9,32S,32X,Airbus A321-200P2F,Airbus A321F


# Garantir que todas as colunas sejam do tipo string

In [4]:
dataframe_copy = dataframe_copy.apply(lambda col: col.astype(str).str.strip())
    
dataframe_copy.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   iata_principal   20 non-null     object
 1   iata_secundario  20 non-null     object
 2   descricao_longa  20 non-null     object
 3   descricao_curta  20 non-null     object
dtypes: object(4)
memory usage: 800.0+ bytes


# Substituir valores inválidos (`"N/A"`, `"null"`, `"none"`, `"na"`, `"undefined"`) por (`Não informado`)

In [5]:
valores_invalidos = ['N/A', 'null', 'na', 'undefined', None]

for coluna in dataframe_copy.columns:
    dataframe_copy[coluna] = dataframe_copy[coluna].replace(valores_invalidos, 'Não informado').fillna('Não informado')

dataframe_copy

Unnamed: 0,iata_principal,iata_secundario,descricao_longa,descricao_curta
0,100,100,Fokker 100,Fk100
1,146,141,British Aerospace 146-100,Bae 146-100
2,146,142,British Aerospace 146-200 Passenger,Bae 146-200P
3,146,143,British Aerospace 146-300,Bae 146-300
4,14F,14Y,British Aerospace 146-200 Freighter,Bae 146-200F
5,220,221,Airbus A220-100,Airbus A220-1
6,220,223,Airbus A220-300,Airbus A220-3
7,310,313,Airbus A310-300 Passenger,A310-300
8,31F,31Y,Airbus A310-300 Freighter,A310-300F
9,32S,32X,Airbus A321-200P2F,Airbus A321F
