# Protótipo da Pipeline dos Conjuntos de Dados — Schiphol Airlines

Este protótipo tem como objetivo validar o fluxo completo dos dados referente ao conjunto de dados Airlines da api do Schiphol.  
A pipeline foi construída para verificar se os valores estão sendo disponibilizados corretamente em cada etapa.

O foco principal é garantir **consistência**, **integridade** e **precisão** dos dados antes da implementação final da arquitetura.

In [95]:

import pandas as pd

df = pd.read_csv(r'../data/airlines.csv', index_col=0)

dataframe_copy = df.copy()

pd.set_option('display.max_columns', None)   
pd.set_option('display.max_rows', None)      
pd.set_option('display.width', 300)         
pd.set_option('display.max_colwidth', None) 
pd.set_option('display.float_format', '{:.2f}'.format)

dataframe_copy.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   iata        20 non-null     object
 1   icao        19 non-null     object
 2   nvls        20 non-null     int64 
 3   publicName  20 non-null     object
dtypes: int64(1), object(3)
memory usage: 800.0+ bytes


# Checklist – Tratamento das Colunas do Dataset

Este checklist resume as etapas necessárias para tratar e padronizar as colunas: `iata`, `icao`, `nvls`, `publicName`.

---

## Checklist Geral (para todas as colunas)

- [x] Renomear colunas para português  
  - [x] `iata` → `codigo_iata`  
  - [x] `icao` → `codigo_icao`  
  - [x] `nvls` → `nivel`  
  - [x] `publicName` → `nome_publico`

- [x] Garantir que as 2° e ultima colunas sejam do tipo string (`astype(str)`)
- [x] Garantir que a 3° coluna sejam do tipo int16 (`astype(int16)`)

- [x] Converter capitalização conforme regra  
  - [x] `codigo_iata` e `codigo_icao` → **maiúsculas**  
  - [x] `nome_publico` → **capitalização apropriada**

- [x] Remover espaços extras  
  - [x] Remover espaços no início e fim 

- [x] Substituir valores inválidos por `Não informado`  
  - [x] `N/A`  
  - [x] `null`  
  - [x] `none`  
  - [x] `na`  
  - [x] `undefined`  
  - [x] `""`  
  - [x] `None`

---


# Renomeando

In [96]:
print(dataframe_copy.columns)

novas_colunas = {
    'iata': 'codigo_iata',
    'icao': 'codigo_icao',
    'nvls': 'nivel',
    'publicName': 'nome_publico'
}

dataframe_copy = dataframe_copy.rename(columns=novas_colunas)
dataframe_copy

Index(['iata', 'icao', 'nvls', 'publicName'], dtype='object')


Unnamed: 0,codigo_iata,codigo_icao,nivel,nome_publico
0,0B,BLA,5191,Blue Air
1,2F,EZZ,5316,ETF Airways
2,2L,OAW,449,Helvetic
3,2N,LYX,5259,Smart Lynx Malta
4,2W,WFL,5309,World2fly
5,3O,MAC,4891,Air Arabia Maroc
6,4M,MGH,5310,MGA Airlines
7,4U,GWI,5005,Germanwings
8,4Y,BGA,5234,Airbus Transport International
9,5F,FIA,5291,Flyone


# Garantir que as 2° e ultima colunas sejam do tipo string (`astype(str)`)
# Garantir que a 3° coluna sejam do tipo int16 (`astype(int16)`)

In [97]:
for coluna in dataframe_copy.columns:
    if coluna == 'nivel':
        dataframe_copy[coluna] = dataframe_copy[coluna].astype('int16')
    else:
        dataframe_copy[coluna] = dataframe_copy[coluna].astype(str)

# Converter capitalização conforme regra
##  `codigo_iata` e `codigo_icao` → **maiúsculas** 

In [98]:
cols = ['codigo_iata', 'codigo_icao']
dataframe_copy[cols] = (dataframe_copy[cols].apply(lambda col:col.str.upper()))


## `nome_publico` → **capitalização apropriada**

In [99]:
dataframe_copy['nome_publico'] = dataframe_copy['nome_publico'].str.title()
dataframe_copy.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   codigo_iata   20 non-null     object
 1   codigo_icao   20 non-null     object
 2   nivel         20 non-null     int16 
 3   nome_publico  20 non-null     object
dtypes: int16(1), object(3)
memory usage: 680.0+ bytes


# Remover espaços extras 
## Remover espaços no início e fim  

In [100]:
for coluna in dataframe_copy.columns:
    if coluna == 'nivel':
        pass
    else:
        dataframe_copy[coluna] = dataframe_copy[coluna].str.strip()

# Substituir valores inválidos por `Não informado`

In [None]:
valores_invalidos = ['N/A','null','none','na','undefined','""','None']

for coluna in dataframe_copy.columns:
    if coluna == 'nivel':
        dataframe_copy[coluna] = dataframe_copy[coluna].fillna(0).astype('int16')
    else:
        dataframe_copy[coluna] = dataframe_copy[coluna].replace(valores_invalidos,'Não informado').fillna('Não informado')
