# Protótipo da Pipeline dos Conjuntos de Dados — Schiphol Flights

Este protótipo tem como objetivo validar o fluxo completo dos dados referente ao conjunto de dados Flights da api do Schiphol.  
A pipeline foi construída para verificar se os valores estão sendo disponibilizados corretamente em cada etapa.

O foco principal é garantir **consistência**, **integridade** e **precisão** dos dados antes da implementação final da arquitetura.

In [104]:

import pandas as pd

df = pd.read_csv(r'../data/flights.csv', index_col=0)

dataframe_copy = df.copy()

pd.set_option('display.max_columns', None)   
pd.set_option('display.max_rows', None)      
pd.set_option('display.width', 300)         
pd.set_option('display.max_colwidth', None) 
pd.set_option('display.float_format', '{:.2f}'.format)

dataframe_copy.head()

Unnamed: 0,ultima_atualizacao,hora_pouso_real,registro_aeronave,tipo_aeronave,retirada_bagagem,codeshare,hora_pouso_estimado,tempo_previsto_esteira,direcao_voo,nome_voo,numero_voo,portao,pier,id,voo_operacional,voo_principal,prefixo_iata,prefixo_icao,codigo_companhia,estado_voo,rota,data_hora_programada,data_programada,hora_programada,tipo_servico,terminal,versao_schema,alocacao_checkin,filtro_seguranca_previsto
0,2025-12-05 01:48:11.128000+01:00,2025-12-04 23:57:38+01:00,PHTFO,"{'iataMain': '737', 'iataSub': '7M8'}",{'belts': ['16']},{'codeshares': 'Não informado'},2025-12-04 23:57:38+01:00,2025-12-05 01:09:14.147000+01:00,A,OR3721,3721,E4,E,143786861076633036,True,OR3721,OR,TFL,231,{'flightStates': ['ARR']},"{'destinations': ['VXE', 'SID'], 'eu': 'N', 'visa': False}",2025-12-05 00:05:00+01:00,2025-12-05,2025-12-05 00:05:00,J,3,4,Não informado,Não informado
1,2025-12-05 01:13:49.080000+01:00,2025-12-04 23:47:27+01:00,PHHXK,"{'iataMain': '737', 'iataSub': '73H'}",{'belts': ['6']},{'codeshares': ['KL2745']},2025-12-04 23:47:34+01:00,2025-12-05 00:10:46+01:00,A,HV6886,6886,C15,C,143786860121118036,True,HV6886,HV,TRA,164,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['KEF'], 'eu': 'S', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,1,4,Não informado,Não informado
2,2025-12-05 01:13:49.080000+01:00,2025-12-04 23:47:27+01:00,PHHXK,"{'iataMain': '737', 'iataSub': '73H'}",{'belts': ['6']},{'codeshares': ['KL2745']},2025-12-04 23:47:34+01:00,2025-12-05 00:10:46+01:00,A,KL2745,2745,C15,C,143786860499290298,True,HV6886,KL,KLM,100,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['KEF'], 'eu': 'S', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,1,4,Não informado,Não informado
3,2025-12-05 01:30:10.259000+01:00,2025-12-04 23:53:32+01:00,PHYHA,"{'iataMain': '32S', 'iataSub': '32Q'}",{'belts': ['16']},{'codeshares': ['KL2532']},2025-12-04 23:53:37+01:00,2025-12-05 00:54:48.543000+01:00,A,HV6492,6492,E18,E,143786860121107150,True,HV6492,HV,TRA,164,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['AGA'], 'eu': 'N', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,3,4,Não informado,Não informado
4,2025-12-05 01:30:10.259000+01:00,2025-12-04 23:53:32+01:00,PHYHA,"{'iataMain': '32S', 'iataSub': '32Q'}",{'belts': ['16']},{'codeshares': ['KL2532']},2025-12-04 23:53:37+01:00,2025-12-05 00:54:48.543000+01:00,A,KL2532,2532,E18,E,143786860499284742,True,HV6492,KL,KLM,100,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['AGA'], 'eu': 'N', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,3,4,Não informado,Não informado


# Checklist de Tratamento de Colunas (Flights)

## 1. Traduzir as colunas
- [x] Criar um dicionário de tradução dos nomes originais para nomes novos.
- [x] Aplicar `df.rename(columns=...)`.
- [x] Validar se todas foram corretamente renomeadas.

---

## 2. Visão Geral do Dataset
- [x] Carregar o dataset e verificar as primeiras linhas (`df.head()`).
- [x] Verificar tipos de dados (`df.dtypes`).
- [x] Contar valores nulos por coluna (`df.isna().sum()`).
- [x] Mapear quais colunas são strings de objetos (ex: `"{'iataMain': '32S'}"`).

---

## 3. Colunas de Datas e Horários
Exemplos: lastUpdatedAt, actualLandingTime, estimatedLandingTime, scheduleDateTime

- [x] Conferir se a coluna está como object e converter com `pd.to_datetime()`.
- [x] Validar timezone (UTC, +01:00 etc).

---

## 4. Colunas de Identificação de Avião
Exemplos: aircraftRegistration, aircraftType

- [ ] Verificar se contêm códigos padronizados (IATA/ICAO).
- [ ] Verificar duplicatas.
- [ ] Normalizar letras maiúsculas/minúsculas (`.str.upper()`).
- [ ] Converter dict em string para objeto real (se aplicável).

---

## 5. Colunas que São Objetos em String
Exemplos:
"{'iataMain': '32S', 'iataSub': '32Q'}"  
"{'codeshares': ['KL2573']}"  
"{'flightStates': ['ARR', 'EXP']}"  
"{'destinations': ['LPA'], 'eu': 'S', 'visa': False}"

- [ ] Identificar colunas com dicionários ou listas representados como string.
- [ ] Converter usando:
  - `json.loads()` (se for JSON válido)
  - `ast.literal_eval()` (se for Python dict)
- [ ] Decidir como processar:
  - explodir listas em linhas (`explode`)
  - separar dicionários em colunas (`pd.json_normalize`)
  - manter como está

---

## 6. Colunas com Listas Internas
Exemplos:
{'belts': ['20']}  
{'codeshares': ['AF3112', 'KE5925', 'SK6777']}

- [ ] Identificar todas as colunas com listas.
- [ ] Converter para objetos Python.
- [ ] Escolher abordagem:
  - transformar em string "20,21,22"
  - expandir em colunas (belt_1, belt_2)
  - explodir em múltiplas linhas

---

## 7. Colunas de Códigos e Prefixos
Exemplos: prefixIATA, prefixICAO, airlineCode, flightNumber

- [ ] Verificar consistência dos códigos.
- [ ] Padronizar em maiúsculas.
- [ ] Remover espaços extras (`str.strip()`).
- [ ] Decidir se devem ser inteiros ou strings.

---

## 8. Colunas de Rota
Exemplo: "{'destinations': ['LPA'], 'eu': 'S', 'visa': False}"

- [ ] Converter para dict.
- [ ] Normalizar com `pd.json_normalize()`.
- [ ] Criar colunas derivadas:
  - destino principal
  - indicador UE
  - indicador de visto

---

## 9. Colunas Relacionadas a Status
Exemplos:
"{'flightStates': ['ARR', 'EXP']}"  
publicFlightState

- [ ] Identificar lista de status possíveis.
- [ ] Converter lista em string ou explodir.
- [ ] Criar colunas booleanas (dummies) se necessário.

---

## 10. Colunas Numéricas
Exemplos: terminal, schemaVersion, baggageClaim

- [ ] Verificar se estão como string quando deveriam ser numéricas.
- [ ] Tratar NaN.
- [ ] Ajustar floats que deveriam ser inteiros.

---

## 11. Colunas Complexas de Check-in
Exemplo típico em checkinAllocations

- [ ] Converter string para dict.
- [ ] Inspecionar estrutura real.
- [ ] Definir estratégia:
  - normalizar com `json_normalize`
  - manter apenas campos relevantes
  - explodir listas ou posições

---




## Tradução das colunas

In [105]:


translate_columns = {
    "lastUpdatedAt": "ultima_atualizacao",
    "actualLandingTime": "hora_pouso_real",
    "aircraftRegistration": "registro_aeronave",
    "aircraftType": "tipo_aeronave",
    "baggageClaim": "retirada_bagagem",
    "codeshares": "codeshare",
    "estimatedLandingTime": "hora_pouso_estimado",
    "expectedTimeOnBelt": "tempo_previsto_esteira",
    "flightDirection": "direcao_voo",
    "flightName": "nome_voo",
    "flightNumber": "numero_voo",
    "gate": "portao",
    "pier": "pier",
    "id": "id",
    "isOperationalFlight": "voo_operacional",
    "mainFlight": "voo_principal",
    "prefixIATA": "prefixo_iata",
    "prefixICAO": "prefixo_icao",
    "airlineCode": "codigo_companhia",
    "publicFlightState": "estado_voo",
    "route": "rota",
    "scheduleDateTime": "data_hora_programada",
    "scheduleDate": "data_programada",
    "scheduleTime": "hora_programada",
    "serviceType": "tipo_servico",
    "terminal": "terminal",
    "schemaVersion": "versao_schema",
    "checkinAllocations": "alocacao_checkin",
    "expectedSecurityFilter": "filtro_seguranca_previsto"
}

dataframe_copy = dataframe_copy.rename(columns=translate_columns)
dataframe_copy.head()


Unnamed: 0,ultima_atualizacao,hora_pouso_real,registro_aeronave,tipo_aeronave,retirada_bagagem,codeshare,hora_pouso_estimado,tempo_previsto_esteira,direcao_voo,nome_voo,numero_voo,portao,pier,id,voo_operacional,voo_principal,prefixo_iata,prefixo_icao,codigo_companhia,estado_voo,rota,data_hora_programada,data_programada,hora_programada,tipo_servico,terminal,versao_schema,alocacao_checkin,filtro_seguranca_previsto
0,2025-12-05 01:48:11.128000+01:00,2025-12-04 23:57:38+01:00,PHTFO,"{'iataMain': '737', 'iataSub': '7M8'}",{'belts': ['16']},{'codeshares': 'Não informado'},2025-12-04 23:57:38+01:00,2025-12-05 01:09:14.147000+01:00,A,OR3721,3721,E4,E,143786861076633036,True,OR3721,OR,TFL,231,{'flightStates': ['ARR']},"{'destinations': ['VXE', 'SID'], 'eu': 'N', 'visa': False}",2025-12-05 00:05:00+01:00,2025-12-05,2025-12-05 00:05:00,J,3,4,Não informado,Não informado
1,2025-12-05 01:13:49.080000+01:00,2025-12-04 23:47:27+01:00,PHHXK,"{'iataMain': '737', 'iataSub': '73H'}",{'belts': ['6']},{'codeshares': ['KL2745']},2025-12-04 23:47:34+01:00,2025-12-05 00:10:46+01:00,A,HV6886,6886,C15,C,143786860121118036,True,HV6886,HV,TRA,164,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['KEF'], 'eu': 'S', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,1,4,Não informado,Não informado
2,2025-12-05 01:13:49.080000+01:00,2025-12-04 23:47:27+01:00,PHHXK,"{'iataMain': '737', 'iataSub': '73H'}",{'belts': ['6']},{'codeshares': ['KL2745']},2025-12-04 23:47:34+01:00,2025-12-05 00:10:46+01:00,A,KL2745,2745,C15,C,143786860499290298,True,HV6886,KL,KLM,100,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['KEF'], 'eu': 'S', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,1,4,Não informado,Não informado
3,2025-12-05 01:30:10.259000+01:00,2025-12-04 23:53:32+01:00,PHYHA,"{'iataMain': '32S', 'iataSub': '32Q'}",{'belts': ['16']},{'codeshares': ['KL2532']},2025-12-04 23:53:37+01:00,2025-12-05 00:54:48.543000+01:00,A,HV6492,6492,E18,E,143786860121107150,True,HV6492,HV,TRA,164,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['AGA'], 'eu': 'N', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,3,4,Não informado,Não informado
4,2025-12-05 01:30:10.259000+01:00,2025-12-04 23:53:32+01:00,PHYHA,"{'iataMain': '32S', 'iataSub': '32Q'}",{'belts': ['16']},{'codeshares': ['KL2532']},2025-12-04 23:53:37+01:00,2025-12-05 00:54:48.543000+01:00,A,KL2532,2532,E18,E,143786860499284742,True,HV6492,KL,KLM,100,"{'flightStates': ['ARR', 'EXP']}","{'destinations': ['AGA'], 'eu': 'N', 'visa': False}",2025-12-05 00:10:00+01:00,2025-12-05,2025-12-05 00:10:00,J,3,4,Não informado,Não informado


## Tratando coluna por coluna

### ultima_atualização

In [106]:
dataframe_copy['ultima_atualizacao'] = pd.to_datetime(dataframe_copy['ultima_atualizacao'])

dataframe_copy['ultima_atualizacao'].isna().value_counts()

# ultima_atualizacao
# False    20
# Name: count, dtype: int64


dataframe_copy['ultima_atualizacao']


sentinela = pd.Timestamp('1900-01-01', tz='UTC')

dataframe_copy['ultima_atualizacao'] = dataframe_copy['ultima_atualizacao'].fillna(sentinela)

dataframe_copy['ultima_atualizacao']

0    2025-12-05 01:48:11.128000+01:00
1    2025-12-05 01:13:49.080000+01:00
2    2025-12-05 01:13:49.080000+01:00
3    2025-12-05 01:30:10.259000+01:00
4    2025-12-05 01:30:10.259000+01:00
5    2025-12-05 01:42:19.077000+01:00
6    2025-12-05 01:42:19.077000+01:00
7    2025-12-05 02:30:21.092000+01:00
8    2025-12-05 02:30:21.092000+01:00
9    2025-12-05 02:30:28.094000+01:00
10   2025-12-05 04:00:19.701000+01:00
11   2025-12-05 03:42:32.698000+01:00
12   2025-12-05 04:57:23.735000+01:00
13   2025-12-05 05:09:31.688000+01:00
14   2025-12-05 08:02:24.245000+01:00
15   2025-12-05 06:12:39.701000+01:00
16   2025-12-05 06:36:58.083000+01:00
17   2025-12-05 06:36:58.083000+01:00
18   2025-12-05 06:36:58.083000+01:00
19   2025-12-05 06:36:58.083000+01:00
Name: ultima_atualizacao, dtype: datetime64[ns, UTC+01:00]

### horario_pouso_real

In [107]:
dataframe_copy['hora_pouso_real'] = pd.to_datetime(dataframe_copy['hora_pouso_real'])


dataframe_copy['hora_pouso_real'].isna().value_counts()

# hora_pouso_real
# False    20
# Name: count, dtype: int64

dataframe_copy['hora_pouso_real']

sentinela = pd.Timestamp('1900-01-01', tz='UTC')

dataframe_copy['hora_pouso_real'] = dataframe_copy['hora_pouso_real'].fillna(sentinela)

dataframe_copy['hora_pouso_real']

0    2025-12-04 23:57:38+01:00
1    2025-12-04 23:47:27+01:00
2    2025-12-04 23:47:27+01:00
3    2025-12-04 23:53:32+01:00
4    2025-12-04 23:53:32+01:00
5    2025-12-05 00:05:27+01:00
6    2025-12-05 00:05:27+01:00
7    2025-12-05 00:22:35+01:00
8    2025-12-05 00:22:35+01:00
9    2025-12-05 00:20:35+01:00
10   2025-12-05 03:45:02+01:00
11   2025-12-05 03:26:28+01:00
12   1900-01-01 01:00:00+01:00
13   2025-12-05 04:55:31+01:00
14   2025-12-05 05:19:04+01:00
15   2025-12-05 05:59:17+01:00
16   2025-12-05 04:58:07+01:00
17   2025-12-05 04:58:07+01:00
18   2025-12-05 04:58:07+01:00
19   2025-12-05 04:58:07+01:00
Name: hora_pouso_real, dtype: datetime64[ns, UTC+01:00]

### Registro aeronave

In [108]:
valores_invalidos = ['N/A', 'null', 'na', 'undefined', None, 'NaN', 'NAN', 'nan']

dataframe_copy['registro_aeronave']

dataframe_copy['registro_aeronave'].isna().sum()

dataframe_copy['registro_aeronave'] = dataframe_copy['registro_aeronave'].astype(str).str.upper()

# np.int64(2)

dataframe_copy['registro_aeronave'] = dataframe_copy['registro_aeronave'].fillna('Não informado')
dataframe_copy['registro_aeronave'] = dataframe_copy['registro_aeronave'].replace(valores_invalidos, 'Não informado')

dataframe_copy['registro_aeronave'].head()

0    PHTFO
1    PHHXK
2    PHHXK
3    PHYHA
4    PHYHA
Name: registro_aeronave, dtype: object

### Registro aereonave

In [109]:
import ast

value_default = {'iataMain': 'Não informado', 'iataSub': 'Não informado'}

dataframe_copy['tipo_aeronave'] = dataframe_copy['tipo_aeronave'].apply(
    lambda x: ast.literal_eval(x) if isinstance(x, str) else value_default
)

### retirada_bagagem

In [110]:
dataframe_copy['retirada_bagagem']

value_default = {"belts": ["Não informado"]}

dataframe_copy['retirada_bagagem'] = dataframe_copy['retirada_bagagem'].apply(
    lambda x: ast.literal_eval(x) if isinstance(x, str) else value_default
)


### codeshare

In [111]:
dataframe_copy['codeshare']

value_default = {"codeshares": ["Não informado"]}

dataframe_copy['codeshare'] = dataframe_copy['codeshare'].apply(
    lambda x : ast.literal_eval(x) if isinstance(x, str) else x
)

dataframe_copy['codeshare'] = dataframe_copy['codeshare'].apply(
    lambda x : x if isinstance(x,dict) else value_default
)

dataframe_copy['codeshare']


0                    {'codeshares': 'Não informado'}
1                         {'codeshares': ['KL2745']}
2                         {'codeshares': ['KL2745']}
3                         {'codeshares': ['KL2532']}
4                         {'codeshares': ['KL2532']}
5                         {'codeshares': ['KL2624']}
6                         {'codeshares': ['KL2624']}
7                         {'codeshares': ['KL2591']}
8                         {'codeshares': ['KL2591']}
9                    {'codeshares': 'Não informado'}
10                   {'codeshares': 'Não informado'}
11                   {'codeshares': 'Não informado'}
12                   {'codeshares': 'Não informado'}
13                   {'codeshares': 'Não informado'}
14                   {'codeshares': 'Não informado'}
15                   {'codeshares': 'Não informado'}
16    {'codeshares': ['AF3112', 'KE5925', 'SK6777']}
17    {'codeshares': ['AF3112', 'KE5925', 'SK6777']}
18    {'codeshares': ['AF3112', 'KE5925', 'SK6

### hora_pouso_estimado

In [112]:
dataframe_copy['hora_pouso_estimado']

dataframe_copy['hora_pouso_estimado'] = pd.to_datetime(dataframe_copy['hora_pouso_estimado'])

sentinela = pd.Timestamp('1900-01-01', tz='UTC')

dataframe_copy['hora_pouso_estimado'] = dataframe_copy['hora_pouso_estimado'].fillna(sentinela)

dataframe_copy['hora_pouso_estimado']

0    2025-12-04 23:57:38+01:00
1    2025-12-04 23:47:34+01:00
2    2025-12-04 23:47:34+01:00
3    2025-12-04 23:53:37+01:00
4    2025-12-04 23:53:37+01:00
5    2025-12-05 00:05:41+01:00
6    2025-12-05 00:05:41+01:00
7    2025-12-05 00:23:02+01:00
8    2025-12-05 00:23:02+01:00
9    2025-12-05 00:20:50+01:00
10   2025-12-05 03:45:33+01:00
11   2025-12-05 03:26:22+01:00
12   1900-01-01 01:00:00+01:00
13   2025-12-05 04:56:01+01:00
14   2025-12-05 05:19:20+01:00
15   2025-12-05 05:59:31+01:00
16   2025-12-05 04:58:21+01:00
17   2025-12-05 04:58:21+01:00
18   2025-12-05 04:58:21+01:00
19   2025-12-05 04:58:21+01:00
Name: hora_pouso_estimado, dtype: datetime64[ns, UTC+01:00]

### tempo_previsto_esteira

In [113]:
dataframe_copy['tempo_previsto_esteira']

dataframe_copy['tempo_previsto_esteira'] = pd.to_datetime(dataframe_copy['tempo_previsto_esteira'], format='ISO8601')

sentinela = pd.Timestamp('1900-01-01', tz='UTC')

dataframe_copy['tempo_previsto_esteira'] = dataframe_copy['tempo_previsto_esteira'].fillna(sentinela)

dataframe_copy['tempo_previsto_esteira']



0    2025-12-05 01:09:14.147000+01:00
1           2025-12-05 00:10:46+01:00
2           2025-12-05 00:10:46+01:00
3    2025-12-05 00:54:48.543000+01:00
4    2025-12-05 00:54:48.543000+01:00
5    2025-12-05 01:07:34.973000+01:00
6    2025-12-05 01:07:34.973000+01:00
7    2025-12-05 01:45:50.448000+01:00
8    2025-12-05 01:45:50.448000+01:00
9    2025-12-05 02:00:23.931000+01:00
10          1900-01-01 01:00:00+01:00
11          1900-01-01 01:00:00+01:00
12          1900-01-01 01:00:00+01:00
13          1900-01-01 01:00:00+01:00
14   2025-12-05 06:07:24.608000+01:00
15          1900-01-01 01:00:00+01:00
16   2025-12-05 06:00:15.019000+01:00
17   2025-12-05 06:00:15.019000+01:00
18   2025-12-05 06:00:15.019000+01:00
19   2025-12-05 06:00:15.019000+01:00
Name: tempo_previsto_esteira, dtype: datetime64[ns, UTC+01:00]

### Direcao_voo

In [114]:
dataframe_copy['direcao_voo']



valores_invalidos = ['N/A', 'null', 'na', 'undefined', None, 'NaN', 'NAN', 'nan']

dataframe_copy['direcao_voo']

dataframe_copy['direcao_voo'].isna().sum()

# np.int64(0)

dataframe_copy['direcao_voo'] = dataframe_copy['direcao_voo'].astype(str).str.upper()


dataframe_copy['direcao_voo'] = dataframe_copy['direcao_voo'].fillna('Não informado')
dataframe_copy['direcao_voo'] = dataframe_copy['direcao_voo'].replace(valores_invalidos, 'Não informado')

dataframe_copy['direcao_voo'].head()

0    A
1    A
2    A
3    A
4    A
Name: direcao_voo, dtype: object

### nome_voo

In [115]:
dataframe_copy['nome_voo']



valores_invalidos = ['N/A', 'null', 'na', 'undefined', None, 'NaN', 'NAN', 'nan']

dataframe_copy['nome_voo']

dataframe_copy['nome_voo'].isna().sum()

# np.int64(0)

dataframe_copy['nome_voo'] = dataframe_copy['nome_voo'].astype(str).str.upper()


dataframe_copy['nome_voo'] = dataframe_copy['nome_voo'].fillna('Não informado')
dataframe_copy['nome_voo'] = dataframe_copy['nome_voo'].replace(valores_invalidos, 'Não informado')

dataframe_copy['nome_voo']

0     OR3721
1     HV6886
2     KL2745
3     HV6492
4     KL2532
5     HV5752
6     KL2624
7     HV6672
8     KL2591
9     HV6706
10    MP9432
11    MP8332
12     HV093
13    QY1446
14     AF279
15    FX4235
16    KL0856
17    AF3112
18    KE5925
19    SK6777
Name: nome_voo, dtype: object

### numero_voo

In [116]:

dataframe_copy['numero_voo']

dataframe_copy['numero_voo'] = dataframe_copy['numero_voo'].astype('int16')

dataframe_copy['numero_voo'] = dataframe_copy['numero_voo'].fillna(-1)

dataframe_copy['numero_voo']

0     3721
1     6886
2     2745
3     6492
4     2532
5     5752
6     2624
7     6672
8     2591
9     6706
10    9432
11    8332
12      93
13    1446
14     279
15    4235
16     856
17    3112
18    5925
19    6777
Name: numero_voo, dtype: int16

### portao

In [117]:
dataframe_copy['portao']



valores_invalidos = ['N/A', 'null', 'na', 'undefined', None, 'NaN', 'NAN', 'nan']

dataframe_copy['portao']

dataframe_copy['portao'].isna().sum()

# np.int64(5)

dataframe_copy['portao'] = dataframe_copy['portao'].astype(str).str.upper()


dataframe_copy['portao'] = dataframe_copy['portao'].fillna('Não informado')
dataframe_copy['portao'] = dataframe_copy['portao'].replace(valores_invalidos, 'Não informado')

dataframe_copy['portao']

0                E4
1               C15
2               C15
3               E18
4               E18
5                E6
6                E6
7               D77
8               D77
9                C9
10    NÃO INFORMADO
11    NÃO INFORMADO
12    NÃO INFORMADO
13    NÃO INFORMADO
14              A15
15    NÃO INFORMADO
16               F7
17               F7
18               F7
19               F7
Name: portao, dtype: object

### pier

In [118]:
dataframe_copy['pier']



valores_invalidos = ['N/A', 'null', 'na', 'undefined', None, 'NaN', 'NAN', 'nan']

dataframe_copy['pier']

dataframe_copy['pier'].isna().sum()

# np.int64(5)

dataframe_copy['pier'] = dataframe_copy['pier'].astype(str).str.upper()


dataframe_copy['pier'] = dataframe_copy['pier'].fillna('Não informado')
dataframe_copy['pier'] = dataframe_copy['pier'].replace(valores_invalidos, 'Não informado')

dataframe_copy['pier']

0                 E
1                 C
2                 C
3                 E
4                 E
5                 E
6                 E
7                 D
8                 D
9                 C
10    NÃO INFORMADO
11    NÃO INFORMADO
12    NÃO INFORMADO
13    NÃO INFORMADO
14                A
15    NÃO INFORMADO
16                F
17                F
18                F
19                F
Name: pier, dtype: object

### id

In [119]:
dataframe_copy['id']

dataframe_copy['id'] = dataframe_copy['id'].astype('Int64')

dataframe_copy['id'] = dataframe_copy['id'].fillna(-1)

dataframe_copy['id']



0     143786861076633036
1     143786860121118036
2     143786860499290298
3     143786860121107150
4     143786860499284742
5     143786860121013762
6     143786860499287410
7     143786860121112478
8     143786860499285184
9     143786860121114706
10    143786860792360262
11    143786860792256218
12    143786858958002015
13    143786861380036450
14    143786858930148204
15    143786859851019440
16    143786860499090500
17    143786859090005876
18    143786860473361290
19    143786861605450738
Name: id, dtype: Int64

### Voo_operacional

In [120]:
dataframe_copy['voo_operacional']

dataframe_copy['voo_operacional'] = (dataframe_copy['voo_operacional']
                                     .replace(valores_invalidos, pd.NA)
                                     .astype('boolean'))
dataframe_copy['voo_operacional']

dataframe_copy.columns

Index(['ultima_atualizacao', 'hora_pouso_real', 'registro_aeronave', 'tipo_aeronave', 'retirada_bagagem', 'codeshare', 'hora_pouso_estimado', 'tempo_previsto_esteira', 'direcao_voo', 'nome_voo', 'numero_voo', 'portao', 'pier', 'id', 'voo_operacional', 'voo_principal', 'prefixo_iata',
       'prefixo_icao', 'codigo_companhia', 'estado_voo', 'rota', 'data_hora_programada', 'data_programada', 'hora_programada', 'tipo_servico', 'terminal', 'versao_schema', 'alocacao_checkin', 'filtro_seguranca_previsto'],
      dtype='object')

### Voo_principal

In [121]:
dataframe_copy['voo_principal']

dataframe_copy['voo_principal'] = dataframe_copy['voo_principal'].astype(str).str.upper()
dataframe_copy['voo_principal'] = dataframe_copy['voo_principal'].replace(valores_invalidos, 'Não informado')

dataframe_copy['voo_principal']

0     OR3721
1     HV6886
2     HV6886
3     HV6492
4     HV6492
5     HV5752
6     HV5752
7     HV6672
8     HV6672
9     HV6706
10    MP9432
11    MP8332
12     HV093
13    QY1446
14     AF279
15    FX4235
16    KL0856
17    KL0856
18    KL0856
19    KL0856
Name: voo_principal, dtype: object

### prefixo_iata

In [122]:
dataframe_copy['prefixo_iata']

dataframe_copy['prefixo_iata'] = dataframe_copy['prefixo_iata'].astype(str).str.upper()
dataframe_copy['prefixo_iata'] = dataframe_copy['prefixo_iata'].replace(valores_invalidos, 'Não informado')

dataframe_copy['prefixo_iata']

0     OR
1     HV
2     KL
3     HV
4     KL
5     HV
6     KL
7     HV
8     KL
9     HV
10    MP
11    MP
12    HV
13    QY
14    AF
15    FX
16    KL
17    AF
18    KE
19    SK
Name: prefixo_iata, dtype: object

### prefixo_icao

In [123]:
dataframe_copy['prefixo_icao']

dataframe_copy['prefixo_icao'] = dataframe_copy['prefixo_icao'].astype(str).str.upper()
dataframe_copy['prefixo_icao'] = dataframe_copy['prefixo_icao'].replace(valores_invalidos, 'Não informado')

dataframe_copy['prefixo_icao']

0     TFL
1     TRA
2     KLM
3     TRA
4     KLM
5     TRA
6     KLM
7     TRA
8     KLM
9     TRA
10    MPH
11    MPH
12    TRA
13    BCS
14    AFR
15    FDX
16    KLM
17    AFR
18    KAL
19    SAS
Name: prefixo_icao, dtype: object

### codigo_companhia

In [124]:
dataframe_copy['codigo_companhia']

dataframe_copy['codigo_companhia'] = dataframe_copy['codigo_companhia'].astype('int16')

dataframe_copy['codigo_companhia'] = dataframe_copy['codigo_companhia'].fillna(-1)

dataframe_copy['codigo_companhia']



0      231
1      164
2      100
3      164
4      100
5      164
6      100
7      164
8      100
9      164
10     122
11     122
12     164
13     289
14      80
15    5326
16     100
17      80
18     105
19     150
Name: codigo_companhia, dtype: int16

### estado_voo

In [125]:
dataframe_copy['estado_voo']

value_default = {"flightStates": ["Não informado"]}


dataframe_copy['estado_voo'] = dataframe_copy['estado_voo'].apply(
    lambda x : ast.literal_eval(x) if isinstance(x, str) else x
)

dataframe_copy['estado_voo'] = dataframe_copy['estado_voo'].apply(
    lambda x : x if isinstance(x, dict) else value_default
)

dataframe_copy['estado_voo']

0            {'flightStates': ['ARR']}
1     {'flightStates': ['ARR', 'EXP']}
2     {'flightStates': ['ARR', 'EXP']}
3     {'flightStates': ['ARR', 'EXP']}
4     {'flightStates': ['ARR', 'EXP']}
5     {'flightStates': ['ARR', 'EXP']}
6     {'flightStates': ['ARR', 'EXP']}
7     {'flightStates': ['ARR', 'EXP']}
8     {'flightStates': ['ARR', 'EXP']}
9     {'flightStates': ['ARR', 'EXP']}
10    {'flightStates': ['LND', 'EXP']}
11    {'flightStates': ['LND', 'EXP']}
12           {'flightStates': ['DEP']}
13    {'flightStates': ['LND', 'EXP']}
14           {'flightStates': ['ARR']}
15    {'flightStates': ['LND', 'EXP']}
16    {'flightStates': ['ARR', 'EXP']}
17    {'flightStates': ['ARR', 'EXP']}
18    {'flightStates': ['ARR', 'EXP']}
19    {'flightStates': ['ARR', 'EXP']}
Name: estado_voo, dtype: object

### rota

In [126]:
dataframe_copy['rota']

value_default = {"destinations": ['Não informado'], "eu": "Não informado", "visa": False}

dataframe_copy['rota'] = dataframe_copy['rota'].apply(
    lambda x : x if isinstance(x, str) else value_default
)

dataframe_copy['rota']

0     {'destinations': ['VXE', 'SID'], 'eu': 'N', 'visa': False}
1            {'destinations': ['KEF'], 'eu': 'S', 'visa': False}
2            {'destinations': ['KEF'], 'eu': 'S', 'visa': False}
3            {'destinations': ['AGA'], 'eu': 'N', 'visa': False}
4            {'destinations': ['AGA'], 'eu': 'N', 'visa': False}
5            {'destinations': ['RAK'], 'eu': 'N', 'visa': False}
6            {'destinations': ['RAK'], 'eu': 'N', 'visa': False}
7            {'destinations': ['TFS'], 'eu': 'S', 'visa': False}
8            {'destinations': ['TFS'], 'eu': 'S', 'visa': False}
9            {'destinations': ['FUE'], 'eu': 'S', 'visa': False}
10    {'destinations': ['HKG', 'DWC'], 'eu': 'N', 'visa': False}
11    {'destinations': ['JNB', 'NBO'], 'eu': 'N', 'visa': False}
12           {'destinations': ['SVQ'], 'eu': 'S', 'visa': False}
13           {'destinations': ['LEJ'], 'eu': 'S', 'visa': False}
14           {'destinations': ['HND'], 'eu': 'N', 'visa': False}
15           {'destinatio

### data_hora_programada

In [127]:
dataframe_copy['data_hora_programada']

dataframe_copy['data_hora_programada'] = pd.to_datetime(dataframe_copy['data_hora_programada'])

sentinela = pd.Timestamp('1900-01-01', tz='UTC')

dataframe_copy['data_hora_programada'] = dataframe_copy['data_hora_programada'].fillna(sentinela)

dataframe_copy['data_hora_programada']

0    2025-12-05 00:05:00+01:00
1    2025-12-05 00:10:00+01:00
2    2025-12-05 00:10:00+01:00
3    2025-12-05 00:10:00+01:00
4    2025-12-05 00:10:00+01:00
5    2025-12-05 00:25:00+01:00
6    2025-12-05 00:25:00+01:00
7    2025-12-05 00:35:00+01:00
8    2025-12-05 00:35:00+01:00
9    2025-12-05 00:45:00+01:00
10   2025-12-05 03:20:00+01:00
11   2025-12-05 03:55:00+01:00
12   2025-12-05 05:00:00+01:00
13   2025-12-05 05:15:00+01:00
14   2025-12-05 05:15:00+01:00
15   2025-12-05 05:20:00+01:00
16   2025-12-05 05:20:00+01:00
17   2025-12-05 05:20:00+01:00
18   2025-12-05 05:20:00+01:00
19   2025-12-05 05:20:00+01:00
Name: data_hora_programada, dtype: datetime64[ns, UTC+01:00]

### data_programada

In [128]:
dataframe_copy['data_programada']

dataframe_copy['data_programada'] = pd.to_datetime(dataframe_copy['data_programada'])

dataframe_copy['data_programada'] = dataframe_copy['data_programada'].dt.strftime('%Y-%m-%d')

sentinela = pd.Timestamp('1900-01-01')

dataframe_copy['data_programada'] = dataframe_copy['data_programada'].fillna(sentinela)

dataframe_copy['data_programada']

0     2025-12-05
1     2025-12-05
2     2025-12-05
3     2025-12-05
4     2025-12-05
5     2025-12-05
6     2025-12-05
7     2025-12-05
8     2025-12-05
9     2025-12-05
10    2025-12-05
11    2025-12-05
12    2025-12-05
13    2025-12-05
14    2025-12-05
15    2025-12-05
16    2025-12-05
17    2025-12-05
18    2025-12-05
19    2025-12-05
Name: data_programada, dtype: object

### hora_programada

In [129]:
dataframe_copy['hora_programada']

dataframe_copy['hora_programada'] = pd.to_datetime(dataframe_copy['hora_programada'])


sentinela = pd.Timestamp('1900-01-01')

dataframe_copy['hora_programada'] = dataframe_copy['hora_programada'].fillna(sentinela)

dataframe_copy['hora_programada']

0    2025-12-05 00:05:00
1    2025-12-05 00:10:00
2    2025-12-05 00:10:00
3    2025-12-05 00:10:00
4    2025-12-05 00:10:00
5    2025-12-05 00:25:00
6    2025-12-05 00:25:00
7    2025-12-05 00:35:00
8    2025-12-05 00:35:00
9    2025-12-05 00:45:00
10   2025-12-05 03:20:00
11   2025-12-05 03:55:00
12   2025-12-05 05:00:00
13   2025-12-05 05:15:00
14   2025-12-05 05:15:00
15   2025-12-05 05:20:00
16   2025-12-05 05:20:00
17   2025-12-05 05:20:00
18   2025-12-05 05:20:00
19   2025-12-05 05:20:00
Name: hora_programada, dtype: datetime64[ns]

### tipo_servico

In [130]:
dataframe_copy['tipo_servico']

dataframe_copy['tipo_servico'] = dataframe_copy['tipo_servico'].astype(str).str.upper()
dataframe_copy['tipo_servico'] = dataframe_copy['tipo_servico'].replace(valores_invalidos, 'Não informado')

dataframe_copy['tipo_servico']

0     J
1     J
2     J
3     J
4     J
5     J
6     J
7     J
8     J
9     J
10    F
11    F
12    P
13    F
14    J
15    F
16    J
17    J
18    J
19    J
Name: tipo_servico, dtype: object

### terminal

In [131]:
dataframe_copy['terminal']

dataframe_copy['terminal'] = dataframe_copy['terminal'].astype('float16')

dataframe_copy['terminal'] = dataframe_copy['terminal'].fillna(0.00)

dataframe_copy['terminal']


0    3.00
1    1.00
2    1.00
3    3.00
4    3.00
5    3.00
6    3.00
7    3.00
8    3.00
9    3.00
10   0.00
11   0.00
12   0.00
13   0.00
14   4.00
15   0.00
16   3.00
17   3.00
18   3.00
19   3.00
Name: terminal, dtype: float16

### versao_schema

In [132]:
dataframe_copy['versao_schema']

dataframe_copy['versao_schema']

dataframe_copy['versao_schema'] = dataframe_copy['versao_schema'].astype('int8')

dataframe_copy['versao_schema'] = dataframe_copy['versao_schema'].fillna(-1)

dataframe_copy['versao_schema']


0     4
1     4
2     4
3     4
4     4
5     4
6     4
7     4
8     4
9     4
10    4
11    4
12    4
13    4
14    4
15    4
16    4
17    4
18    4
19    4
Name: versao_schema, dtype: int8

### alocacao_checkin

In [133]:
dataframe_copy['alocacao_checkin']

dataframe_copy['alocacao_checkin'] = dataframe_copy['alocacao_checkin'].astype(str).str.upper()
dataframe_copy['alocacao_checkin'] = dataframe_copy['alocacao_checkin'].replace(valores_invalidos, 'Não informado')

dataframe_copy['alocacao_checkin']

0     NÃO INFORMADO
1     NÃO INFORMADO
2     NÃO INFORMADO
3     NÃO INFORMADO
4     NÃO INFORMADO
5     NÃO INFORMADO
6     NÃO INFORMADO
7     NÃO INFORMADO
8     NÃO INFORMADO
9     NÃO INFORMADO
10    NÃO INFORMADO
11    NÃO INFORMADO
12    NÃO INFORMADO
13    NÃO INFORMADO
14    NÃO INFORMADO
15    NÃO INFORMADO
16    NÃO INFORMADO
17    NÃO INFORMADO
18    NÃO INFORMADO
19    NÃO INFORMADO
Name: alocacao_checkin, dtype: object

### filtro_seguranca_previsto

In [134]:
dataframe_copy['filtro_seguranca_previsto']

dataframe_copy['filtro_seguranca_previsto'] = dataframe_copy['filtro_seguranca_previsto'].astype(str).str.upper()
dataframe_copy['filtro_seguranca_previsto'] = dataframe_copy['filtro_seguranca_previsto'].replace(valores_invalidos, 'Não informado')

dataframe_copy['filtro_seguranca_previsto']

0     NÃO INFORMADO
1     NÃO INFORMADO
2     NÃO INFORMADO
3     NÃO INFORMADO
4     NÃO INFORMADO
5     NÃO INFORMADO
6     NÃO INFORMADO
7     NÃO INFORMADO
8     NÃO INFORMADO
9     NÃO INFORMADO
10    NÃO INFORMADO
11    NÃO INFORMADO
12    NÃO INFORMADO
13    NÃO INFORMADO
14    NÃO INFORMADO
15    NÃO INFORMADO
16    NÃO INFORMADO
17    NÃO INFORMADO
18    NÃO INFORMADO
19    NÃO INFORMADO
Name: filtro_seguranca_previsto, dtype: object

## Visão Geral

In [135]:
#     'alocacao_checkin', 'filtro_seguranca_previsto'],




# dataframe_copy.head()

# dataframe_copy.dtypes

# dataframe_copy.isna().sum()

# cols_object = dataframe_copy.select_dtypes(include=['object']).columns

# colunas_com_objetos = [
#     col for col in cols_object
#     if dataframe_copy[col].astype(str).str.contains(r"\{.*\}").any()
# ]

# mapper_fillna = {
#     'tipo_aeronave' : {'iataMain': "Não informado", 'iataSub': 'Não informado'},
#     'retirada_bagagem': {'belts': 'Não informado'},
#     'codeshare': {'codeshares': 'Não informado'},
#     'estado_voo': {'flightStates': 'Não informado'},
#     'rota': {'destomatopms': 'Não informado', 'eu': 'Não informado', 'visa': False}
# }

# import ast

# for col,dicionario_default in mapper_fillna.items():
#             dataframe_copy[col] = dataframe_copy[col].apply(
#                 lambda x: ast.literal_eval(x) if isinstance(x, str) else x
#             )
            
#             dataframe_copy[col] = dataframe_copy[col].apply(
#                 lambda x: x if isinstance(x, dict) else dicionario_default 
#             )
    
# dataframe_copy[colunas_com_objetos]

## Validando coluna de data

In [136]:
# colunas_data = ['ultima_atualizacao','hora_pouso_real','hora_pouso_estimado','tempo_previsto_esteira',
#                 'data_hora_programada','data_programada','hora_programada']


# for col in colunas_data:
#     dataframe_copy[col] = pd.to_datetime(dataframe_copy[col], utc=True)

# sentinela = pd.Timestamp('1900-01-01', tz='UTC')

# dataframe_copy[colunas_data] = dataframe_copy[colunas_data].fillna(sentinela)
# dataframe_copy[colunas_data]



In [137]:
dataframe_copy.columns

Index(['ultima_atualizacao', 'hora_pouso_real', 'registro_aeronave', 'tipo_aeronave', 'retirada_bagagem', 'codeshare', 'hora_pouso_estimado', 'tempo_previsto_esteira', 'direcao_voo', 'nome_voo', 'numero_voo', 'portao', 'pier', 'id', 'voo_operacional', 'voo_principal', 'prefixo_iata',
       'prefixo_icao', 'codigo_companhia', 'estado_voo', 'rota', 'data_hora_programada', 'data_programada', 'hora_programada', 'tipo_servico', 'terminal', 'versao_schema', 'alocacao_checkin', 'filtro_seguranca_previsto'],
      dtype='object')