### Importando a biblioteca pandas e a associando à sigla pd.

In [1]:
import pandas as pd

### Extraindo tabelas com matrículas de aeronaves:
- [Frota da Gol do Wikipédia](https://pt.wikipedia.org/wiki/Frota_de_aeronaves_da_Gol_Linhas_A%C3%A9reas_Inteligentes)

In [2]:
importacao=pd.read_html('https://pt.wikipedia.org/wiki/Frota_de_aeronaves_da_Gol_Linhas_A%C3%A9reas_Inteligentes')
# As tabelas são incoporadas a uma lista de DataFrames.

### Selecionando as tabelas que serão utilizadas.

In [3]:
importacao=importacao[2:5]
# Somente as tabelas 2, 3 e 4 serão utilizads.

### Unificando as tabelas e criando uma lista com os prefixos das aeronaves.

In [4]:
aeronaves=pd.concat(importacao, ignore_index=True)
#Agrupa todas as tabelas extraidas para o DataFrame aeronaves.
aeronaves=list(aeronaves['Prefixo'][0:140]) 
#Cria a lista com os prefixos válidos, para isso extrai a coluna 'Prefixo' e linhas 0 a 139.


### Realizando a consulta no RAB e salvando as informações em um dicionário.
É realizado ajuste do index para que não existam nomes duplicados. Depois é realizada a transposição das tabelas de linhas para colunas.

In [5]:
rab={}
for aeronave in aeronaves:
    rab[aeronave]=pd.read_html(f'https://sistemas.anac.gov.br/aeronaves/cons_rab_resposta.asp?textMarca={aeronave}')[0]
    #O read_html retorna uma lista de dataframes, precisamos somente do primeiro, por isso selecionamos o item [0] da lista.
    rab[aeronave]=rab[aeronave].set_index(0)
    #Seleciona a primeira coluna como index.
    rab[aeronave].index = rab[aeronave].index.where(~rab[aeronave].index.duplicated(), rab[aeronave].index + '1')
    #Identifica valores de index repetidos e edita o segundo valor.
    rab[aeronave]=rab[aeronave].transpose()
    #Transpoe a tabela.

### Unificando as tabelas importadas e associando a chave do dicionário ao índex da tabela.

In [12]:
indice=list(rab.keys())
tabela=pd.concat(rab, keys=indice).droplevel(1)
tabela.to_excel('./output/consulta.xls') # Exportação para excel - para auxliar a vizualização dos dados e buscar por falhas.

### Apresentando a tabela criada.

In [13]:
display(tabela.head(5))

Unnamed: 0,Proprietário:,CPF/CNPJ:,Operador:,CPF/CNPJ:1,Fabricante:,Ano de Fabricação:,Modelo:,Número de Série:,Tipo ICAO:,Tipo de Habilitação para Pilotos:,...,Categoria de Registro:,Número da Matrícula:,Status da Operação:,Data da Compra/Transferência:,Data de Emissão do CA:,Data de Validade do RCA:,Situação de Aeronavegabilidade:,Motivo(s):,Data de Validade do CVA:,NaN
PR-GEA,SASOF IV (A5) AVIATION IRELAND DESIGNATED ACTI...,,GOL LINHAS AEREAS S.A,7575651000159,BOEING COMPANY,2009,737-7EH,37595,B737,B739,...,PRIVADA SERV.TRANSP.AEREO PUBLICO REGULAR,18476,OPERAÇÃO NEGADA PARA TÁXI AÉREO,06/03/19,14/08/19,27/08/21,Normal,,,
PR-GEC,"UMB BANK, N.A.",,GOL LINHAS AEREAS S.A,7575651000159,BOEING COMPANY,2011,737-7EH,37608,B737,B739,...,PRIVADA SERV.TRANSP.AEREO PUBLICO REGULAR,20026,OPERAÇÃO NEGADA PARA TÁXI AÉREO,10/03/20,14/08/19,27/07/23,Normal,,,
PR-GED,"UMB BANK, N.A.",,GOL LINHAS AEREAS S.A,7575651000159,BOEING COMPANY,2011,737-7EH,37609,B737,B739,...,PRIVADA SERV.TRANSP.AEREO PUBLICO REGULAR,20331,OPERAÇÃO NEGADA PARA TÁXI AÉREO,10/03/20,14/08/19,,Normal,,05/08/23,
PR-GEE,AWAS 32415 TRUST,,GOL LINHAS AEREAS S.A,7575651000159,BOEING COMPANY,2002,737-73V,32415,B737,B739,...,PRIVADA SERV.TRANSP.AEREO PUBLICO REGULAR,20979,OPERAÇÃO NEGADA PARA TÁXI AÉREO,,19/08/19,04/05/21,Normal,,,
PR-GEH,CELESTIAL AVIATION TRADING 66 LIMMITED,,GOL LINHAS AEREAS S.A,7575651000159,BOEING COMPANY,2007,737-76N,34757,B737,B739,...,PRIVADA SERV.TRANSP.AEREO PUBLICO REGULAR,23092,OPERAÇÃO NEGADA PARA TÁXI AÉREO,,14/08/19,30/05/21,Normal,,,


Verificando características da tabela, como o tipo de dados em cada coluna.

In [14]:
tabela.info()

<class 'pandas.core.frame.DataFrame'>
Index: 139 entries, PR-GEA to PR-XMR
Data columns (total 24 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   Proprietário:                      128 non-null    object
 1   CPF/CNPJ:                          0 non-null      object
 2   Operador:                          128 non-null    object
 3   CPF/CNPJ:1                         128 non-null    object
 4   Fabricante:                        128 non-null    object
 5   Ano de Fabricação:                 128 non-null    object
 6   Modelo:                            128 non-null    object
 7   Número de Série:                   128 non-null    object
 8   Tipo ICAO:                         128 non-null    object
 9   Tipo de Habilitação para Pilotos:  128 non-null    object
 10  Classe da Aeronave:                128 non-null    object
 11  Peso Máximo de Decolagem:          128 non-null    object
 12  Númer

Verificando o tipo de dados para cada linha da coluna 'Peso Máximo de Decolagem:'

In [15]:
tabela['Peso Máximo de Decolagem:'].apply(type)

PR-GEA      <class 'str'>
PR-GEC      <class 'str'>
PR-GED      <class 'str'>
PR-GEE      <class 'str'>
PR-GEH      <class 'str'>
               ...       
PR-XMN    <class 'float'>
PR-XMO    <class 'float'>
PR-XMP    <class 'float'>
PR-XMQ    <class 'float'>
PR-XMR    <class 'float'>
Name: Peso Máximo de Decolagem:, Length: 139, dtype: object

In [16]:
tabela['Peso Máximo de Decolagem:']=tabela['Peso Máximo de Decolagem:'].replace(['-','Kg'],'',regex=True).astype('float')
tabela['Peso Máximo de Decolagem:'].apply(type)

PR-GEA    <class 'float'>
PR-GEC    <class 'float'>
PR-GED    <class 'float'>
PR-GEE    <class 'float'>
PR-GEH    <class 'float'>
               ...       
PR-XMN    <class 'float'>
PR-XMO    <class 'float'>
PR-XMP    <class 'float'>
PR-XMQ    <class 'float'>
PR-XMR    <class 'float'>
Name: Peso Máximo de Decolagem:, Length: 139, dtype: object

In [17]:
tabela.info()

<class 'pandas.core.frame.DataFrame'>
Index: 139 entries, PR-GEA to PR-XMR
Data columns (total 24 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Proprietário:                      128 non-null    object 
 1   CPF/CNPJ:                          0 non-null      object 
 2   Operador:                          128 non-null    object 
 3   CPF/CNPJ:1                         128 non-null    object 
 4   Fabricante:                        128 non-null    object 
 5   Ano de Fabricação:                 128 non-null    object 
 6   Modelo:                            128 non-null    object 
 7   Número de Série:                   128 non-null    object 
 8   Tipo ICAO:                         128 non-null    object 
 9   Tipo de Habilitação para Pilotos:  128 non-null    object 
 10  Classe da Aeronave:                128 non-null    object 
 11  Peso Máximo de Decolagem:          128 non-null    floa