In [83]:
import matplotlib.pyplot as pl
import numpy as np
import pandas as pd
%matplotlib inline

#### Método para ler ados dos Voos de 2000 até 2018

In [19]:
def readData(fileName): 
    return pd.read_csv(fileName, sep=';', encoding='utf-8')
    

#### Método os dados de voos com origem diferente de Brasil

In [20]:
def clearNotBrazilianFlights(df):
    return df[df['AEROPORTO DE ORIGEM (PAÍS)'] == 'BRASIL']

#### Método para gerar uma coluna Internacional

In [189]:
def createColumns(df):
    df['INTERNACIONAL'] = df['AEROPORTO DE DESTINO (PAÍS)'] != 'BRASIL'
    df['ASSENTOS'] = df['ASSENTOS'] / df['DECOLAGENS']
    df['DISTÂNCIA VOADA (KM)'] = df['DISTÂNCIA VOADA (KM)'] / df['DECOLAGENS']
    df['PASSAGEIROS PAGOS'] = df['PASSAGEIROS PAGOS'] / df['DECOLAGENS']
    df['PASSAGEIROS GRÁTIS'] = df['PASSAGEIROS GRÁTIS'] / df['DECOLAGENS']
    df['CARGA PAGA (KG)'] = df['CARGA PAGA (KG)'] / df['DECOLAGENS']
    df['CARGA GRÁTIS (KG)'] = df['CARGA GRÁTIS (KG)'] / df['DECOLAGENS']
    return df

#### Método para remover as colunas que não iremos utilizar

In [190]:
def removeNotUsedColumns(df):
    return df.drop([
         'EMPRESA (SIGLA)', 
         'EMPRESA (NOME)', 
         'EMPRESA (NACIONALIDADE)', 
         'AEROPORTO DE ORIGEM (SIGLA)', 
         'AEROPORTO DE ORIGEM (NOME)',
         'AEROPORTO DE ORIGEM (UF)',
         'AEROPORTO DE ORIGEM (PAÍS)',
         'AEROPORTO DE ORIGEM (CONTINENTE)',
         'AEROPORTO DE DESTINO (SIGLA)',
         'AEROPORTO DE DESTINO (NOME)',
         'AEROPORTO DE DESTINO (UF)',
         'AEROPORTO DE DESTINO (REGIÃO)',
         'AEROPORTO DE DESTINO (PAÍS)',
         'AEROPORTO DE DESTINO (CONTINENTE)',
         'NATUREZA',
         'GRUPO DE VOO',
         'ASK',
         'RPK',
         'ATK',
         'RTK',
         'COMBUSTÍVEL (LITROS) - APENAS EMPRESAS BRASILEIRAS',
         'CARGA GRATIS KM',
         'CORREIO KM',
         'PAYLOAD',
         'HORAS VOADAS',
         'BAGAGEM (KG)',
         'CORREIO (KG)',
         'CARGA PAGA KM'
        ], axis=1)

#### Renomendo as colunas

In [191]:
def renameColumsn(df):
    df.columns = ['ANO', 'MES', 'ORIGEM', 'NUM_PAX_PG', 'NUM_PAX_GR', 'CARGA_PG', 'CARGA_GR', 'DISTANCIA', 'QTDE', 'ASSENTOS', 'INTER']
    return df

In [207]:
def clearData(df):
    df = df[~np.isnan(df['NUM_PAX_PG'])]
    df = df[~np.isnan(df['NUM_PAX_GR'])]
    df = df[~np.isnan(df['CARGA_PG'])]
    df = df[~np.isnan(df['CARGA_GR'])]
    df = df[~np.isnan(df['DISTANCIA'])]
    df = df[~np.isnan(df['QTDE'])]
    df = df[~np.isnan(df['ASSENTOS'])]
    df = df[df['ASSENTOS'] > 120] # mínimo de 120 lugares (aviões comerciais)
    df = df[df['NUM_PAX_PG'] > 10] # mínimo de 10 pagantes (aviões comerciais)
    df = df[df['NUM_PAX_PG'] > 0]
    df = df[df['QTDE'] > 0]
    df = df[df['DISTANCIA'] > 300] # mínimo de 300 km
    return df

In [208]:
def convertTypes(df):
    df['NUM_PAX_PG'].astype('int64')
    df['NUM_PAX_GR'].astype('int64')
    df['CARGA_PG'].astype('int64')
    df['CARGA_GR'].astype('int64')
    df['DISTANCIA'].astype('int64')
    df['QTDE'].astype('int64')
    df['ASSENTOS'].astype('int64')
    return df

In [209]:
df = readData('data/data_2017.csv')
df = clearNotBrazilianFlights(df)
df = createColumns(df)
df = removeNotUsedColumns(df)
df = renameColumsn(df)
df = clearData(df)
df = convertTypes(df)
display(df.head())
display(df.describe())
display(df.dtypes)

Unnamed: 0,ANO,MES,ORIGEM,NUM_PAX_PG,NUM_PAX_GR,CARGA_PG,CARGA_GR,DISTANCIA,QTDE,ASSENTOS,INTER
12,2017,1,CENTRO-OESTE,132.766667,2.633333,7.833333,0.0,5790.0,30.0,174.0,True
13,2017,1,SUDESTE,58.0,13.0,0.0,0.0,6397.0,1.0,212.0,True
14,2017,1,SUDESTE,163.1,3.8,4732.8,0.0,6397.0,30.0,212.0,True
15,2017,1,NORTE,219.0,7.0,866.0,0.0,5178.0,1.0,263.0,True
16,2017,1,NORTE,94.285714,0.964286,0.0,0.0,3857.571429,28.0,128.0,True


Unnamed: 0,ANO,MES,NUM_PAX_PG,NUM_PAX_GR,CARGA_PG,CARGA_GR,DISTANCIA,QTDE,ASSENTOS
count,13236.0,13236.0,13236.0,13236.0,13236.0,13236.0,13236.0,13236.0,13236.0
mean,2017.0,6.533318,141.403613,1.749559,1030.174128,13.077385,1956.183275,45.214113,181.09891
std,0.0,3.551577,57.4776,2.644234,2536.210478,73.197308,2090.279133,60.292439,40.891908
min,2017.0,1.0,11.0,0.0,0.0,0.0,315.0,1.0,120.095238
25%,2017.0,3.0,117.201786,0.322581,30.125,0.0,746.0,6.0,162.0
50%,2017.0,7.0,136.160256,1.0,253.69375,0.0,1324.0,30.0,174.0
75%,2017.0,10.0,154.679117,2.409091,753.893411,5.423108,2177.0,58.0,177.0
max,2017.0,12.0,2409.0,105.333333,32484.0,1966.516129,16496.0,737.0,515.0


ANO             int64
MES             int64
ORIGEM         object
NUM_PAX_PG    float64
NUM_PAX_GR    float64
CARGA_PG      float64
CARGA_GR      float64
DISTANCIA     float64
QTDE          float64
ASSENTOS      float64
INTER            bool
dtype: object

#### Remoçao de Outliers

In [199]:
def removeOutliers(df):  
    
    outliers_to_remove = []
    
    for feature in ['NUM_PAX_PG', 'NUM_PAX_GR', 'CARGA_PG', 'CARGA_GR', 'DISTANCIA', 'QTDE', 'ASSENTOS', 'INTER']:
    
        # TODO: Calcule Q1 (25º percentil dos dados) para o atributo dado
        Q1 = np.percentile(df[feature], 25)

        # TODO: Calcule Q3 (75º percentil dos dados) para o atributo dado
        Q3 = np.percentile(df[feature], 75)

        # TODO: Utilize a amplitude interquartil para calcular o passo do discrepante (1,5 vezes a variação interquartil)
        step = (Q3 - Q1) * 1.5
        
        outliers_to_remove.extend(df[~((df[feature] >= Q1 - step) & (df[feature] <= Q3 + step))].index)
        
    df_outliers_to_remove = pd.DataFrame(outliers_to_remove, columns=['Index'])
    display(df_outliers_to_remove.groupby('Index').filter(lambda x: x.count() >= 3))

In [200]:
removeOutliers(df)

Unnamed: 0,Index
0,13
1,15
2,18
3,20
4,22
5,23
6,24
7,46
8,48
9,67


#### Removendo as colunas que não iremos utilizar

In [215]:
df[(df['ASSENTOS'] >= 120.0) & (df['ASSENTOS'] <= 121.0)]

Unnamed: 0,ANO,MES,ORIGEM,NUM_PAX_PG,NUM_PAX_GR,CARGA_PG,CARGA_GR,DISTANCIA,QTDE,ASSENTOS,INTER
1694,2017,1,SUDESTE,108.526316,6.263158,637.578947,26.842105,2329.0,19.0,120.315789,False
2891,2017,2,NORDESTE,85.4,1.7,0.0,0.0,648.0,10.0,120.4,False
3186,2017,3,SUDESTE,82.318328,6.144695,147.55627,15.652733,498.0,311.0,120.96463,False
3504,2017,3,SUDESTE,80.420195,6.074919,300.550489,204.912052,498.0,307.0,120.104235,False
4348,2017,4,SUDESTE,95.758929,6.883929,269.517857,44.03125,874.0,224.0,120.160714,False
4441,2017,4,SUL,94.412844,6.486239,445.009174,4.665138,874.0,218.0,120.334862,False
5608,2017,6,SUDESTE,97.380952,6.142857,130.333333,12.095238,1361.0,21.0,120.095238,False
8323,2017,9,SUDESTE,94.615385,4.087912,273.395604,21.076923,398.0,91.0,120.681319,False
9063,2017,10,SUDESTE,97.688889,4.633333,141.477778,9.322222,398.0,90.0,120.4,False
10752,2017,12,CENTRO-OESTE,108.462687,2.835821,123.537313,0.074627,1329.0,67.0,120.985075,False


In [127]:
np.percentile(df['NUM_PAX_PG'], 25)

50.0