# Categorias inconsistentes

Será feita uma análise dos dados contigos no dataframe airlines, mais especificamente nas colunas dest_region e dest_size.

In [2]:
# importando Pandas
import pandas as pd

# carregando o arquivo 'airlines_final.csv
filename = 'airlines_final.csv'
airlines = pd.read_csv(filename)

# imprimindo valores únicos de ambas colunas
print(airlines['dest_region'].unique())
print(airlines['dest_size'].unique())

# convertendo para caixa baixa a coluna dest_region e substituindo "eur" por "europe"
airlines['dest_region'] = airlines['dest_region'].str.lower()
airlines['dest_region'] = airlines['dest_region'].replace({'eur':'europe'})

# removendo espaços em branco de `dest_size`
airlines['dest_size'] = airlines['dest_size'].str.strip()

# conferindo se as mudanças foram feitas corretamente
print(airlines['dest_region'].unique())
print(airlines['dest_size'].unique())


['Asia' 'Canada/Mexico' 'West US' 'East US' 'Midwest US' 'EAST US'
 'Middle East' 'Europe' 'eur' 'Central/South America'
 'Australia/New Zealand' 'middle east']
['Hub' 'Small' '    Hub' 'Medium' 'Large' 'Hub     ' '    Small'
 'Medium     ' '    Medium' 'Small     ' '    Large' 'Large     ']
['asia' 'canada/mexico' 'west us' 'east us' 'midwest us' 'middle east'
 'europe' 'central/south america' 'australia/new zealand']
['Hub' 'Small' 'Medium' 'Large']


# Remapeando categorias

O dataframe airlines contem as colunas <code>day</code> e <code>wait_min</code> que são categórica e numérica,respectivamente. 

* day - armazena o dia em que o voo ocorreu
* wait_min - armazena o tempo em minutos que os passageiros aguardaram no portão de embarque

Nesta etapa serão criadas novas categorias :

* wait_type
    * short - 0-60 min
    * medium - 60-180 min
    * long - 180+ 

* day_week 
    * weekday - se o dia for durante a semana
    * weekend - se o dia for final de semana
    

In [3]:
# importando a biblioteca Numpy
import numpy as np

# criando intervalos para as categorias
# np.inf representa infinito, tão grande quanto se queira
label_ranges = [0, 60, 180, np.inf]
label_names = ['short', 'medium', 'long']

# criando a coluna wait_type
airlines['wait_type'] = pd.cut(airlines['wait_min'], bins = label_ranges, labels = label_names)

# criando mappings e substituindo
mappings = {'Monday':'weekday', 'Tuesday':'weekday', 'Wednesday': 'weekday', 
            'Thursday': 'weekday', 'Friday': 'weekday', 
            'Saturday': 'weekend', 'Sunday': 'weekend'}

airlines['day_week'] = airlines['day'].replace(mappings)