### Descrição do problema

Com base em respostas de uma pesquisa de satisfação, este conjunto de dados será utilizado para prever a satisfação do cliente e auxiliar a companhia aérea a tomar decisões estratégicas.  
Os dados originais foram extraídos do desafio *Airline Passenger Satisfaction*, hospedado no **kaggle**:

**https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction?select=train.csv**

Para a construção dos modelos, exploramos os algoritmos **K-Nearest Neighbors (knn)**, **Decision Tree**, **Random Forest** e **Logistic Regression**.  
A avaliação dos modelos será realizada utilizando as seguintes métricas: **Accuracy**, **Precision**, **Recall** e **F1-Score**.  
### Informações do dataset

- **id**: número de indentificação do cliente  
- **customer_type**: tipo de cliente (**loyal customer**, **disloyal customer**)
- **age**: idade atual do passageiro
- **class**: classe ocupada na aeronave (**Business**, **Eco**, **Eco Plus**)
- **flight_distance**: distância coberta pelo vôo
- **inflight_wifi_service**: nível de satisfação com a qualidade da internet *wifi* dentro da aeronave (**0: Not Applicable**; **1-5**)
- **departure_arrival_time_convenient**: nível de satisfação com os horários de decolagem e chegada da aeronave
- **ease_of_online_booking**: nível de satisfação com o serviço de reservas online
- **gate_location**: nível de satisfação com a localização do portão de embarque
- **food_and_drink**: nível de satisfação com as refeições e bebida oferecidos
- **online_boarding**: nível de satisfação com o *check-in* online
- **seat_comfort**: nível de satisfação com os assentos
- **inflight_entertainment**: nível de satisfação com os serviços de entretenimento oferecidos durante o vôo
- **on_board_service**: nível de satisfação global com todos os serviços da companhia aérea
- **leg_room_service**: nível de satisfação com o espaço de acomodação para as pernas
- **baggage_handling**: nível de satisfação com o manuseio de bagagem
- **checkin_service**: nível de satisfação com o serviço de *check-in*
- **inflight_service**: nível de satisfação com os serviços a bordo da aeronave
- **cleanliness**: nível de satisfação com a limpeza da aeronave
- **departure_delay_in_minutes**: atraso para a decolagem em minutos
- **arrival_delay_in_minutes**: atraso para a chegada em minutos
- **gender**: gênero do passageiro (**Male**, **Female**)
- **type_of_travel**: tipo da viagem (**Personal Travel**, **Business Travel**)
- **satisfaction**: nível de satisfação geral (**satisfied**, **neutral or dissatisfied**)

### Observações importantes: 

Visando otimizar o aprendizado, os dados brutos foram submetidos a uma etapa de pré-processamento pelo instrutor do curso que incluiu a codificação de variáveis categóricas e a normalização dos atributos numéricos. Com isso, os dados encontram-se preparados para a aplicação dos algoritmos de machine learning utilizados nesse ensaio.

# 1.0 - Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
pd.set_option('display.max_columns', None)

# 2.0 - Carregando os dados

In [2]:
# Treino
X_train = pd.read_csv('data/train/X_training.csv')
y_train = pd.read_csv('data/train/y_training.csv')

# Validação
X_val = pd.read_csv('data/validation/X_validation.csv')
y_val = pd.read_csv('data/validation/y_validation.csv')

# Teste
X_test = pd.read_csv('data/test/X_test.csv')
y_test = pd.read_csv('data/test/y_test.csv')

In [3]:
X_train.head()

Unnamed: 0,id,customer_type,age,class,flight_distance,inflight_wifi_service,departure_arrival_time_convenient,ease_of_online_booking,gate_location,food_and_drink,online_boarding,seat_comfort,inflight_entertainment,on_board_service,leg_room_service,baggage_handling,checkin_service,inflight_service,cleanliness,departure_delay_in_minutes,arrival_delay_in_minutes,gender_Female,gender_Male,type_of_travel_business_travel,type_of_travel_personal_travel
0,13508,1,0.5,0.0,0.03958,0.6,0.6,0.6,0.6,1.0,1.0,0.25,0.6,0.6,0.6,0.5,1.0,0.6,0.4,0.0,0.013848,1.0,0.0,1.0,0.0
1,28874,1,0.24359,0.0,0.205775,0.6,0.4,0.4,0.4,0.6,0.8,0.5,0.6,0.4,0.8,0.5,0.5,0.2,0.6,0.0,0.0,0.0,1.0,1.0,0.0
2,21484,0,0.435897,1.0,0.026858,0.6,0.6,0.6,0.2,1.0,0.6,1.0,1.0,0.4,0.4,0.0,1.0,0.6,1.0,0.0,0.0,1.0,0.0,1.0,0.0
3,48280,1,0.589744,0.5,0.041397,0.6,1.0,0.6,0.6,0.8,1.0,0.0,0.4,0.4,0.6,0.0,1.0,0.4,0.4,0.029499,0.020772,1.0,0.0,0.0,1.0
4,472,0,0.423077,1.0,0.016559,0.2,0.2,0.2,0.8,0.6,0.2,0.5,0.6,1.0,0.6,1.0,0.75,0.8,0.6,0.021632,0.019782,0.0,1.0,1.0,0.0


## 2.0.1 - Variáveis preditoras: informações gerais

Nas células abaixo, mostramos informações gerais sobre os dados de **treino**, **validação** e **teste**.  
Observamos que todas as variáveis preditoras são numéricas (formatos **int64**, **float64**), assim não há necessidade de transformar dados categóricos em numéricos.  
Além disso, todos os conjuntos de dados estão completos, sem a necessidade de lidar com dados faltantes. A checagem preliminar dos dados mostrou que diversos atributos foram a priori rescalonados.  
Lembramos que essa etapa é de suma importância para os algoritmos, como é o caso do **KNN** e da **Regressão Logística**. Caso contrário, alguns atributos poderiam ter um impacto muito maior do que outros no cálculo das métricas, resultando em valores não confiáveis de performance.  
No contexto do presente ensaio, voltado para a exploração de diferentes combinações de hiperparâmetros sobre as métricas de performance, enfatizamos que as etapas de pré-processamento e separação de dados tenham sido realizadas de antemão pelo instrutor da disciplina. 

In [4]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72515 entries, 0 to 72514
Data columns (total 25 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   id                                 72515 non-null  int64  
 1   customer_type                      72515 non-null  int64  
 2   age                                72515 non-null  float64
 3   class                              72515 non-null  float64
 4   flight_distance                    72515 non-null  float64
 5   inflight_wifi_service              72515 non-null  float64
 6   departure_arrival_time_convenient  72515 non-null  float64
 7   ease_of_online_booking             72515 non-null  float64
 8   gate_location                      72515 non-null  float64
 9   food_and_drink                     72515 non-null  float64
 10  online_boarding                    72515 non-null  float64
 11  seat_comfort                       72515 non-null  flo

In [5]:
X_val.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31079 entries, 0 to 31078
Data columns (total 25 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   id                                 31079 non-null  int64  
 1   customer_type                      31079 non-null  int64  
 2   age                                31079 non-null  float64
 3   class                              31079 non-null  float64
 4   flight_distance                    31079 non-null  float64
 5   inflight_wifi_service              31079 non-null  float64
 6   departure_arrival_time_convenient  31079 non-null  float64
 7   ease_of_online_booking             31079 non-null  float64
 8   gate_location                      31079 non-null  float64
 9   food_and_drink                     31079 non-null  float64
 10  online_boarding                    31079 non-null  float64
 11  seat_comfort                       31079 non-null  flo

In [6]:
X_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25893 entries, 0 to 25892
Data columns (total 25 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   id                                 25893 non-null  int64  
 1   customer_type                      25893 non-null  int64  
 2   age                                25893 non-null  float64
 3   class                              25893 non-null  float64
 4   flight_distance                    25893 non-null  float64
 5   inflight_wifi_service              25893 non-null  float64
 6   departure_arrival_time_convenient  25893 non-null  float64
 7   ease_of_online_booking             25893 non-null  float64
 8   gate_location                      25893 non-null  float64
 9   food_and_drink                     25893 non-null  float64
 10  online_boarding                    25893 non-null  float64
 11  seat_comfort                       25893 non-null  flo

## 2.0.2 - Variável resposta: informações gerais

O nível de satisfação geral - **satisfaction** (*satisfied*, *neutral or dissatisfied*) - fora codificado nas variáveis binárias:</br>
- **0** para **neutral or dissatisfied**</br>
- **1** para **satisfied**.

In [18]:
# renomeia a coluna '0' com o nome original 'satisfaction'
y_train = y_train.rename(columns = {'0': 'satisfaction'})
y_val = y_val.rename(columns = {'0': 'satisfaction'})
y_test = y_test.rename(columns = {'0': 'satisfaction'})

In [20]:
y_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72515 entries, 0 to 72514
Data columns (total 1 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   satisfaction  72515 non-null  int64
dtypes: int64(1)
memory usage: 566.6 KB


In [21]:
y_val.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31079 entries, 0 to 31078
Data columns (total 1 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   satisfaction  31079 non-null  int64
dtypes: int64(1)
memory usage: 242.9 KB


In [22]:
y_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25893 entries, 0 to 25892
Data columns (total 1 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   satisfaction  25893 non-null  int64
dtypes: int64(1)
memory usage: 202.4 KB


Observamos que a distribuição das classes está muito próxima em todos os conjuntos de dados: 
- classe **0** (aprox. 57%) 
- classe **1** (aprox. 43%).

Ou seja, houve coerência de manter as proporções após a divisão dos dados.

In [26]:
df_counts = pd.DataFrame({'Train': y_train.value_counts(normalize=True),
                          'Validation': y_val.value_counts(normalize=True),
                          'Test': y_test.value_counts(normalize=True)})

df_counts = df_counts.applymap(lambda x: '{:.2f}%'.format(x*100))
df_counts

Unnamed: 0_level_0,Train,Validation,Test
satisfaction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,56.66%,56.66%,56.11%
1,43.34%,43.34%,43.89%
