# **Case Avançado Hype 2024_2**

## **Introdução**

O desafio deste case é desenvolver um projeto de análise e predição utilizando um conjunto de dados sobre a satisfação dos passageiros de uma companhia aérea. O objetivo é identificar os fatores que mais influenciam a satisfação dos clientes e, a partir disso, criar um modelo preditivo que consiga antecipar, com base nas informações fornecidas, se um passageiro estará satisfeito, insatisfeito ou neutro em relação ao serviço da companhia aérea.

Esse tipo de análise é crucial para empresas do setor aéreo, pois permite identificar os pontos fortes e as áreas que precisam de melhorias para proporcionar uma experiência de voo mais agradável e aumentar a fidelidade dos clientes. Utilizando técnicas de machine learning, você será capaz de descobrir padrões importantes nos dados e fornecer recomendações práticas para a melhoria dos serviços oferecidos.

## **Instuções**

O case tem como objetivo verificar se o candidato tem conhecimento o suficiente para fazer um projeto de classificação de dados utilizando algoritmos de Machine Learing. O notebook abaixo dá as instruções do que deve ser feito em cada etapa do projeto

Você deve escrever seus códigos nas células que estão com os termos "TO-DO". Pode inserir quantas célular achar necessário, mas não altere a ordem das resoluções.

Além da corretude, será avaliado também a organização e a lógica utilizada. O candidato deve deixar claro os motivos das escolhas que fizer no projeto (porque aplicou algum tratamento, algoritmo ou por que utilizou as variáveis que utilizou).

Entregas incompletas também serão aceitas. Os avaliadores irão analisar cada situação, então se não conseguir fazer tudo recomendamos que submeta o case mesmo assim

## **Sobre o dataset**

O dataset possui várias colunas que indicam diferentes características dos passageiros e suas percepções sobre os serviços da companhia aérea. Aqui tem uma breve descrição delas. A variável que será prevista nesse case é a **Satisfaction**

1. **Unnamed: 0**: índice
2. **id**: Identificador único de cada passageiro.
3. **Gender**: Gênero dos passageiros (Feminino, Masculino).
4. **Customer Type**: Tipo de cliente (cliente fiel, cliente desleal).
5. **Age**: Idade real dos passageiros.
6. **Type of Travel**: Motivo da viagem dos passageiros (Viagem pessoal, Viagem de negócios).
7. **Class**: Classe de viagem dos passageiros (Business, Eco, Eco Plus).
8. **Flight Distance**: Distância do voo em quilômetros.
9. **Inflight wifi service**: Nível de satisfação com o serviço de Wi-Fi a bordo.
10. **Departure/Arrival time convenient**: Nível de satisfação com a conveniência dos horários de partida e chegada.
11. **Ease of Online booking**: Nível de satisfação com o processo de reserva online.
12. **Gate location**: Nível de satisfação com a localização do portão de embarque.
13. **Food and drink**: Nível de satisfação com as opções de comida e bebida a bordo.
14. **Online boarding**: Nível de satisfação com o processo de embarque online.
15. **Seat comfort**: Nível de satisfação com o conforto dos assentos.
16. **Inflight entertainment**: Nível de satisfação com o entretenimento oferecido a bordo.
17. **On-board service**: Nível de satisfação com o atendimento da tripulação.
18. **Leg room service**: Nível de satisfação com o espaço disponível para as pernas.
19. **Baggage handling**: Nível de satisfação com o manuseio de bagagens.
20. **Checkin service**: Nível de satisfação com o processo de check-in.
21. **Inflight service**: Nível de satisfação com o serviço a bordo.
22. **Cleanliness**: Nível de satisfação com a limpeza geral do avião.
23. **Departure Delay in Minutes**: Tempo de atraso na partida do voo, medido em minutos.
24. **Arrival Delay in Minutes**: Tempo de atraso na chegada do voo, medido em minutos.
25. **Satisfaction**: Classificação final da satisfação do passageiro (Satisfeito, Neutro ou Insatisfeito).



Essas colunas refletem tanto as características pessoais e da viagem quanto as avaliações dos passageiros sobre os serviços oferecidos pela companhia aérea.





## **Tarefas do Case**

O case será dividido em cinco seções:
1. Análise Preliminar dos Dados:
Nessa seção, é esperado que o participante realize plotagens de gráficos e apresente medidas descritivas do conjunto de dados, como média, mediana e desvio padrão. É fundamental fazer uma interpretação dos resultados, destacando características importantes, como a distribuição por idade, gênero e tipo de viagem.

2. Limpeza e Tratamento de Dados:
Os participantes devem sugerir e testar métodos de normalização e padronização, conforme necessário. Além disso, devem abordar o tratamento de dados ausentes e duplicados, utilizando técnicas como a remoção de valores nulos ou a imputação de dados ausentes. É essencial garantir a integridade do conjunto de dados para análises posteriores.

3. Escolha e Aplicação do Algoritmo de Classificação:
O candidato deve justificar a escolha do algoritmo de classificação utilizado, explicando por que este é apropriado para o problema em questão. Além disso, é esperado que aplique o algoritmo corretamente, detalhando o processo de treinamento no conjunto de dados de treino.

4. Avaliação dos Resultados:
Espera-se que o participante consiga avaliar o classificador de forma eficaz, utilizando métricas além da acurácia, como precisão, recall e F1-score. A interpretação dos resultados deve ser clara, permitindo que se compreenda o desempenho do modelo em diferentes aspectos.

5. Otimização do Modelo:
Nesta seção, o candidato deve tentar melhorar os resultados do modelo, aplicando técnicas de ajuste de hiperparâmetros e outras estratégias. É importante que o participante explique o que foi feito e por que essas ações foram escolhidas, discutindo as melhorias obtidas.

## Bibliotecas

Faça a importação de bibliotecas que serão usadas no case

In [None]:
import pandas as pd

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')
#df = pd.read_csv('/content/drive/My Drive/datasets/passenger_satisfaction.csv')

In [None]:
df = pd.read_csv('//content//passenger_satisfaction.csv')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103904 entries, 0 to 103903
Data columns (total 25 columns):
 #   Column                             Non-Null Count   Dtype  
---  ------                             --------------   -----  
 0   Unnamed: 0                         103067 non-null  float64
 1   id                                 102871 non-null  float64
 2   Gender                             102545 non-null  object 
 3   Customer Type                      101527 non-null  object 
 4   Age                                101568 non-null  float64
 5   Type of Travel                     101539 non-null  object 
 6   Class                              101556 non-null  object 
 7   Flight Distance                    101590 non-null  float64
 8   Inflight wifi service              101574 non-null  float64
 9   Departure/Arrival time convenient  101600 non-null  float64
 10  Ease of Online booking             101500 non-null  float64
 11  Gate location                      1015

In [None]:
#valores_nulos = df.isnull().sum() ## REMOVER DPS
#print(valores_nulos[valores_nulos > 0])

Unnamed: 0                            837
id                                   1033
Gender                               1359
Customer Type                        2377
Age                                  2336
Type of Travel                       2365
Class                                2348
Flight Distance                      2314
Inflight wifi service                2330
Departure/Arrival time convenient    2304
Ease of Online booking               2404
Gate location                        2316
Food and drink                       2298
Online boarding                      2365
Seat comfort                         2295
Inflight entertainment               2394
On-board service                     2314
Leg room service                     2392
Baggage handling                     2373
Checkin service                      2386
Inflight service                     2351
Cleanliness                          2369
Departure Delay in Minutes           2357
Arrival Delay in Minutes          

## <b>Seção 1: Descreva os Dados</b>

A primeira etapa do case é descrever os dados do dataset.

Descreva não apenas as características do dataset mas também as características de cada coluna. Mostre o tipo das colunas que julgar importante e verifique a corretude de dados de cada uma.

<b>Por exemplo:</b> Avaliar se a coluna de 'Gender' é uma string (texto) e a 'Age' é um int (número inteiro).


Faça uma análise númerica (média, mediana, moda, maxímo, mínimo, etc) de algumas colunas quantitativas.

In [None]:
# =========== TODO ===========

### <b>Seção 1.5: Tratamento de dados</b>

Mostre quantos dados nulos o dataset possuí.


Trate o dataset de alguma forma, explique a forma que você escolher para isso.

Realize One-hot Enconding nas variáveis categóricas.

In [None]:
# =========== TODO ===========

## <b>Seção 2: Visualização dos Dados</b>

Escolha 4 colunas para representar os dados gráficamente. Escolha o tipo de gráfico de acordo com o que cada coluna escolhida representa.

Como sugestão, você pode utilizar a biblioteca Matplotlib ou a Seaborn.



In [None]:
# =========== TODO ===========

## **Seção 3: Escolha e Aplicação do Algoritmo de Classificação**

A escolha do algoritmo é fundamental para o sucesso do modelo.

Escolha um algoritmo de classificação que você considere adequado para o conjunto de dados de satisfação dos passageiros.

*Fique à vontade para escolher o modelo que preferir, algumas opções incluem: Árvore de Decisão,
Random Forest, KNN, etc..*

Justificação: Em um comentário, explique por que você escolheu esse algoritmo. Considere:

*   a natureza dos dados;
*   a complexidade do modelo;
*   resultados esperados.


In [None]:
# =========== TODO ===========

**3.1**
Faça a divisão do conjunto de dados em conjunto de treinamento do modelo e conjunto de teste. Pode utilizar o método train_test_split() caso queira

In [None]:
# =========== TODO ===========

**3.2**
Aplique o algoritmo escolhido nos dados. Importe as bibliotecas necessárias e crie uma instância do modelo. Treine o modelo usando o conjunto de dados de treinamento.

In [None]:
[] # =========== TODO ===========

**3.3**
Faça Previsões
Utilize o modelo treinado para fazer previsões sobre os dados de teste.

```
# y_pred = modelo.predict(X_test)
```





In [None]:
[] # =========== TODO ===========

## **Seção 4: Avaliação dos Resultados**

Avaliar o desempenho do modelo é crucial.Utilize métricas como acurácia, precisão, recall e F1-score para avaliar o modelo. Calcule também a matriz de confusão para visualizar o desempenho.


Interpretação dos Resultados: Em um comentário, discuta os resultados obtidos. O que as métricas indicam sobre o desempenho do seu modelo? Como você poderia melhorar?

In [None]:
[ ] # =========== TODO ===========

## **Seção 5: Otimização do Modelo**

A otimização do modelo é essencial para melhorar seu desempenho. O candidato deve implementar técnicas como ajuste de hiperparâmetros e justificar suas escolhas.

Após a otimização, reavalie o modelo usando as mesmas métricas da Seção 4. Compare os resultados antes e depois da otimização e discuta as melhorias obtidas.

Conclua discutindo o que as métricas revelam sobre o modelo otimizado e as melhorias obtidas.

In [None]:
[ ] # =========== TODO ===========
