## [**Airline Passenger Reviews - Kaggle**](https://www.kaggle.com/datasets/malharkhatu/airline-passenger-reviews/datat)

### Contexto e Conjunto de Dados

O conjunto de dados contém avaliações de passageiros junto com categorias correspondentes, oferecendo uma visão ampla da experiência em viagens aéreas. Ele permite análises sobre satisfação do cliente, qualidade do serviço e sentimento, auxiliando na tomada de decisões no setor aéreo.

Na metodologia do Net Promoter Score (NPS), que é frequentemente aplicada em pesquisas de satisfação do cliente, "detractor", "promoter" e "other" representam categorias específicas atribuídas às respostas dos participantes. Essas categorias ajudam a avaliar o nível geral de satisfação do cliente que, usualmente, é calculado por:<br>
$$NPS=\%Promoters−\%Detractors$$

Vamos explicar o significado de cada termo:

 * **Detractor (Detrator):**<br>
Significado: Refere-se aos clientes que expressaram insatisfação ou descontentamento significativo com o serviço ou produto.<br>
Classificação: Geralmente, os clientes que atribuem uma pontuação de 0 a 6 (em uma escala de 0 a 10) são considerados detratores.
<br>

* **Promoter (Promotor):**<br>
Significado: Representa os clientes extremamente satisfeitos e leais ao serviço ou produto.<br>
Classificação: Os clientes que atribuem uma pontuação de 9 ou 10 são considerados promotores. Esses clientes são vistos como defensores entusiasmados da marca.
<br>

* **Other (Outro):**<br>
Significado: Engloba as respostas que não se enquadram nas categorias específicas de detratores ou promotores.<br>
Classificação: Geralmente inclui as pontuações intermediárias, como 7 e 8 na escala de 0 a 10.

<br>

### ATENÇÃO: <br> $\quad$* Como você está em um grupo com no MÁXIMO TRÊS alunos, este Jupyter irá fornecer um arquivo contendo uma amostra de sentenças de acordo com seu username.  <br>  $\quad$* Basta um arquivo por grupo.



In [1]:
import pandas as pd
import random
import os
from sklearn.model_selection import train_test_split

In [2]:
# Transforma string em inteiro
def nome_para_inteiro(nome):
    nome = nome.upper()  # Converter para maiúsculas para tratar maiúsculas e minúsculas da mesma forma
    valor_inteiro = 0
    
    for letra in nome:
        # Verificar se a letra está no alfabeto (A a Z)
        if 'A' <= letra <= 'Z':
            valor_inteiro += ord(letra) - ord('A') + 1  # Valor de 'A' é 1, 'B' é 2, ..., 'Z' é 26
    
    return valor_inteiro

In [3]:
os.listdir()

['Airline Passenger Reviews.csv',
 'Cria base de dados Treino e Teste - ATE TRIO.ipynb',
 'Projeto1_Template.ipynb']

In [4]:
# Ler o arquivo de dados 
dados = pd.read_csv('Airline Passenger Reviews.csv', encoding='utf-8-sig')
nomes_colunas = ['Review','Target']
dados.columns = nomes_colunas

# Visualização dos dados
dados.head()

Unnamed: 0,Review,Target
0,London to Izmir via Istanbul. First time I'd ...,Passive
1,Istanbul to Bucharest. We make our check in i...,Detractor
2,Rome to Prishtina via Istanbul. I flew with t...,Detractor
3,Flew on Turkish Airlines IAD-IST-KHI and retu...,Promoter
4,Mumbai to Dublin via Istanbul. Never book Tur...,Detractor


In [5]:
print("\n",
      "Frequências de cada rótulo nos DADOS COMPLETO: \n",
      dados.Target.value_counts())


 Frequências de cada rótulo nos DADOS COMPLETO: 
 Target
Detractor    30016
Promoter     23589
Passive      10412
Name: count, dtype: int64


--------
### ATENÇÃO: <p> Aqui você deverá colocar seu username para construção da sua base de dados a ser usada no Projeto 1

In [6]:
nome = input("Digite seu nome: ")
valor_inteiro = nome_para_inteiro(nome)

In [7]:
# Separar os NPSs
dados_D = dados[dados['Target'] == 'Detractor'].sample(n=1200, random_state=valor_inteiro)  # 1200 linhas de Detrator
dados_P = dados[dados['Target'] == 'Promoter'].sample(n=1200, random_state=valor_inteiro)  # 1200 linhas de Promoter
dados_N = dados[dados['Target'] == 'Passive'].sample(n=1200, random_state=valor_inteiro)  # 1200 linhas de Passive

# Combinar as amostras e embaralhar
dados_amostrados = (pd.concat([dados_D, dados_P, dados_N])
                    .sample(frac=1, random_state=valor_inteiro)
                    .reset_index(drop=True))  # Embaralhar

# Exibir as primeiras linhas
dados_amostrados.head()

Unnamed: 0,Review,Target
0,Bristol to Newcastle 2/12/13. Booked extra leg...,Promoter
1,Sitting onboard the spacious and iconic 747-4...,Promoter
2,Booked with Air China mostly for their compet...,Passive
3,Was anxious about what kind of service we were...,Promoter
4,Egyptair from London to Cairo. Departed 30 min...,Passive


In [8]:
# Separar os dados de treino e teste 
X = dados_amostrados.Review
y = dados_amostrados.Target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=valor_inteiro)

dados_treino = pd.concat([X_train, y_train],axis=1)
dados_treino.columns = nomes_colunas
dados_teste = pd.concat([X_test, y_test],axis=1)
dados_teste.columns = nomes_colunas

In [9]:
print("\n",
      "Frequências de cada rótulo nos DADOS TREINAMENTO: \n",
      dados_treino.Target.value_counts(sort=False).sort_index(), "\n\n",
      "Frequências de cada rótulo nos DADOS TESTE: \n",
      dados_teste.Target.value_counts(sort=False).sort_index())


 Frequências de cada rótulo nos DADOS TREINAMENTO: 
 Target
Detractor    833
Passive      828
Promoter     859
Name: count, dtype: int64 

 Frequências de cada rótulo nos DADOS TESTE: 
 Target
Detractor    367
Passive      372
Promoter     341
Name: count, dtype: int64


In [10]:
# Salvar os dados de treino e teste em arquivos CSV
nome_arquivo_treino = 'dados_treino_ate_TRIO_'+nome+'.csv'
nome_arquivo_teste = 'dados_teste_ate_TRIO_'+nome+'.csv'

dados_treino.to_csv(nome_arquivo_treino,index = False, header=True)
dados_teste.to_csv(nome_arquivo_teste, index=False)#, engine='xlsxwriter')

print(f"Dados de treino e teste foram salvos em '{nome_arquivo_treino}' e '{nome_arquivo_teste}'.")

Dados de treino e teste foram salvos em 'dados_treino_ate_TRIO_FelipeMenke.csv' e 'dados_teste_ate_TRIO_FelipeMenke.csv'.


In [11]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TREINO
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_treino_ate_TRIO_'+nome+'.csv')

Unnamed: 0,Review,Target
0,Singapore to Jakarta. 9 years since I last to...,Passive
1,Norwegian Long Haul. OSL-LGW. Flight DY1310. 1...,Promoter
2,Guangzhou to Paris. I have paid for inflight...,Promoter
3,Vientiane to Melbourne via Bangkok. A very en...,Promoter
4,I travelled Manchester - Sydney return on 777-...,Passive
...,...,...
2515,Stansted to Naples. They made me purchase Pri...,Detractor
2516,This review is a combination of a complaint an...,Passive
2517,London to Stockholm flight was delayed a littl...,Passive
2518,Los Angeles to San Francisco. I've made a po...,Detractor


In [12]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TESTE
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_teste_ate_TRIO_'+nome+'.csv')

Unnamed: 0,Review,Target
0,Budapest to Warsaw. The ground crew was very ...,Passive
1,Bergerac to Stansted. Just come off a particul...,Detractor
2,BRU-LIS. Flight left a few minutes late aircra...,Promoter
3,Fleet of A319 and A320 in this route. Fast che...,Passive
4,4 Nov Houston-Doha QR714 and 15 Nov Doha-Houst...,Passive
...,...,...
1075,AC869 11th July 2014 London Heathrow - Toronto...,Passive
1076,LHR-DXB-LHR. First flight on the Emirates A380...,Passive
1077,BKK-KUL KUL-HKT BKK-HKT. Had booked for my gir...,Detractor
1078,My wife and myself flew from Glasgow to Sydney...,Detractor
