## [**About Dataset - Kaggle**](https://www.kaggle.com/datasets/malharkhatu/airline-passenger-reviews/datat)

The dataset comprises a comprehensive collection of passenger reviews, accompanied by corresponding review categories, offering a holistic view of airline travel experiences. These reviews provide valuable insights into customer satisfaction, service quality, and sentiment analysis, enabling in-depth analysis and informed decision-making within the airline industry. With the combination of review content and categories, this dataset serves as a valuable resource for understanding and enhancing the passenger journey.

### Mais sobre esses dados

Na metodologia do Net Promoter Score (NPS), que é frequentemente aplicada em pesquisas de satisfação do cliente, "detractor", "promoter" e "other" representam categorias específicas atribuídas às respostas dos participantes. Essas categorias ajudam a avaliar o nível geral de satisfação do cliente. 

Vamos explicar o significado de cada termo:

 * **Detractor (Detrator):**<br>
Significado: Refere-se aos clientes que expressaram insatisfação ou descontentamento significativo com o serviço ou produto.<br>
Classificação: Geralmente, os clientes que atribuem uma pontuação de 0 a 6 (em uma escala de 0 a 10) são considerados detratores.
<br>

* **Promoter (Promotor):**<br>
Significado: Representa os clientes extremamente satisfeitos e leais ao serviço ou produto.<br>
Classificação: Os clientes que atribuem uma pontuação de 9 ou 10 são considerados promotores. Esses clientes são vistos como defensores entusiasmados da marca.
<br>

* **Other (Outro):**<br>
Significado: Engloba as respostas que não se enquadram nas categorias específicas de detratores ou promotores.<br>
Classificação: Geralmente inclui as pontuações intermediárias, como 7 e 8 na escala de 0 a 10.



In [1]:
import pandas as pd
import random
import os
from sklearn.model_selection import train_test_split

In [2]:
# Transforma string em inteiro
def nome_para_inteiro(nome):
    nome = nome.upper()  # Converter para maiúsculas para tratar maiúsculas e minúsculas da mesma forma
    valor_inteiro = 0
    
    for letra in nome:
        # Verificar se a letra está no alfabeto (A a Z)
        if 'A' <= letra <= 'Z':
            valor_inteiro += ord(letra) - ord('A') + 1  # Valor de 'A' é 1, 'B' é 2, ..., 'Z' é 26
    
    return valor_inteiro

In [3]:
os.listdir()

['.git',
 'Airline Passenger Reviews.csv',
 'Cria base de dados Treino e Teste - QUARTETO.ipynb',
 'Projeto1 Template.ipynb',
 'Projeto1_Enunciado_vff.pdf',
 'README.md',
 'sentence_level_data.csv']

In [4]:
# Ler o arquivo de dados 
dados = pd.read_csv('Airline Passenger Reviews.csv', encoding='utf-8-sig')
nomes_colunas = ['Review','NPS']
dados.columns = nomes_colunas
dados

Unnamed: 0,Review,NPS
0,London to Izmir via Istanbul. First time I'd ...,Passive
1,Istanbul to Bucharest. We make our check in i...,Detractor
2,Rome to Prishtina via Istanbul. I flew with t...,Detractor
3,Flew on Turkish Airlines IAD-IST-KHI and retu...,Promoter
4,Mumbai to Dublin via Istanbul. Never book Tur...,Detractor
...,...,...
64012,London to Kiev Simferopol London. Overall a pr...,Detractor
64013,Brussels-Kiev-Brussels Business Class: no dela...,Detractor
64014,SPL-KBP vv operated in code share with KLM don...,Detractor
64015,Kiev-Vienna. Check in was slow but after that ...,Detractor


In [5]:
nome = input("Digite seu nome: ")
valor_inteiro = nome_para_inteiro(nome)

In [6]:
# Embaralhar as linhas do conjunto de dados
dados_embaralhados = dados.sample(frac=6000/dados.shape[0], random_state=valor_inteiro)
dados_embaralhados.columns

Index(['Review', 'NPS'], dtype='object')

In [7]:
# Separar os dados de treino e teste 
X = dados_embaralhados.Review
y = dados_embaralhados.NPS
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=valor_inteiro)

dados_treino = pd.concat([X_train, y_train],axis=1)
dados_treino.columns = nomes_colunas
dados_teste = pd.concat([X_test, y_test],axis=1)
dados_teste.columns = nomes_colunas
   

In [8]:
print(dados_treino.NPS.value_counts(True))
print(dados_teste.NPS.value_counts(True))

Detractor    0.470238
Promoter     0.369048
Passive      0.160714
Name: NPS, dtype: float64
Detractor    0.475556
Promoter     0.375000
Passive      0.149444
Name: NPS, dtype: float64


In [9]:
# Salvar os dados de treino e teste em arquivos CSV
nome_arquivo_treino = 'dados_treino_QUARTETO_'+nome+'.csv'
nome_arquivo_teste = 'dados_teste_QUARTETO_'+nome+'.csv'

dados_treino.to_csv(nome_arquivo_treino,index = False, header=True)
dados_teste.to_csv(nome_arquivo_teste, index=False)#, engine='xlsxwriter')

print(f"Dados de treino e teste foram salvos em '{nome_arquivo_treino}' e '{nome_arquivo_teste}'.")

Dados de treino e teste foram salvos em 'dados_treino_QUARTETO_Victor de Almeida Cunha.csv' e 'dados_teste_QUARTETO_Victor de Almeida Cunha.csv'.


In [10]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TREINO
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_treino_QUARTETO_'+nome+'.csv')

Unnamed: 0,Review,NPS
0,Denver to Orlando. I made a mistake when prep...,Promoter
1,On January 8 2015 I had the displeasure of bei...,Detractor
2,Noumea to Napier via Auckland. Paid an extra...,Detractor
3,San Francisco to Phuket via Guangzhou on 22n...,Detractor
4,I checked our family of 6 in online before we ...,Detractor
...,...,...
4195,Munich to Athens. We travelled in economy cla...,Passive
4196,TLV to JNB via Addis Ababa. Both legs on time....,Promoter
4197,We flew from Venice to Brussels this week on S...,Detractor
4198,"Flight departed half hour late, arrived 15 m...",Promoter


In [11]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TESTE
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_teste_QUARTETO_'+nome+'.csv')

Unnamed: 0,Review,NPS
0,"In general good service, but we don't have muc...",Passive
1,Delta will always be my first choice across th...,Promoter
2,I can confirm what has been reported earlier a...,Detractor
3,As a long time Continental customer and I real...,Passive
4,I flew Air India from Newark to Mumbai and b...,Passive
...,...,...
1795,My company and I mostly travel on SAS in the N...,Detractor
1796,Vienna to Chicago via Zurixh with Swiss. VIE...,Promoter
1797,Have flown Aegean several times to Chania via ...,Promoter
1798,â Unverified | Luton to Barcelona return. Ex...,Promoter
