## [**About Dataset - Kaggle**](https://www.kaggle.com/datasets/malharkhatu/airline-passenger-reviews/datat)

The dataset comprises a comprehensive collection of passenger reviews, accompanied by corresponding review categories, offering a holistic view of airline travel experiences. These reviews provide valuable insights into customer satisfaction, service quality, and sentiment analysis, enabling in-depth analysis and informed decision-making within the airline industry. With the combination of review content and categories, this dataset serves as a valuable resource for understanding and enhancing the passenger journey.

### Mais sobre esses dados

Na metodologia do Net Promoter Score (NPS), que é frequentemente aplicada em pesquisas de satisfação do cliente, "detractor", "promoter" e "other" representam categorias específicas atribuídas às respostas dos participantes. Essas categorias ajudam a avaliar o nível geral de satisfação do cliente. 

Vamos explicar o significado de cada termo:

 * **Detractor (Detrator):**<br>
Significado: Refere-se aos clientes que expressaram insatisfação ou descontentamento significativo com o serviço ou produto.<br>
Classificação: Geralmente, os clientes que atribuem uma pontuação de 0 a 6 (em uma escala de 0 a 10) são considerados detratores.
<br>

* **Promoter (Promotor):**<br>
Significado: Representa os clientes extremamente satisfeitos e leais ao serviço ou produto.<br>
Classificação: Os clientes que atribuem uma pontuação de 9 ou 10 são considerados promotores. Esses clientes são vistos como defensores entusiasmados da marca.
<br>

* **Other (Outro):**<br>
Significado: Engloba as respostas que não se enquadram nas categorias específicas de detratores ou promotores.<br>
Classificação: Geralmente inclui as pontuações intermediárias, como 7 e 8 na escala de 0 a 10.



In [None]:
import pandas as pd
import random
import os
from sklearn.model_selection import train_test_split

In [None]:
# Transforma string em inteiro
def nome_para_inteiro(nome):
    nome = nome.upper()  # Converter para maiúsculas para tratar maiúsculas e minúsculas da mesma forma
    valor_inteiro = 0
    
    for letra in nome:
        # Verificar se a letra está no alfabeto (A a Z)
        if 'A' <= letra <= 'Z':
            valor_inteiro += ord(letra) - ord('A') + 1  # Valor de 'A' é 1, 'B' é 2, ..., 'Z' é 26
    
    return valor_inteiro

In [None]:
os.listdir()

In [None]:
# Ler o arquivo de dados 
dados = pd.read_csv('Airline Passenger Reviews.csv', encoding='utf-8-sig')
nomes_colunas = ['Review','NPS']
dados.columns = nomes_colunas
dados

In [None]:
nome = input("Digite seu nome: ")
valor_inteiro = nome_para_inteiro(nome)

In [None]:
# Embaralhar as linhas do conjunto de dados
dados_embaralhados = dados.sample(frac=6000/dados.shape[0], random_state=valor_inteiro)
dados_embaralhados.columns

In [None]:
# Separar os dados de treino e teste 
X = dados_embaralhados.Review
y = dados_embaralhados.NPS
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=valor_inteiro)

dados_treino = pd.concat([X_train, y_train],axis=1)
dados_treino.columns = nomes_colunas
dados_teste = pd.concat([X_test, y_test],axis=1)
dados_teste.columns = nomes_colunas
   

In [None]:
print(dados_treino.NPS.value_counts(True))
print(dados_teste.NPS.value_counts(True))

In [None]:
# Salvar os dados de treino e teste em arquivos CSV
nome_arquivo_treino = 'dados_treino_QUARTETO_'+nome+'.csv'
nome_arquivo_teste = 'dados_teste_QUARTETO_'+nome+'.csv'

dados_treino.to_csv(nome_arquivo_treino,index = False, header=True)
dados_teste.to_csv(nome_arquivo_teste, index=False)#, engine='xlsxwriter')

print(f"Dados de treino e teste foram salvos em '{nome_arquivo_treino}' e '{nome_arquivo_teste}'.")

In [None]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TREINO
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_treino_QUARTETO_'+nome+'.csv')

In [None]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TESTE
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_teste_QUARTETO_'+nome+'.csv')