### Projeto 2 Ciência dos dados

Nome: Bruno Boldrim Saboya

Nome: Lucas Kang

Nome: Murilo Prado Weyne

### Primeiros passos:

Estaremos trabalhando com apenas um arquivo .csv que contém todos as informações do nosso DataSet. Para então trabalharmos em cima desse arquivo.

In [68]:
import pandas as pd
import numpy as np
import re
# Read the data from CSV files
dados = pd.read_csv('tripadvisor_hotel_reviews.csv', error_bad_lines=False)


### Segundo passo:

Transformamos o nosso DataSet em uma lista contínua para trabalharmos melhor com ele.

In [69]:
dados_to = dados['Review'].tolist()

### CleanUp

Realizamos uma função CleanUp no nosso arquivo para remover todos os itens desnecessários, como pontuação, acentos, entre outros. Pois assim, o Naive Bayes terá uma acurácia maior por nao ter um monte de "ruidos" no meio do arquivo.

In [70]:
def cleanup(text):
    #import string
    punctuation = '[!-.:?;"@\n_/]' # Note que os sinais [] são delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, '', text)
    return text_subbed

dados_cn = []
for i in dados_to:
    i = cleanup(i)
    dados_cn.append(i)

### Criação dos paremetros:

Criamos aqui os parametros que serão utilizados no nosso classificador. Os valores que escolhemos foi baseado em um cálculo e identificamos quais serão os melhores para o nosso classificador em específico.

Utilizaremos um Pipeline para guiar o nosso arquivo e ser transformado em um vetor com o CountVectorizer, e em seguida ser transformado em um Tfid.

In [71]:
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.model_selection import train_test_split, GridSearchCV
text_clf = Pipeline([('vect', CountVectorizer()),
                     ('tfidf', TfidfTransformer()),
                     ('clf', MultinomialNB())])
tuned_parameters = {
    'vect__ngram_range': [(1, 1), (1, 2), (2, 2)],
    'tfidf__use_idf': (True, False),
    'tfidf__norm': ('l1', 'l2'),
    'clf__alpha': [1, 1e-1, 1e-2]}

### Espaço de testes:

Criamos uma base de teste e de treinamento para o nosso classificador com a função "train_test_split". Utilizaremos 30% da nossa base inteira para realizar os testes e 70% para treinar o nosso classificador.

In [72]:
x_train, x_test, y_train, y_test = train_test_split(dados_cn, dados['Rating'], test_size=0.3, random_state=42)

### Naive Bayes Multinomial:

Utilizaremos os nosso parametros previamente definidos na variável "tunned_parameters" junto com o nosso pipeline que vetoriza e classifica a lista com a variável "text_clf".

A função "clf.fit" realiza os nossos treinos e aprimora a precisão e o "print imprime em formato de tabela todas as informações que o teste junto do treinamento obteve. 

O "cv" define a quantidade de vezes que será realizado os testes e os treinamentos 

In [73]:
from sklearn.metrics import classification_report
clf = GridSearchCV(text_clf, tuned_parameters, cv=2)
clf.fit(x_train, y_train)

print(classification_report(y_test, clf.predict(x_test), digits=4))

              precision    recall  f1-score   support

           1     0.7545    0.3843    0.5092       432
           2     0.3647    0.2447    0.2929       523
           3     0.3012    0.0388    0.0687       645
           4     0.4370    0.3969    0.4160      1887
           5     0.6243    0.8869    0.7328      2661

    accuracy                         0.5576      6148
   macro avg     0.4964    0.3903    0.4039      6148
weighted avg     0.5200    0.5576    0.5128      6148



### Melhorar a precisão:

Percebemos que o nosso classificador não possui uma eficássia que desejávamos, para isso, melhoramos o nosso cleanup. Utilizando um stopwords, retirando mais caracteres desnecessários, etc.

In [74]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

def cleanup2(text):
    #import string
    punctuation = '[!-.:?;"@\n_/]' # Note que os sinais [] são delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, '', text)
    text_final = re.sub(r'\d+', '', text_subbed)
    stop_words = set(stopwords.words('english'))
    tokens = word_tokenize(text_final)
    text_final = [i for i in tokens if not i in stop_words]
    text_final = ' '.join(text_final)
    return text_final

dados_cn2 = []
for i in dados_to:
    i = cleanup2(i)
    dados_cn2.append(i)

### Base de testes:

Criamos novamente um campo de testes e treinamento com a nova lista limpa com os mesmos parâmetros que o campo anterior

In [80]:
x_train2, x_test2, y_train2, y_test2 = train_test_split(dados_cn2, dados['Rating'], test_size=0.3, random_state=42)

### Naive Bayes Multinomial:

Realizamos novamente o cálculo das probabilidades com os mesmos parametros e vetorização da lista

In [86]:
from sklearn.metrics import classification_report
clf = GridSearchCV(text_clf, tuned_parameters, cv=2)
clf.fit(x_train2, y_train2)

print(classification_report(y_test2, clf.predict(x_test2), digits=4))

              precision    recall  f1-score   support

           1     0.7706    0.4120    0.5370       432
           2     0.3743    0.2447    0.2960       523
           3     0.3133    0.0403    0.0714       645
           4     0.4403    0.3985    0.4184      1887
           5     0.6239    0.8873    0.7327      2661

    accuracy                         0.5603      6148
   macro avg     0.5045    0.3966    0.4111      6148
weighted avg     0.5240    0.5603    0.5159      6148



### Melhorar a precisão com Lemming:

Decidimos então por fim, para tentar melhorar ainda mais a precisão do nosso classificador utilizar Lemming, que consiste basicamente em trocar todas as palavras cuja grafia sejam parecidas, por apenas uma.

Exemplo: change/changing/changes/changed/changer serão todas substituídas por change

In [87]:
import nltk
from nltk.stem.wordnet import WordNetLemmatizer

dados_cn3 = []
for k in dados_cn2:
    k = k.split()
    dados_cn3.append(k)
    
dados_cn4 = []
for z in dados_cn3:
    words = z
    lemmed_words = [WordNetLemmatizer().lemmatize(w) for w in words]
    dados_cn4.append(lemmed_words)

### Consertando a lista:

Realizamos um "join" para arrumar a nossa lista para poder ser utilizada no classificador

In [88]:
dados_cn5 = []
for j in dados_cn4:
    frase_junta = j
    for g in frase_junta:
        junta_frases = " ".join(frase_junta)
    dados_cn5.append(junta_frases)

### Base de testes:

Criamos novamente um campo de testes e treinamento com a nova lista limpa com os mesmos parâmetros que o campo anterior

In [89]:
x_train3, x_test3, y_train3, y_test3 = train_test_split(dados_cn5, dados['Rating'], test_size=0.3, random_state=42)

### Naive Bayes Multinomial:

Realizamos novamente o cálculo das probabilidades com os mesmos parametros e vetorização da lista

In [90]:
from sklearn.metrics import classification_report
clf = GridSearchCV(text_clf, tuned_parameters, cv=2)
clf.fit(x_train3, y_train3)

print(classification_report(y_test3, clf.predict(x_test3), digits=4))

              precision    recall  f1-score   support

           1     0.7928    0.4074    0.5382       432
           2     0.3791    0.2428    0.2960       523
           3     0.3165    0.0388    0.0691       645
           4     0.4324    0.3863    0.4081      1887
           5     0.6202    0.8918    0.7316      2661

    accuracy                         0.5579      6148
   macro avg     0.5082    0.3934    0.4086      6148
weighted avg     0.5223    0.5579    0.5122      6148



## Conclusão

Utilizamos então, o classificador Multinomial Naive Bayes para classificar os *Reviews* de hotel do nosso *dataset* a fim de identificar padrões e palavras chaves nos *reviews* novos e classificá-las em cinco categorias, péssimo, ruim, neutro, bom e ótimo.

Para classificar as palavras, tivemos que limpar o nosso dataset, ou seja, retirar pontuações e subsstituir letras maiúsculas por minúsculas. No teste inicial, tivemos um bom resultado, mas como algumas categorias (categoria 2, 3 e 4) não obtiveram um resultado satisfatório, resolvemos melhorar o classificador.


Para melhorar o classificador, criamos uma nova função que retirava palavras em inglês que não tinham relevância para o nosso cálculo. Porém, isto não trouxe os resultados que tínhamos como alvo.


Ainda não satisfeitos com os novos resultados das precisões dos *ratings* 2 e 3 que continuavam abaixo de 40%, seguimos para uma outra melhoria: o processo de Lemmatization, que troca as palavras parecidas por apenas uma, a raiz dela. Ao calcular a probabilidade com este novo melhoramento, não obtivemos resultados satisfatórios, pois os dois *ratings*, 2 e 3, ainda estavam abaixo de 40%.

### Referências utilizadas em nosso projeto:

Dataset utilizado:
https://www.kaggle.com/andrewmvd/trip-advisor-hotel-reviews

Diferença entre *stemming* e *lemmatization*:
https://medium.com/swlh/introduction-to-stemming-vs-lemmatization-nlp-8c69eb43ecfe

Descrição do classificador Naive Bayes e dos parâmetros utilizados por ele:
https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html

Descrição mais abrangente do Naive Bayes e um exemplo sendo feito em python:
https://towardsdatascience.com/sentiment-analysis-of-tweets-using-multinomial-naive-bayes-1009ed24276b