# Natural Language Processing

Problemas de processamento natural de linguagem (ou text mining) são extremamente comuns e vivem em constante melhoria. É óbvio que o computador não é capaz de ler uma frase como nós, por isso é necessário transformar o corpo do texto em algo numérico (modelo bag of words vetorizado). Para isso, usam-se algumas técnicas que serão descritas neste notebook.

In [None]:
# Importando as bibliotecas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

In [None]:
# Importando o dataset - quoting 3 = ignorando aspas duplas
dataset = pd.read_csv('Restaurant_Reviews.tsv', delimiter = '\t', quoting = 3)

In [None]:
dataset.head()

In [None]:
Existem alguns métodos de vetorização, dentre eles:
- CountVectorizer
- Tf-IDf
- Hashing Vectorizer

In [None]:
# Limpando o texto
import re
import nltk
nltk.download('stopwords') # stopwords são preposições, 'this', 'that',...
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer #loving = love
corpus = [] # inicializando como uma lista varia
for i in range(0, len(dataset)):
    review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i]) #substituindo tudo que não for letras por espaços em branco
    review = review.lower() # transformando em letras minúsculas
    review = review.split() # criando um vetor de palavras
    ps = PorterStemmer() # inicializando a classe stem
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))] # iterando pelo vetor de palavras e excluindo as stopwords
    review = ' '.join(review) # juntando novamente em string
    corpus.append(review) # append no corpus

In [None]:
corpus

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, HashingVectorizer

vectorize_method = 'tfidf'

if (vectorize_method == "tfidf"):
    tfidf = TfidfVectorizer(norm='l2', min_df=0, use_idf=True, smooth_idf=False,sublinear_tf=True)
    X = tfidf.fit_transform(corpus).toarray()
elif (vectorize_method == "cv"):
    cv = CountVectorizer()
    X = cv.fit_transform(corpus).toarray()
elif (vectorize_method == "hv"):
    hv = HashingVectorizer(decode_error='ignore', n_features=2 ** 14) 
    X = hv.fit_transform(corpus).toarray()

In [None]:
X

In [None]:
# Dividindo em conjunto de treino e teste
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)

In [None]:
# Criando o modelo de classificação
from sklearn.naive_bayes import BernoulliNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

In [None]:
# Prevendo no conjunto de testes
y_pred = classifier.predict(X_test)
y_pred

In [None]:
# Criando a matriz de confusão
from sklearn.metrics import confusion_matrix, accuracy_score
cm = confusion_matrix(y_test, y_pred)
acc = accuracy_score(y_test, y_pred)

import seaborn as sns
sns.heatmap(cm, annot = True)
plt.show()
print('Acurácia: {}'.format(acc))