# IMPORTANDO BIBLIOTECAS NECESSÁRIAS

In [1]:
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
from nltk.corpus import wordnet as wn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import model_selection, naive_bayes, svm
from sklearn.metrics import accuracy_score


# DEFININDO SEMENTE ALEATÓRIA

In [2]:
# Isso é usado para reproduzir o mesmo resultado todas as vezes se o script for mantido consistente, caso contrário, 
# cada execução produzirá resultados diferentes

In [3]:
np.random.seed(500)

# ADICIONANDO O DATASET

In [16]:
Corpus = pd.read_csv("corpus.csv",encoding='latin-1')

# PRÉ-PROCESSAMENTO DE DADOS

In [17]:
# 1° Passo: Remover linhas brancos, caso houver

In [18]:
Corpus['text'].dropna(inplace=True)

In [19]:
# 2° Passo: Mudar todo o texto para minúsculas

In [20]:
Corpus['text'] = [entry.lower() for entry in Corpus['text']]

In [21]:
# 3° Passo: Tokenização: Este é um processo de quebrar um fluxo de texto em palavras, frases, símbolos ou outros elementos 
# significativos chamados tokens

In [22]:
Corpus['text'] = [word_tokenize(entry) for entry in Corpus['text']]

In [23]:
# 4° Passo: Remover Stop words, Non-Numeric e perfom Word Stemming/Lemmenting.

In [24]:
# WordNetLemmatizer requires Pos tags to understand if the word is noun or verb or adjective etc. By default it is set to Noun
tag_map = defaultdict(lambda : wn.NOUN)
tag_map['J'] = wn.ADJ
tag_map['V'] = wn.VERB
tag_map['R'] = wn.ADV

# PREPARANDO OS DADOS PARA TESTE E TREINAMENTO

In [25]:
# O Corpus será dividido em dois conjuntos de dados, Treinamento e Teste. O conjunto de dados de treinamento será usado 
# para ajustar o modelo e as previsões serão realizadas no conjunto de dados de teste. Isso pode ser feito por meio de 
# train_test_split da biblioteca sklearn. Os dados de treinamento terão 70% do corpus e os dados de teste terão os 30% restantes,
# pois definimos o parâmetro test_size = 0.3. 

In [26]:
Train_X, Test_X, Train_Y, Test_Y = model_selection.train_test_split(Corpus['text_final'],Corpus['label'],test_size=0.3)

KeyError: 'text_final'

# CODIFICAÇÃO

In [None]:
# O rótulo codifica a variável de destino - Isso é feito para transformar dados categóricos do tipo de string no conjunto de 
# dados em valores numéricos que o modelo pode entender

In [None]:
Encoder = LabelEncoder()
Train_Y = Encoder.fit_transform(Train_Y)
Test_Y = Encoder.fit_transform(Test_Y)

# VETORIZAÇÃO DE PALAVRAS

In [None]:
# É um processo geral de transformar uma coleção de documentos de texto em vetores de recursos numéricos

In [None]:
Tfidf_vect = TfidfVectorizer(max_features=5000)
Tfidf_vect.fit(Corpus['text_final'])
Train_X_Tfidf = Tfidf_vect.transform(Train_X)
Test_X_Tfidf = Tfidf_vect.transform(Test_X)

In [None]:
# TF-IDF são pontuações de frequência de palavras que tentam destacar palavras que são mais interessantes, por exemplo, 
# frequente em um documento, mas não entre documentos.

In [None]:
# Visualização do vocabulário do corups

In [None]:
print(Tfidf_vect.vocabulary_)

In [None]:
print(Train_X_Tfidf)

# Usando OS ALGORITMOS DE ML PARA PREVER OS RESULTADOS

In [None]:
# Primeiro, vamos tentar o algoritmo do classificador Naive Bayes

In [None]:
# fit the training dataset on the NB classifier
Naive = naive_bayes.MultinomialNB()
Naive.fit(Train_X_Tfidf,Train_Y)
# predict the labels on validation dataset
predictions_NB = Naive.predict(Test_X_Tfidf)
# Use accuracy_score function to get the accuracy
print("Naive Bayes Accuracy Score -> ",accuracy_score(predictions_NB, Test_Y)*100)

In [None]:
# A seguir está o SVM - Support Vector Machine

In [15]:
# Classifier - Algorithm - SVM
# fit the training dataset on the classifier
SVM = svm.SVC(C=1.0, kernel='linear', degree=3, gamma='auto')
SVM.fit(Train_X_Tfidf,Train_Y)
# predict the labels on validation dataset
predictions_SVM = SVM.predict(Test_X_Tfidf)
# Use accuracy_score function to get the accuracy
print("SVM Accuracy Score -> ",accuracy_score(predictions_SVM, Test_Y)*100)

NameError: name 'Train_X_Tfidf' is not defined