# Construção de um Classificador Binário baseado no algoritmo KNN

## Dependências necessárias

In [1]:
# In[50]:
from __future__ import absolute_import, division, print_function
import pandas as pd
import nltk  
import numpy as np  
nltk.download('punkt')
nltk.download('stopwords')
from nltk.stem.snowball import SnowballStemmer
import heapq
import re  
import io
import math
import csv
# Helper libraries
import matplotlib.pyplot as plt
import seaborn as sns
import functools
import operator
import PIL
import tqdm
import tqdm.auto
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier  
from sklearn.preprocessing import StandardScaler  
from IPython.display import display
import os

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## Carregando variáveis de ambiente

In [2]:
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

# ENV_DATASET_FILENAME = os.environ['INPUT_DATASET_FILENAME']
# ENV_ORDER_DEGREE = os.environ['ORDER_DEGREE']
# ENV_TRAIN_TEST_PROPORTION = os.environ['TRAIN_TEST_PROPORTION']

ENV_DATASET_FILENAME = "locations_to_be_labeled.csv"
ENV_ORDER_DEGREE = 2845
ENV_TRAIN_TEST_PROPORTION = 0.8

nameOfTheFile = ENV_DATASET_FILENAME
print("ENV_DATASET_FILENAME: Nome do arquivo que contém o dataset: " + nameOfTheFile)
print("ENV_ORDER_DEGREE: As " + str(ENV_ORDER_DEGREE) + " palavras mais frequentes da bag of words serão consideradas na construção do modelo.")
print("ENV_TRAIN_TEST_PROPORTION: proporção da divisão do dataset em treino e teste: " + str(ENV_TRAIN_TEST_PROPORTION*100) + "%")

ENV_DATASET_FILENAME: Nome do arquivo que contém o dataset: locations_to_be_labeled.csv
ORDER_DEGREE: As 2845 palavras mais frequentes da bag of words serão consideradas na construção do modelo.
ENV_TRAIN_TEST_PROPORTION: proporção da divisão do dataset em treino e teste: 80.0%


## Preparação do conjunto de dados

### Carregando o Dataset

In [3]:
# Lendo as features
questions = pd.read_csv("../" + nameOfTheFile, header=0, usecols=[0])
listOfQuestions = []
for row in questions.values:
    listOfQuestions.append(list(row)[0])

print("Quantidade de perguntas: " + str(len(listOfQuestions)) + "\n")
print("Tweet:\n")
for pergunta in listOfQuestions[0:5]:
    print("- " + pergunta)
print("...")
print("\n")

# Lendo as labels
answers = pd.read_csv("../" + nameOfTheFile, header=0, usecols=[1])
listOfAnswers = []
for answer in answers.values:
    listOfAnswers.append(list(answer)[0])
print("Respostas:\n")
for label in listOfAnswers[0:5]:
    print("- " + str(label))
print("...")

Quantidade de perguntas: 1500

Tweet:

- com o cara faixapreta que venceu a dengue ducatambasco haha foi muito bom te rever brother
- dengue me pegou dnv
- prefeitura de santa cruz divulga plano de ação de enfrentamento a dengue chicungunya e zika
- seguimos na luta contra a dengue chikungunya e o zika vírus com essas três doenças não dá para
- g1 pr segunda morte por dengue em paranaguá é confirmada pela saúde  g1 
...


Respostas:

- 1
- 1
- 0
- 0
- 1
...


### Transformando as labels

Essa transformação vai trocar as labels de número para texto, com o objetivo de facilitar a compreensão e leitura de resultados.
0 - generico
1 - doente

In [4]:
label_palavras = []
for item in listOfAnswers:
    if item==0:
        label_palavras.append("generico")
    else:
        label_palavras.append("doente")
print(label_palavras[0:5])
listOfAnswers = label_palavras

['doente', 'doente', 'generico', 'generico', 'doente']


### Remoção de espaçamentos extras, caracteres especiais e pontuações

In [5]:
for i in range(len(listOfQuestions)):
    listOfQuestions [i] = listOfQuestions [i].lower()
    listOfQuestions [i] = re.sub(r'\W',' ',listOfQuestions [i])
    listOfQuestions [i] = re.sub(r'\s+',' ',listOfQuestions [i])

for question in listOfQuestions[0:5]:
    print("- " + question)
print("...")

- com o cara faixapreta que venceu a dengue ducatambasco haha foi muito bom te rever brother
- dengue me pegou dnv
- prefeitura de santa cruz divulga plano de ação de enfrentamento a dengue chicungunya e zika
- seguimos na luta contra a dengue chikungunya e o zika vírus com essas três doenças não dá para
- g1 pr segunda morte por dengue em paranaguá é confirmada pela saúde g1 
...


### Tokenização dos tweets

In [6]:
def tokenize_sentences(listOfSentences):
    listOfSentencesInTokens = []
    for i in range(len(listOfSentences)):
        tokens = nltk.word_tokenize(listOfSentences[i])
        listOfSentencesInTokens.append(tokens)
    return listOfSentencesInTokens


listOfTokenizedQuestions = tokenize_sentences(listOfQuestions)
for tokenizedItem in listOfTokenizedQuestions[0:5]:
      print("- " + str(tokenizedItem))
print("...")

- ['com', 'o', 'cara', 'faixapreta', 'que', 'venceu', 'a', 'dengue', 'ducatambasco', 'haha', 'foi', 'muito', 'bom', 'te', 'rever', 'brother']
- ['dengue', 'me', 'pegou', 'dnv']
- ['prefeitura', 'de', 'santa', 'cruz', 'divulga', 'plano', 'de', 'ação', 'de', 'enfrentamento', 'a', 'dengue', 'chicungunya', 'e', 'zika']
- ['seguimos', 'na', 'luta', 'contra', 'a', 'dengue', 'chikungunya', 'e', 'o', 'zika', 'vírus', 'com', 'essas', 'três', 'doenças', 'não', 'dá', 'para']
- ['g1', 'pr', 'segunda', 'morte', 'por', 'dengue', 'em', 'paranaguá', 'é', 'confirmada', 'pela', 'saúde', 'g1']
...


### Remoção das stop-words

In [7]:
stopwords = nltk.corpus.stopwords.words('portuguese')
stopwords[:10]
print("Tamanho das stop-words: " + str(len(stopwords)))

def remove_stop_words(listOfTokenizedSentences):
    sentencesWithNoStopWords = []
    for i in range(len(listOfTokenizedSentences)):
        sentenceWithNoStopWord = []
        for j in range(len(listOfTokenizedSentences[i])):
            if(listOfTokenizedSentences[i][j] not in stopwords):
                sentenceWithNoStopWord.append(listOfTokenizedSentences[i][j])
        sentencesWithNoStopWords.append(sentenceWithNoStopWord)
    return sentencesWithNoStopWords

listOfQuestionsWithNoStopWords = remove_stop_words(listOfTokenizedQuestions)
print("Tamanho: " + str(len(listOfQuestionsWithNoStopWords)))

for itemWithNoStopWord in listOfQuestionsWithNoStopWords[0:5]:
    print("- " + str(itemWithNoStopWord))
print("...")

Tamanho das stop-words: 204
Tamanho: 1500
- ['cara', 'faixapreta', 'venceu', 'dengue', 'ducatambasco', 'haha', 'bom', 'rever', 'brother']
- ['dengue', 'pegou', 'dnv']
- ['prefeitura', 'santa', 'cruz', 'divulga', 'plano', 'ação', 'enfrentamento', 'dengue', 'chicungunya', 'zika']
- ['seguimos', 'luta', 'contra', 'dengue', 'chikungunya', 'zika', 'vírus', 'três', 'doenças', 'dá']
- ['g1', 'pr', 'segunda', 'morte', 'dengue', 'paranaguá', 'confirmada', 'saúde', 'g1']
...


### Lematização das tokens

In [8]:
stemmer = SnowballStemmer("portuguese")
print()

def lematizar_tokens(listOfTokenizedSentences):
    stemmed_sentences = []
    for tokenizedSentence in listOfTokenizedSentences:
        stemmed_sentence = []
        for token in tokenizedSentence:
            stemmed_sentence.append(stemmer.stem(token))
        stemmed_sentences.append(stemmed_sentence)
    return stemmed_sentences

def remove_redundancies(stemmed_sentences, labels):
    filtered_list = []
    filtered_labels = []
    for index in range(len(stemmed_sentences)):
        isRedundant = False
        for filtered_sentence in filtered_list:
            if(filtered_sentence == stemmed_sentences[index]):
                isRedundant = True
        if(not isRedundant):
            filtered_list.append(stemmed_sentences[index])
            filtered_labels.append(labels[index])
    return {"features": filtered_list, "labels": filtered_labels}

sentencas_lematizadas = lematizar_tokens(listOfQuestionsWithNoStopWords)
filtered_dataset = remove_redundancies(sentencas_lematizadas, listOfAnswers)

sentencas_lematizadas_e_filtradas = filtered_dataset["features"]
labels_lematizadas_e_filtradas = filtered_dataset["labels"]

# print("----------------------------------------------")
# print("Sentenças lematizadas: ")
# print(sentencas_lematizadas)
# print("Tamanho: " + str(len(sentencas_lematizadas)))
# print("\n")

print("Sentenças lematizadas e filtradas: ")
print("Tamanho: " + str(len(sentencas_lematizadas_e_filtradas)))
for stemmedItem in sentencas_lematizadas_e_filtradas[0:5]:
    print("- " + str(stemmedItem))
print("...")
print("\n")

print("Labels lematizadas e filtradas: ")
print("Tamanho: " + str(len(labels_lematizadas_e_filtradas)))
for stemmedLabel in labels_lematizadas_e_filtradas[0:5]:
    print(stemmedLabel)
print("...")
print("\n")


Sentenças lematizadas e filtradas: 
Tamanho: 1442
- ['car', 'faixapret', 'venc', 'deng', 'ducatambasc', 'hah', 'bom', 'rev', 'broth']
- ['deng', 'peg', 'dnv']
- ['prefeitur', 'sant', 'cruz', 'divulg', 'plan', 'açã', 'enfrent', 'deng', 'chicunguny', 'zik']
- ['segu', 'lut', 'contr', 'deng', 'chikunguny', 'zik', 'vírus', 'três', 'doenc', 'dá']
- ['g1', 'pr', 'segund', 'mort', 'deng', 'paranagu', 'confirm', 'saúd', 'g1']
...


Labels lematizadas e filtradas: 
Tamanho: 1442
doente
doente
generico
generico
doente
...




### Construção da bag-of-words

In [9]:
def create_bag_of_words(listOfTokenizedSentences):
    wordfreq = {}
    for i in range(len(listOfTokenizedSentences)):  #Para cada sentença tokenizada
        for token in listOfTokenizedSentences[i]:       # Para cada token em uma sentença tokenizada
            if token not in wordfreq.keys():
                wordfreq[token] = 1
            else:
                wordfreq[token] += 1
    return wordfreq

wordfreq = create_bag_of_words(sentencas_lematizadas_e_filtradas)
# print(wordfreq)
bag_of_words_size = len(wordfreq.keys())
print("Tamanho da bag of words: " + str(bag_of_words_size))


Tamanho da bag of words: 3246


### Filtragem da bag of words

O objetivo aqui é remover do modelo as palavras que aparecem pouco no dataset.
A variável "abordagem" pode receber apenas dois valores, são eles: "n_mais_frequentes" ou "frequencia_igual_a_n"

In [33]:
N_MAIS_FREQUENTES = "n_mais_frequentes"
FREQUENCIA_IGUAL_A_N = "frequencia_igual_a_n"

# abordagem = N_MAIS_FREQUENTES
abordagem = FREQUENCIA_IGUAL_A_N

#---------------------------------------------------------------------
order_degree = ENV_ORDER_DEGREE

most_freq_dictionary = []
if abordagem == N_MAIS_FREQUENTES:
    most_freq_dictionary = heapq.nlargest(order_degree , wordfreq, key=wordfreq.get)    
elif abordagem == FREQUENCIA_IGUAL_A_N:
    for key in list(wordfreq.keys()):
        if wordfreq[key]>1:
            most_freq_dictionary.append(key)
else:
    raise RuntimeError("variável 'abordagem' com valor inválido.")


### Cálculo do parâmetro IDF

In [34]:
def get_IDF_wordDictionary(sentencas_lematizadas_e_filtradas, most_freq):
    word_idf_values = {}
    for token in most_freq:
        sentences_containing_word = 0
        for tokenized_sentence in sentencas_lematizadas_e_filtradas:
            if token in tokenized_sentence:
                sentences_containing_word += 1
        word_idf_values[token] = np.log(len(sentencas_lematizadas_e_filtradas)/(1 + sentences_containing_word))
    return word_idf_values

print("Palavras mais frequentes e seus respectivos IDFs: ")
idf_wordDictionary = get_IDF_wordDictionary(sentencas_lematizadas_e_filtradas, most_freq_dictionary)
for key in list(idf_wordDictionary.keys())[0:5]:
    print(key + ": " + str(idf_wordDictionary[key]))
print("...")
print("\n")
print("Quantidade de palavras consideradas no modelo: " + str(len(most_freq_dictionary)))

Palavras mais frequentes e seus respectivos IDFs: 
car: 4.4405729737886785
venc: 6.175174029176785
deng: 0.024571260730505327
hah: 5.664348405410794
bom: 4.4405729737886785
...


Quantidade de palavras consideradas no modelo: 1151


### Cálculo do parâmetro TF

In [35]:
def get_TF_wordDictionary(sentencas_lematizadas_e_filtradas,most_freq):
    word_tf_values = {}
    for token in most_freq:
        sent_tf_vector = []
        for tokenized_sentence in sentencas_lematizadas_e_filtradas:
            doc_freq = 0
            for word in tokenized_sentence:
                if token == word:
                    doc_freq += 1
            word_tf = doc_freq/len(tokenized_sentence)
            sent_tf_vector.append(word_tf)
        word_tf_values[token] = sent_tf_vector
    return word_tf_values

tf_wordDictionary = get_TF_wordDictionary(sentencas_lematizadas_e_filtradas, most_freq_dictionary)
# print("Dicionário com os valores TF de cada palavra do corpus em cada sentença do dataset")
# for key in list(tf_wordDictionary.keys())[0:5]:
#     print(key + ": " + str(tf_wordDictionary[key]))
# print("...")

# print("Key / Length")
# for key in tf_wordDictionary:
#     print(key + " / " + str(len(tf_wordDictionary)))

### Construção do modelo TF-IDF

In [36]:
def  get_TF_IDF_matrix(word_idf_values, word_tf_values):
    tfidf_values = []
    for token in word_tf_values.keys():
        tfidf_sentences = []
        for tf_sentence in word_tf_values[token]:
            tf_idf_score = tf_sentence * word_idf_values[token]
            tfidf_sentences.append(tf_idf_score)
        tfidf_values.append(tfidf_sentences)
    tf_idf_model = np.asarray(tfidf_values)
    tf_idf_model = np.transpose(tf_idf_model)
    return tf_idf_model

tf_model = get_TF_IDF_matrix(idf_wordDictionary, tf_wordDictionary)
# print(tf_model)
print("Matriz com os vetores de palavras baseados no modelo TF-IDF")
print(tf_model.shape)
# print(tf_model[0:2])

Matriz com os vetores de palavras baseados no modelo TF-IDF
(1442, 1151)


### Divisão do dataset nos conjuntos de treino e teste

In [None]:
treino_teste_proportion = ENV_TRAIN_TEST_PROPORTION

def count_classes(labels):
    classes = []
    for index in range(len(labels)):
        if(labels[index] not in classes):    
            classes.append(labels[index])
    return len(classes)

def segment_classes(features, labels):
    dict = {}
    for index in range(len(labels)):
        if(labels[index] in dict):
            dict[labels[index]].append(features[index])
        else:
            dict[labels[index]] = [features[index]]
    return dict

def split_dataset(features, labels, train_proportion):
#     print("-----------------------------------------------")
#     print("Log: Function split_dataset:")
#     print("-----------------------------------------------")

    dict_classes = segment_classes(features, labels)
#     print("dict_classes:\n" + "number of keys: " + str(len(dict_classes.keys())))
#     for key in dict_classes:
#         print("   key: " + str(key) + "\n" + "   value: " +  str(len(dict_classes[key])) + " elements in array \n")

    train_features = []
    train_labels = []
    test_features = []
    test_labels = []

    for key_class in dict_classes:

        remove_from_class = math.ceil(len(dict_classes[key_class]) * train_proportion)
#         print("remove_from_class: " + str(key_class) + ", " + str(remove_from_class) + " elements go to train set")

        for index in range(len(dict_classes[key_class])):
            if(index <= remove_from_class -1):
                train_features.append(dict_classes[key_class][index])
                train_labels.append(key_class)
            else:
                test_features.append(dict_classes[key_class][index])
                test_labels.append(key_class)

#     print("\n")
#     print("train_features: " + str(len(train_features)))  
#     print("train_labels: " + str(len(train_labels)))
#     print("test_features: " + str(len(test_features)))
#     print("test_labels: " + str(len(test_labels)))        
#     print("-----------------------------------------------")
#     print("\n")
    return { "train":{"features": np.array(train_features), "labels": np.array(train_labels)}, "test": {"features": np.array(test_features), "labels": np.array(test_labels)}}

# sentence_vectors é uma matriz que contem as sentenças (sem stopwords, lematizadas e filtradas) vetorizadas. Dimensão atual: (81x57)
# listOfAnswers corresponde às labels (respostas) correspondentes à cada sentença(pergunta) em sentence_vectors. tamanho atual: (105)
# datasets = split_dataset(sentence_vectors, labels_lematizadas_e_filtradas, 0.7)
datasets = split_dataset(tf_model, labels_lematizadas_e_filtradas, treino_teste_proportion)

dataset_train = datasets["train"] # É um dicionário com o formato {"features: np.array(), "labels": np.array()}
dataset_test = datasets["test"] # É um dicionário com o formato {"features: np.array(), "labels": np.array()}

#datasets["test"] = np.array(datasets["test"])

print("Conjunto de treino:")
print("Tamanho: " + str(len(dataset_train["features"])))
# print(dataset_train["features"])
# for feat in dataset_train["features"]:
#   print(feat)
# for label in dataset_train["labels"]:
#   print(label)
print("\n")
print("Conjunto de teste:")
print("Tamanho: " + str(len(dataset_test["features"])))
# print(dataset_test["features"])
# print(dataset_test["labels"])