In [30]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly
import nltk, itertools, requests, zipfile, os
from gensim.models.word2vec import Text8Corpus
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec
from sklearn.manifold import TSNE
from itertools import product
from time import time 
from plotly.subplots import make_subplots
import plotly.graph_objects as go
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ritar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ritar\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Download e descompactação do corpus disponibilizado pelo Professor: [text8](http://mattmahoney.net/dc/text8.zip)

O download do link foi realizado pela biblioteca **requests**, para a descompactação do arquivo zip foi utilizada a biblioteca **zipfile**. Por fim o conteudo do arquivo é lido e armazenado em uma variável *corpus* como uma cadeia de caractéres.

In [2]:
def download_corpus(path, file_name, url):
    
    if not os.path.isfile(path + 'text8'):
        try:
            r = requests.get(url)
            open(path + file_name , 'wb').write(r.content)
            with zipfile.ZipFile(path + file_name, 'r') as zip_ref:
                zip_ref.extractall(path)
        except (requests.exceptions.ConnectionError, requests.exceptions.HTTPError, 
                requests.exceptions.Timeout, requests.exceptions.RequestException) as err:
            print ("Error Connecting:",err)  
            return None

def get_corpus(path, file_name):

    with open(path + 'text8', 'r') as file:
        data = file.read().replace('\n', '')
    
    return data

In [3]:
corpus = download_corpus('./data/', 'text8.zip', 'http://mattmahoney.net/dc/text8.zip')
corpus = get_corpus('./data/', 'text8.zip')
print(corpus[:200])

 anarchism originated as a term of abuse first used against early working class radicals including the diggers of the english revolution and the sans culottes of the french revolution whilst the term 


## Download de analogias disponibilizadas pelo Professor: [analogias](https://github.com/nicholas-leonard/word2vec/blob/master/questions-words.txt)
O download do link foi realizado pela biblioteca **requests**. 

In [4]:
def download_analogies(path, file_name, url):

    if not os.path.isfile(path + file_name):
        try:
            r = requests.get(url)
            open(path + file_name , 'wb').write(r.content)
        except (requests.exceptions.ConnectionError, requests.exceptions.HTTPError, 
                requests.exceptions.Timeout, requests.exceptions.RequestException) as err:
            print ("Error Connecting:",err)  
            return None

        
def get_analogies(path, file_name):
    
    data = []
    with open(path + file_name) as fp:
        lines = fp.readlines()
        for line in lines:
            data.append(line.strip().lower())
    
    return data

In [5]:
analogies = download_analogies('./data/', 'questions-words.txt', 'https://raw.githubusercontent.com/nicholas-leonard/word2vec/master/questions-words.txt')
analogies = get_analogies('./data/', 'questions-words.txt')
print(analogies[1:10])

['athens greece baghdad iraq', 'athens greece bangkok thailand', 'athens greece beijing china', 'athens greece berlin germany', 'athens greece bern switzerland', 'athens greece cairo egypt', 'athens greece canberra australia', 'athens greece hanoi vietnam', 'athens greece havana cuba']


## Pré-Processamento de Dados
Nesta etapa, todo o texto é transformado numa lista de palavras e colocado em caixa baixa. Além disso, pontuações, números, caractéres especiais e stopwords foram removidas.

#### Texto convertido para caixa baixa:

In [6]:
corpus = corpus.lower()
print(corpus[:200])

 anarchism originated as a term of abuse first used against early working class radicals including the diggers of the english revolution and the sans culottes of the french revolution whilst the term 


#### Texto transformado em uma lista de palavras utilizando a biblioteca **NLTK**:

In [7]:
sentences = list(itertools.islice(Text8Corpus('./data/' + "text8"),None))
sentences[0][:10]

['anarchism',
 'originated',
 'as',
 'a',
 'term',
 'of',
 'abuse',
 'first',
 'used',
 'against']

#### Stopwords, obtidas pelo pacote **NLTK**, foram retiradas do texto:

In [8]:
def remove_stopwords(sentences):

    all_sentences = []
    count_words = []
    stop_words = set(stopwords.words('english'))
    
    for sentence in sentences:
        new_sentence = []
        for word in sentence:
            if not word in stop_words:
                new_sentence.append(word)
        all_sentences.append(new_sentence)

    return all_sentences

filtered_sentences = remove_stopwords(sentences)
filtered_sentences[0][:10]

['anarchism',
 'originated',
 'term',
 'abuse',
 'first',
 'used',
 'early',
 'working',
 'class',
 'radicals']

## Treinamento dos Modelos
Em seguida por intermédio da biblioteca gensim os modelos *Continuous Bag of Words* e *Skip-Gram* foram treinados. Como hiperparâmetros dos modelos é interessante destacar os seguintes atributos:
#### Parâmetros fixos

*   epochs = 10
*   min_count = 2
*   report_delay = 1
*   alpha(learning_rate) = 0.01

#### Parâmetros que foram variados
*   vector_size: define a dimensão dos embeddings
*   window: define o tamanho do contexto a ser analizado, ou seja a distância máxima entre a palavra atual e a palavra predita.
*   total_words: Quantidade de palavras utilizadas no treinamento  
*   sg: O algoritmo de treinamento, pode ser tanto o *Continuous Bag of Words*, codificado como 0, ou o *Skip-Gram*, codificado como 1.



In [9]:
def get_params(vector_size, window, total_words):
    return [list(i) for i in product(vector_size, window, total_words)]

params = get_params(vector_size = [50, 100, 300], window = [3, 6, 10], 
           total_words=[int(len(filtered_sentences[0])/4), int(len(filtered_sentences[0])/2), int(len(filtered_sentences[0]))])
print(params)

[[50, 3, 1531], [50, 3, 3062], [50, 3, 6125], [50, 6, 1531], [50, 6, 3062], [50, 6, 6125], [50, 10, 1531], [50, 10, 3062], [50, 10, 6125], [100, 3, 1531], [100, 3, 3062], [100, 3, 6125], [100, 6, 1531], [100, 6, 3062], [100, 6, 6125], [100, 10, 1531], [100, 10, 3062], [100, 10, 6125], [300, 3, 1531], [300, 3, 3062], [300, 3, 6125], [300, 6, 1531], [300, 6, 3062], [300, 6, 6125], [300, 10, 1531], [300, 10, 3062], [300, 10, 6125]]


#### Função de treinamento dos modelos:
Recebe como parâmetro a dimensão dos embeddings, a janela (ou seja a distância de palavras analisadas), a quantidade de palavras analisadas e o algoritmo (*Skip-Gram* ou *Continuous Bag of Words*)

In [10]:
def train_model(vector_size, window, total_sentences, algorithm_name):
    
    algorithm = 1 if "skipgram" else 0
    file_name = "./models/{}/vector_size_{}_window_{}_total_sentences_{}.sav".format(algorithm_name, vector_size, window, total_sentences)
    
    if os.path.isfile(file_name):
        print("Modelo com os parâmetros passados já existe em ", file_name)
    else:
        print("Modelo com os seguintes parâmetros será treinado:")
        print("Dimensão do vetor: {} \nWindow: {} \nQuantidade de Sentenças: {}\n".format(vector_size, window, total_sentences))
        
        t = time()
        skip_gram = Word2Vec(filtered_sentences, vector_size=vector_size, sg=algorithm, window=window, min_count=2, alpha=0.01)
        print('Tempo para construir vocabulario: {} mins'.format(round((time() - t) / 60, 2)))
        
        t = time()
        skip_gram.train(filtered_sentences, total_examples = total_sentences, epochs=12, report_delay=1)
        print('Tempo para treinar o modelo: {} mins'.format(round((time() - t) / 60, 2)))

        skip_gram.save(file_name)
        print("Model saved in", file_name)
        
        print("-----------------------------------------------------------------------------------------------------------")

### Treinamento do *Skip-Gram*

In [11]:
for combinations in params:
    train_model(vector_size=combinations[0], window=combinations[1], total_sentences=combinations[2], algorithm_name="skipgram")

Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_3_total_sentences_1531.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_3_total_sentences_3062.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_3_total_sentences_6125.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_6_total_sentences_1531.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_6_total_sentences_3062.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_6_total_sentences_6125.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_10_total_sentences_1531.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_50_window_10_total_sentences_3062.sav
Modelo com os parâmetros passados já existe em  ./models/skipgram/vector_size_

### Treinamento do *Continuous Bag of Words*

In [12]:
for combinations in params:
    train_model(vector_size=combinations[0], window=combinations[1], total_sentences=combinations[2], algorithm_name="cbow")

Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_3_total_sentences_1531.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_3_total_sentences_3062.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_3_total_sentences_6125.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_6_total_sentences_1531.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_6_total_sentences_3062.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_6_total_sentences_6125.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_10_total_sentences_1531.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_10_total_sentences_3062.sav
Modelo com os parâmetros passados já existe em  ./models/cbow/vector_size_50_window_10_total_sentences_6125.sa

## Validação dos modelos

Para a validação dos modelos o arquivo *question-words.txt* disponibilizado pelo Professor foi utilizado. Por intermédio da função **most_similar** da biblioteca gensim, é passado como parâmetro três das quatro palavras de cada analogia do arquivo txt e é verificado se a função do modelo retorna a quarta palavra desta. Essa verificação foi realizada para todas as permutações de hiperparametros propostas para ambos os algoritmos *Skip-Gram* e *Continuous Bag of Words* e seus resultados, que foram salvos nos arquivos *cbow_accuracy.csv* e *skipgram_accuracy.csv* podem ser vistos abaixo.

#### Função que recebe como parâmetros um modelo pré-treinado e três palavras e retorna a analogia

In [13]:
def get_analogy(model, x1, x2, y1):
    
    try:
        return model.wv.most_similar(positive=[y1, x2], negative=[x1], topn=1)[0][0]
    
    except KeyError:
#         print(x1, "não estava presente no corpus de entrada")
        return ' '

#### Função que itera sobre todas as analogias em question-words.txt verificando se a analogia retornada pelo modelo é a esperada

In [14]:
def test_all_analogies(model):
    hits = 0
    misses = 0
    nf = 0
    for analogy in analogies:
        analogy = analogy.split(' ')
        if len(analogy) > 3:
            res = get_analogy(model, analogy[0], analogy[1], analogy[2])
#            print("Resposta do modelo:", res, " resposta correta:", analogy[3])
            if res == ' ':          nf += 1
            elif analogy[3] == res: hits += 1
            else: misses += 1
    
    return hits, misses, nf

#### Função que carrega modelo pré-treinado com base em seus hiperparâmetros

In [15]:
def load_model(algorithm_name, vector_size, window, total_sentences):
    return Word2Vec.load("./models/{}/vector_size_{}_window_{}_total_sentences_{}.sav".format(algorithm_name, vector_size, window, total_sentences))

#### Função que valida os modelos treinados e gera dataframes com a acurácia de cada conjunto de hiperparametros 

In [20]:
def validate_model(algorithm_name):

    
    df_accuracy = pd.DataFrame(columns=['dimensão','janela','sentenças','acuracia','acertos','erros', 'nao encontrados'])
    for index in range(len(params)):
    
        set_of_params = params[index]    
        model = load_model(algorithm_name, set_of_params[0], set_of_params[1], set_of_params[2])
        hits, misses, nf = test_all_analogies(model)
        df_accuracy.loc[index] = [set_of_params[0], set_of_params[1], set_of_params[2], hits/(hits+misses+nf), hits, misses, nf]
    
    df_accuracy.to_csv('./analogy_accuracy/' + algorithm_name +'_accuracy.csv', index=False)
    return df_accuracy

### Validação *Skip-Gram*

In [21]:
analogies = get_analogies('./data/', 'questions-words.txt')
file_name = "./analogy_accuracy/skipgram_accuracy.csv"
    
if os.path.isfile(file_name):
    acc = pd.read_csv(file_name)
    print(acc)
else:
    validate_model("skipgram")

    dimensão  janela  sentenças  acuracia  acertos    erros  nao encontrados
0       50.0     3.0     1531.0  0.210346   4111.0  14565.0            868.0
1       50.0     3.0     3062.0  0.214286   4188.0  14488.0            868.0
2       50.0     3.0     6125.0  0.214951   4201.0  14475.0            868.0
3       50.0     6.0     1531.0  0.230506   4505.0  14171.0            868.0
4       50.0     6.0     3062.0  0.243451   4758.0  13918.0            868.0
5       50.0     6.0     6125.0  0.240739   4705.0  13971.0            868.0
6       50.0    10.0     1531.0  0.237720   4646.0  14030.0            868.0
7       50.0    10.0     3062.0  0.233934   4572.0  14104.0            868.0
8       50.0    10.0     6125.0  0.234599   4585.0  14091.0            868.0
9      100.0     3.0     1531.0  0.246623   4820.0  13856.0            868.0
10     100.0     3.0     3062.0  0.248926   4865.0  13811.0            868.0
11     100.0     3.0     6125.0  0.253684   4958.0  13718.0            868.0

### Validação *Continuous Bag of Words*

In [24]:
analogies = get_analogies('./data/', 'questions-words.txt')
file_name = "./analogy_accuracy/cbow_accuracy.csv"
    
if os.path.isfile(file_name):
    acc = pd.read_csv(file_name)
else:
    acc = validate_model("cbow")
print(acc)

    dimensão  janela  sentenças  acuracia  acertos    erros  nao encontrados
0       50.0     3.0     1531.0  0.209783   4100.0  14576.0            868.0
1       50.0     3.0     3062.0  0.209374   4092.0  14584.0            868.0
2       50.0     3.0     6125.0  0.208299   4071.0  14605.0            868.0
3       50.0     6.0     1531.0  0.241711   4724.0  13952.0            868.0
4       50.0     6.0     3062.0  0.239613   4683.0  13993.0            868.0
5       50.0     6.0     6125.0  0.233780   4569.0  14107.0            868.0
6       50.0    10.0     1531.0  0.237515   4642.0  14034.0            868.0
7       50.0    10.0     3062.0  0.238692   4665.0  14011.0            868.0
8       50.0    10.0     6125.0  0.233627   4566.0  14110.0            868.0
9      100.0     3.0     1531.0  0.246674   4821.0  13855.0            868.0
10     100.0     3.0     3062.0  0.244269   4774.0  13902.0            868.0
11     100.0     3.0     6125.0  0.247595   4839.0  13837.0            868.0

In [39]:

def plot_corpus_usage_variation(df):

    fig = make_subplots(rows=4, cols=3)    
    
    for hp in params:

    aux = df.loc[(df['dimensão'] == 50) & (df['janela'] == 3)]
    fig.add_trace(go.Scatter(x=aux['sentenças'], y=aux['acuracia'], mode='lines',name=''), row=1, col=1)

    aux = df.loc[(df['dimensão'] == 50) & (df['janela'] == 6)]
    fig.add_trace(go.Scatter(x=aux['sentenças'], y=aux['acuracia'], mode='lines',name=''), row=1, col=1)
    
    aux = df.loc[(df['dimensão'] == 50) & (df['janela'] == 10)]
    fig.add_trace(go.Scatter(x=aux['sentenças'], y=aux['acuracia'], mode='lines',name=''), row=1, col=1)
    
    fig.update_layout(height=800, width=1600, title_text="Acurácia x Total Examples")
    fig.show()

In [40]:
plot_dimension_variation(acc)