# Trabalho Pr√°tico 1 - Processamento de Linguagem Natural

**Discente**: Victor Hugo Martins

**Professor**: Adriano Veloso

## Objetivo Geral

Este projeto tem como objetivo produzir e avaliar modelos de linguagem neural. A qualidade desses modelos depende dos hiperpar√¢metros utilizados. A habilidade a ser exercitada neste trabalho pr√°tico √© a escolha adequada dos hiperpar√¢metros de um modelo de linguagem. Portanto, mais especificamente, ser√£o produzidos diversos modelos de linguagem, cada um deles obtidos com diferentes hiperpar√¢metros, e em seguida voc√™ dever√° avaliar cada modelo atrav√©s de uma aplica√ß√£o de analogias (descrita a seguir). Por fim, voc√™ dever√° concluir a respeito dos melhores hiperpar√¢metros para o modelo de linguagem. Os hiperpar√¢metros a serem considerados s√£o:

* CBOW ou Skip-gram
* Tamanho da janela de contexto
* Tamanho do embedding
* Quantidade de itera√ß√µes de treinamento.

Ao fim da execu√ß√£o, os resultados obtidos ser√£o analisados.


# Implementa√ß√£o

## Corpus

Nessa etapa, ocorre o download do dataset usado e constru√ß√£o do corpus a partir dele.

Um *corpus* √© um conjunto de textos que serve como base de dados para an√°lise e modelagem lingu√≠stica. Ele √© criado para representar um idioma ou contexto espec√≠fico e pode incluir palavras, frases, senten√ßas ou at√© mesmo documentos completos. Dentro da tarefa proposta, o corpus ser√° utilizado para treinar os dados dos modelos *Word2Vec* com um vocabul√°rio amplo.

O *corpus* utilizado √© o **Text8**, que cont√©m os primeiros 100 milh√µes de caracteres da *Wikip√©dia* em lingua inglessa (edi√ß√£o de 2001), sendo restrito a letras min√∫sculas e sem pontua√ß√£o. Seu vocabul√°rio compacto e cheio de significado o torna √∫til em tarefas n√£o apenas de similaridade sem√¢ntica, mas tamb√©m modelagem de t√≥picos e classifica√ß√£o de textos. Seu tamanho o tornam menos custoso em termos computacionais.

In [None]:
import os
import urllib.request
import zipfile

def download_text8():
    url = "http://mattmahoney.net/dc/text8.zip"
    local_filename = "text8.zip"

    if not os.path.exists("text8"):
        print("Baixando o dataset text8...")
        urllib.request.urlretrieve(url, local_filename)

        with zipfile.ZipFile(local_filename, 'r') as zip_ref:
            zip_ref.extractall(".")
        print("Dataset extra√≠do com sucesso!")

        os.remove(local_filename)

download_text8()

In [None]:
from gensim.models import Word2Vec
from gensim.models.keyedvectors import KeyedVectors
from gensim.test.utils import datapath
import numpy as np

def load_and_preprocess_corpus(filepath):
    with open(filepath, 'r') as file:
        corpus = file.read().splitlines()
    return [line.split() for line in corpus]

O arquivo questions-words.txt √© amplamente utilizado como um benchmark para avaliar modelos de vetoriza√ß√£o de palavras, como Word2Vec. Ele cont√©m pares de palavras e rela√ß√µes sem√¢nticas ou sint√°ticas organizadas em categorias. A ideia √© testar a capacidade do modelo de capturar rela√ß√µes entre palavras usando opera√ß√µes vetoriais.

O teste cl√°ssico √© baseado na ideia de analogia de palavras, como:
"Rei est√° para Rainha assim como Homem est√° para Mulher".
Matematicamente, isso √© expresso como:
vec
(
ùëü
ùëí
ùëñ
)
‚àí
vec
(
‚Ñé
ùëú
ùëö
ùëí
ùëö
)
+
vec
(
ùëö
ùë¢
ùëô
‚Ñé
ùëí
ùëü
)
‚âà
vec
(
ùëü
ùëé
ùëñ
ùëõ
‚Ñé
ùëé
)

O modelo √© avaliado em qu√£o bem ele encontra word4 ao operar sobre os vetores de word1, word2 e word3.

In [None]:
import os
from sklearn.decomposition import PCA
import requests

def download_analogy_file(analogy_path):
    url = "https://raw.githubusercontent.com/tmikolov/word2vec/master/questions-words.txt"
    if not os.path.exists(analogy_path):
        print("Baixando o arquivo de analogias...")
        response = requests.get(url)
        with open(analogy_path, "wb") as f:
            f.write(response.content)
        print("Download conclu√≠do.")

In [None]:
# Vari√°veis de arquivos gerais
corpus_path = "text8"
analogy_path = "questions-words.txt"
download_analogy_file(analogy_path)
corpus = load_and_preprocess_corpus(corpus_path)

## Avalia√ß√£o

O intuito √© avaliar as analogias em torno de sua dist√¢ncia. Dist√¢ncias menores demonstram maior similaridade entre as palavras. Portanto, qu√£o menor a dist√¢ncia, melhor o modelo √© avaliado.

Para avaliar analogias com dist√¢ncia m√≠nima entre vetores em embeddings (e, intrisecamente, capturar rela√ß√µes sem√¢nticas e sint√°ticas), utiliza-se a geometria do espa√ßo vetorial.

Essa abordagem funciona porque palavras relacionadas est√£o mais pr√≥ximas no espa√ßo, e a dist√¢ncia ou similaridade do cosseno identifica o vetor mais pr√≥ximo do resultado da analogia.

In [None]:
# Avaliar a dist√¢ncia m√©dia de analogias
def evaluate_distance(model, analogy_path, apply_pca_flag, pca_components=0):
    word_vectors = model.wv.vectors
    word_to_index = model.wv.key_to_index

    if apply_pca_flag:
        word_vectors = apply_pca(word_vectors, n_components=pca_components)

    analogy_file = datapath(analogy_path)
    total_distance = 0
    valid_pairs = 0

    with open(analogy_file, "r") as f:
        for line in f:
            if line.startswith(":"):  # ignore categories
                continue
            words = line.strip().split()
            if all(word in word_to_index for word in words):
                idx_a, idx_b, idx_c, idx_d = [word_to_index[word] for word in words]
                vec_a, vec_b, vec_c, vec_d = (
                    word_vectors[idx_a],
                    word_vectors[idx_b],
                    word_vectors[idx_c],
                    word_vectors[idx_d],
                )
                predicted_vec = vec_c + (vec_b - vec_a)
                distance = np.linalg.norm(predicted_vec - vec_d)
                total_distance += distance
                valid_pairs += 1

    average_distance = total_distance / valid_pairs if valid_pairs > 0 else float("inf")
    return average_distance

**Grid Search** √© uma t√©cnica para identificar a melhor combina√ß√£o de hiperpar√¢metros para um modelo. A escolha adequada de hiperpar√¢metros √© crucial porque afeta diretamente o desempenho do modelo. Para cada combina√ß√£o de hiperpar√¢metros no espa√ßo definido, o modelo √© treinado e avaliado com os dados fornecidos. A cada execu√ß√£o, o desempenho do modelo √© avaliado usando uma m√©trica espec√≠fica, que ser√° usada para comparar os resultados das diferentes combina√ß√µes.

Ap√≥s avaliar todas as combina√ß√µes, o conjunto de hiperpar√¢metros que maximiza ou minimiza a m√©trica escolhida √© identificado como o melhor.

Al√©m de contribuir para essa identifica√ß√£o, o Grid Search tamb√©m atuam como **valida√ß√£o cruzada**.

A grade de par√¢metros escolhida est√° definida abaixo:

In [None]:
# Grid de par√¢metros
param_grid = {
    "model_type": ["Skip-gram", "CBOW"],
    "context_size": [2, 3, 4, 5],
    "embedding_dim": [5, 20, 25, 50, 100],
    "num_epochs": [3, 5, 7, 10],
    "apply_pca_flag": [True, False],
    "pca_components": [2, 3, 5],  # N√∫mero de componentes para PCA
    "workers": [3],  # N√∫mero de componentes para PCA
}

E sua implementa√ß√£o:

In [None]:
from itertools import product
import pandas as pd

def grid_search_word2vec(corpus, analogy_path, param_grid):
    best_params = None
    best_score = float("inf")
    results = []
    trained_models = {}  # Cache para modelos j√° treinados
    evaluation_cache = {}  # Cache para resultados de avalia√ß√£o

    for params in product(*param_grid.values()):
        model_type, context_size, embedding_dim, num_epochs, apply_pca_flag, pca_components, workers = params

        # Ignorar varia√ß√µes de PCA components se PCA n√£o for aplicado
        if not apply_pca_flag:
            pca_components = None

        # Criar uma chave √∫nica para identificar o modelo e incluir workers
        model_key = (model_type, context_size, embedding_dim, num_epochs, workers)
        eval_key = (model_key, apply_pca_flag, pca_components)

        # Treinar o modelo apenas se ainda n√£o foi treinado para esta combina√ß√£o
        if model_key not in trained_models:
            print(f"Treinando modelo com par√¢metros: {model_key}")
            trained_models[model_key] = train_word2vec(
                corpus, model_type, context_size, embedding_dim, num_epochs, workers
            )

        model = trained_models[model_key]

        # Avaliar apenas se a avalia√ß√£o para essa configura√ß√£o ainda n√£o foi feita
        if eval_key not in evaluation_cache:
            avg_distance = evaluate_distance(model, analogy_path, apply_pca_flag, pca_components)
            evaluation_cache[eval_key] = avg_distance
        else:
            avg_distance = evaluation_cache[eval_key]

        results.append({
            "Modelo": model_type,
            "Contexto": context_size,
            "Dimens√£o Embedding": embedding_dim,
            "√âpocas": num_epochs,
            "Workers": workers,
            "PCA Aplicado": apply_pca_flag,
            "Componentes PCA": pca_components if apply_pca_flag else "N√£o Aplicado",
            "Dist√¢ncia M√©dia": avg_distance
        })

        if avg_distance < best_score:
            best_score = avg_distance
            best_params = params

        print(f"Par√¢metros: {params}, Dist√¢ncia m√©dia: {avg_distance:.4f}")

    df_results = pd.DataFrame(results)
    grouped_results = df_results.sort_values(by=["Modelo", "PCA Aplicado", "Dist√¢ncia M√©dia"])

    return best_params, grouped_results

Um detalhe sobre essa implementa√ß√£o √© o uso de chaves que evitem que o mesmo modelo seja treinado mais de uma vez. Caso isso n√£o fosse trato, essa situa√ß√£o ocorreria para o caso do PCA n√£o ser utilizado, onde a quantidade de componentes referentes a ele seria irrelevante. Com a adi√ß√£o das chaves, o custo computacional √© reduzido ao n√£o calcular mais de uma vez um mesmo modelo (ou seja, um modelo definido pelas tuplas de par√¢metros).

Nas se√ß√µes a seguir, ser√£o abordados os par√¢metros escolhidos para o Grid.

## PCA

PCA √© um m√©todo de normaliza√ß√£o que busca reduzir a dimensionalidade dos dados com o objetivo de facilitar a visualiza√ß√£o e generaliza√ß√£o do modelo. Apesar dessa proposta, que viria a diminuir o desempenho computacional do modelo, √© poss√≠vel que a aplica√ß√£o de PCA fa√ßa com que os dados percam informa√ß√µes significativas e com que o modelo falhe a identificar rela√ß√µes n√£o lineares.

Tendo essa d√∫vida em mente, a normaliza√ß√£o por PCA tamb√©m foi adicionada como um dos "par√¢metros" para o GridSearch (mais detalhes sobre esse m√©todo e o porqu√™ de sua escolha vem a seguir), buscando comparar se, para a tarefa de analogias especificamente, √© mais vantajoso usar ou n√£o deste m√©todo.

In [None]:
from sklearn.decomposition import PCA

# Reduzir dimensionalidade com PCA
def apply_pca(vectors, n_components):
    pca = PCA(n_components=n_components)
    reduced_vectors = pca.fit_transform(vectors)
    return reduced_vectors

## Skip-Gram e CBOW

Skip-Gram e CBOW (Continuous Bag of Words) s√£o arquiteturas utilizadas em modelos de representa√ß√µes vetoriais densas, como Word2Vec, para aprender representa√ß√µes vetoriais de palavras. Apesar de ambos identificarem rela√ß√µes sint√°ticas e sem√¢nticas, de forma que a aplica√ß√£o de ambos se torne poss√≠vel em tarefas de previs√£o de analogias, eles possuem especificidades e objetivos distintos.

* **CBOW (Continuous Bag of Words)**

Prediz uma palavra central a partir do contexto que a cerca.

Prediz uma palavra-alvo com base no contexto (as palavras que a cercam). Dentre as suas vantagens, est√£o o treinamento r√°pido e a efici√™ncia em conjunto de dados menores. Como, em sua implementa√ß√£o, faz uso das m√©dias dos vetores do contexto, essa arquitetura pode ser menor eficaz em capturar palavras raras.

* **Skip-Gram**

Prediz as palavras do contexto com base em uma palavra-central.

Em compara√ß√£o com o CBOW, esta arquitetura atua melhor na captura de palavras raras, por possuir a capacidade de aprender rela√ß√µes espec√≠ficas e mais detalhes entre palavra(s) e contexto. Entretanto, seu treinamento se d√° de forma mais lenta.

In [None]:
from gensim.models import Word2Vec
from gensim.test.utils import datapath
import numpy as np

# Treinar o modelo Word2Vec
def train_word2vec(corpus, model_type, context_size, embedding_dim, num_epochs, num_workers):
    sg = 1 if model_type == "Skip-gram" else 0  # 1 para Skip-gram, 0 para CBOW
    model = Word2Vec(
        sentences=corpus,
        vector_size=embedding_dim,
        window=context_size,
        sg=sg,
        epochs=num_epochs,
        workers=num_workers
    )
    return model

## Busca pelos Resultados

Abaixo, a Grid Search √© executada, a fim de identificar quais os melhores (e piores) hiperpar√¢metros para o modelo proposto.

In [None]:
print("Iniciando grid search...")
best_params, results_df = grid_search_word2vec(corpus, analogy_path, param_grid)

Iniciando grid search...
Treinando modelo com par√¢metros: ('Skip-gram', 2, 5, 3, 3)
Par√¢metros: ('Skip-gram', 2, 5, 3, True, 2, 3), Dist√¢ncia m√©dia: 0.2906
Par√¢metros: ('Skip-gram', 2, 5, 3, True, 3, 3), Dist√¢ncia m√©dia: 0.3717
Par√¢metros: ('Skip-gram', 2, 5, 3, True, 5, 3), Dist√¢ncia m√©dia: 0.4959
Par√¢metros: ('Skip-gram', 2, 5, 3, False, 2, 3), Dist√¢ncia m√©dia: 0.4959
Par√¢metros: ('Skip-gram', 2, 5, 3, False, 3, 3), Dist√¢ncia m√©dia: 0.4959
Par√¢metros: ('Skip-gram', 2, 5, 3, False, 5, 3), Dist√¢ncia m√©dia: 0.4959
Treinando modelo com par√¢metros: ('Skip-gram', 2, 5, 5, 3)
Par√¢metros: ('Skip-gram', 2, 5, 5, True, 2, 3), Dist√¢ncia m√©dia: 0.3220
Par√¢metros: ('Skip-gram', 2, 5, 5, True, 3, 3), Dist√¢ncia m√©dia: 0.3994
Par√¢metros: ('Skip-gram', 2, 5, 5, True, 5, 3), Dist√¢ncia m√©dia: 0.5190
Par√¢metros: ('Skip-gram', 2, 5, 5, False, 2, 3), Dist√¢ncia m√©dia: 0.5190
Par√¢metros: ('Skip-gram', 2, 5, 5, False, 3, 3), Dist√¢ncia m√©dia: 0.5190
Par√¢metros: ('Skip-gram'

## Resultados

Ap√≥s a execu√ß√£o do c√≥digo, temos os resultados.

In [None]:
print("Melhores par√¢metros encontrados:", best_params)

Melhores par√¢metros encontrados: ('CBOW', 2, 100, 3, True, 2, 3)


E para observar as demais avalia√ß√µes dos modelos:

In [None]:
import pandas as pd

# Filtrar as linhas onde PCA n√£o foi aplicado
no_pca = results_df['PCA Aplicado'] == "N√£o Aplicado"

# Para as linhas onde PCA n√£o foi aplicado, substituir os componentes por "-"
results_df.loc[no_pca, 'Componentes PCA'] = "-"

# Remover duplicatas considerando todas as colunas (com os "-" j√° ajustados)
results_df = results_df.drop_duplicates()

In [None]:
results_df = results_df.sort_values(by=["Dist√¢ncia M√©dia"])

In [None]:
print("Melhores resultados detalhados:")
results_df.head(15)

Melhores resultados detalhados:


Unnamed: 0,Modelo,Contexto,Dimens√£o Embedding,√âpocas,Workers,PCA Aplicado,Componentes PCA,Dist√¢ncia M√©dia
576,CBOW,2,100,3,3,True,2,0.015313
696,CBOW,3,100,3,3,True,2,0.015499
816,CBOW,4,100,3,3,True,2,0.01606
936,CBOW,5,100,3,3,True,2,0.016917
582,CBOW,2,100,5,3,True,2,0.017851
577,CBOW,2,100,3,3,True,3,0.019645
697,CBOW,3,100,3,3,True,3,0.019893
817,CBOW,4,100,3,3,True,3,0.020398
937,CBOW,5,100,3,3,True,3,0.021197
702,CBOW,3,100,5,3,True,2,0.021291


In [None]:
print("Piores resultados detalhados:")
results_df.tail(15)

Piores resultados detalhados:


Unnamed: 0,Modelo,Contexto,Dimens√£o Embedding,√âpocas,Workers,PCA Aplicado,Componentes PCA,Dist√¢ncia M√©dia
254,Skip-gram,4,5,7,3,True,5,0.682484
255,Skip-gram,4,5,7,3,False,N√£o Aplicado,0.682484
429,Skip-gram,5,25,10,3,False,N√£o Aplicado,0.706738
141,Skip-gram,3,5,10,3,False,N√£o Aplicado,0.712586
140,Skip-gram,3,5,10,3,True,5,0.712586
259,Skip-gram,4,5,10,3,True,3,0.720624
405,Skip-gram,5,20,10,3,False,N√£o Aplicado,0.729864
375,Skip-gram,5,5,7,3,False,N√£o Aplicado,0.742025
374,Skip-gram,5,5,7,3,True,5,0.742025
378,Skip-gram,5,5,10,3,True,2,0.753533


A partir desses resultados, tem-se que:

1. **Modelos (CBOW vs Skip-gram)**

CBOW apresenta valores significativamente menores para a dist√¢ncia m√©dia, indicando melhor desempenho na tarefa de prever analogias. J√° o Skip-gram possui maiores dist√¢ncias m√©dias, o que sugere menor precis√£o. Isso pode ocorrer por que o Skip-Gram, apesar de ser comumente mais eficaz em representar palavras raras, mas menos eficiente em tarefas gerais com vocabul√°rio limitado.

2. **Tamanho do Contexto**

Para CBOW, o contexto 2 tem dist√¢ncias m√©dias melhores (menores) em compara√ß√£o aos demais tamanho de contexto.

3. **Dimens√£o do Embedding**

Para CBOW, embeddings de dimens√£o 100 consistentemente apresentam as menores dist√¢ncias m√©dias, indicando que maior dimensionalidade captura melhor as rela√ß√µes sem√¢nticas. Dimens√µes mais baixas (como 5) parecem inadequadas para ambas as abordagens, com resultados menos precisos.

4. **N√∫mero de √âpocas**

Para CBOW, o n√∫mero de √©pocas 3 √© suficiente para alcan√ßar boas dist√¢ncias m√©dias, sugerindo que o modelo converge rapidamente. Assim como ocorre com o Skip-Gram, √© poss√≠vel perceber que n√∫meros maiores de √©poca prejudicam o modelo.

* **PCA**

Os resultados foram consistentemente melhores quando houve a aplica√ß√£o do PCA, especialmente com 2 componentes. Isso pode indicar que um espa√ßo reduzido pode ser suficiente para representar as rela√ß√µes sem√¢nticas essenciais das analogias. Para o Skip-Gram, a aplica√ß√£o do PCA n√£o parece surtir tanto efeito em alguns resultados, de forma que seu uso se torna desnecess√°rio.

Assim, tem-se que a melhor configura√ß√£o √©:
* Modelo: CBOW
* Tamanho do Contexto: 2
* Dimens√£o do Embedding: 100
* PCA: aplicado, com 2 componentes
* √âpocas: 3

Essa configura√ß√£o apresenta√ß√£o a menor dist√¢ncia m√©dia dentre os modelos avalidos, sendo ela **0.021291**.

## Avalia√ß√£o com Modelo Nulo

Aqui, considera-se o modelo nulo como o modelo Word2Vec executado com os par√¢metros padr√£o da implementa√ß√£o da biblioteca, dado o mesmo corpus. A inten√ß√£o √© identificar se h√° diferen√ßa entre os resultados calculados pelo modelo identificado pela Grid Search ou n√£o.

In [None]:
# Compara√ß√£o com o modelo padr√£o
default_model = Word2Vec(
    sentences=corpus,
    vector_size=100,
    window=5,
    sg=0,  # 'CBOW' por padr√£o
    epochs=5,
    workers=3
)
default_avg_distance = evaluate_distance(default_model, analogy_path, False)
min_distance_model = results_df["Dist√¢ncia M√©dia"].min()

print("\n--- Compara√ß√£o entre Modelo Padr√£o e Melhor Modelo ---")
print(f"Dist√¢ncia M√©dia do Modelo Padr√£o ('CBOW', 5, 100, 3, False, -, 3): {default_avg_distance:.4f}")
print(f"Melhores Par√¢metros do Grid Search: {best_params}, Dist√¢ncia M√©dia: {min_distance_model:.4f}")

if default_avg_distance > min_distance_model:
    improvement = ((default_avg_distance - min_distance_model) / default_avg_distance) * 100
    print(f"\nO modelo treinado com Grid Search possui dist√¢ncia m√≠nima m√©dia {improvement:.2f}% menor que o modelo padr√£o.")
else:
    improvement = ((min_distance_model - default_avg_distance) / min_distance_model) * 100
    print(f"\nO modelo padr√£o possui dist√¢ncia m√≠nima m√©dia {improvement:.2f}% menor que o modelo treinado com Grid Search.")


--- Compara√ß√£o entre Modelo Padr√£o e Melhor Modelo ---
Dist√¢ncia M√©dia do Modelo Padr√£o ('CBOW', 5, 100, 3, False, -, 3): 0.1257
Melhores Par√¢metros do Grid Search: ('CBOW', 2, 100, 3, True, 2, 3), Dist√¢ncia M√©dia: 0.0153

O modelo treinado com Grid Search possui dist√¢ncia m√≠nima m√©dia 87.82% menor que o modelo padr√£o.


# Refer√™ncias Bibliogr√°ficas

Jim√©nez, √Å.B., L√°zaro, J.L., Dorronsoro, J.R. (2007). Finding Optimal Model Parameters by Discrete Grid Search. In: Corchado, E., Corchado, J.M., Abraham, A. (eds) Innovations in Hybrid Intelligent Systems. Advances in Soft Computing, vol 44. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-74972-1_17

Kurita, T. (2020). Principal Component Analysis (PCA). In: Computer Vision. Springer, Cham. https://doi.org/10.1007/978-3-030-03243-2_649-1

Mahoney, Matt (2011). About the Test Data. Matt Mahoney. https://mattmahoney.net/dc/textdata.html

McCornick, Chris (2016). Word2Vec Resources. Chris McCormick. https://mccormickml.com/2016/04/27/word2vec-resources/

_ (2024). Word Embedding using Word2Vec. Geeks for Geeks. https://www.geeksforgeeks.org/python-word-embedding-using-word2vec/