## Trabalho Prático 1 - Aprendizado Profundo para NLP

__Aluna:__ Gabriela Tavares Barreto

### __1. Introdução__



O objetivo deste trabalho prático foi realizar uma avaliação intrínseca de modelos de palavras distribuídas. O método escolhido for O Continuous Bag of Words (CBOW). O CBOW é um método de treinamento de modelos de linguagem em aprendizado de máquina, especificamente usado para aprender representações distribuídas de palavras em um corpus.

### __2. Instalando módulos__


A implementação foi feita utilizando a biblioteca gensim para criar o modelo CBOW. O código utilizado está disponível no repositório gensym. 

In [2]:
pip install gensim





[notice] A new release of pip is available: 23.0.1 -> 23.3.1
[notice] To update, run: C:\Users\gabri\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [3]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.0.1 -> 23.3.1
[notice] To update, run: C:\Users\gabri\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip




### __3. Pré-processamento do corpus__

O corpus utilizado para treinar o modelo foi obtido a partir do conjunto de dados text8 disponível em https://mattmahoney.net/dc/text8.zip. O corpus foi pré-processado para remover pontuações, converter para minúsculas, entre outros procedimentos, visando obter melhores representações distribuídas.

#### __Tokenizando o corpus:__

In [4]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
# Carregando o corpus de texto
with open('text8.txt', 'r', encoding='utf-8') as file:
    corpus_text = file.read()
# Tokenizando o corpus
tokenized_corpus = [word_tokenize(sentence.lower()) for sentence in nltk.sent_tokenize(corpus_text)]

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gabri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


#### __Divindo o corpus em sentenças:__

In [5]:
def chunk_list(input_list, chunk_size):
    """Divide uma lista em listas menores com tamanho especificado."""
    return [input_list[i:i + chunk_size] for i in range(0, len(input_list), chunk_size)]

chunk_size = 1000 # tamanho da sentença

tokenized_corpus_final = chunk_list(tokenized_corpus[0], chunk_size)


### __4. Escolhas de hiperparâmetros__


Foram realizadas várias escolhas durante o processo de treinamento, incluindo:

__Tamanho do Treinamento:__ Diferentes tamanhos de treinamento foram experimentados para avaliar o impacto no desempenho do modelo.

__Tamanho da Janela (Window Size):__ O tamanho da janela, que determina o contexto ao redor de uma palavra, foi ajustado para explorar a influência dessa variável na qualidade das representações.

__CBOW vs Skip-Gram:__ A escolha entre CBOW e Skip-Gram, dois métodos populares de treinamento de modelos Word2Vec, foi investigada para entender as diferenças e semelhanças em termos de desempenho intrínseco.

__Tamaho do vetor:__ A dimensão do vetor de embedding tem um impacto crucial na qualidade da representação das palavras. Assim vários tamanhos foram testados levando em conta o trade-off entre qualidade de representação e custo computacional de processamento do modelo. 

__Min count:__ A abordagem adotada para determinar o valor adequado de min_count envolveu uma análise exploratória da distribuição de frequência das palavras no corpus. Foram realizados experimentos variando o min_count em uma ampla faixa de valores, desde permitir palavras muito raras até restringir apenas às mais frequentes. A métrica de desempenho, como a acurácia nas tarefas de avaliação intrínseca, foi monitorada para entender o impacto dessa escolha.

### __5. Treinando o modelo__

#### __Usando o CBOW para gerar embeddings de $500$ dimensões:__

In [6]:
model = Word2Vec(sentences=tokenized_corpus_final, vector_size=500, window=20, min_count=10, max_vocab_size=None, sg=0 , negative = 10, epochs = 15)

Exemplo de embedding:

In [7]:
model.wv.most_similar(positive=["greece"])

[('corfu', 0.5142543911933899),
 ('hellenic', 0.5132253170013428),
 ('crete', 0.5013296008110046),
 ('cyprus', 0.49881598353385925),
 ('turkey', 0.4972730278968811),
 ('thessaloniki', 0.496123343706131),
 ('ionian', 0.48786014318466187),
 ('athens', 0.48413944244384766),
 ('larissa', 0.48275554180145264),
 ('thrace', 0.47627192735671997)]

### __6. Avaliando o modelo__

A avaliação intrínseca foi realizada usando analogias com base no conjunto de dados disponível em https://github.com/nicholas-leonard/word2vec/blob/master/questions-words.txt. O procedimento envolveu a inserção de três palavras, a seleção da palavra retornada pelo modelo, e o cálculo da distância para a palavra correta. Este processo foi repetido e a média das distâncias foi computada.

In [8]:
score, sections = model.wv.evaluate_word_analogies('questions-words.txt')
print(f'Accuracy: {score*100:.2f}%')


Accuracy: 45.34%


### __7. Resultados & Conclusão__



Os resultados obtidos indicam a eficácia do modelo CBOW em lidar com o conjunto de dados específico. A variação de parâmetros foi crucial para otimizar o desempenho do modelo, destacando a importância da experimentação sistemática.

Este trabalho me proporcionou uma compreensão prática do uso do CBOW para treinar modelos de palavras distribuídas. A escolha adequada de parâmetros foi crucial para otimizar o desempenho do modelo, e a avaliação intrínseca forneceu uma métrica valiosa para comparar diferentes configurações.


### __8. Referências__



Gensim Documentation: https://radimrehurek.com/gensim/

Nicholas Leonard - Word2Vec: https://github.com/nicholas-leonard/word2vec

Material usado em sala.