# Word2Vec

Word2Vec is a group of related models that are used to produce word embeddings. These models are shallow, two-layer neural networks that are trained to reconstruct linguistic contexts of words.

## How it Works

Word2Vec takes as its input a large corpus of text and produces a vector space, typically of several hundred dimensions, with each unique word in the corpus being assigned a corresponding vector in the space. Word vectors are positioned in the vector space such that words that share common contexts in the corpus are located close to one another in the space.

Word2Vec is actually a collection of two different methods: Continuous Bag-of-Words (CBOW) and Skip-Gram. In the CBOW method, the model predicts a word given the surrounding context. In the Skip-Gram method, the model predicts the context given a word.

## Use Cases

Word2Vec has a wide range of applications, including:

- **Natural Language Processing (NLP)**: Word2Vec is used for various NLP tasks, such as sentiment analysis, named entity recognition, and machine translation.

- **Information Retrieval**: Word2Vec can improve the performance of information retrieval systems by considering the semantic similarity of words.

- **Recommendation Systems**: Word2Vec can be used to improve recommendation systems by considering the semantic similarity of items.

## Limitations

Despite their advantages, Word2Vec also has some limitations:

- **Lack of Semantic Understanding**: Word2Vec maps semantically similar words close to each other, but it doesn't understand the meaning of the words.

- **Contextual Ambiguity**: Word2Vec gives the same vector representation for a word regardless of its context, which can be a problem for words with multiple meanings.

- **Interpretability**: Like other deep learning models, Word2Vec can be seen as a "black box" and can be difficult to interpret. This can make it challenging to understand why a particular prediction was made.

# Word2Vec

Word2Vec - это группа связанных моделей, используемых для создания векторных представлений слов. Эти модели представляют собой поверхностные двухслойные нейронные сети, которые обучаются восстанавливать лингвистические контексты слов.

## Как это работает

Word2Vec принимает на вход большой корпус текста и создает векторное пространство, обычно нескольких сотен измерений, где каждому уникальному слову в корпусе присваивается соответствующий вектор в пространстве. Векторы слов располагаются в векторном пространстве таким образом, что слова, которые имеют общие контексты в корпусе, расположены близко друг к другу в пространстве.

Word2Vec на самом деле представляет собой коллекцию двух разных методов: Continuous Bag-of-Words (CBOW) и Skip-Gram. В методе CBOW модель предсказывает слово, учитывая окружающий контекст. В методе Skip-Gram модель предсказывает контекст, учитывая слово.

## Варианты использования

У Word2Vec есть широкий спектр применений, включая:

- **Обработка естественного языка (NLP)**: Word2Vec используется для различных задач NLP, таких как моделирование языка, машинный перевод и анализ тональности.

- **Извлечение информации**: Word2Vec может улучшить производительность систем извлечения информации, учитывая семантическую схожесть слов.

- **Системы рекомендаций**: Word2Vec может использоваться для улучшения систем рекомендаций, учитывая семантическую схожесть элементов.

## Ограничения

Несмотря на их преимущества, у Word2Vec также есть некоторые ограничения:

- **Отсутствие семантического понимания**: Word2Vec отображает семантически похожие слова близко друг к другу, но он не понимает значение слов.

- **Контекстуальная неоднозначность**: Word2Vec дает одинаковое векторное представление для слова, независимо от его контекста, что может быть проблемой для слов с несколькими значениями.

- **Интерпретируемость**: Как и другие модели глубокого обучения, Word2Vec может рассматриваться как "черный ящик" и может быть сложным для интерпретации. Это может затруднить понимание причин, по которым был сделан определенный прогноз.

In [5]:
try:
    import gensim
    from nltk.corpus import brown
except ImportError:
    import os
    os.system('pip install gensim nltk')
    # Import the gensim library, which provides functionality for training Word2Vec models
    import gensim
    # Import the Brown corpus from the NLTK library. The Brown corpus is a collection of text samples from a wide range of sources, with a total of over a million words.
    from nltk.corpus import brown


class Word2VecModel:
    """
    This class implements a Word2Vec model using the Gensim library.
    """

    def __init__(self):
        """
        Constructor for the Word2VecModel class.
        Initializes the model to None.
        """
        self.model = None

    def train(self, sentences):
        """
        Trains the Word2Vec model on the given sentences.

        Args:
            sentences (list of list of str): The sentences to train on. Each sentence is a list of words.

        Returns:
            None
        """
        # Train the model on the sentences
        self.model = gensim.models.Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

    def get_vector(self, word):
        """
        Gets the vector for a word.

        Args:
            word (str): The word to get the vector for.

        Returns:
            numpy.ndarray: The vector for the word.
        """
        # Check if the model has been trained
        if self.model is None:
            raise ValueError("The model has not been trained yet.")

        # Return the vector for the word
        return self.model.wv[word]

# Download the Brown corpus if it's not already downloaded
try:
    brown.sents()
except LookupError:
    import nltk
    nltk.download('brown')

# Create an instance of the Word2VecModel class
model = Word2VecModel()

# Train the model on the sentences from the Brown corpus
model.train(brown.sents())

# Get the vector for a word
vector = model.get_vector('word')

For evaluating a trained Word2Vec model, one common approach is to check the quality of the learned word vectors. This can be done by checking how similar the vectors of semantically similar words are.

Для оценки обученной модели Word2Vec одним из распространенных подходов является проверка качества изученных векторов слов. Это можно сделать, проверив, насколько похожи векторы семантически похожих слов.

In [7]:
# Get the most similar words to 'word'
similar_words = model.model.wv.most_similar('word')

# Print the similar words
for word, similarity in similar_words:
    print(f"Word: {word}, Similarity: {similarity}")

Word: child, Similarity: 0.9698866605758667
Word: person, Similarity: 0.9421505331993103
Word: story, Similarity: 0.9303193092346191
Word: truth, Similarity: 0.9184790253639221
Word: question, Similarity: 0.9174147248268127
Word: idea, Similarity: 0.9156782627105713
Word: picture, Similarity: 0.9155687689781189
Word: job, Similarity: 0.9154903292655945
Word: situation, Similarity: 0.9144237637519836
Word: statement, Similarity: 0.9139750599861145
