# __NLP-lab-2 Практическая работа «Векторное представление слов»__

## __Вспомогатлеьный код__

### **0. Импорт библиотек**

In [3]:
import gensim
import re

### **1. Функция загрузки модели**

In [None]:
def load_model(model_path):
    print("Загрузка модели...")
    model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=False)
    print("Модель загружена.")
    return model

#### Разбор:
1. **`def load_model(model_path):`**
   - Определяется функция `load_model`, которая принимает один аргумент:
     - `model_path` (тип `str`) — путь к файлу, содержащему предобученную модель Word2Vec.
   
2. **`print("Загрузка модели...")`**
   - Выводится сообщение для информирования пользователя о начале процесса загрузки модели.

3. **`model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=False)`**
   - Используется метод `load_word2vec_format` из модуля `gensim.models.KeyedVectors`.
   - Аргументы:
     - `model_path` — путь к файлу с моделью.
     - `binary=False` — указывает, что файл модели хранится в текстовом формате (если бы модель была бинарной, это значение нужно было бы установить как `True`).

   - **Результат:** Загружается модель, представляющая слова в виде векторов, которую можно использовать для дальнейших операций.

4. **`print("Модель загружена.")`**
   - Выводится сообщение о завершении загрузки модели.

5. **`return model`**
   - Функция возвращает объект `model` — загруженную векторную модель слов.

### **2. Функция поиска похожих слов**

In [None]:
def find_similar_words(model, positive, negative, topn=10):
    try:
        print("\nВыполняем векторную операцию...")
        similar_words = model.most_similar(positive=positive, negative=negative, topn=topn)
        return similar_words
    except KeyError as e:
        print(f"Ошибка: {e}")
        return []

#### Разбор:
1. **`def find_similar_words(model, positive, negative, topn=10):`**
   - Определяется функция `find_similar_words`, которая принимает четыре аргумента:
     - `model` — загруженная модель Word2Vec, полученная через функцию `load_model`.
     - `positive` (тип `list`) — список слов, которые нужно сложить (векторно).
     - `negative` (тип `list`) — список слов, которые нужно вычесть (векторно).
     - `topn` (тип `int`, значение по умолчанию — `10`) — число ближайших слов, которые нужно вернуть.

2. **`try:`**
   - Блок `try` используется для обработки возможных ошибок, например, если указанные слова отсутствуют в модели.

3. **`print("\nВыполняем векторную операцию...")`**
   - Сообщение для информирования пользователя о начале векторной операции.

4. **`similar_words = model.most_similar(positive=positive, negative=negative, topn=topn)`**
   - Метод `most_similar` выполняет операцию над векторами слов:
     - `positive=positive` — список слов для сложения.
     - `negative=negative` — список слов для вычитания.
     - `topn=topn` — возвращает `topn` наиболее близких слов по смыслу.
   - **Результат:** Список из кортежей, где каждый кортеж состоит из слова и его коэффициента близости.

5. **`return similar_words`**
   - Если операция успешна, возвращается список похожих слов.

6. **`except KeyError as e:`**
   - Если в модели нет одного из указанных слов, выбрасывается ошибка `KeyError`. Этот блок обрабатывает её.

7. **`print(f"Ошибка: {e}")`**
   - Сообщение о возникшей ошибке с указанием недостающего слова.

8. **`return []`**
   - В случае ошибки возвращается пустой список, чтобы программа могла продолжить выполнение.

### **3. Функция фильтрации существительных**

In [4]:
def filter_nouns(words):
    print("\nФильтруем существительные...")
    pat = re.compile(r"(.*)_NOUN")  # Регулярное выражение для поиска существительных
    filtered = [(pat.match(word[0]).group(1), word[1]) for word in words if pat.match(word[0])]
    return filtered

#### Разбор:
1. **`def filter_nouns(words):`**
   - Определяется функция `filter_nouns`, которая принимает один аргумент:
     - `words` (тип `list`) — список из кортежей, где каждый кортеж состоит из слова и его коэффициента близости.

2. **`print("\nФильтруем существительные...")`**
   - Сообщение для информирования пользователя о начале процесса фильтрации.

3. **`pat = re.compile(r"(.*)_NOUN")`**
   - Создаётся регулярное выражение для фильтрации существительных:
     - `(.*)` — захватывает любую строку (имя слова).
     - `_NOUN` — проверяет, что слово помечено как существительное.

4. **`filtered = [(pat.match(word[0]).group(1), word[1]) for word in words if pat.match(word[0])]`**
   - **Смысл:** Создаётся новый список, содержащий только существительные.
   - Логика:
     - Для каждого элемента `word` в списке `words`:
       - Проверяется, соответствует ли слово регулярному выражению `pat` (`if pat.match(word[0])`).
       - Если соответствует, извлекается часть слова без суффикса `_NOUN` (`pat.match(word[0]).group(1)`).
       - Добавляется в новый список вместе с коэффициентом близости `word[1]`.

5. **`return filtered`**
   - Возвращается отфильтрованный список, содержащий только существительные и их коэффициенты близости.


## **Основное тело программы**

In [5]:
# Путь к предобученной модели
model_path = "ruscorpora_upos_skipgram_300_5_2018.vec"
# Загружаем модель
word2vec = load_model(model_path)

Загрузка модели...
Модель загружена.


In [7]:
# Векторная операция
positive_words = ["антипротон_NOUN"]  # Слова для сложения
negative_words = ["калория_NOUN"]    # Слова для вычитания
topn = 10  # Количество ближайших слов для вывода

# Найти похожие слова
similar_words = find_similar_words(word2vec, positive=positive_words, negative=negative_words, topn=topn)
if not similar_words:
    print("Не удалось выполнить операцию.")
else:
    print("\nРезультаты векторной операции:")
    for i, (word, similarity) in enumerate(similar_words):
        print(f"{i + 1}: {word} (сходство: {similarity:.4f})")

    # Фильтрация существительных
    filtered_words = filter_nouns(similar_words)
    print("\nОтфильтрованные существительные:")
    if filtered_words:
        for i, (word, similarity) in enumerate(filtered_words):
            print(f"{i + 1}: {word} (сходство: {similarity:.4f})")
    else:
        print("Среди найденных слов нет существительных.")


Выполняем векторную операцию...

Результаты векторной операции:
1: античастица_NOUN (сходство: 0.3914)
2: фотонный_ADJ (сходство: 0.3891)
3: позитроны_NOUN (сходство: 0.3868)
4: диполь_NOUN (сходство: 0.3846)
5: антиводород_NOUN (сходство: 0.3807)
6: протон_NOUN (сходство: 0.3786)
7: позитрон_NOUN (сходство: 0.3744)
8: мезона_NOUN (сходство: 0.3713)
9: спектрометр_NOUN (сходство: 0.3689)
10: позитронный_ADJ (сходство: 0.3686)

Фильтруем существительные...

Отфильтрованные существительные:
1: античастица (сходство: 0.3914)
2: позитроны (сходство: 0.3868)
3: диполь (сходство: 0.3846)
4: антиводород (сходство: 0.3807)
5: протон (сходство: 0.3786)
6: позитрон (сходство: 0.3744)
7: мезона (сходство: 0.3713)
8: спектрометр (сходство: 0.3689)


#### Разбор тела программы
---
### **1. Определение входных данных для векторной операции**

```python
positive_words = ["антипротон_NOUN"]  # Слова для сложения
negative_words = ["калория_NOUN"]    # Слова для вычитания
topn = 10  # Количество ближайших слов для вывода
```

#### Разбор:
1. **`positive_words = ["антипротон_NOUN"]`**
   - Определяется список `positive_words`, содержащий слова для **сложения**.
   - В данном случае это одно слово `"антипротон_NOUN"`, где:
     - `"антипротон"` — слово.
     - `"_NOUN"` — суффикс, указывающий, что это существительное.

2. **`negative_words = ["калория_NOUN"]`**
   - Определяется список `negative_words`, содержащий слова для **вычитания**.
   - В данном случае это одно слово `"калория_NOUN"`.

3. **`topn = 10`**
   - Устанавливается количество ближайших слов для вывода (`topn`).
   - Значение `10` означает, что мы хотим получить 10 наиболее близких слов по смыслу к результату операции.

---

### **2. Вызов функции поиска похожих слов**

```python
similar_words = find_similar_words(word2vec, positive=positive_words, negative=negative_words, topn=topn)
```

#### Разбор:
1. **`similar_words =`**
   - Переменной `similar_words` присваивается результат работы функции `find_similar_words`.

2. **`find_similar_words(...)`**
   - Вызывается функция, которая была описана ранее. Её задача:
     - Выполнить векторную операцию, используя переданные слова.
     - Найти и вернуть список ближайших слов.
   - Аргументы:
     - `word2vec` — загруженная векторная модель (получена из `load_model`).
     - `positive=positive_words` — список слов для сложения.
     - `negative=negative_words` — список слов для вычитания.
     - `topn=topn` — количество ближайших слов, которые нужно вернуть.

3. **Результат работы:**
   - Если операция успешна, возвращается список `similar_words`, где каждый элемент — это кортеж вида `(слово, коэффициент_сходства)`.

---

### **3. Проверка результата**

```python
if not similar_words:
    print("Не удалось выполнить операцию.")
```

#### Разбор:
1. **`if not similar_words:`**
   - Проверяется, пуст ли список `similar_words`.
   - Список будет пустым, если:
     - Возникла ошибка (например, одно из слов отсутствует в модели).
     - Не удалось найти похожие слова.

2. **`print("Не удалось выполнить операцию.")`**
   - Если список пуст, выводится сообщение об ошибке, и выполнение программы на этом этапе завершится.

---

### **4. Вывод результатов векторной операции**

```python
else:
    print("\nРезультаты векторной операции:")
    for i, (word, similarity) in enumerate(similar_words):
        print(f"{i + 1}: {word} (сходство: {similarity:.4f})")
```

#### Разбор:
1. **`else:`**
   - Если список `similar_words` не пуст, выполняется этот блок кода.

2. **`print("\nРезультаты векторной операции:")`**
   - Выводится заголовок для результатов.

3. **`for i, (word, similarity) in enumerate(similar_words):`**
   - Цикл `for` проходит по каждому элементу списка `similar_words`.
   - `enumerate(similar_words)` возвращает индекс `i` и значения `word` (слово) и `similarity` (коэффициент близости).

4. **`print(f"{i + 1}: {word} (сходство: {similarity:.4f})")`**
   - Выводится номер слова (`i + 1`), само слово (`word`) и его коэффициент близости (`similarity`), округлённый до 4 знаков после запятой.

---

### **5. Фильтрация существительных**

```python
filtered_words = filter_nouns(similar_words)
print("\nОтфильтрованные существительные:")
```

#### Разбор:
1. **`filtered_words = filter_nouns(similar_words)`**
   - Вызывается функция `filter_nouns`, чтобы отфильтровать из списка `similar_words` только существительные.
   - В результате переменной `filtered_words` присваивается список кортежей вида `(слово, коэффициент_сходства)`, где слова помечены как `_NOUN`.

2. **`print("\nОтфильтрованные существительные:")`**
   - Выводится заголовок для отфильтрованных слов.

---

### **6. Проверка и вывод отфильтрованных существительных**

```python
if filtered_words:
    for i, (word, similarity) in enumerate(filtered_words):
        print(f"{i + 1}: {word} (сходство: {similarity:.4f})")
else:
    print("Среди найденных слов нет существительных.")
```

#### Разбор:
1. **`if filtered_words:`**
   - Проверяется, пуст ли список `filtered_words`.

2. **Если список не пуст:**
   - Выполняется цикл `for` для вывода существительных и их коэффициентов близости.
   - Каждое слово выводится в формате: `номер: слово (сходство: значение)`.

3. **Если список пуст:**
   - Выводится сообщение: `"Среди найденных слов нет существительных."`

---

### Итоговый алгоритм:
1. Определяются слова для сложения и вычитания, а также число возвращаемых слов.
2. Выполняется векторная операция (сложение/вычитание векторов слов).
3. Результаты операции (список похожих слов) выводятся пользователю.
4. Результаты фильтруются, оставляя только существительные.
5. Отфильтрованные результаты также выводятся пользователю.