# Обработка естественного языка

В применении алгоритмов ML и DL к задачам обработки естественного языка существует своя специфика. Моделирование языка самого по себе - задача нетривиальная и имеет обычно вероятностную интерпретацию. Для работы с естественным языком, конкретизации возможных задач его обработки и методов их решения, зададим ряд специфических определений.

**Определения:**

**Def 1**: В рамках моделирования естественного языка принимается аксиома о существовании структурных единиц в рамках языка. Такие структурные единицы мы будем называть **термами** (terms). Обычно "термы" и "слова" - практически взаимозаменяемые понятия.

**Def 2**: Тексты, предстовляющие из себя совокупность слов, часто называют **документами**, а набор текстов - **коллекцией**

**Def 3**: В задачах определения некой характеристики текста особенно актуально понятие **стоп-слов**. Стоп-словом будем называть любой терм, вероятность появления которого в тексте близка к равномерной на множестве возможных характеристик текстов. Иначе говоря стоп-слова - это бесполезные для нас термы, которые мы можем встретить вообще в любом тексте примерно с одинаковой вероятностью, а значит, никаким образом этот текст не характеризующие. Хорошим примером стоп-слов являются служебные части речи, а в английском языке - артикли.

**Def 4**: Стемминг - способ преобразования слова, в результате применения котрого у слова отбрасывается его окончание

**Def 5**: Лемматизация - способ преобразования слова, в результате которого слово приводится к его начальной (или словарной) форме.


In [None]:
import nltk #natural language toolkit
from nltk.stem import WordNetLemmatizer

nltk.download('omw-1.4')
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()

word = "dogs"

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package wordnet to /root/nltk_data...


In [None]:
lemmatizer.lemmatize(word)

'dog'

In [None]:
# Можно и на русском
!pip install pymorphy2
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 KB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m48.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13721 sha256=a1016ac0730cd825ef998010f6d6dc71a9e8a41b7e047d9

In [None]:
word = 'Наикрасивейший'
morph.parse(word)[0].normal_form

'красивый'

# Предобработка текстов

Предобработка текстов - важнейший этап в решении любой задачи NLP. Предобработка текстов включает в себя следующие шаги:

0. Очистка текста

1. Токенизация текстов. Подразумевает разбиение текста на токены, то есть термы и их последовательности (униграммы, биграммы, триграммы и тд)

2. Лемматизация/стемминг

3. Удаление стоп-слов

4. Выделение дополнительных признаков из текста

5. Векторизация текста

In [None]:
from nltk import regexp_tokenize

def tokenize_n_normalize(sent, pat=r"(?u)\b\w\w+\b", morph=pymorphy2.MorphAnalyzer()):
    return [morph.parse(tok)[0].normal_form for tok in regexp_tokenize(sent, pat)]

In [None]:
text = \
"""
«Мой дядя самых честных правил,
Когда не в шутку занемог,
Он уважать себя заставил
И лучше выдумать не мог.
Его пример другим наука;
Но, боже мой, какая скука
С больным сидеть и день и ночь,
Не отходя ни шагу прочь!
Какое низкое коварство
Полуживого забавлять,
Ему подушки поправлять,
Печально подносить лекарство,
Вздыхать и думать про себя:
Когда же черт возьмет тебя!»

Так думал молодой повеса,
Летя в пыли на почтовых,
Всевышней волею Зевеса
Наследник всех своих родных.
Друзья Людмилы и Руслана!
С героем моего романа
Без предисловий, сей же час
Позвольте познакомить вас:
Онегин, добрый мой приятель,
Родился на брегах Невы,
Где, может быть, родились вы
Или блистали, мой читатель;
Там некогда гулял и я:
Но вреден север для меня

"""

In [None]:
import re, string
regex = re.compile('[%s]' % re.escape(string.punctuation))
def clear(text: str) -> str:
    text = regex.sub('', text.lower())
    text = re.sub(r'[«»\n]', ' ', text)
    text = text.replace('ё', 'е')
    return text.strip()

In [None]:
clear(text)

'мой дядя самых честных правил когда не в шутку занемог он уважать себя заставил и лучше выдумать не мог его пример другим наука но боже мой какая скука с больным сидеть и день и ночь не отходя ни шагу прочь какое низкое коварство полуживого забавлять ему подушки поправлять печально подносить лекарство вздыхать и думать про себя когда же черт возьмет тебя   так думал молодой повеса летя в пыли на почтовых всевышней волею зевеса наследник всех своих родных друзья людмилы и руслана с героем моего романа без предисловий сей же час позвольте познакомить вас онегин добрый мой приятель родился на брегах невы где может быть родились вы или блистали мой читатель там некогда гулял и я но вреден север для меня'

In [None]:
clear_text = clear(text)
tokenize_n_normalize(clear_text)

['мой',
 'дядя',
 'самый',
 'честной',
 'правило',
 'когда',
 'не',
 'шутка',
 'занемочь',
 'он',
 'уважать',
 'себя',
 'заставить',
 'хороший',
 'выдумать',
 'не',
 'мочь',
 'он',
 'пример',
 'другой',
 'наука',
 'но',
 'бог',
 'мой',
 'какой',
 'скука',
 'больной',
 'сидеть',
 'день',
 'ночь',
 'не',
 'отходить',
 'ни',
 'шаг',
 'прочь',
 'какой',
 'низкий',
 'коварство',
 'полуживой',
 'забавлять',
 'он',
 'подушка',
 'поправлять',
 'печально',
 'подносить',
 'лекарство',
 'вздыхать',
 'думать',
 'про',
 'себя',
 'когда',
 'же',
 'черта',
 'взять',
 'ты',
 'так',
 'думать',
 'молодой',
 'повеса',
 'лететь',
 'пыль',
 'на',
 'почтовый',
 'всевышний',
 'воля',
 'зевес',
 'наследник',
 'весь',
 'свой',
 'родный',
 'друг',
 'людмила',
 'руслан',
 'герой',
 'мой',
 'роман',
 'без',
 'предисловие',
 'сей',
 'же',
 'час',
 'позволить',
 'познакомить',
 'вы',
 'онегин',
 'добрый',
 'мой',
 'приятель',
 'родиться',
 'на',
 'брег',
 'нева',
 'где',
 'мочь',
 'быть',
 'родиться',
 'вы',
 'или'

In [None]:
tokenized_text = tokenize_n_normalize(clear_text)


from nltk.corpus import stopwords
nltk.download('stopwords')
russian_stopwords = stopwords.words("russian")
len(russian_stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


151

In [None]:
preproccessed_text = [w for w in tokenized_text if not w in russian_stopwords]
preproccessed_text

['дядя',
 'самый',
 'честной',
 'правило',
 'шутка',
 'занемочь',
 'уважать',
 'заставить',
 'хороший',
 'выдумать',
 'мочь',
 'пример',
 'наука',
 'бог',
 'скука',
 'больной',
 'сидеть',
 'день',
 'ночь',
 'отходить',
 'шаг',
 'прочь',
 'низкий',
 'коварство',
 'полуживой',
 'забавлять',
 'подушка',
 'поправлять',
 'печально',
 'подносить',
 'лекарство',
 'вздыхать',
 'думать',
 'черта',
 'взять',
 'думать',
 'молодой',
 'повеса',
 'лететь',
 'пыль',
 'почтовый',
 'всевышний',
 'воля',
 'зевес',
 'наследник',
 'весь',
 'свой',
 'родный',
 'друг',
 'людмила',
 'руслан',
 'герой',
 'роман',
 'предисловие',
 'сей',
 'час',
 'позволить',
 'познакомить',
 'онегин',
 'добрый',
 'приятель',
 'родиться',
 'брег',
 'нева',
 'мочь',
 'родиться',
 'блистать',
 'читатель',
 'некогда',
 'гулять',
 'вредный',
 'север']

In [None]:
def preprocess(text, stopwords):
  clear_text = clear(text)
  tokenized_text = tokenize_n_normalize(clear_text)
  preproccessed_text = [w for w in tokenized_text if not w in stopwords]
  return preproccessed_text

# Решим задачу бинарной классификации отзывов о фильмах IMDB

1) При помощи частотного подхода

2) Обучив нейронную сеть

In [None]:
path = "./drive/MyDrive/SummerSchool_2022/DATA/IMDB/"

In [None]:
train_texts =[]
train_labels = []

test_texts =[]
test_labels = []


fp_train_texts = open(path+'train.texts','r',encoding='utf-8')
for text in fp_train_texts:
    train_texts.append(text)

fp_train_labels = open(path+'train.labels','r',encoding='utf-8')
for label in fp_train_labels:
    train_labels.append(label)

fp_test_texts = open(path+'dev.texts','r',encoding='utf-8')
for text in fp_test_texts:
    test_texts.append(text)

fp_test_labels = open(path+'dev.labels','r',encoding='utf-8')
for label in fp_test_labels:
    test_labels.append(label)


print('Длина тренировочного набора текстов: ', len(train_texts))
print('Длина тестового набора текстов: ',len(test_texts))

Длина тренировочного набора текстов:  15000
Длина тестового набора текстов:  10000


In [None]:
import tqdm
from tqdm import tqdm
stopwords_ = stopwords.words("english")
preprocessed_texts = []
for text in tqdm(train_texts):
  prep_text = preprocess(text, stopwords_)
  preprocessed_texts.append(prep_text)

100%|██████████| 15000/15000 [01:25<00:00, 176.18it/s]


In [None]:
vocabulary = set([]) #Задаем словарь, как множество

for text in tqdm(preprocessed_texts): #Заполняем его
    vocab_of_text = set(text)
    vocabulary = vocabulary.union(vocab_of_text)

vocabulary = list(vocabulary) #преобразуем к list
len(vocabulary)

100%|██████████| 15000/15000 [00:39<00:00, 378.07it/s]


92749

In [None]:
negative_dict = {word:0 for word in vocabulary}
positive_dict = negative_dict.copy()

for i,text in tqdm(enumerate(preprocessed_texts)):
    target = 0 if train_labels[i] == 'neg\n' else 1
    for word in text:
        if target:
            positive_dict[word]+=1
        else:
            negative_dict[word]+=1

15000it [00:00, 25435.38it/s]


Каждому слову припишем теперь некоторый "ранг", который определим как $rank(word) = \frac{P-N}{T}$, где P = positive_dict[word], N = negative_dict[word], а T - это число, равное количеству нахождений слова word всего в текстах.

При этом предлагается выкинуть те слова, которые встречаются совсем уж редко. Скажем, что не будем учитывать слова, которые встречаются менее 5 раз.

In [None]:
rank_new = lambda word: rank(word) if word in vocabulary else 0
decision = lambda text: 1 if sum([rank_new(word) for word in text]) > 0 else 0
P = lambda word: positive_dict[word]
N = lambda word: negative_dict[word]
T = lambda word: positive_dict[word] + negative_dict[word]
rank = lambda word: (P(word) - N(word))/(T(word))
rank_dict = {word: 0 if T(word)<5 else rank(word) for word in vocabulary}

Предобработаем тестовые тексты

In [None]:
preprocessed_test_texts = []
for text in tqdm(test_texts):
  prep_text = preprocess(text, stopwords_)
  preprocessed_test_texts.append(prep_text)

100%|██████████| 10000/10000 [01:02<00:00, 159.07it/s]


Замечание: Проверка всех 10000 текстов займет большое время выполнения. Поэтому мы выберем 500 случайных из них и оценим алгоритм на них

In [None]:
import numpy as np

set_of_indexes = np.arange(0,10000,1)
indexes = set_of_indexes#np.random.choice(set_of_indexes,500, False)

In [None]:
label_to_int = lambda label: 0 if label == 'neg\n' else 1

texts = [preprocessed_test_texts[j] for j in indexes]
predictions = []
y_true = []
for i,text in tqdm(enumerate(texts)):
    dec = decision(text)
    label = label_to_int(test_labels[indexes[i]])
    predictions.append(dec)
    y_true.append(label)

734it [02:26,  5.00it/s]


KeyboardInterrupt: ignored

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(y_true, predictions)

0.85

# Применение моделей ML

Результат неплох, но если мы хотим улучшить его с помощью применения алгоритмов машинного обучения и нейронных сетей, мы должны представить тексты в виде векторов. Существует множество способов сделать это.

Начнем с разбора самых простых из этих методов.

# 1. One-Hot encoding. Bag of Words

Самый простой способ провести векторизацию текстов - это провести так называемое One-Hot преобразование.

Оно состоит в следующем:
Пусть мы имеем словарь, состоящий из N слов, каждое из которых имеет свой уникальный номер. Тогда слову w, имеющему в словаре номер i поставим в соответствие вектор [0 ... 0 1 0 ... 0], где 1 стоит на i-й позиции. Размерность такого вектора равна N.

Пусть мы имеем документ D = {$w_1 ... w_m$}. Каждое из слов $w_j$ имеет своё векторное представление $\vec{w_j}$, описанное выше. Тогда вектором документа D назовем векторную сумму $∑\limits_{i=1}^{m}\vec{w_i}$.

Такой вектор имеет вид [0 ... 0 1 0 ... 0 1 0 ... 0 1 0 ... 0], где единицы стоят на местах, отвечающих номерам слов {$w_1 ... w_m$} в словаре

# 2. TF-IDF encoding.

Предыдущий способ векторизации имеет ряд недостатков:
- Все слова в данном представлении абсолютно равнозначны по своим семантическим свойствам

- Любые пары слов в таком представлении равноудалены друг от друга с точки зрения любой разумной метрики

- Размерность полученного вектора получается слишком большой

С последней проблемой мы будем бороться позже, а вот первые две попробуем исправить сейчас. Сделать это можно при помощи применения способа векторизации текстов, который называется tf-idf


Идея этого метода состоит в том, что мы предполагаем существование некоторого скрытого параметра "важности" каждого слова в тексте для характеристики этого текста. Причем эта важность отвечает двум следующим условиям:

1) Чем чаще слово встречается в корпусе текстов (по количеству документов, в котором оно встретилось), тем менее оно значимо для характеристики данного конкретного текста

2) Чем чаще слово встречается непосредственно в самом рассматриваемом тексте, тем более оно значимо для его характеристики.

Тогда важность эту можно выразить следующим образом: $$\frac{TF}{DF}$$

Где TF - Term Frequency - частота встречаемости данного слова в выбранном тексте,
DF - Document Frequency - частота встречаемости слова в документах в рамках коллекции текстов.

Иначе говоря, TF = $\frac{N_d}{N}$, где $N_d$ - количество раз, которое слово w было встречено в документе d, а N - длина d в термах. DF = $\frac{N_{df}}{M}$, где $N_{df}$ - количество текстов, в которых встретилось слово w, а M - мощность коллекции.

Введем также величину inversed document frequency (IDF): $$IDF = ln(\frac{1}{DF})$$
Очевидно, IDF ~ $\frac{1}{DF}$

Тогда вес слова TF-IDF(word) = TF(word)*IDF(word)

Тогда вектором документа D назовем векторную сумму $∑\limits_{i=1}^{m}TF\_IDF(w_i)\vec{w_i}$

К такому вектору уже применимы алгоритмы машинного обучения

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
class Net(nn.Module):
    def __init__(self, dim):
        super(Net, self).__init__()
        self.L1 = nn.Linear(dim, 1)
        #self.L2 = nn.Linear(2000,100)
        #self.L3 = nn.Linear(100,1)

    def forward(self, x):
        x = self.L1(x)
        #x = F.relu(x)
        #x = self.L2(x)
       # x = F.relu(x)
       # x = self.L3(x)
        x = torch.sigmoid(x)
        return x

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

texts_train = [''.join(t) for t in preprocessed_texts     ]
texts_test =  [''.join(t) for t in preprocessed_test_texts]

vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(texts_train)

In [None]:
import numpy as np
train_labels = np.array([1 if l == 'pos\n' else 0 for l in train_labels])

In [None]:
from sklearn.model_selection import train_test_split

X_train, x_val, y_train, y_val = train_test_split(X, train_labels, test_size=0.2, shuffle=True)

In [None]:
class Dataset(torch.utils.data.Dataset):
    def __init__(self, X: np.array, Y: np.array):
        super().__init__()
        self.data = torch.FloatTensor(X)
        self.target = torch.FloatTensor(Y)
        self.data_shape = self.data.shape

    def __getitem__(self,i):
        return self.data[i,:], self.target[i]

    def __len__(self):
        return self.data_shape[0]

In [None]:
dataset_train = Dataset(X_train.toarray(), y_train)
dataset_val   = Dataset(x_val.toarray(), y_val    )

In [None]:
dataloader_train = torch.utils.data.DataLoader(dataset_train,
                                               batch_size=50,
                                               shuffle=True,
                                               num_workers=0)

dataloader_val = torch.utils.data.DataLoader(dataset_val,
                                               batch_size=3000,
                                               shuffle=True,
                                               num_workers=0)

In [None]:
from sklearn.metrics import accuracy_score
def train(model, dataloader_train, dataloader_val, num_epoch, log_every_n, optimizer, criterion):
    step = 0
    losses = []
    accuracy = []
    val_losses = []
    val_accuracy = []
    for t in range(num_epoch):
        for X,y in dataloader_train:
            y_pred = model(X)
            loss = criterion(y_pred.view(-1), y.view(-1))
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            y_ans = (y_pred.detach().cpu().numpy() > 0.5).astype(int)
            acc = accuracy_score(y_ans, y.detach().cpu().numpy())

            losses.append(loss.item())
            accuracy.append(acc)

            if step % log_every_n == 0:
              with torch.no_grad():
                loss_val = []
                acc_val = []
                for X_val, y_val in dataloader_val:
                    y_pred = model(X_val)
                    loss_v = criterion(y_pred.view(-1), y_val.view(-1))
                    loss_val.append(loss_v.item())

                    y_ans_v = (y_pred.detach().cpu().numpy() > 0.5).astype(int)
                    acc_v = accuracy_score(y_ans_v, y_val.detach().cpu().numpy())
                    acc_val.append(acc_v)
                loss_val = np.mean(loss_val)
                val_losses.append(loss_val)
                val_accuracy.append(np.mean(acc_val))
            step+=1




    return model, losses, accuracy, val_losses, val_accuracy


In [None]:
dim = X_train.shape[1]
NN = Net(dim=dim)

criterion = torch.nn.MSELoss()
optimizer = torch.optim.Adam(NN.parameters(), lr=1e-3, weight_decay=1e-4)

In [None]:
NN, losses, accuracy, val_losses, val_accuracy = train(NN, dataloader_train, dataloader_val, num_epoch=3, log_every_n=10, optimizer=optimizer, criterion=criterion)

In [None]:
X_test = torch.FloatTensor(vectorizer.transform(texts_test).toarray())
test_labels = np.array([1 if l == 'pos\n' else 0 for l in test_labels])

preds_test = NN(X_test)
answer = (preds_test.detach().numpy() > 0.5).astype(int)
accuracy_score(answer, test_labels)

0.498