## One Hot Encoding 

В реальных проектах в основном используется реализация scikit -learn

In [None]:
documents = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
processed_docs = [doc.lower().replace(".","") for doc in documents]
processed_docs

In [None]:
# Собираем словарь
vocab = {}
count = 0
for doc in processed_docs:
    for word in doc.split():
        if word not in vocab:
            count = count +1
            vocab[word] = count
print(vocab)

In [None]:
#Получить one hot encoding представление для любой строки на основе этого словаря.
#Если слово есть в словаре, возвращается его представление.
#Если нет, для этого слова возвращается список нулей.
def get_onehot_vector(somestring):
    onehot_encoded = []
    for word in somestring.split():
        temp = [0]*len(vocab)
        if word in vocab:
            temp[vocab[word]-1] = 1 # индексация фактов в массиве начинается с 0, а не с 1
        onehot_encoded.append(temp)
    return onehot_encoded

In [None]:
print(processed_docs[1])
get_onehot_vector(processed_docs[1]) #one hot encoding представление

man bites dog


[[0, 0, 1, 0, 0, 0], [0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0]]

In [None]:
get_onehot_vector("man and dog are good") 
#one hot представление случайного текста с использованием приведенного выше словаря

[[0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0]]

In [None]:
get_onehot_vector("man and man are good") 

[[0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0]]

## One-hot encoding с scikit -learn


* One-hot encoding: При One-hot encoding кодировании каждому слову w в корпусном словаре присваивается уникальный целочисленный идентификатор wid, который находится в диапазоне от 1 до |V|, где V — набор словарного запаса корпуса. Затем каждое слово представляется V-мерным двоичным вектором из нулей и единиц.

* Кодирование меток: в кодировании меток каждое слово w в нашем корпусе преобразуется в числовое значение от 0 до n-1 (где n относится к количеству уникальных слов в нашем корпусе).

##### Ссылка на официальную документацию обоих можно найти [здесь](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) и [здесь](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) respectively.








In [None]:
S1 = 'dog bites man'
S2 = 'man bites dog'
S3 = 'dog eats meat'
S4 = 'man eats food'

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

data = [S1.split(), S2.split(), S3.split(), S4.split()]
values = data[0]+data[1]+data[2]+data[3]
print("The data: ",values)

#Label Encoding
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print("Label Encoded:",integer_encoded)

#One-Hot Encoding
onehot_encoder = OneHotEncoder()
onehot_encoded = onehot_encoder.fit_transform(data).toarray()
print("Onehot Encoded Matrix:\n",onehot_encoded)


The data:  ['dog', 'bites', 'man', 'man', 'bites', 'dog', 'dog', 'eats', 'meat', 'man', 'eats', 'food']
Label Encoded: [1 0 4 4 0 1 1 2 5 4 2 3]
Onehot Encoded Matrix:
 [[1. 0. 1. 0. 0. 0. 1. 0.]
 [0. 1. 1. 0. 1. 0. 0. 0.]
 [1. 0. 0. 1. 0. 0. 0. 1.]
 [0. 1. 0. 1. 0. 1. 0. 0.]]


## Bag of Words



In [None]:
documents = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."] 
processed_docs = [doc.lower().replace(".","") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

Теперь давайте выполним основную задачу по поиску представления набора слов. Мы будем использовать CountVectorizer от sklearn.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#смотрим список документов
print("Our corpus: ", processed_docs)

count_vect = CountVectorizer()
# Создайте BOW-представление для корпуса
bow_rep = count_vect.fit_transform(processed_docs)

#Посмотрите на сопоставление словарного запаса
print("Our vocabulary: ", count_vect.vocabulary_)

# см. представителя BOW для первых 2 документов
print("BoW representation for 'dog bites man': ", bow_rep[0].toarray())
print("BoW representation for 'man bites dog: ",bow_rep[1].toarray())

# Получить представление, используя этот словарь, для нового текста
temp = count_vect.transform(["dog and dog are friends"])
print("Bow representation for 'dog and dog are friends':", temp.toarray())

Our corpus:  ['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']
Our vocabulary:  {'dog': 1, 'bites': 0, 'man': 4, 'eats': 2, 'meat': 5, 'food': 3}
BoW representation for 'dog bites man':  [[1 1 0 0 1 0]]
BoW representation for 'man bites dog:  [[1 1 0 0 1 0]]
Bow representation for 'dog and dog are friends': [[0 2 0 0 0 0]]


В приведенном выше коде мы представили текст с учетом частотности слов. Однако иногда нас не очень волнует частота, а нужно только знать, появилось ли слово в тексте или нет. То есть каждый документ представлен как вектор нулей и единиц. Для этой цели мы будем использовать опцию binary=True в CountVectorizer.

In [None]:
#BoW binary=True
count_vect = CountVectorizer(binary=True)
count_vect.fit(processed_docs)
temp = count_vect.transform(["dog and dog are friends"])
print("Bow representation for 'dog and dog are friends':", temp.toarray())

Bow representation for 'dog and dog are friends': [[0 1 0 0 0 0]]


## Bag of N-Grams

##### One hot encoding, BoW и TF-IDF относиться к словам как к самостоятельным единицам. Нет понятия фраз или порядка слов. Подход Bag of Ngrams (BoN) пытается исправить это. Он делает это, разбивая текст на куски из n счетных слов/токенов. Это может помочь нам зафиксировать некоторый контекст, чего не могли сделать предыдущие подходы. Давайте посмотрим, как это работает, используя тот же корпус, который мы использовали в предыдущих примерах.

In [None]:
#our corpus
documents = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]

processed_docs = [doc.lower().replace(".","") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

##### CountVectorizer, который мы использовали для BoW, также можно использовать для получения представления Bag of N-grams, используя его аргумент ngram_range. Фрагмент кода ниже показывает, как это сделать:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Пример векторизации Ngram с векторизатором count и uni, bi, trigrams
count_vect = CountVectorizer(ngram_range=(1,3))

# Создайте BOW-представление для корпуса
bow_rep = count_vect.fit_transform(processed_docs)

#Посмотрим на сопоставление словаря
print("Our vocabulary: ", count_vect.vocabulary_)

# смотрим на представителя BOW для первых 2 документов
print("BoW representation for 'dog bites man': ", bow_rep[0].toarray())
print("BoW representation for 'man bites dog: ",bow_rep[1].toarray())

#Получить представление, используя этот словарь, для нового текста
temp = count_vect.transform(["dog and dog are friends"])

print("Bow representation for 'dog and dog are friends':", temp.toarray())

Our vocabulary:  {'dog': 3, 'bites': 0, 'man': 12, 'dog bites': 4, 'bites man': 2, 'dog bites man': 5, 'man bites': 13, 'bites dog': 1, 'man bites dog': 14, 'eats': 8, 'meat': 17, 'dog eats': 6, 'eats meat': 10, 'dog eats meat': 7, 'food': 11, 'man eats': 15, 'eats food': 9, 'man eats food': 16}
BoW representation for 'dog bites man':  [[1 0 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0]]
BoW representation for 'man bites dog:  [[1 1 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0]]
Bow representation for 'dog and dog are friends': [[0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]


##### Обратите внимание, что количество признаков (и, следовательно, размер вектора признаков) значительно увеличилось для тех же данных по сравнению с представлениями, основанными на одном слове!

## TF-IDF

Во всех других подходах, которые мы видели до сих пор, все слова в тексте считаются одинаково важными. Нет понятия, что некоторые слова в документе важнее других. TF-IDF решает эту проблему. Он направлен на количественную оценку важности данного слова по отношению к другим словам в документе и в корпусе. Это была широко используемая схема представления для информационно-поисковых систем для извлечения соответствующих документов из корпуса для заданного текстового запроса.

В этм разделе показан простой пример того, как получить представление документа в формате TF-IDF с помощью TfidfVectorizer от sklearn.

In [None]:
documents = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
processed_docs = [doc.lower().replace(".","") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
bow_rep_tfidf = tfidf.fit_transform(processed_docs)

#IDF для всех слов из словаря
print("IDF for all words in the vocabulary",tfidf.idf_)
print("-"*10)
#Все слова из словаря
print("All words in the vocabulary",tfidf.get_feature_names())
print("-"*10)

#Представление TFIDF для всех документов в нашем корпусе 
print("TFIDF representation for all documents in our corpus\n",bow_rep_tfidf.toarray()) 
print("-"*10)

temp = tfidf.transform(["dog and man are friends"])
print("Tfidf representation for 'dog and man are friends':\n", temp.toarray())

IDF for all words in the vocabulary [1.51082562 1.22314355 1.51082562 1.91629073 1.22314355 1.91629073]
----------
All words in the vocabulary ['bites', 'dog', 'eats', 'food', 'man', 'meat']
----------
TFIDF representation for all documents in our corpus
 [[0.65782931 0.53256952 0.         0.         0.53256952 0.        ]
 [0.65782931 0.53256952 0.         0.         0.53256952 0.        ]
 [0.         0.44809973 0.55349232 0.         0.         0.70203482]
 [0.         0.         0.55349232 0.70203482 0.44809973 0.        ]]
----------
Tfidf representation for 'dog and man are friends':
 [[0.         0.70710678 0.         0.         0.70710678 0.        ]]




# pre-trained word2vec model

Let us take an example of a pre-trained word2vec model, and how we can use it to look for most similar words. We will use the Google News vectors embeddings.
https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM

Несколько других предварительно обученных моделей встраивания слов и подробности о средствах доступа к ним через gensim можно найти в:
https://github.com/RaRe-Technologies/gensim-data

In [None]:
# Библиотеки

# ===========================

!pip install wget==3.2
!pip install gensim==3.6.0
!pip install psutil==5.4.8
!pip install spacy==2.2.4

# ===========================

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting wget==3.2
  Downloading wget-3.2.zip (10 kB)
Building wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25l[?25hdone
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9675 sha256=e102875c14fd8eca31a3ef253df4dfcee1d4bdac1391fc46450d8f2fe7d9794a
  Stored in directory: /root/.cache/pip/wheels/a1/b6/7c/0e63e34eb06634181c63adacca38b79ff8f35c37e3c13e3c02
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy==2.2.4
  Downloading spacy-2.2.4-cp37-cp37m-manylinux1_x86_64.whl (10.6 MB)
[K     |█

In [None]:
import gdown

url = 'https://drive.google.com/u/0/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM'
output = 'GoogleNews-vectors-negative300.bin.gz'
gdown.download(url, output, quiet=False)

Downloading...
From: https://drive.google.com/u/0/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM
To: /content/GoogleNews-vectors-negative300.bin.gz
100%|██████████| 1.65G/1.65G [00:16<00:00, 97.1MB/s]


'GoogleNews-vectors-negative300.bin.gz'

In [None]:
import os
import wget
import gzip
import shutil


gn_vec_zip_path = "/content/GoogleNews-vectors-negative300.bin.gz"
gn_vec_path = "GoogleNews-vectors-negative300.bin"

#Extracting the required model
with gzip.open(gn_vec_zip_path, 'rb') as f_in:
    with open(gn_vec_path, 'wb') as f_out:
        shutil.copyfileobj(f_in, f_out)


print(f"Model at {gn_vec_path}")

Model at GoogleNews-vectors-negative300.bin


In [None]:
import warnings 
warnings.filterwarnings("ignore") 

import psutil 
process = psutil.Process(os.getpid())
from psutil import virtual_memory
mem = virtual_memory()

import time 

In [None]:
from gensim.models import Word2Vec, KeyedVectors
pretrainedpath = gn_vec_path

#Загрузим модель W2V. Это займет некоторое время, но это одноразовое действие!
pre = process.memory_info().rss
print("Memory used in GB before Loading the Model: %0.2f"%float(pre/(10**9))) #Проверить использование памяти перед загрузкой модели
print('-'*10)

start_time = time.time() #Start the timer
ttl = mem.total #Toal memory available

w2v_model = KeyedVectors.load_word2vec_format(pretrainedpath, binary=True) #загружаем модель
print("%0.2f seconds taken to load"%float(time.time() - start_time)) #Рассчитаем общее время, прошедшее с момента запуска таймера
print('-'*10)

print('Finished loading Word2Vec')
print('-'*10)

post = process.memory_info().rss
print("Memory used in GB after Loading the Model: {:.2f}".format(float(post/(10**9)))) #Рассчитаем объем используемой памяти после загрузки модели
print('-'*10)

print("Numver of words in vocablulary: ",len(w2v_model.vocab)) # размер словаря. 

Memory used in GB before Loading the Model: 0.17
----------
46.89 seconds taken to load
----------
Finished loading Word2Vec
----------
Memory used in GB after Loading the Model: 5.11
----------
Numver of words in vocablulary:  3000000


In [None]:
#Давайте рассмотрим модель и узнаем, какие слова наиболее похожи на заданное слово
w2v_model.most_similar('king')

[('kings', 0.7138046026229858),
 ('queen', 0.6510956883430481),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204220056533813),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864822864532471),
 ('ruler', 0.5797567367553711),
 ('princes', 0.5646552443504333),
 ('Prince_Paras', 0.543294370174408),
 ('throne', 0.5422104597091675)]

In [None]:
w2v_model.most_similar('moscow')

[('russian', 0.6279364228248596),
 ('russia', 0.5842015743255615),
 ('norway', 0.5729843378067017),
 ('iranian', 0.555073618888855),
 ('munich', 0.5443724393844604),
 ('birmingham', 0.5430877208709717),
 ('sns_ap', 0.542165994644165),
 ('glasgow', 0.5389269590377808),
 ('belgium', 0.5388047099113464),
 ('serbia', 0.5383957028388977)]

In [None]:
#Каково векторное представление слова?
w2v_model['computer']

array([ 1.07421875e-01, -2.01171875e-01,  1.23046875e-01,  2.11914062e-01,
       -9.13085938e-02,  2.16796875e-01, -1.31835938e-01,  8.30078125e-02,
        2.02148438e-01,  4.78515625e-02,  3.66210938e-02, -2.45361328e-02,
        2.39257812e-02, -1.60156250e-01, -2.61230469e-02,  9.71679688e-02,
       -6.34765625e-02,  1.84570312e-01,  1.70898438e-01, -1.63085938e-01,
       -1.09375000e-01,  1.49414062e-01, -4.65393066e-04,  9.61914062e-02,
        1.68945312e-01,  2.60925293e-03,  8.93554688e-02,  6.49414062e-02,
        3.56445312e-02, -6.93359375e-02, -1.46484375e-01, -1.21093750e-01,
       -2.27539062e-01,  2.45361328e-02, -1.24511719e-01, -3.18359375e-01,
       -2.20703125e-01,  1.30859375e-01,  3.66210938e-02, -3.63769531e-02,
       -1.13281250e-01,  1.95312500e-01,  9.76562500e-02,  1.26953125e-01,
        6.59179688e-02,  6.93359375e-02,  1.02539062e-02,  1.75781250e-01,
       -1.68945312e-01,  1.21307373e-03, -2.98828125e-01, -1.15234375e-01,
        5.66406250e-02, -

In [None]:
#Что произойдет, если я ищу слово, которого нет в этом словаре?
w2v_model['practicalnlp']

KeyError: ignored

#### Две вещи, которые следует учитывать при использовании предварительно обученных моделей:


1. Токены/слова всегда пишутся в нижнем регистре. Если слова нет в словаре, модель выдает исключение.
2. Таким образом, всегда полезно инкапсулировать эти операторы в блоки try/except.

 

# 2. Получение представления embedding для полного текста

Мы увидели, как получить векторы встраивания для отдельных слов. Как мы можем их использовать, чтобы получить такое представление для полного текста? Простой способ — просто суммировать или усреднять вложения для отдельных слов.  Давайте рассмотрим небольшой пример с использованием другой библиотеки  Spacy

In [None]:
!python -m spacy download en_core_web_md

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting en_core_web_md==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-2.2.5/en_core_web_md-2.2.5.tar.gz (96.4 MB)
[K     |████████████████████████████████| 96.4 MB 1.1 MB/s 
Building wheels for collected packages: en-core-web-md
  Building wheel for en-core-web-md (setup.py) ... [?25l[?25hdone
  Created wheel for en-core-web-md: filename=en_core_web_md-2.2.5-py3-none-any.whl size=98051301 sha256=496be5f7779dd64b6d803ce4aeb5957d4b60f94d5002e08ef2db3a5bc4e0a7d1
  Stored in directory: /tmp/pip-ephem-wheel-cache-cy3w8s1o/wheels/69/c5/b8/4f1c029d89238734311b3269762ab2ee325a42da2ce8edb997
Successfully built en-core-web-md
Installing collected packages: en-core-web-md
  Attempting uninstall: en-core-web-md
    Found existing installation: en-core-web-md 3.4.0
    Uninstalling en-core-web-md-3.4.0:
      Successfully uninstalled en-core-web-m

In [None]:
import spacy

%time 
nlp = spacy.load('en_core_web_md')
# обработать предложение используя модель
mydoc = nlp("Russia is a large country")
#Получить вектор для отдельных слов
#print(doc[0].vector) #vector для «Russia», первое слово в тексте
print(mydoc.vector) #Усредненный вектор для всего предложения

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 5.25 µs
[-1.68667185e+00  3.63152623e+00 -1.86475205e+00  2.05965996e+00
  6.87502003e+00 -1.59911826e-01 -8.53519887e-02  4.76753950e+00
  2.02361584e+00  4.52375889e-01  1.18858395e+01  1.47425997e+00
 -1.87467003e+00 -4.22039986e-01  6.31290078e-01  5.01420498e+00
  1.88179994e+00  3.22938800e+00  4.47037935e-01 -5.82363963e-01
  2.13324022e+00  5.29049993e-01 -4.60739994e+00  1.55904198e+00
 -9.90936100e-01 -9.84359920e-01 -1.28680015e+00 -5.29258060e+00
 -1.94400001e+00 -2.45310998e+00  3.86435986e-01  2.01385784e+00
 -1.36635196e+00 -2.10137796e+00 -3.41170430e+00  3.67221832e-01
  3.84093940e-01  3.50381911e-01  2.49042010e+00 -1.41144001e+00
 -4.48249996e-01  1.35421813e+00  1.92985988e+00  2.82409966e-01
 -2.56616020e+00  8.20699990e-01  2.51210189e+00 -1.86108780e+00
 -1.20745206e+00  2.34802008e+00 -1.94518399e+00 -3.62380967e-02
  3.37921786e+00 -4.72873974e+00 -1.83367968e-01 -7.04308033e-01
  2.95983410e+00 -2.662110

In [None]:
#Что происходит, когда я даю предложение со странными словами (и стоп-словами) и пытаюсь получить его вектор слов в Spacy?
temp = nlp('practicalnlp is a newword')
temp[0].vector

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

# Tokenization, Lemmatization, Stemming,  Sentence Segmentation



## Tokenization

![alt text](https://drive.google.com/uc?export=view&id=1h0ZNzohff1nUWMerrW50eDxY99ArRJTK)

В любой типичной задаче НЛП одним из первых шагов является разбиение фрагментов текста на отдельные слова/лексемы (процесс показан на рисунке выше), результат которого используется для создания так называемых словарей, которые будут использоваться в модель языка, которую вы планируете построить. На самом деле это одна из техник, которую мы будем использовать чаще всего в этой серии, но здесь мы придерживаемся основ.

Ниже пример простого токенизатора без каких-либо стандартов. Все, что он делает, это извлекает токены на основе разделителя пробелов.



In [None]:

%%capture
!pip install -U spacy
!pip install -U spacy-lookups-data
!python -m spacy download en_core_web_sm

In [None]:
!pip install spacy==2.2.4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy==2.2.4
  Using cached spacy-2.2.4-cp37-cp37m-manylinux1_x86_64.whl (10.6 MB)
Collecting srsly<1.1.0,>=1.0.2
  Using cached srsly-1.0.5-cp37-cp37m-manylinux2014_x86_64.whl (184 kB)
Collecting catalogue<1.1.0,>=0.0.7
  Using cached catalogue-1.0.0-py2.py3-none-any.whl (7.7 kB)
Collecting thinc==7.4.0
  Using cached thinc-7.4.0-cp37-cp37m-manylinux1_x86_64.whl (2.2 MB)
Collecting blis<0.5.0,>=0.4.0
  Using cached blis-0.4.1-cp37-cp37m-manylinux1_x86_64.whl (3.7 MB)
Installing collected packages: srsly, catalogue, blis, thinc, spacy
  Attempting uninstall: srsly
    Found existing installation: srsly 2.4.4
    Uninstalling srsly-2.4.4:
      Successfully uninstalled srsly-2.4.4
  Attempting uninstall: catalogue
    Found existing installation: catalogue 2.0.8
    Uninstalling catalogue-2.0.8:
      Successfully uninstalled catalogue-2.0.8
  Attempting uninstall: blis
    Foun

In [None]:
## токенизация фрагмента текста
doc = "I love coding and writing"
for i, w in enumerate(doc.split(" ")):
    print("Token " + str(i) + ": " + w)

Token 0: I
Token 1: love
Token 2: coding
Token 3: and
Token 4: writing


Все, что делает код, — это разделяет предложение на отдельные токены. Приведенный выше простой блок кода хорошо работает с текстом, который я предоставил. Но обычно текст намного шумнее и сложнее, чем в примере, который я использовал. Например, если бы я использовал слово «так называемый», это было бы одно слово или два слова? Для таких сценариев могут потребоваться более продвинутые подходы к токенизации. Вы можете убрать «-» и разделить на два токена или просто объединить в один токен, но все зависит от проблемы и домена, над которым вы работаете.

Еще одна проблема с нашим простым алгоритмом заключается в том, что он не может обрабатывать лишние пробелы в тексте. Кроме того, как нам быть с такими городами, как «Нью-Йорк» и «Сан-Франциско»?


---
**Упражнение 1**: Скопируйте приведенный выше код и добавьте дополнительные пробелы в строковое значение, присвоенное переменной `doc`, и определите проблему с кодом. Затем попытайтесь решить проблему. Подсказка: используйте `text.strip()`, чтобы решить проблему.

In [None]:
###  ENTER CODE HERE

### 

---

Токенизация также может принимать различные формы. Например, в последнее время многие современные модели NLP, такие как [BERT] (https://arxiv.org/pdf/1810.04805.pdf), используют токены «подслов», в которых часто встречаются комбинации символов. также входят в состав словарного запаса. Это помогает справиться с так называемой проблемой словарного запаса (OOV).  [статьей] (https://static.googleusercontent.com/media/research.google.com/en//pubs/archive). /37842.pdf).

Чтобы продемонстрировать, как можно добиться более надежной токенизации, мы разберем бибилиотеку [spaCy](https://spacy.io/), для обработки естественного языка, встроенный токенизатор, можно найти [здесь] (https://spacy.io/usage/linguistic-features#sbd-custom).



In [None]:
import spacy
## загрузим модель
nlp = spacy.load('en_core_web_md')

## токенизация фрагмента текста
doc = nlp("This is the so-called lemmatization")
for token in doc:
    print(token.text)

This
is
the
so
-
called
lemmatization


Все, что делает код, — это токенизирует текст на основе предварительно созданной языковой модели.

Попробуйте поместить другой текущий текст в часть `nlp()` кода выше. Токенизатор довольно надежен и включает в себя ряд встроенных правил, которые касаются исключений и особых случаев, таких как те токены, которые содержат знаки пунктуации, такие как «`» и «.», «-» и т. д. Вы даже можете добавить свои собственные правила, узнайте как [здесь](https://spacy.io/usage/linguistic-features#special-cases).

---

## Lemmatization

![alt text](https://drive.google.com/uc?export=view&id=1_-wxBOU_JebjdG1sxoobKYRCtX3dVF0L)

[Лемматизация] (https://en.wikipedia.org/wiki/Лемматизация) — это процесс, в котором мы берем отдельные токены из предложения и пытаемся привести их к их *основной* форме. Процесс, который делает это возможным, заключается в наличии словарного запаса и выполнении морфологического анализа для удаления флективных окончаний. Результатом процесса лемматизации (как показано на рисунке выше) является *лемма* или базовая форма слова. Например, процесс лемматизации сводит флексии «am», «are» и «is» к базовой форме «be». Взгляните на рисунок выше для полного примера и попытайтесь понять, что он делает.

Лемматизация полезна для нормализации текста для задач классификации текста или поисковых систем, а также для множества других задач НЛП, таких как [классификация настроений] (https://en.wikipedia.org/wiki/Sentiment_analysis). Это особенно важно при работе со сложными языками, такими как арабский и испанский.

Чтобы показать, как можно достичь лемматизации и как она работает, мы снова воспользуемся [spaCy](https://spacy.io/). Используя класс spaCy [Lemmatizer](https://spacy.io/api/lemmatizer#_title), мы собираемся преобразовать несколько слов в их леммы.


In [None]:
from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups

## lemmatization
doc = nlp(u'I love coding and writing')
for word in doc:
    print(word.text, "=>", word.lemma_)

I => -PRON-
love => love
coding => code
and => and
writing => writing


Приведенные выше результаты выглядят так, как и ожидалось. Единственная лемма, которая выглядит неправильно, - это `-PRON-`, возвращаемый для токена "I". Согласно документации spaCy, «*Это на самом деле ожидаемое поведение, а не ошибка. В отличие от глаголов и нарицательных существительных, нет четкой базовой формы личного местоимения. Должна ли лемма «я» быть «я», или мы должны также нормализовать лицо, давая «это» — или, может быть, «он»? Решение spaCy состоит в том, чтобы ввести новый символ -ПРОН-, который используется в качестве леммы для всех личных местоимений.*"

Узнайте больше об этом в [документации spaCy](https://spacy.io/api/annotation#lemmatization).

---

**Упражнение 2.** Попробуйте выполнить приведенный выше код с другими предложениями и посмотрите, не получите ли вы неожиданных результатов. Кроме того, попробуйте добавить знаки препинания и дополнительные пробелы, которые чаще встречаются в естественном языке. Что случается?

In [None]:
### ENTER CODE HERE

###

---

Мы также можем создать собственный лемматизатор, как показано ниже (*код взят непосредственно с веб-сайта spaCy*):



In [None]:
## lookup tables
lookups = Lookups()
lookups.add_table("lemma_rules", {"noun": [["s", ""]]})
lemmatizer = Lemmatizer(lookups)

words_to_lemmatize = ["cats", "brings", "sings"]

for w in words_to_lemmatize:
    lemma = lemmatizer(w, "NOUN")
    print(lemma)

['cat']
['bring']
['sing']


---

## Stemming

![alt text](https://drive.google.com/uc?export=view&id=1XcK3OzdPd2ywO8Y4G6vfjuIFthPce3FH)

Стемминг — это просто более простая версия лемматизации, в которой мы заинтересованы в удалении *суффикса* в конце слова. При выделении корня нам интересно свести *измененное* или *производное* слово к его базовой форме. Взгляните на рисунок выше, чтобы получить некоторое представление о процессе.

Процессы образования основы и лемматизации включают [*морфологический анализ*] (https://en.wikipedia.org/wiki/Morphology_(linguistics)), где основы и аффиксы (называемые *морфемами*) извлекаются и используются для сокращения к их основной форме. Например, слово *cats* имеет две морфемы, *cat* и *s*, причем *cat* является основой, а *s* является аффиксом, обозначающим множественность.

spaCy не поддерживает выделение корней, поэтому мы будем использовать [NLTK] (https://www.nltk.org/), еще одну замечательную библиотеку Python NLP.



In [None]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer(language='english')
doc = 'I prefer not to argue'
for token in doc.split(" "):
    print(token, '=>' , stemmer.stem(token))

I => i
prefer => prefer
not => not
to => to
argue => argu


Обратите внимание, что корень слова «argue» — «argu». Это потому, что мы можем получить такие слова, как "argument", "arguing", "argued"

---

**Упражнение 3.** Попробуйте использовать разные предложения в приведенном выше коде и понаблюдайте за эффектом парадигматического модуля. Кстати, в библиотеке NLTK есть и другие стеммеры, такие как стеммер Porter. Каждый стеммер ведет себя по-разному, поэтому вывод может отличаться. Не стесняйтесь попробовать [стеммер Porter] (https://www.nltk.org/howto/stem.html) из библиотеки NLTK и проверить вывод различных парадигматических модулей.

In [None]:
###  ENTER CODE HERE

###

# BPE (Byte-Pair Encoding)

In [None]:
!python3 -m pip install --user bpe

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting bpe
  Downloading bpe-1.0-py3-none-any.whl (6.8 kB)
Collecting hypothesis
  Downloading hypothesis-6.54.5-py3-none-any.whl (390 kB)
[K     |████████████████████████████████| 390 kB 10.2 MB/s 
Collecting mypy
  Downloading mypy-0.971-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (15.0 MB)
[K     |████████████████████████████████| 15.0 MB 61.0 MB/s 
Collecting exceptiongroup>=1.0.0rc8
  Downloading exceptiongroup-1.0.0rc9-py3-none-any.whl (12 kB)
Collecting mypy-extensions>=0.4.3
  Downloading mypy_extensions-0.4.3-py2.py3-none-any.whl (4.5 kB)
Collecting typed-ast<2,>=1.4.0
  Downloading typed_ast-1.5.4-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (843 kB)
[K     |████████████████████████████████| 843 kB 48.2 MB/s 
Installing collected packages: typed-ast, mypy-extensions, e

In [None]:
from bpe import Encoder

# Generated with http://pythonpsum.com
test_corpus = '''
    Object raspberrypi functools dict kwargs. Gevent raspberrypi functools. Dunder raspberrypi decorator dict didn't lambda zip import pyramid, she lambda iterate?
    Kwargs raspberrypi diversity unit object gevent. Import fall integration decorator unit django yield functools twisted. Dunder integration decorator he she future. Python raspberrypi community pypy. Kwargs integration beautiful test reduce gil python closure. Gevent he integration generator fall test kwargs raise didn't visor he itertools...
    Reduce integration coroutine bdfl he python. Cython didn't integration while beautiful list python didn't nit!
    Object fall diversity 2to3 dunder script. Python fall for: integration exception dict kwargs dunder pycon. Import raspberrypi beautiful test import six web. Future integration mercurial self script web. Return raspberrypi community test she stable.
    Django raspberrypi mercurial unit import yield raspberrypi visual rocksdahouse. Dunder raspberrypi mercurial list reduce class test scipy helmet zip?
'''

encoder = Encoder(200, pct_bpe=0.88)  
encoder.fit(test_corpus.split('\n'))

example = "practicalnlp is a newword"
print(encoder.tokenize(example))
print(next(encoder.transform([example])))
print(next(encoder.inverse_transform(encoder.transform([example]))))

['__sow', 'p', 'ra', 'c', 'ti', 'c', 'al', 'n', 'l', 'p', '__eow', '__sow', 'is', '__eow', '__sow', 'a', '__eow', '__sow', 'ne', 'w', 'w', 'or', 'd', '__eow']
[25, 40, 50, 34, 112, 34, 63, 39, 31, 40, 24, 25, 45, 24, 25, 33, 24, 25, 107, 56, 56, 60, 36, 24]
practicalnlp is a newword
