# 0. Библиотеки для NLP

NLP - natural language processing (обработка естественного языка)

## Зачем нужны библиотеки?


*   Tokenization
*   Part-of-speech (POS) Tagging
*   Lemmatization
*   Named Entity Recognition (NER)
*   Similarity
*   Text Classification
*   etc.

## Библиотеки для NLP


*   NLTK: English
*   **spaCy**: English, Spanish, Russian, etc.
*   natasha: Russian
*   etc.





# 1. spaCy: Введение

https://spacy.io/

## Загрузка модели и установка модели

Перед началом работы необходимо загрузить библиотеку на компьютер с помощью pip install (через cmd, jupyter notebook или гугл колаб). Также необходимо загрузить русскую языковую модель.

Существует 2 русские модели:


*   ru_core_news_sm - быстрая и небольшая, но менее точная.
*   ru_core_news_lg - тяжелая и медленная, но точная.



In [None]:
!pip install spacy==3.2.4
!python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.2.0/ru_core_news_sm-3.2.0-py3-none-any.whl (16.4 MB)
[K     |████████████████████████████████| 16.4 MB 46 kB/s 
[?25hCollecting pymorphy2>=0.9
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 2.5 MB/s 
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[K     |████████████████████████████████| 8.2 MB 12.7 MB/s 
Installing collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2, ru-core-news-sm
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844 ru-core-news-sm-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


Затем, как и все библиотеки, библиотеку нужно импортировать.

In [None]:
import spacy

Загрузка необходимой языковой модели:


In [None]:
nlp = spacy.load("ru_core_news_sm")

In [None]:
nlp

<spacy.lang.ru.Russian at 0x7f2f716cbf50>

В переменной nlp находится объект Language, у которого есть несколько встроенных функций.

## Первые шаги

In [None]:
text = 'Колобок полежал-полежал, да вдруг и покатился — с окна на лавку, с лавки на пол, по полу да к дверям, перепрыгнул через порог в сени, из сеней на крыльцо, с крыльца на двор, со двора за ворота, дальше и дальше.'
doc = nlp(text)

In [None]:
type(doc)

spacy.tokens.doc.Doc

Что такое переменная **doc**? Это объект типа Doc, т.е. набор токенов, который содержит как исходный текст, так и всё, что обработала библиотека spaCy: леммы, именованные сущности, векторы слов и проч.

## Токенизация

**Токенизация** - процесс разделения письменного языка на предложения-компоненты (слова и не-слова, типа знаков препинания) - т.е. на **токены**. 

In [None]:
for token in doc:
  print(token.text)

Колобок
полежал
-
полежал
,
да
вдруг
и
покатился
—
с
окна
на
лавку
,
с
лавки
на
пол
,
по
полу
да
к
дверям
,
перепрыгнул
через
порог
в
сени
,
из
сеней
на
крыльцо
,
с
крыльца
на
двор
,
со
двора
за
ворота
,
дальше
и
дальше
.


Выведем общее количество токенов в тексте:

In [None]:
print("Всего в тексте {} токенов".format(len(doc)))

Всего в тексте 51 токенов


Очистим текст от знаков препинания и стоп-слов (незначительных слов, которые часто встречаются в тексте)

In [None]:
clean_doc = []
for token in doc:
  if not token.is_stop and not token.is_punct:
    clean_doc.append(token)
print(clean_doc)

[Колобок, полежал, полежал, вдруг, покатился, окна, лавку, лавки, пол, полу, дверям, перепрыгнул, через, порог, сени, сеней, крыльцо, крыльца, двор, со, двора, ворота, дальше, дальше]


In [None]:
#альтернативная запись кода сверху
# clean_doc=[token for token in doc if not token.is_stop and not token.is_punct]

In [None]:
print("В очищенном тексте {} токенов".format(len(clean_doc)))

В очищенном тексте 24 токенов


Стоит отметить, что каждый токен, находящийся в полученном очищенном массиве, является уникальным, так как содержит свою индивидуальную информацию.

## Лемматизация

**Лемматизация** - приведение слов к начальной форме (отдельные слова - **леммы**).

In [None]:
for token in doc:
  print(token.lemma_)

колобок
полежать
-
полежать
,
да
вдруг
и
покатиться
—
с
окно
на
лавка
,
с
лавка
на
пол
,
по
пол
да
к
дверь
,
перепрыгнуть
через
порог
в
сень
,
из
сеней
на
крыльцо
,
с
крыльцо
на
двор
,
со
двор
за
ворота
,
дальше
и
дальше
.


## Вывод частей речи

In [None]:
for token in doc:
  print(token.text,'---- ',token.pos_)

Колобок ----  PROPN
полежал ----  VERB
- ----  NOUN
полежал ----  VERB
, ----  PUNCT
да ----  CCONJ
вдруг ----  ADV
и ----  PART
покатился ----  VERB
— ----  PUNCT
с ----  ADP
окна ----  NOUN
на ----  ADP
лавку ----  NOUN
, ----  PUNCT
с ----  ADP
лавки ----  NOUN
на ----  ADP
пол ----  NOUN
, ----  PUNCT
по ----  ADP
полу ----  NOUN
да ----  PART
к ----  ADP
дверям ----  NOUN
, ----  PUNCT
перепрыгнул ----  VERB
через ----  ADP
порог ----  NOUN
в ----  ADP
сени ----  NOUN
, ----  PUNCT
из ----  ADP
сеней ----  NOUN
на ----  ADP
крыльцо ----  NOUN
, ----  PUNCT
с ----  ADP
крыльца ----  NOUN
на ----  ADP
двор ----  NOUN
, ----  PUNCT
со ----  ADP
двора ----  NOUN
за ----  ADP
ворота ----  NOUN
, ----  PUNCT
дальше ----  ADV
и ----  CCONJ
дальше ----  ADV
. ----  PUNCT


Для определения обозначений можно использовать этот сайт: https://universaldependencies.org/u/pos/
Также можно попросить spaCy объяснить, что значит то или иное обозначение:

In [None]:
spacy.explain('ADP')

'adposition'

## Выделение именованных сущностей (NER)

**Именованные сущности** - имена людей, названия компаний и проч.

In [None]:
text = "Компания 'Яблоко' представила свою новую разработку Илону Маску"
doc2 = nlp(text)
print(doc2.ents)

('Яблоко', Илону Маску)


Также можно посмотреть, к какому классу относятся выделенные именованные сущности.

In [None]:
for entity in doc2.ents:
  print(entity.text,'--- ',entity.label_)

'Яблоко' ---  ORG
Илону Маску ---  PER


Чтобы выделить именованные сущности в тексте, существует дополнение displacy

In [None]:
from spacy import displacy
displacy.render(doc2, style='ent', jupyter=True)

## Визуализация деревьев зависимостей

При помощи spaCy можно также визуализировать дерево зависимостей, где показаны части речи и части предложения, а также отношение зависимостей.

In [None]:
from spacy import displacy
text= "Компания 'Яблоко' представила свою новую разработку Илону Маску"
doc3 = nlp(text)

displacy.render(doc3,style='dep',jupyter=True)

Описание синтаксических отношений между членами предложения можно посмотреть по ссылке: https://universaldependencies.org/en/dep/

## Распознавание эл. почты

С помощью spaCy также можно распознавать адреса электронной почты:

In [None]:
text = "Готовые работы присылайте на myname@hse.ru"
doc4 = nlp(text)
for token in doc4:
  if token.like_email:
    print(token.text)

myname@hse.ru


# 2. spaCy для решения некоторых задач.

## Чтение файлов

(не связано с работой библиотеки spaCy)

In [None]:
file = open("jack.txt", "r")
text = file.read() # в переменной text будет храниться текст файла. с этим текстом будем потом работать.
file.close()

print(text)

Вот дом,
Который построил Джек.

А это пшеница,
Которая в тёмном чулане хранится
В доме,
Который построил Джек.

А это весёлая птица-синица,
Которая часто ворует пшеницу,
Которая в тёмном чулане хранится
В доме,
Который построил Джек.

Вот кот,
Который пугает и ловит синицу,
Которая часто ворует пшеницу,
Которая в тёмном чулане хранится
В доме,
Который построил Джек.

Вот пёс без хвоста,
Который за шиворот треплет кота,
Который пугает и ловит синицу,
Которая часто ворует пшеницу,
Которая в тёмном чулане хранится
В доме,
Который построил Джек.

А это корова безрогая,
Лягнувшая старого пса без хвоста,
Который за шиворот треплет кота,
Который пугает и ловит синицу,
Которая часто ворует пшеницу,
Которая в тёмном чулане хранится
В доме,
Который построил Джек.

А это старушка, седая и строгая,
Которая доит корову безрогую,
Лягнувшую старого пса без хвоста,
Который за шиворот треплет кота,
Который пугает и ловит синицу,
Которая часто ворует пшеницу,
Которая в тёмном чулане хранится
В доме,
Ко

## Анонимизация/Маскирование

In [None]:
text = "Только что министр финансов США Джанет Йеллен прочитала нотацию странам, которые 'сидят на двух стульях'"
doc = nlp(text)

In [None]:
def update_article(text):
  doc = nlp(text)
  for word in doc:
      if word.ent_type_ =='PER' or word.ent_type_=='ORG' or word.ent_type_=='GPE' or word.ent_type_=='LOC':
        text = text.replace(word.text, 'UNKNOWN')
  return text

In [None]:
update_article(text)

"Только что министр финансов UNKNOWN UNKNOWN UNKNOWN прочитала нотацию странам, которые 'сидят на двух стульях'"

## Схожесть текстов

Напомним, что у каждого слова есть свое векторное представление. Т.к. векторы представляют собой численное представление, то они используются для различных NLP задач (н-р, для классификации).

Слова, близкие по смыслу, будут иметь близкие векторные репрезентации.

*Note: векторы присутствуют только в модели _lg, в модели _sm присутствуют только тензоры, чувствительные к контексту, поэтому точность такой модели будет ниже*

Чтобы проверить, есть ли вектор для слова, используется метод .has_vector

In [None]:
tokens = nlp("я люблю собак.")
for token in tokens:
  print(token.text ,' ', token.has_vector)


я   True
люблю   True
собак   True
.   True


Чтобы получить вектор слова, необходим метод .vector

In [None]:
tokens = nlp("я люблю собак.")
for token in tokens:
  print(token.text ,' ', token.vector)


я   [ 3.828765   -0.9292036  -0.2817854  -0.7526239   3.9445112   0.3411465
  1.6517617   0.90737     2.2479703  -2.7426634   0.02391347 -1.2609829
  1.8857346  -0.5423751  -0.5265444   0.08626613  1.9380867  -0.62348616
  3.9450188  -0.7833001   0.13577552 -0.8242404   2.5525365   2.4178858
 -0.47625655 -0.42145932 -0.14687943 -1.7458341  -0.01297763 -1.8612216
 -0.9800793  -0.83266634 -0.10449647  0.9873901  -0.9411416   1.0138882
  0.02437502 -0.5348282   0.6854346  -1.2680278   0.32444894 -0.09298873
 -0.86737734 -2.1450782  -0.50667995 -0.74722505  0.82992125 -1.387329
 -0.48365015  1.4036915  -0.23721686  2.5811155   1.0700673  -0.40473026
  0.42977425 -0.7654067   0.96398205  0.8982876   0.02117755 -2.2847018
 -1.3538965  -0.83054876 -0.60932815  1.0414056   0.19321436 -1.6292319
 -0.55147874  0.65343446  1.1539578  -1.0563307  -1.4022238   0.32088804
  0.53807634 -2.0122077  -1.9084041   0.6792588  -1.1888739  -2.4656668
  2.418604    0.13217103 -0.801353   -0.11600313  3.05671

Можно также взять L2 норму векторов с помощью метода .vector_norm

In [None]:
for token in tokens:
  print(token.text ,' ', token.vector_norm)

я   13.860122
люблю   10.697362
собак   10.900073
.   12.992036


Как найти **сходство двух токенов**? Для этого используется функция **similarity()**.

In [None]:
token_1=nlp("плохо")
token_2=nlp("ужасно")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.8359503163356972


  after removing the cwd from sys.path.


In [None]:
token_1=nlp("плохо")
token_2=nlp("хорошо")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.8924345789883013


  after removing the cwd from sys.path.


In [None]:
review_1=nlp('Еда была неплохая.')
review_2=nlp('Еда была хорошая.')
review_3=nlp('Мне не понравилась еда.')
review_4=nlp('Еда была отвратительная.')

score_1=review_1.similarity(review_2)
print('Сходство между ревью 1 и 2',score_1)

score_2=review_3.similarity(review_4)
print('Сходство между ревью 3 и 4',score_2)

score_3=review_2.similarity(review_4)
print('Сходство между ревью 2 и 4',score_3)

Сходство между ревью 1 и 2 0.936561469073574
Сходство между ревью 3 и 4 0.5653143774231582
Сходство между ревью 2 и 4 0.9590623363437175


  
  if __name__ == '__main__':
  if sys.path[0] == '':


Обратите внимание на **UserWarning** message: так как в модели, которую мы используем, нет векторов, метод нахождения сходства будет использовать другие данные. Поэтому для более точного нахождения сходства загрузим другую модель.

In [None]:
!python -m spacy download ru_core_news_lg

Collecting ru-core-news-lg==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_lg-3.2.0/ru_core_news_lg-3.2.0-py3-none-any.whl (514.5 MB)
[K     |████████████████████████████████| 514.5 MB 5.4 kB/s 
Installing collected packages: ru-core-news-lg
Successfully installed ru-core-news-lg-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_lg')


In [None]:
nlp = spacy.load("ru_core_news_lg")

In [None]:
token_1=nlp("плохо")
token_2=nlp("ужасно")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.4543616228831531


In [None]:
token_1=nlp("плохо")
token_2=nlp("хорошо")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.6755168968764647


In [None]:
review_1=nlp('Еда была неплохая.')
review_2=nlp('Еда была хорошая.')
review_3=nlp('Мне не понравилась еда.')
review_4=nlp('Еда была отвратительная.')

score_1=review_1.similarity(review_2)
print('Сходство между ревью 1 и 2',score_1)

score_2=review_3.similarity(review_4)
print('Сходство между ревью 3 и 4',score_2)

score_3=review_2.similarity(review_4)
print('Сходство между ревью 2 и 4',score_3)

Сходство между ревью 1 и 2 0.9224265232448274
Сходство между ревью 3 и 4 0.482127656480746
Сходство между ревью 2 и 4 0.7747235859680845


## Нахождение паттернов

С помощью модели spaCy, которая размечает члены предложения, мы можем находить сочетания слов, которые соответствуют заданному нами шаблону токенов. Для этого используют Matcher.

In [None]:
from spacy.matcher import Matcher 
matcher = Matcher(nlp.vocab)

Для начала нам нужно задать шаблон. Выглядеть он будет следующим образом:

In [None]:
my_pattern=[{"POS": "PROPN"}, {"LIKE_NUM": True}] 

Данный паттерн означает, что сначала мы ищем сочетание двух слов, где первое слово - PROPN по POS (имя собственное по части речи), а второе - LIKE_NUM (число). Проверим данный шаблон на каком-нибудь текстовом примере.

In [None]:
matcher.add("VersionFinder", [my_pattern])

In [None]:
text = "Она давно хотела купить IPhone 13, но могла себе позволить только IPhone 11."
doc = nlp(text)

desired_matches = matcher(doc)
desired_matches

[(6950581368505071052, 4, 6), (6950581368505071052, 12, 14)]

В выходных данных видно, что было найдено два попадания под шаблон. В каждом из этих объектов 1 элемент - matcher_id, 2 - начало попадания (первый токен), 3 - конец попадания (последний токен +1).

*Помните, что отсчет идет по токенам и с 0 элемента. Последний в данном случае не берется - такие правила срезов.*

Давайте выведем наши попадания.

In [None]:
for i in desired_matches:
  match = doc[i[1]:i[2]]
  print(match.text)

IPhone 13
IPhone 11


Попробуем взять другой шаблон, который будет брать сочетание одного слова с любым другим словом. Помним, что у слов есть разные формы, так что стоит взять за шаблон лемму слова.

In [None]:
my_pattern=[{"LEMMA": "съездить"}, {"POS": "ADP"}, {"POS": "PROPN"}] 

In [None]:
matcher = Matcher(nlp.vocab)
matcher.add("VersionFinder", [my_pattern])

In [None]:
text = "Вы когда успели съездить в Европу? Вот моя дочка съездила в Италию, ей очень понравилось. Но я сама летом съезжу в Египет."
doc = nlp(text)

desired_matches = matcher(doc)
desired_matches

[(6950581368505071052, 3, 6), (6950581368505071052, 10, 13)]

In [None]:
for i in desired_matches:
  match = doc[i[1]:i[2]]
  print(match.text)

съездить в Европу
съездила в Италию
