# 0. Библиотеки для NLP

NLP - natural language processing (обработка естественного языка)

## Зачем нужны библиотеки?


*   Tokenization
*   Part-of-speech (POS) Tagging
*   Lemmatization
*   Named Entity Recognition (NER)
*   Similarity
*   Text Classification
*   etc.

## Библиотеки для NLP


*   NLTK: English
*   **spaCy**: English, Spanish, Russian, etc.
*   natasha: Russian
*   etc.





# 1. spaCy: Введение

https://spacy.io/

## Загрузка модели и установка модели

Перед началом работы необходимо загрузить библиотеку на компьютер с помощью pip install (через cmd, jupyter notebook или гугл колаб). Также необходимо загрузить русскую языковую модель.

Существует 2 русские модели:


*   ru_core_news_sm - быстрая и небольшая, но менее точная.
*   ru_core_news_lg - тяжелая и медленная, но точная.



In [1]:
!pip install spacy==3.2.4
!py -m spacy download ru_core_news_sm

Collecting spacy==3.2.4
  Downloading spacy-3.2.4-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.0 MB)
[K     |████████████████████████████████| 6.0 MB 28.9 MB/s 
Collecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
  Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[K     |████████████████████████████████| 10.1 MB 41.4 MB/s 
[?25hCollecting thinc<8.1.0,>=8.0.12
  Downloading thinc-8.0.15-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (653 kB)
[K     |████████████████████████████████| 653 kB 53.6 MB/s 
Collecting catalogue<2.1.0,>=2.0.6
  Downloading catalogue-2.0.7-py3-none-any.whl (17 kB)
Collecting langcodes<4.0.0,>=3.2.0
  Downloading langcodes-3.3.0-py3-none-any.whl (181 kB)
[K     |████████████████████████████████| 181 kB 84.4 MB/s 
[?25hCollecting spacy-legacy<3.1.0,>=3.0.8
  Downloading spacy_legacy-3.0.9-py2.py3-none-any.whl (20 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0
  Downloading spacy_loggers-1.0.2-py3-none-any.whl (7.2 k

Затем, как и все библиотеки, библиотеку нужно импортировать.

In [2]:
import spacy

Загрузка необходимой языковой модели:


In [3]:
nlp = spacy.load("ru_core_news_sm")

In [4]:
nlp

<spacy.lang.ru.Russian at 0x7ff3244b5f10>

В переменной nlp находится объект Language, у которого есть несколько встроенных функций.

## Первые шаги

In [None]:
text = 'Колобок полежал-полежал, да вдруг и покатился — с окна на лавку, с лавки на пол, по полу да к дверям, перепрыгнул через порог в сени, из сеней на крыльцо, с крыльца на двор, со двора за ворота, дальше и дальше.'
doc = nlp(text)

In [None]:
type(doc)

spacy.tokens.doc.Doc

Что такое переменная **doc**? Это объект типа Doc, т.е. набор токенов, который содержит как исходный текст, так и всё, что обработала библиотека spaCy: леммы, именованные сущности, векторы слов и проч.

## Токенизация

**Токенизация** - процесс разделения письменного языка на предложения-компоненты (слова и не-слова, типа знаков препинания) - т.е. на **токены**. 

In [None]:
for token in doc:
  print(token.text)

Колобок
полежал
-
полежал
,
да
вдруг
и
покатился
—
с
окна
на
лавку
,
с
лавки
на
пол
,
по
полу
да
к
дверям
,
перепрыгнул
через
порог
в
сени
,
из
сеней
на
крыльцо
,
с
крыльца
на
двор
,
со
двора
за
ворота
,
дальше
и
дальше
.


Выведем общее количество токенов в тексте:

In [None]:
print("Всего в тексте {} токенов".format(len(doc)))

Всего в тексте 51 токенов


Очистим текст от знаков препинания и стоп-слов (незначительных слов, которые часто встречаются в тексте)

In [None]:
clean_doc = []
for token in doc:
  if not token.is_stop and not token.is_punct:
    clean_doc.append(token)
print(clean_doc)

[Колобок, полежал, полежал, вдруг, покатился, окна, лавку, лавки, пол, полу, дверям, перепрыгнул, через, порог, сени, сеней, крыльцо, крыльца, двор, со, двора, ворота, дальше, дальше]


In [None]:
#альтернативная запись кода сверху
# clean_doc=[token for token in doc if not token.is_stop and not token.is_punct]

In [None]:
print("В очищенном тексте {} токенов".format(len(clean_doc)))

В очищенном тексте 24 токенов


Стоит отметить, что каждый токен, находящийся в полученном очищенном массиве, является уникальным, так как содержит свою индивидуальную информацию.

## Лемматизация

**Лемматизация** - приведение слов к начальной форме (отдельные слова - **леммы**).

In [None]:
for token in doc:
  print(token.lemma_)

колобок
полежать
-
полежать
,
да
вдруг
и
покатиться
—
с
окно
на
лавка
,
с
лавка
на
пол
,
по
пол
да
к
дверь
,
перепрыгнуть
через
порог
в
сень
,
из
сеней
на
крыльцо
,
с
крыльцо
на
двор
,
со
двор
за
ворота
,
дальше
и
дальше
.


## Вывод частей речи

In [None]:
for token in doc:
  print(token.text,'---- ',token.pos_)

Колобок ----  PROPN
полежал ----  VERB
- ----  NOUN
полежал ----  VERB
, ----  PUNCT
да ----  CCONJ
вдруг ----  ADV
и ----  PART
покатился ----  VERB
— ----  PUNCT
с ----  ADP
окна ----  NOUN
на ----  ADP
лавку ----  NOUN
, ----  PUNCT
с ----  ADP
лавки ----  NOUN
на ----  ADP
пол ----  NOUN
, ----  PUNCT
по ----  ADP
полу ----  NOUN
да ----  PART
к ----  ADP
дверям ----  NOUN
, ----  PUNCT
перепрыгнул ----  VERB
через ----  ADP
порог ----  NOUN
в ----  ADP
сени ----  NOUN
, ----  PUNCT
из ----  ADP
сеней ----  NOUN
на ----  ADP
крыльцо ----  NOUN
, ----  PUNCT
с ----  ADP
крыльца ----  NOUN
на ----  ADP
двор ----  NOUN
, ----  PUNCT
со ----  ADP
двора ----  NOUN
за ----  ADP
ворота ----  NOUN
, ----  PUNCT
дальше ----  ADV
и ----  CCONJ
дальше ----  ADV
. ----  PUNCT


Для определения обозначений можно использовать этот сайт: https://universaldependencies.org/u/pos/
Также можно попросить spaCy объяснить, что значит то или иное обозначение:

In [None]:
spacy.explain('ADP')

'adposition'

## Выделение именованных сущностей (NER)

**Именованные сущности** - имена людей, названия компаний и проч.

In [None]:
text = "Компания 'Яблоко' представила свою новую разработку Илону Маску"
doc2 = nlp(text)
print(doc2.ents)

('Яблоко', Илону Маску)


Также можно посмотреть, к какому классу относятся выделенные именованные сущности.

In [None]:
for entity in doc2.ents:
  print(entity.text,'--- ',entity.label_)

'Яблоко' ---  ORG
Илону Маску ---  PER


Чтобы выделить именованные сущности в тексте, существует дополнение displacy

In [None]:
from spacy import displacy
displacy.render(doc2, style='ent', jupyter=True)

## Визуализация деревьев зависимостей

При помощи spaCy можно также визуализировать дерево зависимостей, где показаны части речи и части предложения, а также отношение зависимостей.

In [5]:
from spacy import displacy
text= "Компания 'Яблоко' представила свою новую разработку Илону Маску"
doc3 = nlp(text)

displacy.render(doc3,style='dep',jupyter=True)

Описание синтаксических отношений между членами предложения можно посмотреть по ссылке: https://universaldependencies.org/en/dep/

## Распознавание эл. почты

С помощью spaCy также можно распознавать адреса электронной почты:

In [None]:
text = "Готовые работы присылайте на myname@hse.ru"
doc4 = nlp(text)
for token in doc4:
  if token.like_email:
    print(token.text)

myname@hse.ru
