# 0. Библиотеки для NLP

NLP - natural language processing (обработка естественного языка)

## Зачем нужны библиотеки?


*   Tokenization
*   Part-of-speech (POS) Tagging
*   Lemmatization
*   Named Entity Recognition (NER)
*   Similarity
*   Text Classification
*   etc.

## Библиотеки для NLP


*   NLTK: English
*   **spaCy**: English, Spanish, Russian, etc.
*   natasha: Russian
*   etc.





# 1. spaCy: Введение

https://spacy.io/

Данная версия ноутбука для английских моделей spaCy.

## Загрузка модели и установка модели

Существуют следующие английские модели:


*   en_core_web_sm
*   en_core_web_md
*   en_core_web_lg
*   en_core_web_trf

https://spacy.io/models/en






В отличие от русских моделей. в Google Colab необязательно загружать специальную версию spaCy и языковую модель en_core_web_sm.

In [3]:
import spacy
nlp = spacy.load("en_core_web_sm")

In [4]:
nlp

<spacy.lang.en.English at 0x7fc29d2f4a50>

В переменной nlp находится объект Language, у которого есть несколько встроенных функций.

## Первые шаги

In [5]:
text = 'Sharks, among the fiercest predators in the ocean, are also some of the most vulnerable. '
doc = nlp(text)

In [6]:
type(doc)

spacy.tokens.doc.Doc

Что такое переменная **doc**? Это объект типа Doc, т.е. набор токенов, который содержит как исходный текст, так и всё, что обработала библиотека spaCy: леммы, именованные сущности, векторы слов и проч.

## Токенизация

**Токенизация** - процесс разделения письменного языка на предложения-компоненты (слова и не-слова, типа знаков препинания) - т.е. на **токены**. 

In [7]:
for token in doc:
  print(token.text)

Sharks
,
among
the
fiercest
predators
in
the
ocean
,
are
also
some
of
the
most
vulnerable
.


Выведем общее количество токенов в тексте:

In [8]:
print("Всего в тексте {} токенов".format(len(doc)))

Всего в тексте 18 токенов


Очистим текст от знаков препинания и стоп-слов (незначительных слов, которые часто встречаются в тексте)

In [9]:
clean_doc = []
for token in doc:
  if not token.is_stop and not token.is_punct:
    clean_doc.append(token)
print(clean_doc)

[Sharks, fiercest, predators, ocean, vulnerable]


In [None]:
#альтернативная запись кода сверху
# clean_doc=[token for token in doc if not token.is_stop and not token.is_punct]

In [10]:
print("В очищенном тексте {} токенов".format(len(clean_doc)))

В очищенном тексте 5 токенов


Стоит отметить, что каждый токен, находящийся в полученном очищенном массиве, является уникальным, так как содержит свою индивидуальную информацию.

## Лемматизация

**Лемматизация** - приведение слов к начальной форме (отдельные слова - **леммы**).

In [11]:
for token in doc:
  print(token.lemma_)

Sharks
,
among
the
fierce
predator
in
the
ocean
,
be
also
some
of
the
most
vulnerable
.


## Вывод частей речи

In [12]:
for token in doc:
  print(token.text,'---- ',token.pos_)

Sharks ----  PROPN
, ----  PUNCT
among ----  ADP
the ----  DET
fiercest ----  ADJ
predators ----  NOUN
in ----  ADP
the ----  DET
ocean ----  NOUN
, ----  PUNCT
are ----  AUX
also ----  ADV
some ----  DET
of ----  ADP
the ----  DET
most ----  ADV
vulnerable ----  ADJ
. ----  PUNCT


Для определения обозначений можно использовать этот сайт: https://universaldependencies.org/u/pos/
Также можно попросить spaCy объяснить, что значит то или иное обозначение:

In [None]:
spacy.explain('ADP')

'adposition'

## Выделение именованных сущностей (NER)

**Именованные сущности** - имена людей, названия компаний и проч.

In [13]:
text = "In Cerro Punta, Panama, a hummingbird pollinates an orchid."
doc2 = nlp(text)
print(doc2.ents)

(Cerro Punta, Panama, hummingbird)


Также можно посмотреть, к какому классу относятся выделенные именованные сущности.

In [14]:
for entity in doc2.ents:
  print(entity.text,'--- ',entity.label_)

Cerro Punta ---  GPE
Panama ---  GPE
hummingbird ---  ORDINAL


Чтобы выделить именованные сущности в тексте, существует дополнение displacy

In [15]:
from spacy import displacy
displacy.render(doc2, style='ent', jupyter=True)

## Визуализация деревьев зависимостей

При помощи spaCy можно также визуализировать дерево зависимостей, где показаны части речи и части предложения, а также отношение зависимостей.

In [16]:
from spacy import displacy
text= "In Cerro Punta, Panama, a hummingbird pollinates an orchid."
doc3 = nlp(text)

displacy.render(doc3,style='dep',jupyter=True)

Описание синтаксических отношений между членами предложения можно посмотреть по ссылке: https://universaldependencies.org/en/dep/

## Распознавание эл. почты

С помощью spaCy также можно распознавать адреса электронной почты:

In [17]:
text = "Send your works to myname@hse.ru"
doc4 = nlp(text)
for token in doc4:
  if token.like_email:
    print(token.text)

myname@hse.ru


# 2. spaCy для решения некоторых задач.

## Анонимизация/Маскирование

In [18]:
text = "Tony Stark owns the company StarkEnterprises. Emily Clark works at Microsoft and lives in Manchester."
doc = nlp(text)

In [22]:
def update_article(text):
  doc = nlp(text)
  for word in doc:
      if word.ent_type_ =='PERSON' or word.ent_type_=='ORG' or word.ent_type_=='GPE' or word.ent_type_=='LOC':
        text = text.replace(word.text, 'UNKNOWN')
  return text

В отличие от модели русского языка, имена людей обозначаются тегом PERSON, а не PER.

In [24]:
update_article(text)

'UNKNOWN UNKNOWN owns the company UNKNOWNEnterprises. UNKNOWN UNKNOWN works at UNKNOWN and lives in UNKNOWN.'

## Схожесть текстов

Напомним, что у каждого слова есть свое векторное представление. Т.к. векторы представляют собой численное представление, то они используются для различных NLP задач (н-р, для классификации).

Слова, близкие по смыслу, будут иметь близкие векторные репрезентации.

*Note: векторы присутствуют только в модели _lg, в модели _sm присутствуют только тензоры, чувствительные к контексту, поэтому точность такой модели будет ниже*

Чтобы проверить, есть ли вектор для слова, используется метод .has_vector

In [27]:
tokens = nlp("I love dogs.")
for token in tokens:
  print(token.text ,' ', token.has_vector)


I   True
love   True
dogs   True
.   True


Чтобы получить вектор слова, необходим метод .vector

In [28]:
tokens = nlp("I love dogs.")
for token in tokens:
  print(token.text ,' ', token.vector)


I   [-1.0430092   2.8545923   2.0600038  -3.4211955   0.99649835 -1.1599871
  2.749505    3.9365487   1.5571965   0.6664208   0.59999466  2.9803002
  0.16377205  2.9965272   3.3764315  -0.89014435 -3.2101564   2.9714522
 -2.6696014  -1.6166049  -1.8172715  -2.7395675  -2.9825807  -3.6333983
 -2.8874328  -2.5601904  -4.4227586  -2.131781   -0.25393736 -0.20052847
  1.6852098  -1.1961273  -0.9421311   3.4984024   7.282257   -0.04792026
 -2.7910743   5.4995027   2.4805403  -0.07623506  1.6081547  -1.8639393
 -1.5294671  -1.9714432   1.2756953   1.2758039   1.2159228  -1.8443458
 -1.8838339   1.1741894  -1.9123857  -2.5920343  -0.41342843  3.0118423
  0.88132316 -0.07438791  1.0369622  -1.4144522  -0.17261651 -2.0494165
  3.4219077  -2.8342834   0.00958729  5.4984064  -1.8489454  -2.511528
  1.1873667  -4.1679707  -2.2335994   0.68960917 -1.3361545   1.2226154
 -0.9109669  -1.7300329   3.4517438  -2.4124196   1.8685429   0.06975681
  1.8657271   0.08461511 -3.6619987   2.2404995  -5.398147

Можно также взять L2 норму векторов с помощью метода .vector_norm

In [29]:
for token in tokens:
  print(token.text ,' ', token.vector_norm)

I   24.42788
love   22.964434
dogs   22.114325
.   20.95947


Как найти **сходство двух токенов**? Для этого используется функция **similarity()**.

In [30]:
token_1=nlp("Bad")
token_2=nlp("Terrible")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.6228420741704979


  "__main__", mod_spec)


In [31]:
token_1=nlp("Bad")
token_2=nlp("Good")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.612674126957667


  "__main__", mod_spec)


In [32]:
review_1=nlp(' The food was amazing')
review_2=nlp('The food was excellent')
review_3=nlp('I did not like the food')
review_4=nlp('It was very bad experience')

score_1=review_1.similarity(review_2)
print('Similarity between review 1 and 2',score_1)

score_2=review_3.similarity(review_4)
print('Similarity between review 3 and 4',score_2)

Similarity between review 1 and 2 0.8357777268543993
Similarity between review 3 and 4 0.3581141289329264


  "__main__", mod_spec)
  "__main__", mod_spec)


Обратите внимание на **UserWarning** message: так как в модели, которую мы используем, нет векторов, метод нахождения сходства будет использовать другие данные. Поэтому для более точного нахождения сходства загрузим другую модель.

In [1]:
import spacy
nlp = spacy.load("en_core_web_lg")

In [2]:
token_1=nlp("Bad")
token_2=nlp("Terrible")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.7739191815858104


In [3]:
token_1=nlp("Bad")
token_2=nlp("Good")

similarity_score=token_1.similarity(token_2)
print(similarity_score)

0.7355090324289566


In [5]:
review_1=nlp(' The food was amazing')
review_2=nlp('The food was excellent')
review_3=nlp('I did not like the food')
review_4=nlp('It was very bad experience')

score_1=review_1.similarity(review_2)
print('Similarity between review 1 and 2',score_1)

score_2=review_3.similarity(review_4)
print('Similarity between review 3 and 4',score_2)

score_3=review_2.similarity(review_4)
print('Similarity between review 2 and 4',score_2)

Similarity between review 1 and 2 0.9566212627033192
Similarity between review 3 and 4 0.8461898618188776
Similarity between review 2 and 4 0.8461898618188776
