# Обработка текста модулем `spacy`

Простые функции обработки строк ничего не знают о тексте, о правилах языка. Но часто нужна более продвинутая обработка, например узнать все имена существительные в тексте. Для этого нужно использовать специальные библиотеки. Сегодня мы кратко рассмотрим две из них: `spacy` и `nltk`.

Библиотека [__spacy__](https://nlpub.mipt.ru/SpaCy)  [(или здесь)](https://spacy.io/usage/spacy-101)
предназначена для обработки текстов на естественном языке (NLP, Natural Language Processing).

Если она еще не установлена на компьютере - надо установить ее, дополнительную библиотеку [__textacy__](https://github.com/chartbeat-labs/textacy).

Загрузим модель для английского языка, это займет время, ~1Гб:


In [1]:
# Установка spaCy
!pip3 install  spacy




In [2]:
# Установка textacy
!pip3 install  textacy

Collecting textacy
  Downloading textacy-0.13.0-py3-none-any.whl (210 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/210.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/210.7 kB[0m [31m2.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m210.7/210.7 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
Collecting cytoolz>=0.10.1 (from textacy)
  Downloading cytoolz-0.12.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting floret~=0.10.0 (from textacy)
  Downloading floret-0.10.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (320 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m320.4/320.4 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting jellyfish

Сложные обработки требуют применения сложных моделей, которые основаны на обучаемых нейронных сетях. Следует пользоваться уже обученными под конкретный язык моделями. Загрузим модель для английского языка `en_core_web_lg`.

In [3]:
# Загрузка модели для анализа английского языка 500 Mb
!python3 -m spacy download en_core_web_lg

2024-01-25 12:00:04.697956: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-01-25 12:00:04.698028: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-01-25 12:00:04.700159: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-01-25 12:00:04.714349: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
Collecting en-core-web-lg==3.6.0
  Downloading https:



---

**После установки необходимо перезапустить среду Colab!** Увы, это ограничение для среды.

Зайдите в меню "Среда выполнения" и выберите "Перезапустить среду выполнения", подтвердите, нажав "ДА".

После перезапуска можно продолжать работу с кодом ниже.



---



Сначала мы подключим библиотеку ```import spacy```

Загрузим в память модель для английского языка ``` nlp = spacy.load('en_core_web_lg') ``` .

en_core_web_lg это название модели, которая была заранее скачена на диск.

Создадим некоторый текст `text`, который будем обрабатывать, можете создать свой.

Выполним __парсинг__ текста командой `nlp()`. Парсинг проанализирует текст и определит типы слов\словосочетаний, к чему они относятся.
Например, можем узнать все __именованные сущности__ `ents`: найденные имена собственные, слова (словосочетания) которые указывают на положение объектов, слова которые описывают дату\время и др. Их много разных типов: https://spacy.io/api/annotation#named-entities .



Обозначение и смысл их приведен ниже:
```
PERSON  	Люди (имена, фамилии, прозвища и т.п.), в том числе вымышленные.
NORP	    Названия национальных, религиозных, политических объединений.
FAC  	   Названия зданий, аэропортов, шоссе, мостов ...
ORG  	   Названия компаний, агентств, организаций ...
GPE  	   Названия стран, городов, штатов (округов) ...
LOC  	   Названия географических областей (кроме относящихся к GPE), горных массивов, водоемов...
PRODUCT	 Названия товаров, автомобилей, еды (кроме услуг) ...
EVENT       Названия событий, ураганов, битв, войн, спортивных состязаний...
WORK_OF_ART Названия произведений искусств, книг, картин, песен...
LAW  	   Названия юридических документов
LANGUAGE	Название языков
DATE	    Указание на даты и периоды, абсолютные или относительные
TIME	    Указание на время (меньше дня)
PERCENT	 Указания на проценты ”%“
MONEY	   Указания на деньги, значение и единицы
QUANTITY	Указания на количество чего-либо, вес, размер, ....
ORDINAL	 Указание на порядок “первый”, “второй”, и так далее
CARDINAL	Числа, которые не попали в другие категории
```



In [1]:
import spacy # подключим библиотеку

# Загрузим NLP-модель для английского языка
nlp = spacy.load('en_core_web_lg') # en_core_web_lg это название модели, которая была скачена и установлена

# Текст для анализа. Можете написать свой текст (на английском)
text = """London is the capital and most populous city of England and
the United Kingdom.  Standing on the River Thames in the south east
of the island of Great Britain, London has been a major settlement
for two millennia. It was founded by the Romans, who named it Londinium.
"""

# Парсинг текста с помощью spaCy. Эта команда запускает целый конвейер по обработке текста
doc = nlp(text)


In [2]:
doc.ents

(London,
 England,
 the United Kingdom,
 the River Thames,
 south east,
 Great Britain,
 London,
 two millennia,
 Romans,
 Londinium)

In [3]:
# в переменной 'doc' теперь содержится обработанная версия текста
# мы можем делать с ней все что угодно!
# например, распечатать все обнаруженные именованные сущности (в .ents)
for entity in doc.ents:
    print(f"{entity.text} ({entity.label_})")# печатаем слово .text (словосочетание) и его тип .label_


London (GPE)
England (GPE)
the United Kingdom (GPE)
the River Thames (LOC)
south east (LOC)
Great Britain (GPE)
London (GPE)
two millennia (DATE)
Romans (NORP)
Londinium (GPE)




Попробуйте обработать свой текст. Для этого или исправьте текст выше или загрузите свой - вы уже умеете это делать.

Для других языков нужно скачать и установить соответствующие модели.

In [4]:
!python -m spacy download ru_core_news_sm

2024-01-25 12:08:56.585454: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-01-25 12:08:56.585545: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-01-25 12:08:56.589124: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
Collecting ru-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.6.0/ru_core_news_sm-3.6.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m25.4 MB/s[0m eta [36m0:00:00[0m
Collecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.6.0)
  Downl

In [5]:
import spacy
from spacy.lang.ru.examples import sentences
nlp = spacy.load("ru_core_news_sm")
doc = nlp(sentences[0])
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

Apple рассматривает возможность покупки стартапа из Соединённого Королевства за $1 млрд
Apple PROPN nsubj
рассматривает VERB ROOT
возможность NOUN obj
покупки NOUN nmod
стартапа NOUN nmod
из ADP case
Соединённого ADJ amod
Королевства PROPN nmod
за ADP case
$ NOUN nmod
1 NUM appos
млрд NOUN punct


In [None]:
import spacy
from spacy.lang.ru.examples import sentences

nlp = spacy.load("ru_core_news_sm")
doc = nlp(sentences[0])
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

# Обработка текста модулем `nltk`
Библиотека `nltk` также предназначена для работы с текстом на естественном языке.
Документацию смотрите на https://www.nltk.org/ . Библиотеку необходимо установить заранее.

Сама библиотека лишь предоставляет функции для обработки, правила обработки, какой вид обработки делать, зависит от *модели* которая будет использоваться.
Один из видов обработки это __токенизация__.


Токенизация (иногда – сегментация) - это разбиение текста на части, по словам, по предложениям и т.п.

Для английского языка для токенизации мы загрузим модель `'punkt'` с помощью функции `nltk.download()`. Модель уже была обучена на большом количестве текстов, чтобы правильно проводить токенизацию.

In [6]:
import nltk
nltk.download('punkt')
#import nltk.data

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## Токенизация по предложениям

Токенизация по предложениям – это процесс разделения письменного языка на предложения-компоненты. В английском и некоторых других языках мы можем вычленять предложение каждый раз, когда находим определенный знак пунктуации – точку.

Но даже в английском эта задача нетривиальна, так как точка используется и в сокращениях. Таблица сокращений может сильно помочь во время обработки текста, чтобы избежать неверной расстановки границ предложений. В большинстве случаев для этого используются библиотеки, так что можете особо не переживать о деталях реализации.

Чтобы сделать токенизацию предложений с помощью NLTK, можно воспользоваться методом `nltk.sent_tokenize`

Конечно модели могут и ошибаться, попробуйте сделать текст, чтобы обмануть токенайзер.

In [11]:
text = "We try to implement NLTK.Sent_tokenize. It is very hщrd to produce good tokens. Our approach is model-based one! And they has already train a good model for tokenizing. Really? Yes ... try. Hard words: vice president, half sister"
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()

We try to implement NLTK.Sent_tokenize.

It is very hщrd to produce good tokens.

Our approach is model-based one!

And they has already train a good model for tokenizing.

Really?

Yes ... try.

Hard words: vice president, half sister



In [None]:
#text = "sentences = nltk.sent_tokenize(text) for sentence in sentences:     print(sentence )     print()"
#sentences = nltk.sent_tokenize(text)
#for sentence in sentences:
#    print(sentence)
#    print()

### Токенизация по словам

Токенизация (иногда – сегментация) по словам – это процесс разделения предложений на слова-компоненты. В английском и многих других языках, использующих ту или иную версию латинского алфавита, пробел – это неплохой разделитель слов.

Тем не менее, могут возникнуть проблемы, если мы будем использовать только пробел – в английском составные существительные пишутся по-разному и иногда через пробел. И тут вновь нам помогают библиотеки.

Возьмем предложения из предыдущего блока кода и применим к каждому из них метод `word_tokenize()`

In [12]:
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

['We', 'try', 'to', 'implement', 'NLTK.Sent_tokenize', '.']

['It', 'is', 'very', 'hщrd', 'to', 'produce', 'good', 'tokens', '.']

['Our', 'approach', 'is', 'model-based', 'one', '!']

['And', 'they', 'has', 'already', 'train', 'a', 'good', 'model', 'for', 'tokenizing', '.']

['Really', '?']

['Yes', '...', 'try', '.']

['Hard', 'words', ':', 'vice', 'president', ',', 'half', 'sister']



### Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова, а также могут встречаться однокоренные слова. Лемматизация и стемминг преследуют цель привести все встречающиеся словоформы к одной, нормальной словарной форме.

Лемматизация и стемминг – это частные случаи нормализации и они отличаются.

Стемминг – это грубый эвристический процесс, который отрезает «лишнее» от корня слов, часто это приводит к потере словообразовательных суффиксов.

Лемматизация – это более тонкий процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической форме – лемме.

Отличие в том, что стеммер (конкретная реализация алгоритма стемминга) действует без знания контекста и, соответственно, не понимает разницу между словами, которые имеют разный смысл в зависимости от части речи. Однако у стеммеров есть и свои преимущества: их проще внедрить и они работают быстрее. Плюс, более низкая «аккуратность» может не иметь значения в некоторых случаях.

Примеры:

Слово good – это лемма для слова better. Стеммер не увидит эту связь, так как здесь нужно сверяться со словарем.
Слово play – это базовая форма слова playing. Тут справятся и стемминг, и лемматизация.
Слово meeting может быть как нормальной формой существительного, так и формой глагола to meet, в зависимости от контекста. В отличие от стемминга, лемматизация попробует выбрать правильную лемму, опираясь на контекст.

Теперь, когда мы знаем, в чем разница, давайте рассмотрим пример.

Сначала мы подключим модель стемминга  `PorterStemmer` и лемматизации `WordNetLemmatizer`, загрузим и подключим "корпус" `wordnet`  в котором много слов, синонимов и т.п. (чтобы не путаться в версиях, скачаем всё).

Создадим функцию `compare_stemmer_and_lemmatizer()`, которая будет приводить слова к нормальной форме. Ей мы укажем каким стеммером и леммером (есть такое слово, а?) пользоваться, само слово, которое надо лемматизировать, и часть речи `POS` желаемого результата (`VERB`  - глагол, `NOUN` - существительное).
```
Обозначение 	 Значение 	    Примеры
ADJ              прилагательное  new, good, high, special, big, local
ADP              предлог         on, of, at, with, by, into, under
ADV              наречие         really, already, still, early, now
CONJ             союз            and, or, but, if, while, although
DET              артикль,        
                 определитель    the, a, some, most, every, no, which
NOUN             существительное year, home, costs, time, Africa
NUM              числительное    twenty-four, fourth, 1991, 14:24
PRT              частица         at, on, out, over per, that, up, with
PRON             местоимение     he, their, her, its, my, I, us
VERB             глагол          is, say, told, given, playing, would
.                знак пунктуации . , ; !
X                другое          ersatz, esprit, dunno, gr8, univeristy

```
Стеммер вызывается функцией `stem(word)`, ему все-равно какая часть речи должна получиться.

Леммер вызывается функцией `lemmatize(word,pos)`, ему мы указываем и слово и желаемую часть речи.


In [13]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
#nltk.download('wordnet')
nltk.download('all') # скачаем все....
from nltk.corpus import wordnet


[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping grammars/basque_grammars.zip.
[nltk_data]    | Downloading package bcp47 to /root/nltk_data...
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   U

In [14]:
# Сравнение стеммера и леммера
def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos):
    """
    Print the results of stemming and lemmitization using the passed stemmer, lemmatizer, word and pos (part of speech)
    """
    print("Word:", word)
    print("Stemmer:", stemmer.stem(word))
    print("Lemmatizer:", lemmatizer.lemmatize(word, pos))
    print()


In [15]:
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "seeking", pos = wordnet.VERB)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "drove", pos = wordnet.VERB)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "meeting", pos = wordnet.NOUN)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "meeting", pos = wordnet.VERB)

Word: seeking
Stemmer: seek
Lemmatizer: seek

Word: drove
Stemmer: drove
Lemmatizer: drive

Word: meeting
Stemmer: meet
Lemmatizer: meeting

Word: meeting
Stemmer: meet
Lemmatizer: meet



### Стоп-слова

Стоп-слова – это слова, которые выкидываются из текста до/после обработки текста. Когда мы применяем машинное обучение к текстам, такие слова могут добавить много шума, поэтому необходимо избавляться от ненужных слов.

Стоп-слова это обычно артикли, междометия, союзы и т.д., которые не несут смысловой нагрузки. При этом надо понимать, что не существует универсального списка стоп-слов, все зависит от конкретного случая.

В NLTK есть предустановленный список стоп-слов. Перед первым использованием вам понадобится его скачать: `nltk.download("stopwords")`. После скачивания можно подключить модуль `stopwords` и посмотреть на сами слова:

In [16]:
#nltk.download("stopwords") # уже скачали все
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Рассмотрим, как можно убрать стоп-слова из предложения:

In [17]:
stop_words = set(stopwords.words("english")) # получим стоп-слова, превратим их в множество с помощью set()
sentence = "Backgammon is one of the oldest known board games." # зададим строку

words = nltk.word_tokenize(sentence) # токенизируем ее по словам

# и будем в цикле перебирать все слова из words, проверять входит ли оно в множество стоп-слов stop_words,
# и если нет, то вернем слово word, иначе ничего не вернем.
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words) #


['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


## Дополнительное чтение

Дополнительно почитайте самостоятельно про __регулярные выражения__
 https://habr.com/ru/post/349860/

и про парсер для русского языка `Natasha`. С его помощью можно вытаскивать некоторые именованные сущности на русском языке из текста для дальнейшего анализа и обработки, такие как адреса, даты, имена.
https://habr.com/ru/post/349864/

Посмотрите на полезный список инструментов для обработки естественных языков

Там указано, для каких задач они предназначены и для каких языков.
https://nlpub.mipt.ru/Обработка_текста

Сейчас мы не будем про это говорить, но, когда будем обрабатывать тексты - еще вернемся.  

## Домашнее задание

Написать на английском языке сочинение на 1 страницу о том, как вы провели лето и определить все именованные сущности и их тип в этом тексте.

В тексте должно быть указано, где вы были, когда и с кем.

