# Библиотеки токенизации текста

Курс "Обработка естественного языка".

Токенизация текста на русском языке с использованием библиотек:
- [Natural Language Toolkit (NLTK)](https://www.nltk.org/).
- [TensorFlow Text](https://www.tensorflow.org/text/guide/tokenizers).
- [spaCy](https://spacy.io).

In [None]:
!pip install tensorflow-text spacy==3.3



In [None]:
import requests
import nltk
import spacy
import tensorflow as tf
import tensorflow_text as tf_text
from nltk.tokenize import sent_tokenize, word_tokenize

Текст для токенизации

In [None]:
text = """
Илья Сегалович родился в семье советского геофизика В.И.Сегаловича. Детство провёл в 
Казахстане. В Республиканской физико-математической школе познакомился с будущим сооснователем 
«Яндекса» Аркадием Воложем. В 1981 году поступил в Московский геологоразведочный институт 
им.Орджоникидзе.

С самого основания «Яндекса» и до своей смерти Илья Сегалович занимал позицию директора по 
технологиям, был ключевым архитектором поисковых технологий и инициатором многих продуктов 
компании, например, Яндекс.Директа, голосового помощника «Алиса» и беспилотного автомобиля.
"""

## Разделение на слова по пробелам

In [None]:
text.split()

['Илья',
 'Сегалович',
 'родился',
 'в',
 'семье',
 'советского',
 'геофизика',
 'В.И.Сегаловича.',
 'Детство',
 'провёл',
 'в',
 'Казахстане.',
 'В',
 'Республиканской',
 'физико-математической',
 'школе',
 'познакомился',
 'с',
 'будущим',
 'сооснователем',
 '«Яндекса»',
 'Аркадием',
 'Воложем.',
 'В',
 '1981',
 'году',
 'поступил',
 'в',
 'Московский',
 'геологоразведочный',
 'институт',
 'им.Орджоникидзе.',
 'С',
 'самого',
 'основания',
 '«Яндекса»',
 'и',
 'до',
 'своей',
 'смерти',
 'Илья',
 'Сегалович',
 'занимал',
 'позицию',
 'директора',
 'по',
 'технологиям,',
 'был',
 'ключевым',
 'архитектором',
 'поисковых',
 'технологий',
 'и',
 'инициатором',
 'многих',
 'продуктов',
 'компании,',
 'например,',
 'Яндекс.Директа,',
 'голосового',
 'помощника',
 '«Алиса»',
 'и',
 'беспилотного',
 'автомобиля.']

## Разделение на символы

In [None]:
list(text)

['\n',
 'И',
 'л',
 'ь',
 'я',
 ' ',
 'С',
 'е',
 'г',
 'а',
 'л',
 'о',
 'в',
 'и',
 'ч',
 ' ',
 'р',
 'о',
 'д',
 'и',
 'л',
 'с',
 'я',
 ' ',
 'в',
 ' ',
 'с',
 'е',
 'м',
 'ь',
 'е',
 ' ',
 'с',
 'о',
 'в',
 'е',
 'т',
 'с',
 'к',
 'о',
 'г',
 'о',
 ' ',
 'г',
 'е',
 'о',
 'ф',
 'и',
 'з',
 'и',
 'к',
 'а',
 ' ',
 'В',
 '.',
 'И',
 '.',
 'С',
 'е',
 'г',
 'а',
 'л',
 'о',
 'в',
 'и',
 'ч',
 'а',
 '.',
 ' ',
 'Д',
 'е',
 'т',
 'с',
 'т',
 'в',
 'о',
 ' ',
 'п',
 'р',
 'о',
 'в',
 'ё',
 'л',
 ' ',
 'в',
 ' ',
 '\n',
 'К',
 'а',
 'з',
 'а',
 'х',
 'с',
 'т',
 'а',
 'н',
 'е',
 '.',
 ' ',
 'В',
 ' ',
 'Р',
 'е',
 'с',
 'п',
 'у',
 'б',
 'л',
 'и',
 'к',
 'а',
 'н',
 'с',
 'к',
 'о',
 'й',
 ' ',
 'ф',
 'и',
 'з',
 'и',
 'к',
 'о',
 '-',
 'м',
 'а',
 'т',
 'е',
 'м',
 'а',
 'т',
 'и',
 'ч',
 'е',
 'с',
 'к',
 'о',
 'й',
 ' ',
 'ш',
 'к',
 'о',
 'л',
 'е',
 ' ',
 'п',
 'о',
 'з',
 'н',
 'а',
 'к',
 'о',
 'м',
 'и',
 'л',
 'с',
 'я',
 ' ',
 'с',
 ' ',
 'б',
 'у',
 'д',
 'у',
 'щ',
 'и',
 '

## Библиотека [NLTK](https://www.nltk.org/)

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Токенизация по предложениям

In [None]:
sentences = sent_tokenize(text)

In [None]:
print(sentences)

['\nИлья Сегалович родился в семье советского геофизика В.И.Сегаловича.', 'Детство провёл в \nКазахстане.', 'В Республиканской физико-математической школе познакомился с будущим сооснователем \n«Яндекса» Аркадием Воложем.', 'В 1981 году поступил в Московский геологоразведочный институт \nим.Орджоникидзе.', 'С самого основания «Яндекса» и до своей смерти Илья Сегалович занимал позицию директора по \nтехнологиям, был ключевым архитектором поисковых технологий и инициатором многих продуктов \nкомпании, например, Яндекс.Директа, голосового помощника «Алиса» и беспилотного автомобиля.']


Токенизация по словам

In [None]:
words = word_tokenize(text)

In [None]:
words

['Илья',
 'Сегалович',
 'родился',
 'в',
 'семье',
 'советского',
 'геофизика',
 'В.И.Сегаловича',
 '.',
 'Детство',
 'провёл',
 'в',
 'Казахстане',
 '.',
 'В',
 'Республиканской',
 'физико-математической',
 'школе',
 'познакомился',
 'с',
 'будущим',
 'сооснователем',
 '«',
 'Яндекса',
 '»',
 'Аркадием',
 'Воложем',
 '.',
 'В',
 '1981',
 'году',
 'поступил',
 'в',
 'Московский',
 'геологоразведочный',
 'институт',
 'им.Орджоникидзе',
 '.',
 'С',
 'самого',
 'основания',
 '«',
 'Яндекса',
 '»',
 'и',
 'до',
 'своей',
 'смерти',
 'Илья',
 'Сегалович',
 'занимал',
 'позицию',
 'директора',
 'по',
 'технологиям',
 ',',
 'был',
 'ключевым',
 'архитектором',
 'поисковых',
 'технологий',
 'и',
 'инициатором',
 'многих',
 'продуктов',
 'компании',
 ',',
 'например',
 ',',
 'Яндекс.Директа',
 ',',
 'голосового',
 'помощника',
 '«',
 'Алиса',
 '»',
 'и',
 'беспилотного',
 'автомобиля',
 '.']

## Библиотека [TensorFlow Text](https://www.tensorflow.org/text/guide/tokenizers)

Разделение на слова

In [None]:
tokenizer = tf_text.WhitespaceTokenizer()
tokens = tokenizer.tokenize([text])
tokens.to_list()

[[b'\xd0\x98\xd0\xbb\xd1\x8c\xd1\x8f',
  b'\xd0\xa1\xd0\xb5\xd0\xb3\xd0\xb0\xd0\xbb\xd0\xbe\xd0\xb2\xd0\xb8\xd1\x87',
  b'\xd1\x80\xd0\xbe\xd0\xb4\xd0\xb8\xd0\xbb\xd1\x81\xd1\x8f',
  b'\xd0\xb2',
  b'\xd1\x81\xd0\xb5\xd0\xbc\xd1\x8c\xd0\xb5',
  b'\xd1\x81\xd0\xbe\xd0\xb2\xd0\xb5\xd1\x82\xd1\x81\xd0\xba\xd0\xbe\xd0\xb3\xd0\xbe',
  b'\xd0\xb3\xd0\xb5\xd0\xbe\xd1\x84\xd0\xb8\xd0\xb7\xd0\xb8\xd0\xba\xd0\xb0',
  b'\xd0\x92.\xd0\x98.\xd0\xa1\xd0\xb5\xd0\xb3\xd0\xb0\xd0\xbb\xd0\xbe\xd0\xb2\xd0\xb8\xd1\x87\xd0\xb0.',
  b'\xd0\x94\xd0\xb5\xd1\x82\xd1\x81\xd1\x82\xd0\xb2\xd0\xbe',
  b'\xd0\xbf\xd1\x80\xd0\xbe\xd0\xb2\xd1\x91\xd0\xbb',
  b'\xd0\xb2',
  b'\xd0\x9a\xd0\xb0\xd0\xb7\xd0\xb0\xd1\x85\xd1\x81\xd1\x82\xd0\xb0\xd0\xbd\xd0\xb5.',
  b'\xd0\x92',
  b'\xd0\xa0\xd0\xb5\xd1\x81\xd0\xbf\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8\xd0\xba\xd0\xb0\xd0\xbd\xd1\x81\xd0\xba\xd0\xbe\xd0\xb9',
  b'\xd1\x84\xd0\xb8\xd0\xb7\xd0\xb8\xd0\xba\xd0\xbe-\xd0\xbc\xd0\xb0\xd1\x82\xd0\xb5\xd0\xbc\xd0\xb0\xd1\x82\xd0\xb8\xd1\

In [None]:
[token.decode('utf-8') for token in tokens.to_list()[0]]

['Илья',
 'Сегалович',
 'родился',
 'в',
 'семье',
 'советского',
 'геофизика',
 'В.И.Сегаловича.',
 'Детство',
 'провёл',
 'в',
 'Казахстане.',
 'В',
 'Республиканской',
 'физико-математической',
 'школе',
 'познакомился',
 'с',
 'будущим',
 'сооснователем',
 '«Яндекса»',
 'Аркадием',
 'Воложем.',
 'В',
 '1981',
 'году',
 'поступил',
 'в',
 'Московский',
 'геологоразведочный',
 'институт',
 'им.Орджоникидзе.',
 'С',
 'самого',
 'основания',
 '«Яндекса»',
 'и',
 'до',
 'своей',
 'смерти',
 'Илья',
 'Сегалович',
 'занимал',
 'позицию',
 'директора',
 'по',
 'технологиям,',
 'был',
 'ключевым',
 'архитектором',
 'поисковых',
 'технологий',
 'и',
 'инициатором',
 'многих',
 'продуктов',
 'компании,',
 'например,',
 'Яндекс.Директа,',
 'голосового',
 'помощника',
 '«Алиса»',
 'и',
 'беспилотного',
 'автомобиля.']

Разделение на части слов – токенизатор Sentencepiece

In [None]:
url = "https://github.com/tensorflow/text/blob/master/tensorflow_text/python/ops/test_data/test_oss_model.model?raw=true"
sp_model = requests.get(url).content

In [None]:
tokenizer = tf_text.SentencepieceTokenizer(sp_model, out_type=tf.string)
tokens = tokenizer.tokenize([text])
print(tokens.to_list())

[[b'\xe2\x96\x81', b'\n\xd0\x98\xd0\xbb\xd1\x8c\xd1\x8f', b'\xe2\x96\x81', b'\xd0\xa1\xd0\xb5\xd0\xb3\xd0\xb0\xd0\xbb\xd0\xbe\xd0\xb2\xd0\xb8\xd1\x87', b'\xe2\x96\x81', b'\xd1\x80\xd0\xbe\xd0\xb4\xd0\xb8\xd0\xbb\xd1\x81\xd1\x8f', b'\xe2\x96\x81', b'\xd0\xb2', b'\xe2\x96\x81', b'\xd1\x81\xd0\xb5\xd0\xbc\xd1\x8c\xd0\xb5', b'\xe2\x96\x81', b'\xd1\x81\xd0\xbe\xd0\xb2\xd0\xb5\xd1\x82\xd1\x81\xd0\xba\xd0\xbe\xd0\xb3\xd0\xbe', b'\xe2\x96\x81', b'\xd0\xb3\xd0\xb5\xd0\xbe\xd1\x84\xd0\xb8\xd0\xb7\xd0\xb8\xd0\xba\xd0\xb0', b'\xe2\x96\x81', b'\xd0\x92', b'.', b'\xd0\x98', b'.', b'\xd0\xa1\xd0\xb5\xd0\xb3\xd0\xb0\xd0\xbb\xd0\xbe\xd0\xb2\xd0\xb8\xd1\x87\xd0\xb0', b'.', b'\xe2\x96\x81', b'\xd0\x94\xd0\xb5\xd1\x82\xd1\x81\xd1\x82\xd0\xb2\xd0\xbe', b'\xe2\x96\x81', b'\xd0\xbf\xd1\x80\xd0\xbe\xd0\xb2\xd1\x91\xd0\xbb', b'\xe2\x96\x81', b'\xd0\xb2', b'\xe2\x96\x81', b'\n\xd0\x9a\xd0\xb0\xd0\xb7\xd0\xb0\xd1\x85\xd1\x81\xd1\x82\xd0\xb0\xd0\xbd\xd0\xb5', b'.', b'\xe2\x96\x81', b'\xd0\x92', b'\xe2\x96\x81', b

In [None]:
[token.decode('utf-8') for token in tokens.to_list()[0]]

['▁',
 '\nИлья',
 '▁',
 'Сегалович',
 '▁',
 'родился',
 '▁',
 'в',
 '▁',
 'семье',
 '▁',
 'советского',
 '▁',
 'геофизика',
 '▁',
 'В',
 '.',
 'И',
 '.',
 'Сегаловича',
 '.',
 '▁',
 'Детство',
 '▁',
 'провёл',
 '▁',
 'в',
 '▁',
 '\nКазахстане',
 '.',
 '▁',
 'В',
 '▁',
 'Республиканской',
 '▁',
 'физико',
 '-',
 'математической',
 '▁',
 'школе',
 '▁',
 'познакомился',
 '▁',
 'с',
 '▁',
 'будущим',
 '▁',
 'сооснователем',
 '▁',
 '\n«Яндекса»',
 '▁',
 'Аркадием',
 '▁',
 'Воложем',
 '.',
 '▁',
 'В',
 '▁',
 '1',
 '9',
 '8',
 '1',
 '▁',
 'году',
 '▁',
 'поступил',
 '▁',
 'в',
 '▁',
 'Московский',
 '▁',
 'геологоразведочный',
 '▁',
 'институт',
 '▁',
 '\nим',
 '.',
 'Орджоникидзе',
 '.',
 '\n\nС',
 '▁',
 'самого',
 '▁',
 'основания',
 '▁',
 '«Яндекса»',
 '▁',
 'и',
 '▁',
 'до',
 '▁',
 'своей',
 '▁',
 'смерти',
 '▁',
 'Илья',
 '▁',
 'Сегалович',
 '▁',
 'занимал',
 '▁',
 'позицию',
 '▁',
 'директора',
 '▁',
 'по',
 '▁',
 '\nтехнологиям',
 ',',
 '▁',
 'был',
 '▁',
 'ключевым',
 '▁',
 'архитектор

## Библиотека [spaCy](spacy.io)

In [None]:
!python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.3.0/ru_core_news_sm-3.3.0-py3-none-any.whl (15.3 MB)
[K     |████████████████████████████████| 15.3 MB 3.8 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [None]:
nlp = spacy.load('ru_core_news_sm')

In [None]:
doc = nlp(text)

In [None]:
for tocken in doc:
    print(tocken)



Илья
Сегалович
родился
в
семье
советского
геофизика
В.И.Сегаловича
.
Детство
провёл
в


Казахстане
.
В
Республиканской
физико
-
математической
школе
познакомился
с
будущим
сооснователем


«
Яндекса
»
Аркадием
Воложем
.
В
1981
году
поступил
в
Московский
геологоразведочный
институт


им.
Орджоникидзе
.



С
самого
основания
«
Яндекса
»
и
до
своей
смерти
Илья
Сегалович
занимал
позицию
директора
по


технологиям
,
был
ключевым
архитектором
поисковых
технологий
и
инициатором
многих
продуктов


компании
,
например
,
Яндекс
.
Директа
,
голосового
помощника
«
Алиса
»
и
беспилотного
автомобиля
.




## Полезные ссылки

1. [Библиотека Natural Language Toolkit (NLTK)](https://www.nltk.org/).
2. [Библиотека TensorFlow Text](https://www.tensorflow.org/text/guide/tokenizers).
3. [Библиотека spaCy](https://spacy.io).
4. [Токенизаторы в HuggingFace](https://huggingface.co/docs/transformers/tokenizer_summary).

## Благодарности

Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры 2020/2021 благотворительной программы «Стипендиальная программа Владимира Потанина» Благотворительного фонда Владимира Потанина.