<a href="https://colab.research.google.com/github/AmplMrrr/compling-HW/blob/main/Copy_of_tokenization_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Токенизация в NLP

## Введение

**Токенизация** – это процесс разбиения текста на минимальные единицы (токены): слова, подслова или символы.  
Она является первым шагом во многих NLP задачах: анализ тональности, машинный перевод, чат-боты, обучение языковых моделей.

В этом туториале мы разберём разные виды токенизации и библиотеки, которые их реализуют.



## 1. Простые методы токенизации

### 1.1. Разделение по пробелам


In [4]:
text = "Hello, world! This is a test."
text.split()

['Hello,', 'world!', 'This', 'is', 'a', 'test.']


### 1.2. Регулярные выражения


In [5]:
import re

text = "Hello, world! This is a test."
tokens = re.findall(r"\w+", text)
tokens

['Hello', 'world', 'This', 'is', 'a', 'test']


**Ограничения простых методов**:  
- Не учитывают пунктуацию.  
- Не работают с разными языками и морфологией.  
- Не подходят для серьёзных задач.  



## 2. Токенизация с помощью библиотек



### 2.1. NLTK  
**Применение**: образовательные проекты, простая предобработка текста.  
**Ограничения**: работает медленно на больших корпусах.  
**Когда использовать**: для курсовых и лабораторных работ по основам NLP.


In [6]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize, sent_tokenize

text = "Hello, world! This is a test."
print(word_tokenize(text))
print(sent_tokenize(text))

['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']
['Hello, world!', 'This is a test.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!



### 2.2. spaCy  
**Применение**: промышленные проекты, морфология, синтаксис.  
**Ограничения**: большие модели, требует ресурсов.  
**Когда использовать**: для курсовых по синтаксису и морфологии, проектов по обработке естественного языка.


In [7]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Hello, world! This is a test.")
[t.text for t in doc]

['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']


### 2.3. Stanza  
**Применение**: многоязычные корпуса, морфология, синтаксис.  
**Ограничения**: медленнее spaCy, требует загрузки моделей.  
**Когда использовать**: в исследованиях и при работе с редкими языками.


In [8]:
!pip install stanza
import stanza

stanza.download("en")
nlp = stanza.Pipeline("en")
doc = nlp("Hello, world! This is a test.")
[[word.text for word in sent.words] for sent in doc.sentences]

Collecting stanza
  Downloading stanza-1.11.0-py3-none-any.whl.metadata (14 kB)
Collecting emoji (from stanza)
  Downloading emoji-2.15.0-py3-none-any.whl.metadata (5.7 kB)
Downloading stanza-1.11.0-py3-none-any.whl (1.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m19.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading emoji-2.15.0-py3-none-any.whl (608 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m608.4/608.4 kB[0m [31m31.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji, stanza
Successfully installed emoji-2.15.0 stanza-1.11.0


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: en (English) ...


Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.11.0/models/default.zip:   0%|          | …

INFO:stanza:Downloaded file to /root/stanza_resources/en/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: en (English):
| Processor    | Package                   |
--------------------------------------------
| tokenize     | combined                  |
| mwt          | combined                  |
| pos          | combined_charlm           |
| lemma        | combined_nocharlm         |
| constituency | ptb3-revised_charlm       |
| depparse     | combined_charlm           |
| sentiment    | sstplus_charlm            |
| ner          | ontonotes-ww-multi_charlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: constituency
INFO:stanza:Loading: depparse
INFO:stanza:Loading: sentiment
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


[['Hello', ',', 'world', '!'], ['This', 'is', 'a', 'test', '.']]


### 2.4. MosesTokenizer (sacremoses)  
**Применение**: машинный перевод, предобработка текстов.  
**Ограничения**: устаревающий стандарт.  
**Когда использовать**: для экспериментов с классическими MT-системами.


In [9]:
!pip install sacremoses

from sacremoses import MosesTokenizer

mt = MosesTokenizer()
mt.tokenize("Hello, world! This is a test.")

Collecting sacremoses
  Downloading sacremoses-0.1.1-py3-none-any.whl.metadata (8.3 kB)
Downloading sacremoses-0.1.1-py3-none-any.whl (897 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m897.5/897.5 kB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sacremoses
Successfully installed sacremoses-0.1.1


['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']


### 2.5. gensim  
**Применение**: подготовка данных для моделей `word2vec`, `fastText`.  
**Ограничения**: базовая токенизация.  
**Когда использовать**: при обучении собственных векторных моделей.  


In [12]:
!pip install gensim
from gensim.utils import simple_preprocess

simple_preprocess("Hello, world! This is a test.")

Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m48.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0


['hello', 'world', 'this', 'is', 'test']


### 2.6. HuggingFace Tokenizers  
**Применение**: трансформеры, нейросетевые модели.  
**Ограничения**: сложность, нужен GPU для обучения токенизаторов.  
**Когда использовать**: в курсовых и проектах с BERT, GPT, T5.


In [13]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer("Hello, world! This is a test.")
tokens

{'input_ids': [101, 7592, 1010, 2088, 999, 2023, 2003, 1037, 3231, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


## 3. Посимвольная токенизация  


In [14]:
list("Hello, world!")

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']


## 4. Комбинированные методы  

- **Послоговая токенизация** (актуально для языков с чёткой слоговой структурой, например, японский).  
- **Гибридные методы**: совмещение слов и символов.  

Пример: статья *Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models*.  



## 5. Сравнение токенизаторов  

Попробуем применить разные методы к одному и тому же тексту.  



## 6. Практика

Возьмём новостной текст, токенизируем разными способами и сравним.  


In [49]:
article = 'Natural language processing (NLP) is a field of artificial intelligence\
that gives computers the ability to understand text and spoken words in much the same way human beings can.'

print() #добавляю отбивку для наглядности (здесь и далее)
print("Текст для токенизация:", article) #вывожу тест для наглядности
print()
print("***"*20)
print()
print("Разные методы токенизации:") #для наглядности вывожу тест о том, что собираюсь дальше писать
print()
print("***"*20)
print()

"""
NLTK
"""
import nltk #имопртирую все необходимое (мы это делали выше, и можно было не повторять код, но если бы код до этого был пустой, эти действия были бы обязательны)
nltk.download('punkt')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize, sent_tokenize

print("\033[1m" + "NLTK (по словам):" + "\033[0m", word_tokenize(article)) #делаю и вывожу токинизацию по словам и выделяю названин жирным для нагляжности
print("\033[1m" + "NLTK (по предложениям):" + "\033[0m", sent_tokenize(article)) #делаю и вывожу токинизацию по предложениями


"""
SpaCy
"""

import spacy #имопртирую все необходимое

nlp = spacy.load("en_core_web_sm")
doc = nlp(article)

print()
print("***"*20)
print()

print("\033[1m" + "SpaCy:" + "\033[0m", [t.text for t in doc]) #делаю и вывожу токинизацию способом SpaCy


"""
Gensim
"""
!pip install gensim
from gensim.utils import simple_preprocess

print()
print("***"*20)
print()

print("\033[1m" + "Gensim:" + "\033[0m", simple_preprocess(article)) #делаю и вывожу токинизацию способом Gensim

print()
print("***"*20)
print()
print("Сравнение:")
print()
print('Наиболее эффективным мне показался метод "Gensim", потому что он приводит все единицы к одному формату (нижний регистр) и не выделяет знаки преписания как токены.')
print('Остальные методы сохраняют изначальный вид слов (например, заглавные буквы) и выделяют знаки препинания.')
print('Выделение токенов с помощью метода "NLTK по предложениями" кажется мне самым неэффективным, хотя, вероятно, есть задачи для которых нужен именно он.')


Текст для токенизация: Natural language processing (NLP) is a field of artificial intelligencethat gives computers the ability to understand text and spoken words in much the same way human beings can.

************************************************************

Разные методы токенизации:

************************************************************

[1mNLTK (по словам):[0m ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'artificial', 'intelligencethat', 'gives', 'computers', 'the', 'ability', 'to', 'understand', 'text', 'and', 'spoken', 'words', 'in', 'much', 'the', 'same', 'way', 'human', 'beings', 'can', '.']
[1mNLTK (по предложениям):[0m ['Natural language processing (NLP) is a field of artificial intelligencethat gives computers the ability to understand text and spoken words in much the same way human beings can.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!



************************************************************

[1mSpaCy:[0m ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'artificial', 'intelligencethat', 'gives', 'computers', 'the', 'ability', 'to', 'understand', 'text', 'and', 'spoken', 'words', 'in', 'much', 'the', 'same', 'way', 'human', 'beings', 'can', '.']

************************************************************

[1mGensim:[0m ['natural', 'language', 'processing', 'nlp', 'is', 'field', 'of', 'artificial', 'gives', 'computers', 'the', 'ability', 'to', 'understand', 'text', 'and', 'spoken', 'words', 'in', 'much', 'the', 'same', 'way', 'human', 'beings', 'can']

************************************************************

Сравнение:

Наиболее эффективным мне показался метод "Gensim", потому что он приводит все единицы к одному формату (нижний регистр) и не выделяет знаки преписания как токены.
Остальные методы сохраняют изначальный вид слов (например, заглавные буквы) и выделяют знаки 


## 7. Задача для самостоятельного разбора  

Прочитать статью:  
**"Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models"** (https://arxiv.org/abs/1604.00788)

### Напишите ответы на вопросы:
1. Что значит Out-of-Vocabulary?  
2. Как эту проблемы решили авторы статьи "Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models"?
3. Какие еще типы токенизации мы разбирали на занятии?  


1. Термин "Out-of-Vocabulary" означает слова, которые встречаются в тексте (например в том, который нужно протокенизировать), но которых нет в словаре у модели, которая проводит токенизацию.
2. Чтобы решить проблему с Out-of-Vocabulary, авторы статьи предлагают проводить токенизацию двумя способами, то есть применять для таких единиц посимвольную токенизацию, а  остальные единицы токенизировать по словам.  В этом и состоит суть гибридной модели (выделять токены и на уровне слов, и на уровне символов).
3. Кроме токенизации по словам и символам на занятии мы говорили про существование таких типов токенизации, как: токенизации по предложениям, токенизация по N-граммам, подсловная токенизация (на паре был пример про выделение английского суффикса "-ly" как субтокена, ведь он является общим для большого количества слов).