<a href="https://colab.research.google.com/github/annarm1/compling/blob/main/tokenization_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Токенизация в NLP

## Введение

**Токенизация** – это процесс разбиения текста на минимальные единицы (токены): слова, подслова или символы.  
Она является первым шагом во многих NLP задачах: анализ тональности, машинный перевод, чат-боты, обучение языковых моделей.

В этом туториале мы разберём разные виды токенизации и библиотеки, которые их реализуют.



## 1. Простые методы токенизации

### 1.1. Разделение по пробелам


In [None]:
text = "Hello, world! This is a test."
text.split()


### 1.2. Регулярные выражения


In [None]:
import re

text = "Hello, world! This is a test."
tokens = re.findall(r"\w+", text)
tokens


**Ограничения простых методов**:  
- Не учитывают пунктуацию.  
- Не работают с разными языками и морфологией.  
- Не подходят для серьёзных задач.  



## 2. Токенизация с помощью библиотек



### 2.1. NLTK  
**Применение**: образовательные проекты, простая предобработка текста.  
**Ограничения**: работает медленно на больших корпусах.  
**Когда использовать**: для курсовых и лабораторных работ по основам NLP.


In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize, sent_tokenize

text = "Hello, world! This is a test."
print(word_tokenize(text))
print(sent_tokenize(text))


### 2.2. spaCy  
**Применение**: промышленные проекты, морфология, синтаксис.  
**Ограничения**: большие модели, требует ресурсов.  
**Когда использовать**: для курсовых по синтаксису и морфологии, проектов по обработке естественного языка.


In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Hello, world! This is a test.")
[t.text for t in doc]


### 2.3. Stanza  
**Применение**: многоязычные корпуса, морфология, синтаксис.  
**Ограничения**: медленнее spaCy, требует загрузки моделей.  
**Когда использовать**: в исследованиях и при работе с редкими языками.


In [None]:
!pip install stanza
import stanza

stanza.download("en")
nlp = stanza.Pipeline("en")
doc = nlp("Hello, world! This is a test.")
[[word.text for word in sent.words] for sent in doc.sentences]


### 2.4. MosesTokenizer (sacremoses)  
**Применение**: машинный перевод, предобработка текстов.  
**Ограничения**: устаревающий стандарт.  
**Когда использовать**: для экспериментов с классическими MT-системами.


In [None]:
!pip install sacremoses

from sacremoses import MosesTokenizer

mt = MosesTokenizer()
mt.tokenize("Hello, world! This is a test.")


### 2.5. gensim  
**Применение**: подготовка данных для моделей `word2vec`, `fastText`.  
**Ограничения**: базовая токенизация.  
**Когда использовать**: при обучении собственных векторных моделей.  


In [None]:
#!pip install gensim
from gensim.utils import simple_preprocess

simple_preprocess("Hello, world! This is a test.")


### 2.6. HuggingFace Tokenizers  
**Применение**: трансформеры, нейросетевые модели.  
**Ограничения**: сложность, нужен GPU для обучения токенизаторов.  
**Когда использовать**: в курсовых и проектах с BERT, GPT, T5.


In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer("Hello, world! This is a test.")
tokens


## 3. Посимвольная токенизация  


In [None]:
list("Hello, world!")


## 4. Комбинированные методы  

- **Послоговая токенизация** (актуально для языков с чёткой слоговой структурой, например, японский).  
- **Гибридные методы**: совмещение слов и символов.  

Пример: статья *Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models*.  



## 5. Сравнение токенизаторов  

Попробуем применить разные методы к одному и тому же тексту.  



## 6. Практика

Возьмём новостной текст, токенизируем разными способами и сравним.  


In [None]:
article = 'Natural language processing (NLP) is a field of artificial intelligence\
that gives computers the ability to understand text and spoken words in much the same way human beings can.'

"""
NLTK
"""
print("\n------NLTK tokenization result-------")
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize, sent_tokenize

print(word_tokenize(article))


"""
SpaCy
"""
print('\n------SpaCy tokenization result-------')
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp(article)
print([t.text for t in doc])


"""
Gensim
"""
print('\n------Gensim tokenization result-------')
!pip install gensim
from gensim.utils import simple_preprocess

print(simple_preprocess(article))



## 7. Задача для самостоятельного разбора  

Прочитать статью:  
**"Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models"** (https://arxiv.org/abs/1604.00788)

### Напишите ответы на вопросы:
1. Что значит Out-of-Vocabulary?  
2. Как эту проблемы решили авторы статьи "Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models"?
3. Какие еще типы токенизации мы разбирали на занятии?  


Ваш ответ здесь:

1. Что значит Out-of-Vocabulary?  
Это слова, которые отсутствуют в словаре модели (редкие слова), например потому что оно морфологически слишком сложное/новое или просто редко встречается. Их, как я поняла, называют unk-слова и видимо отмечают таким тегом.
2. Как эту проблемы решили авторы статьи "Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models"?
Авторы предлагают перевод слова на уровне символов с помощью character-level LSTM.
3. Какие еще типы токенизации мы разбирали на занятии?  
Мы разбирали токенизацию по словам, символам, предложениям, пробелам, по слогам (для японского), а также про токенизацию подсловную (когда слово разбивается на составные части, можно сказать почти морфемы)