# Сравнение NLP моделей и отдельных этапов пайплайна

Цель: корректно разобрать текст на действия, цепочку действий, сущности с которыми связаны эти действия и смысловые единицы (что нужно знать для того что бы узнать (сделать) вот это?).

Слово — это абстрактная лингвистическая единица с несколькими определениями
- Ортографическое слово (орфографическое)
  - Последовательность символов между пробелами/знаками препинания
    - Примеры: "кот", "бежал", "по-русски", "что-то"
- Морфологическое слово (лексема)
  - Набор всех словоформ одной лексемы
    - Пример: {бежать, бегу, бежишь, бежал, беги} = одно морфологическое слово
- Синтаксическое слово (словоформа)
  - Конкретная грамматическая форма слова в предложении
    - Пример: "бежал" (прош.вр., муж.р., ед.ч.)
- Фонологическое слово
  - Единица произношения с одним ударением
    - Пример: "по́-русски" может быть одним фонологическим словом

Токен — это элементарная единица обработки текста в компьютерных системах.

Токенизация — это процесс разделения текста на токены согласно определённым правилам, которые могут быть разными.

Ключевое понимание: слово — это лингвистическая концепция о том, как люди организуют язык, а токен — это вычислительная концепция о том, как машины обрабатывают текст. Токенизация — это мост между человеческим языком и машинным пониманием.

<span style="color: red"><b>Следовательно!</b>  
Нужно провести исследование, "Какая именно токенизация лучше подходит для нашей задачи при прочих равных?"</span>  
  

<b style="color: gold">Для любой новой задачи, решать её с помощью промпта к Mistral или Gemma как заглушка, затем делать всё в виде кода</b>

Рейтинг моделей на 2025.07.02 11:03:01 (первичный):
1. spaCy
2. gensim
3. nltk
4. 

Рейтинг словарей на 2025.07.02 11:03:01 (первичный):
- Русский
  1. `pymorphy2` + `pymorphy2‑dicts‑ru` — морфологический
  1. `ruslingua` — ❓
  1. `word2word` — корпусный двуязычный словарь, top‑k переводов из корпусных параллелей (Subtitles)
  1. [OpenCorpora](http://opencorpora.org) — морфологически, синтаксически и семантически размеченный корпус текстов
  1. [Russian National Corpus](https://ruscorpora.ru) — 
  1. [Open Russian WordNet](https://github.com/ruwordnet/ruwordnet), `ruwordnet-client` — 
  1. [DeepPavlov]() — 
  1. [Natasha]() — 
  1. [RuBERT / SiberiaBERT]() — 
  1. []() — 
  1. []() — 
  1. []() — 
  1. [словарь Зализняка❓]() — 
- Английский
  1. [BERT]() — 
  1. [Salesforce CodeGen-6B-Multi (BSD-3-Clause, 6B)]() — использовать только для кода, задавать запросы на английском
  1. `PyMultiDictionary` — API для онлайн словаря
  1. `kkrypt0nn/wordlists` — коллекция word‑list
  1. `all‑words‑in‑all‑languages` — CSV‑файлы word‑list
  1. [Princeton WordNet](https://wordnet.princeton.edu/download) — 
  1. [GCIDE]() — https://ftp.gnu.org/gnu/gcide/
  1. [SCOWL (Word Lists)](http://wordlist.aspell.net) — 
  1. [Wiktionary Dumps](https://dumps.wikimedia.org/enwiktionary/), `wiktextract` — 
  1. `pattern` (pattern-en) — 
  1. `nltk-wordnet` — 
- Мультиязычный где обязательно есть русский и английский
  1. [Mistral 7B](https://mistral.ai/) —
  1. [ALMA-13B / X-ALMA]() — для задач перевода
  1. [Llama 3](https://www.llama.com/models/llama-3/) —
  1. [Mistral Small 3.1](https://mistral.ai/) —
  1. [Falcon 7B]() —
  1. `word2word` — корпусный двуязычный словарь, top‑k переводов из корпусных параллелей (Subtitles)
  1. [Hunspell-словарь](https://github.com/titoBouzout/Dictionaries/tree/master/Russian), `hunspell-bindings` — 
  1. `wordfreq` — частота использования слов во многих языках
  1. Vk Mueller’s English‑Russian — можно загрузить и использовать через dictd

Размеченные корпуса текстов
- Русский
  - [SynTagRus / UD Russian‑SynTagRus](https://github.com/UniversalDependencies/UD_Russian-SynTagRus) — 110 тыс предложений с ручной проверкой морфологической и синтаксической разметки в формате зависимостей (Universal Dependencies). CoNLL-U, имеет поля: форма слова, лемма, UPOS/POS‑теги, морфологические признаки, head, deprel.
  - [UD Russian‑Taiga](https://github.com/UniversalDependencies/UD_Russian-Taiga) — корпус чатов/блогов, адаптированный к UD-разметке. Меньше объём, но современный стиль — e‑коммуникация. CoNLL‑U, аналогичные поля: морфология + синтаксис (зависимости).
  - [ХАНКО (Helsinki Annotated Corpus of Russian)](https://clarino.uib.no/comedi/editor/lb-2014073066)
  - [Национальный корпус русского языка (НКРЯ)](https://ruscorpora.ru/) — более 2 млрд слов, оснащенная лингвистической разметкой и инструментами поиска
- Английский

## Установка окружения

В отдельной консоли введите команду `poetry install`. Добавление пакетов не работает в Jupyter подобно `pip install [package_name]`.

## Подключение библиотек

In [8]:
import re

import spacy

from spacy.matcher import Matcher

from IPython.display import HTML

In [2]:
nlp_eng = spacy.load("en_core_web_trf")
# nlp_rus = spacy.load("ru_core_news_lg")

## Получение данных

In [6]:
text_rus = """В прошлом году Московский государственный университет им. М.В. Ломоносова 
запустил программу искусственного интеллекта стоимостью 15.5 млн рублей. 
Главный исследователь проекта, доктор технических наук Иван Петрович Сидоров, 
заявил: "Машинное обучение - это будущее науки"."""
text_eng = """Last year, Lomonosov Moscow State University
launched an artificial intelligence program worth 15.5 million rubles. 
The main researcher of the project, Doctor of Technical Sciences Ivan Petrovich Sidorov, 
He stated, "Machine learning is the future of science.\""""

with open("../personal_folder/Article example.md", "r") as f:
    text_eng = f.read()

text_eng[:100]

'# Methods of Refutation and Validation of Aging Mechanisms and Markers for the Purposes of Biologica'

## Токенизация

In [3]:
def semantic_tokenization(text):
    # Загружаем модель с NER
    doc = nlp_eng(text)
    
    semantic_units = []
    processed_tokens = set()
    
    # 1. Извлекаем именованные сущности
    for ent in doc.ents:
        if ent.label_ in ['PER', 'ORG', 'LOC', 'MONEY', 'DATE']:
            semantic_units.append({
                'text': ent.text,
                'type': 'named_entity',
                'label': ent.label_,
                'start': ent.start,
                'end': ent.end
            })
            processed_tokens.update(range(ent.start, ent.end))
    
    # 2. Извлекаем составные термины (noun phrases)
    for chunk in doc.noun_chunks:
        if len(chunk) > 1 and not any(i in processed_tokens for i in range(chunk.start, chunk.end)):
            semantic_units.append({
                'text': chunk.text,
                'type': 'noun_phrase',
                'start': chunk.start,
                'end': chunk.end
            })
            processed_tokens.update(range(chunk.start, chunk.end))
    
    # 3. Добавляем оставшиеся значимые токены
    for token in doc:
        if (token.i not in processed_tokens and 
            not token.is_punct and 
            not token.is_space and 
            token.pos_ in ['NOUN', 'VERB', 'ADJ', 'NUM']):
            semantic_units.append({
                'text': token.text,
                'type': 'single_token',
                'pos': token.pos_,
                'start': token.i,
                'end': token.i + 1
            })
    
    # Сортируем по позиции в тексте
    semantic_units.sort(key=lambda x: x['start'])
    return semantic_units

In [7]:
semantic_units = semantic_tokenization(text_eng)
semantic_units

[{'text': '# Methods', 'type': 'noun_phrase', 'start': 0, 'end': 2},
 {'text': 'Refutation',
  'type': 'single_token',
  'pos': 'NOUN',
  'start': 3,
  'end': 4},
 {'text': 'Validation',
  'type': 'single_token',
  'pos': 'NOUN',
  'start': 5,
  'end': 6},
 {'text': 'Aging Mechanisms', 'type': 'noun_phrase', 'start': 7, 'end': 9},
 {'text': 'Markers',
  'type': 'single_token',
  'pos': 'NOUN',
  'start': 10,
  'end': 11},
 {'text': 'the Purposes', 'type': 'noun_phrase', 'start': 12, 'end': 14},
 {'text': 'Biological Immortality',
  'type': 'noun_phrase',
  'start': 15,
  'end': 17},
 {'text': 'Abstract',
  'type': 'single_token',
  'pos': 'NOUN',
  'start': 20,
  'end': 21},
 {'text': 'This article', 'type': 'noun_phrase', 'start': 22, 'end': 24},
 {'text': 'examines',
  'type': 'single_token',
  'pos': 'VERB',
  'start': 25,
  'end': 26},
 {'text': 'modern scientific methods',
  'type': 'noun_phrase',
  'start': 27,
  'end': 30},
 {'text': 'used',
  'type': 'single_token',
  'pos': 'V

In [12]:
def visualize_semantic_units(text, semantic_units, nlp_model):
    """Создаёт HTML визуализацию семантических единиц"""
    
    # Обрабатываем текст spaCy для получения токенов
    doc = nlp_model(text)
    
    # Цвета для разных типов токенов
    colors = {
        'noun_phrase': '#1a237e',        # Тёмно-синий
        'named_entity': '#e65100',       # Тёмно-оранжевый  
        'single_token': '#4a148c',       # Тёмно-фиолетовый
        'technical_term': '#1b5e20',     # Тёмно-зелёный
        'multiword_expression': '#ff6f00' # Янтарный
    }
    
    border_colors = {
        'noun_phrase': '#3f51b5',        # Индиго
        'named_entity': '#ff9800',       # Оранжевый 
        'single_token': '#9c27b0',       # Фиолетовый
        'technical_term': '#4caf50',     # Зелёный
        'multiword_expression': '#ffc107' # Жёлтый
    }
    
    # Создаём HTML разметку
    html_parts = []
    html_parts.append("""
    <div style="font-family: Arial, sans-serif; line-height: 1.6; margin: 20px;">
        <h3>🔍 Визуализация семантической токенизации</h3>
        <div style="margin-bottom: 20px;">
    """)
    
    # Добавляем легенду
    html_parts.append('<div style="margin-bottom: 15px;"><strong>Легенда:</strong><br>')
    for token_type, color in colors.items():
        border_color = border_colors.get(token_type, '#666')
        html_parts.append(f'''
            <span style="background-color: {color}; border: 2px solid {border_color}; 
                         padding: 2px 6px; margin: 2px; border-radius: 4px; font-size: 12px;">
                {token_type.replace('_', ' ').title()}
            </span>
        ''')
    html_parts.append('</div>')
    
    # Создаём карту позиций токенов -> семантические единицы
    token_to_unit = {}
    for unit in semantic_units:
        for token_pos in range(unit['start'], unit['end']):
            token_to_unit[token_pos] = unit
    
    # Строим размеченный текст
    html_parts.append('<div style="font-size: 16px; line-height: 2;">')
    
    current_unit = None
    for i, token in enumerate(doc):
        # Проверяем, нужно ли открыть новый блок
        if i in token_to_unit:
            unit = token_to_unit[i]
            if unit != current_unit:
                # Закрываем предыдущий блок
                if current_unit is not None:
                    html_parts.append('</span>')
                
                # Открываем новый блок
                token_type = unit['type']
                bg_color = colors.get(token_type, '#f5f5f5')
                border_color = border_colors.get(token_type, '#666')
                
                tooltip = f"Type: {token_type}"
                if 'label' in unit:
                    tooltip += f", Label: {unit['label']}"
                if 'pos' in unit:
                    tooltip += f", POS: {unit['pos']}"
                
                html_parts.append(f'''
                    <span style="background-color: {bg_color}; 
                                 border: 2px solid {border_color}; 
                                 padding: 2px 4px; margin: 1px; 
                                 border-radius: 4px;
                                 cursor: help;" 
                          title="{tooltip}">
                ''')
                current_unit = unit
        elif current_unit is not None:
            # Закрываем блок если токен не входит в единицу
            html_parts.append('</span>')
            current_unit = None
        
        # Добавляем сам токен
        if current_unit is None:
            # Токен без разметки
            html_parts.append(f'<span style="color: #666;">{token.text}</span>')
        else:
            html_parts.append(token.text)
        
        # Добавляем пробел если нужно
        if token.whitespace_:
            html_parts.append(token.whitespace_)
    
    # Закрываем последний блок если нужно
    if current_unit is not None:
        html_parts.append('</span>')
    
    html_parts.append('</div></div></div>')
    
    return ''.join(html_parts)

# 🎯 Применяем к твоим данным
def display_tokenization_results(text, semantic_units, nlp_model):
    """Отображает результаты токенизации"""
    
    # 1. HTML визуализация
    html_viz = visualize_semantic_units(text, semantic_units, nlp_model)
    display(HTML(html_viz))
    
    # 2. Статистика по типам токенов
    stats = {}
    for unit in semantic_units:
        token_type = unit['type']
        if token_type not in stats:
            stats[token_type] = 0
        stats[token_type] += 1
    
    print("\n📊 Статистика токенизации:")
    for token_type, count in sorted(stats.items()):
        print(f"  {token_type.replace('_', ' ').title()}: {count}")
    
    # 3. Примеры каждого типа
    print("\n🔍 Примеры токенов по типам:")
    examples = {}
    for unit in semantic_units:
        token_type = unit['type']
        if token_type not in examples:
            examples[token_type] = []
        if len(examples[token_type]) < 3:  # Показываем до 3 примеров
            examples[token_type].append(unit['text'])
    
    for token_type, example_list in examples.items():
        print(f"  {token_type.replace('_', ' ').title()}: {', '.join(example_list[:3])}")

In [13]:
display_tokenization_results(text_eng, semantic_units, nlp_eng)


📊 Статистика токенизации:
  Named Entity: 5
  Noun Phrase: 317
  Single Token: 382

🔍 Примеры токенов по типам:
  Noun Phrase: # Methods, Aging Mechanisms, the Purposes
  Single Token: Refutation, Validation, Markers
  Named Entity: 1971, 1961, 1998


## Измерение качества токенизации

In [14]:
def evaluate_tokenization_quality(text, semantic_units, nlp_model):
    """Автоматическая оценка качества токенизации"""
    
    doc = nlp_model(text)
    total_tokens = len(doc)
    
    # Базовые метрики
    metrics = {
        'coverage': 0,           # Покрытие текста
        'redundancy': 0,         # Избыточность (пересечения)
        'avg_unit_length': 0,    # Средняя длина единицы
        'semantic_density': 0,   # Семантическая плотность
        'type_distribution': {}, # Распределение типов
        'quality_score': 0       # Общий балл качества
    }
    
    # 1. Покрытие текста (% токенов, включённых в семантические единицы)
    covered_tokens = set()
    for unit in semantic_units:
        covered_tokens.update(range(unit['start'], unit['end']))
    
    metrics['coverage'] = len(covered_tokens) / total_tokens * 100
    
    # 2. Проверка избыточности (пересечений)
    overlaps = 0
    for i, unit1 in enumerate(semantic_units):
        for unit2 in semantic_units[i+1:]:
            range1 = set(range(unit1['start'], unit1['end']))
            range2 = set(range(unit2['start'], unit2['end']))
            if range1.intersection(range2):
                overlaps += 1
    
    metrics['redundancy'] = overlaps
    
    # 3. Средняя длина семантических единиц
    unit_lengths = [unit['end'] - unit['start'] for unit in semantic_units]
    metrics['avg_unit_length'] = sum(unit_lengths) / len(unit_lengths) if unit_lengths else 0
    
    # 4. Распределение типов
    for unit in semantic_units:
        unit_type = unit['type']
        metrics['type_distribution'][unit_type] = metrics['type_distribution'].get(unit_type, 0) + 1
    
    # 5. Семантическая плотность (% значимых токенов)
    meaningful_tokens = sum(1 for token in doc if token.pos_ in ['NOUN', 'VERB', 'ADJ', 'PROPN'])
    metrics['semantic_density'] = meaningful_tokens / total_tokens * 100
    
    # 6. Общий балл качества (взвешенная сумма)
    coverage_score = min(metrics['coverage'] / 100, 1.0) * 40  # до 40 баллов
    redundancy_penalty = max(0, 20 - overlaps * 5)           # штраф за пересечения
    length_score = min(metrics['avg_unit_length'] / 3, 10)    # до 10 баллов за длину
    density_score = min(metrics['semantic_density'] / 100, 1.0) * 30  # до 30 баллов
    
    metrics['quality_score'] = coverage_score + redundancy_penalty + length_score + density_score
    
    return metrics

# 📈 Красивый отчёт о качестве
def print_quality_report(metrics):
    """Выводит красивый отчёт о качестве токенизации"""
    
    print("🔍 ОТЧЁТ О КАЧЕСТВЕ ТОКЕНИЗАЦИИ")
    print("=" * 50)
    
    # Общий балл
    score = metrics['quality_score']
    if score >= 80:
        grade = "🟢 Отлично"
    elif score >= 60:
        grade = "🟡 Хорошо"
    elif score >= 40:
        grade = "🟠 Удовлетворительно"
    else:
        grade = "🔴 Плохо"
    
    print(f"📊 Общий балл качества: {score:.1f}/100 {grade}")
    print()
    
    # Детальные метрики
    print("📋 Детальные метрики:")
    print(f"  📏 Покрытие текста: {metrics['coverage']:.1f}%")
    print(f"  🔄 Пересечения единиц: {metrics['redundancy']}")
    print(f"  📐 Средняя длина единицы: {metrics['avg_unit_length']:.1f} токенов")
    print(f"  🎯 Семантическая плотность: {metrics['semantic_density']:.1f}%")
    print()
    
    # Распределение типов
    print("📊 Распределение типов токенов:")
    total_units = sum(metrics['type_distribution'].values())
    for token_type, count in sorted(metrics['type_distribution'].items()):
        percentage = count / total_units * 100
        print(f"  {token_type.replace('_', ' ').title()}: {count} ({percentage:.1f}%)")

In [15]:
metrics = evaluate_tokenization_quality(text_eng, semantic_units, nlp_eng)
print_quality_report(metrics)

🔍 ОТЧЁТ О КАЧЕСТВЕ ТОКЕНИЗАЦИИ
📊 Общий балл качества: 61.9/100 🟡 Хорошо

📋 Детальные метрики:
  📏 Покрытие текста: 62.8%
  🔄 Пересечения единиц: 0
  📐 Средняя длина единицы: 1.8 токенов
  🎯 Семантическая плотность: 54.0%

📊 Распределение типов токенов:
  Named Entity: 5 (0.7%)
  Noun Phrase: 317 (45.0%)
  Single Token: 382 (54.3%)
