# Практика: Введение в NLP

В этой тетради мы пройдём основные концепции NLP на практике:
- Токенизация
- Морфологический анализ
- Построение пайплайна
- Классификация текстов

Убедитесь, что установлены необходимые библиотеки:
```
pip install nltk pymystem3 pymorphy2 scikit-learn
```

## 1. Токенизация и сегментация

In [None]:
import re
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')
    nltk.download('stopwords')

# Примеры текстов
text_ru = """Привет, мир! Это первый пример. NLP очень интересен.
Машинное обучение меняет нашу жизнь."""

text_en = """Hello, world! This is the first example. NLP is very interesting.
Machine learning is changing our lives."""

print("=" * 60)
print("СЕГМЕНТАЦИЯ НА ПРЕДЛОЖЕНИЯ")
print("=" * 60)
print("\nРусский текст:")
sentences_ru = sent_tokenize(text_ru, language='russian')
for i, sent in enumerate(sentences_ru, 1):
    print(f"{i}. {sent}")

print("\nАнглийский текст:")
sentences_en = sent_tokenize(text_en, language='english')
for i, sent in enumerate(sentences_en, 1):
    print(f"{i}. {sent}")

In [None]:
print("=" * 60)
print("ТОКЕНИЗАЦИЯ")
print("=" * 60)

# Простая токенизация по пробелам
simple_tokens = text_ru.split()
print(f"\nПростая токенизация (split):")
print(f"Токены: {simple_tokens}")
print(f"Количество: {len(simple_tokens)}")
print("⚠️ Проблема: пунктуация слилась со словами")

# Более правильная токенизация
print("\nТокенизация с разделением пунктуации:")
tokens_ru = word_tokenize(text_ru, language='russian')
print(f"Токены: {tokens_ru[:20]}...")  # Первые 20
print(f"Количество: {len(tokens_ru)}")

print("\nАнглийская токенизация:")
tokens_en = word_tokenize(text_en)
print(f"Токены: {tokens_en[:20]}...")
print(f"Количество: {len(tokens_en)}")

In [None]:
# Пользовательская токенизация с regex
print("\nОсовещение токенизации с regex:")

def custom_tokenize(text):
    # Разделяем по пробелам, но сохраняем пунктуацию
    # Паттерн: слово или одиночный символ
    pattern = r"\b\w+\b|[.,!?;:-]"
    tokens = re.findall(pattern, text, re.UNICODE)
    return tokens

custom_tokens = custom_tokenize(text_ru.lower())
print(f"Custom токены: {custom_tokens}")

## 2. Морфологический анализ

In [None]:
# Для русского языка используем pymorphy2
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

# Примеры слов
words = ['бежали', 'конца', 'банка', 'красивая', 'работают']

print("=" * 60)
print("ЛЕММАТИЗАЦИЯ И МОРФОЛОГИЧЕСКИЙ АНАЛИЗ")
print("=" * 60)

for word in words:
    p = morph.parse(word)[0]
    print(f"\nСлово: '{word}'")
    print(f"  Лемма: {p.normal_form}")
    print(f"  Часть речи: {p.tag.POS}")
    print(f"  Грамм. признаки: {p.tag}")

In [None]:
# Лемматизация полного текста
print("\n" + "=" * 60)
print("ЛЕММАТИЗАЦИЯ ТЕКСТА")
print("=" * 60)

def lemmatize_text(text):
    # Токенизируем
    tokens = word_tokenize(text.lower(), language='russian')
    # Лемматизируем
    lemmas = []
    for token in tokens:
        if token.isalpha():  # Только буквы
            parsed = morph.parse(token)[0]
            lemmas.append(parsed.normal_form)
        else:
            lemmas.append(token)  # Числа, пунктуация как есть
    return lemmas

original = "Мама мыла раму. Дети бежали на площадку."
lemmatized = lemmatize_text(original)

print(f"\nОригинал: {original}")
print(f"Леммы: {' '.join(lemmatized)}")

In [None]:
# Анализ одной словоформы с несколькими вариантами
print("\n" + "=" * 60)
print("ОМОНИМИЯ: СЛОВО С НЕСКОЛЬКИМИ ЗНАЧЕНИЯМИ")
print("=" * 60)

ambiguous_word = 'банка'
parses = morph.parse(ambiguous_word)

print(f"\nВсе возможные разборы слова '{ambiguous_word}':")
for i, p in enumerate(parses, 1):
    print(f"{i}. Лемма: {p.normal_form:15} | Часть речи: {p.tag.POS:10} | Полный тег: {p.tag}")

## 3. Построение простого пайплайна

In [None]:
print("=" * 60)
print("ПОЛНЫЙ ПАЙПЛАЙН ПРЕДОБРАБОТКИ")
print("=" * 60)

class TextPipeline:
    def __init__(self, language='russian'):
        self.language = language
        self.morph = pymorphy2.MorphAnalyzer()
        if language == 'russian':
            self.stop_words = stopwords.words('russian')
        else:
            self.stop_words = stopwords.words('english')
    
    def process(self, text):
        """Полная обработка текста"""
        # 1. Сегментация на предложения
        sentences = sent_tokenize(text, language=self.language)
        
        result = {
            'original': text,
            'sentences': sentences,
            'tokens': [],
            'lemmas': [],
            'cleaned_tokens': []
        }
        
        # 2. Токенизация и лемматизация
        all_tokens = word_tokenize(text.lower(), language=self.language)
        result['tokens'] = all_tokens
        
        # 3. Лемматизация
        lemmas = []
        for token in all_tokens:
            if token.isalpha():
                lemma = self.morph.parse(token)[0].normal_form
                lemmas.append(lemma)
            else:
                lemmas.append(token)
        result['lemmas'] = lemmas
        
        # 4. Удаление стоп-слов и пунктуации
        cleaned = [w for w in lemmas if w.isalpha() and w not in self.stop_words]
        result['cleaned_tokens'] = cleaned
        
        return result

# Использование
pipeline = TextPipeline('russian')

test_text = """Машинное обучение и обработка естественного языка — это мощные инструменты.
Они помогают нам понимать и анализировать текст."""

result = pipeline.process(test_text)

print(f"\nОригинальный текст:\n{result['original']}")
print(f"\nПредложений: {len(result['sentences'])}")
for i, sent in enumerate(result['sentences'], 1):
    print(f"  {i}. {sent}")

print(f"\nВсего токенов: {len(result['tokens'])}")
print(f"Первые 10 токенов: {result['tokens'][:10]}")

print(f"\nОчищенные токены (без стоп-слов): {len(result['cleaned_tokens'])}")
print(f"Токены: {result['cleaned_tokens']}")

## 4. Классификация текстов

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np

print("=" * 60)
print("КЛАССИФИКАЦИЯ НОВОСТЕЙ НА РУССКОМ")
print("=" * 60)

# Синтетический корпус для демонстрации
# В реальности нужна большая размеченная выборка
train_texts = [
    "Президент подписал новый указ о реформе образования",
    "Правительство приняло бюджет на следующий год",
    "Депутаты голосовали за законопроект",
    "Российская сборная выиграла золотую медаль на олимпиаде",
    "Спортсмены готовятся к чемпионату мира",
    "Футболист забил решающий гол в матче",
    "Новая модель смартфона выходит на рынок",
    "Компания объявила о разработке искусственного интеллекта",
    "Ученые создали инновационную технологию",
]

train_labels = [
    0, 0, 0,  # политика
    1, 1, 1,  # спорт
    2, 2, 2,  # технология
]

# Векторизация
vectorizer = TfidfVectorizer(lowercase=True, analyzer='char', ngram_range=(2, 3))
X_train = vectorizer.fit_transform(train_texts)

print(f"\nМатрица TF-IDF формы: {X_train.shape}")
print(f"Число признаков: {len(vectorizer.get_feature_names_out())}")

# Обучение классификатора
clf = LogisticRegression(random_state=42, max_iter=200)
clf.fit(X_train, train_labels)

print("\nМодель обучена!")

In [None]:
# Тестирование
test_texts = [
    "Депутаты обсуждают новый закон",  # Политика
    "Спортсмен выиграл чемпионат",     # Спорт
    "Новая технология в смартфоне",    # Технология
]

X_test = vectorizer.transform(test_texts)
predictions = clf.predict(X_test)
probabilities = clf.predict_proba(X_test)

label_names = ['Политика', 'Спорт', 'Технология']

print("\nПредсказания для тестовых текстов:")
print("-" * 60)

for text, pred, proba in zip(test_texts, predictions, probabilities):
    print(f"\nТекст: {text}")
    print(f"Предсказание: {label_names[pred]} (уверенность: {proba[pred]:.2%})")
    print(f"Вероятности по классам:")
    for label, prob in zip(label_names, proba):
        bar = '█' * int(prob * 30)
        print(f"  {label:15} {prob:6.2%} {bar}")

In [None]:
# На обучающей выборке
predictions_train = clf.predict(X_train)
print("\n" + "=" * 60)
print("МЕТРИКИ КАЧЕСТВА НА ОБУЧАЮЩЕЙ ВЫБОРКЕ")
print("=" * 60)

print(f"\nОбщая точность: {(predictions_train == train_labels).mean():.2%}")
print("\nОтчёт по классам:")
print(classification_report(train_labels, predictions_train, target_names=label_names))

print("\nМатрица ошибок:")
cm = confusion_matrix(train_labels, predictions_train)
print(cm)

## 5. Практические задачи

In [None]:
print("=" * 60)
print("ЗАДАЧА 1: Анализ сложности омонимии")
print("=" * 60)

# Найдите слова, которые имеют несколько разборов
ambiguous_words = ['коса', 'замок', 'мука', 'хлеб', 'роман']

print("\nАнализ омонимичных слов:")
for word in ambiguous_words:
    parses = morph.parse(word)
    print(f"\n'{word}': {len(parses)} вариант(ов)")
    for i, p in enumerate(parses[:3], 1):  # Первые 3
        print(f"  {i}. {p.normal_form} ({p.tag.POS})")

In [None]:
print("\n" + "=" * 60)
print("ЗАДАЧА 2: Сравнение токенизаций")
print("=" * 60)

complex_text = "Mr. Smith e-mailed the file at 5:00 p.m. to john@example.com"

# Попробуем разные подходы
simple = complex_text.split()
nltk_tokens = word_tokenize(complex_text)

print(f"\nТекст: {complex_text}")
print(f"\nПростая токенизация (split): {len(simple)} токенов")
print(simple)
print(f"\nNLTK токенизация: {len(nltk_tokens)} токенов")
print(nltk_tokens)
print("\nЗамечание: NLTK лучше разделяет пунктуацию")

In [None]:
print("\n" + "=" * 60)
print("ЗАДАЧА 3: Создание собственного токенизатора")
print("=" * 60)

def advanced_tokenize(text):
    """
    Продвинутая токенизация с обработкой:
    - Email адресов
    - URL
    - Хэштегов
    - Чисел и денежных сумм
    """
    # Сохраняем специальные токены
    tokens = []
    
    # Паттерны
    patterns = [
        (r'https?://\S+', 'URL'),
        (r'\S+@\S+', 'EMAIL'),
        (r'#\w+', 'HASHTAG'),
        (r'\$?\d+[.,]\d+', 'NUMBER'),
        (r'\b\w+\b', 'WORD'),
        (r'[.,:;!?]', 'PUNCT'),
    ]
    
    from itertools import chain
    combined_pattern = '|'.join(f'(?P<{name}>{pat})' for pat, name in patterns)
    
    for match in re.finditer(combined_pattern, text):
        token = match.group()
        token_type = match.lastgroup
        tokens.append((token, token_type))
    
    return tokens

test = "Check my email at john@example.com or visit https://example.com. Price is $19.99 #NLP"
result = advanced_tokenize(test)

print(f"\nТекст: {test}")
print(f"\nТокены с типами:")
for token, token_type in result:
    print(f"  {token:20} → {token_type}")

In [None]:
print("\n" + "=" * 60)
print("ЗАДАЧА 4: Влияние стоп-слов на классификацию")
print("=" * 60)

sample_text = "Это очень интересный и важный документ о машинном обучении"

tokens = word_tokenize(sample_text.lower(), language='russian')
stop_words_ru = stopwords.words('russian')

print(f"\nОригинальные токены: {[t for t in tokens if t.isalpha()]}")

# С удалением стоп-слов
filtered = [t for t in tokens if t.isalpha() and t not in stop_words_ru]
print(f"Без стоп-слов: {filtered}")

removed = [t for t in tokens if t.isalpha() and t in stop_words_ru]
print(f"\nУдалены стоп-слова: {removed}")
print(f"\nОригинальных слов: {sum(1 for t in tokens if t.isalpha())}")
print(f"Значимых слов: {len(filtered)}")
print(f"Удалено: {len(removed)} ({len(removed)/sum(1 for t in tokens if t.isalpha()):.1%})")