# Препроцессинг текстовых данных

В этом ноутбуке мы рассмотрим обработку текстовых данных с использованием GPB библиотеки.

## Подготовка окружения

In [None]:
import sys
sys.path.append('../../')

import pandas as pd
import numpy as np
from core.data.preprocessing import TextPreprocessor

## Загрузка тестовых данных

In [None]:
# Создание тестового датафрейма
data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'text': [
        'This is a sample text with some numbers 123 and special characters !@#',
        'Another example of text with UPPERCASE and lowercase words',
        'Text with multiple   spaces and\nnewlines',
        'Text with HTML tags <p>Hello</p> and URLs https://example.com',
        'Text with emojis 😊 and mentions @user'
    ]
})

print("Исходные данные:")
print(data)

## Создание текстового препроцессора

In [None]:
# Создание препроцессора
preprocessor = TextPreprocessor()

## Базовая очистка текста

In [None]:
# Очистка текста
cleaned_text = preprocessor.clean_text(
    data['text'],
    remove_numbers=True,
    remove_special_chars=True,
    remove_extra_spaces=True,
    remove_html=True,
    remove_urls=True,
    remove_mentions=True,
    remove_emojis=True
)

print("Текст после очистки:")
print(cleaned_text)

## Токенизация

In [None]:
# Токенизация
tokens = preprocessor.tokenize(
    cleaned_text,
    lowercase=True,
    remove_punctuation=True
)

print("Токены:")
print(tokens)

## Удаление стоп-слов

In [None]:
# Удаление стоп-слов
filtered_tokens = preprocessor.remove_stopwords(
    tokens,
    language='english'
)

print("Токены после удаления стоп-слов:")
print(filtered_tokens)

## Стемминг и лемматизация

In [None]:
# Стемминг
stemmed_tokens = preprocessor.stem(
    filtered_tokens,
    language='english'
)

print("Токены после стемминга:")
print(stemmed_tokens)

# Лемматизация
lemmatized_tokens = preprocessor.lemmatize(
    filtered_tokens,
    language='english'
)

print("Токены после лемматизации:")
print(lemmatized_tokens)

## Векторизация текста

In [None]:
# TF-IDF векторизация
tfidf_vectors = preprocessor.tfidf_vectorize(
    lemmatized_tokens,
    max_features=1000
)

print("TF-IDF векторы:")
print(tfidf_vectors.toarray())

## Сохранение препроцессора

In [None]:
# Сохранение препроцессора
preprocessor.save('models/text_preprocessor.pkl')
print("Текстовый препроцессор успешно сохранен")