# Практическая работа 6: Работа с текстом. Токенизация, стемминг, лемматизация

## Цель
Изучить основные методы обработки текстовых данных, такие как токенизация, стемминг и лемматизация, и их применение для предобработки текстов перед анализом.

### Шаги выполнения
1. Изучение методов обработки текстов.
2. Программирование токенизации текста.
3. Программирование стемминга.
4. Программирование лемматизации.


## Дополнительные задания.
### Библиотека
NLTK

## Исходные данные
* Пример текста и слов для демонстрации методов предобработки.
* Изучение методов обработки текстов
* Токенизация, стемминг и лемматизация являются ключевыми методами предобработки текстовых данных:

### Токенизация: процесс разделения текста на отдельные слова или фразы (токены).
### Стемминг: процесс нахождения основных форм слов (стемов), часто путём удаления суффиксов.
### Лемматизация: процесс преобразования слов к их базовой (лемматизированной) форме с учётом контекста.
### Программирование токенизации текста

In [4]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer

# Загрузка необходимых ресурсов NLTK
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

# Пример текста
text = "The quick brown fox jumps over the lazy dog. The dog was not happy about it."

# Токенизация текста
tokens = word_tokenize(text)
print("Tokens:", tokens)

# Инициализация стеммера
stemmer = PorterStemmer()

# Стемминг слов
stemmed_tokens = [stemmer.stem(token) for token in tokens]
print("Stemmed Tokens:", stemmed_tokens)

# Инициализация лемматизатора
lemmatizer = WordNetLemmatizer()

# Лемматизация слов
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
print("Lemmatized Tokens:", lemmatized_tokens)

Tokens: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'was', 'not', 'happy', 'about', 'it', '.']
Stemmed Tokens: ['the', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazi', 'dog', '.', 'the', 'dog', 'wa', 'not', 'happi', 'about', 'it', '.']
Lemmatized Tokens: ['The', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'wa', 'not', 'happy', 'about', 'it', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


### Дополнительное задание: Сравнение различных библиотек

In [5]:
import spacy
from textblob import TextBlob

# Загрузка SpaCy модели
nlp = spacy.load('en_core_web_sm')

# Пример текста
text = "The quick brown fox jumps over the lazy dog. The dog was not happy about it."

# NLTK токенизация
nltk_tokens = word_tokenize(text)
print("NLTK Tokens:", nltk_tokens)

# SpaCy токенизация
spacy_doc = nlp(text)
spacy_tokens = [token.text for token in spacy_doc]
print("SpaCy Tokens:", spacy_tokens)

# TextBlob токенизация
blob = TextBlob(text)
textblob_tokens = blob.words
print("TextBlob Tokens:", textblob_tokens)

# SpaCy лемматизация
spacy_lemmas = [token.lemma_ for token in spacy_doc]
print("SpaCy Lemmatized Tokens:", spacy_lemmas)


NLTK Tokens: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'was', 'not', 'happy', 'about', 'it', '.']
SpaCy Tokens: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'was', 'not', 'happy', 'about', 'it', '.']
TextBlob Tokens: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', 'The', 'dog', 'was', 'not', 'happy', 'about', 'it']
SpaCy Lemmatized Tokens: ['the', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazy', 'dog', '.', 'the', 'dog', 'be', 'not', 'happy', 'about', 'it', '.']
