<a href="https://colab.research.google.com/github/litlsun/compling/blob/main/task_1_ivanova.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Задача 1: разработка пайплайна предобработки текста с ООП
Цель:
Hазработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

Методы, которые должен реализовывать разработанный класс:

1.   Токенизация
2.   Лемматизация
3.   Удаление стоп-слов


**Шаг 1. Устанавливаем необходимые библиотеки**

In [52]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

In [53]:
# Убедитесь, что необходимые ресурсы NLTK загружены
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

**Шаг 2. Подгружаем текст, который необходимо обработать**


Открываем его в кодировке utf-8

In [54]:
!wget -O orwell.txt https://gist.githubusercontent.com/vlandham/2549b64121112dd9e4dacc47c959472a/raw/4e6883bbab5ab0d42fc4b9555d93e22aefd7baed/1984.txt
with open("orwell.txt", "r", encoding="utf-8") as file:
    text = file.read()

--2025-01-29 11:34:20--  https://gist.githubusercontent.com/vlandham/2549b64121112dd9e4dacc47c959472a/raw/4e6883bbab5ab0d42fc4b9555d93e22aefd7baed/1984.txt
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 35439 (35K) [text/plain]
Saving to: ‘orwell.txt’


2025-01-29 11:34:20 (4.11 MB/s) - ‘orwell.txt’ saved [35439/35439]



**Создание класса**

Определим класс TextProcessor, который будет содержать методы для предобработки текста.

In [55]:
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
        self.lemmatizer = WordNetLemmatizer()
        self.stop_words = set(stopwords.words('english'))

**Метод токенизации**

Реализация метода, который разделяет текст на отдельные слова.

In [56]:
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        self.tokens = word_tokenize(self.text)
        return self.tokens

**Метод лемматизации**

Добавляем метод, который преобразует слова к их леммам. Для этого обращаемся к `WordNetLemmatizer` из NLTK.

In [57]:
    def lemmatize(self):
        """
        Лемматизация.
        Преобразует каждое слово в его базовую форму.
        """
        self.tokens = [self.lemmatizer.lemmatize(word.lower()) for word in self.tokens]
        return self.tokens

**Метод удаления стоп-слов**

Добавляем метод для удаления стоп-слов из токенов с помощью списка стоп-слов из NLTK.

In [58]:
    def remove_stopwords(self):
        """
        Удаление стоп-слов.
        Удаляет из текста все стоп-слова.
        """
        self.cleaned_tokens = [token for token in self.tokens if token not in self.stop_words]
        return self.cleaned_tokens

**Запуск пайплайна**

In [65]:
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
        self.lemmatizer = WordNetLemmatizer()
        self.stop_words = set(stopwords.words('english'))
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        self.tokens = word_tokenize(self.text)
        return self.tokens
    def lemmatize(self):
        """
        Лемматизация.
        Преобразует каждое слово в его базовую форму.
        """
        self.tokens = [self.lemmatizer.lemmatize(word.lower()) for word in self.tokens]
        return self.tokens
    def remove_stopwords(self):
        """
        Удаление стоп-слов.
        Удаляет из текста все стоп-слова.
        """
        self.cleaned_tokens = [token for token in self.tokens if token not in self.stop_words]
        return self.cleaned_tokens

processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()


# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)

Токены: ['it', 'wa', 'a', 'bright', 'cold', 'day', 'in', 'april', ',', 'and', 'the', 'clock', 'were', 'striking', 'thirteen', '.', 'winston', 'smith', ',', 'his', 'chin', 'nuzzled', 'into', 'his', 'breast', 'in', 'an', 'effort', 'to', 'escape', 'the', 'vile', 'wind', ',', 'slipped', 'quickly', 'through', 'the', 'glass', 'door', 'of', 'victory', 'mansion', ',', 'though', 'not', 'quickly', 'enough', 'to', 'prevent', 'a', 'swirl', 'of', 'gritty', 'dust', 'from', 'entering', 'along', 'with', 'him', '.', 'the', 'hallway', 'smelt', 'of', 'boiled', 'cabbage', 'and', 'old', 'rag', 'mat', '.', 'at', 'one', 'end', 'of', 'it', 'a', 'coloured', 'poster', ',', 'too', 'large', 'for', 'indoor', 'display', ',', 'had', 'been', 'tacked', 'to', 'the', 'wall', '.', 'it', 'depicted', 'simply', 'an', 'enormous', 'face', ',', 'more', 'than', 'a', 'metre', 'wide', ':', 'the', 'face', 'of', 'a', 'man', 'of', 'about', 'forty-five', ',', 'with', 'a', 'heavy', 'black', 'moustache', 'and', 'ruggedly', 'handsome', 