### Задача 1: разработка пайплайна предобработки текста с ООП

#### Цель:
Hазработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

#### Методы, которые должен реализовывать разработанный класс:
1. Токенизация
2. Лемматизация
3. Удаление стоп-слов

Инструкция содержит подробное описание процесса создания класса. Результат вашей работы разместите в одной ячейке ниже инструкции

#### Инструкция

**Создание класса**

Определите класс `TextProcessor`, который будет содержать методы для предобработки текста.  

```python
# Создание базового класса для предобработки текста
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
```

**Метод токенизации**

Реализуйте метод, который разделяет текст на отдельные слова.

```python
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        # Реализуйте токенизацию здесь
        pass
```

Пример вызова метода:  
```python
processor = TextProcessor(text)
processor.tokenize()
print(processor.tokens)
```

**Метод лемматизации**

Добавьте метод, который преобразует слова к их леммам. Используйте `WordNetLemmatizer` из NLTK.

```python
    def lemmatize(self):
        """
        Метод для лемматизации токенов.
        """
        # Реализуйте лемматизацию здесь
        pass
```

Пример вызова метода:  
```python
processor.lemmatize()
print(processor.cleaned_tokens)
```

**Метод удаления стоп-слов**

Добавьте метод для удаления стоп-слов из токенов. Используйте список стоп-слов из NLTK.

```python
    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        # Реализуйте удаление стоп-слов здесь
        pass
```

Пример вызова метода:  
```python
processor.remove_stopwords()
print(processor.cleaned_tokens)
```

**Запуск пайплайна**

Объедините все шаги в пайплайн. Добавьте вызов каждого метода по порядку:

```python
processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)
```

In [1]:
### ВАШЕ РЕШЕНИЕ ЗДЕСЬ
# Установка нужных библиотек из nltk
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Загружаем необходимые ресурсы
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Загружаем файл с текстом
!wget http://hca.gilead.org.il/vt/li_merma.txt
with open("li_merma.txt", "r", encoding="utf-8") as file:
    text = file.read()
#  Инициализация класса
class TextProcessor:
    def __init__(self):
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
        self.lemmatized_tokens = []

# Токенизация
    def tokenize(self):
        self.tokens = word_tokenize(self.text)
        return self.tokens
# Лемматизация
    def lemmatize(self):
        lemmatizer = WordNetLemmatizer()
        self.lemmatized_tokens = [lemmatizer.lemmatize(token.lower()) for token in self.tokens]
        return self.lemmatized_tokens
# Удаление стоп-слов
    def remove_stopwords(self):
        stop_words = set(stopwords.words('english'))
        self.cleaned_tokens = [token for token in self.tokens if token not in stop_words]
        return self.cleaned_tokens

processor = TextProcessor()
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()


# Результаты
print("Токены:", processor.tokens)
print("Очищенные токены:", processor.cleaned_tokens)
print("Лемматизированные токены:", processor.lemmatized_tokens)



[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


--2025-02-05 20:21:46--  http://hca.gilead.org.il/vt/li_merma.txt
Resolving hca.gilead.org.il (hca.gilead.org.il)... 152.19.134.41
Connecting to hca.gilead.org.il (hca.gilead.org.il)|152.19.134.41|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 50061 (49K) [text/plain]
Saving to: ‘li_merma.txt’


2025-02-05 20:21:47 (331 KB/s) - ‘li_merma.txt’ saved [50061/50061]

Токены: ['1872', 'FAIRY', 'TALES', 'OF', 'HANS', 'CHRISTIAN', 'ANDERSEN', 'THE', 'LITTLE', 'MERMAID', 'by', 'Hans', 'Christian', 'Andersen', 'FAR', 'out', 'in', 'the', 'ocean', ',', 'where', 'the', 'water', 'is', 'as', 'blue', 'as', 'the', 'prettiest', 'cornflower', ',', 'and', 'as', 'clear', 'as', 'crystal', ',', 'it', 'is', 'very', ',', 'very', 'deep', ';', 'so', 'deep', ',', 'indeed', ',', 'that', 'no', 'cable', 'could', 'fathom', 'it', ':', 'many', 'church', 'steeples', ',', 'piled', 'one', 'upon', 'another', ',', 'would', 'not', 'reach', 'from', 'the', 'ground', 'beneath', 'to', 'the', 'surface',