### Задача 1: разработка пайплайна предобработки текста с ООП

#### Цель:
Hазработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

#### Методы, которые должен реализовывать разработанный класс:
1. Токенизация
2. Лемматизация
3. Удаление стоп-слов

Инструкция содержит подробное описание процесса создания класса. Результат вашей работы разместите в одной ячейке ниже инструкции

#### Инструкция

**Создание класса**

Определите класс `TextProcessor`, который будет содержать методы для предобработки текста.  

```python
# Создание базового класса для предобработки текста
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
```

**Метод токенизации**

Реализуйте метод, который разделяет текст на отдельные слова.

```python
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        # Реализуйте токенизацию здесь
        pass
```

Пример вызова метода:  
```python
processor = TextProcessor(text)
processor.tokenize()
print(processor.tokens)
```

**Метод лемматизации**

Добавьте метод, который преобразует слова к их леммам. Используйте `WordNetLemmatizer` из NLTK.

```python
    def lemmatize(self):
        """
        Метод для лемматизации токенов.
        """
        # Реализуйте лемматизацию здесь
        pass
```

Пример вызова метода:  
```python
processor.lemmatize()
print(processor.cleaned_tokens)
```

**Метод удаления стоп-слов**

Добавьте метод для удаления стоп-слов из токенов. Используйте список стоп-слов из NLTK.

```python
    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        # Реализуйте удаление стоп-слов здесь
        pass
```

Пример вызова метода:  
```python
processor.remove_stopwords()
print(processor.cleaned_tokens)
```

**Запуск пайплайна**

Объедините все шаги в пайплайн. Добавьте вызов каждого метода по порядку:

```python
processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)
```

# Код

### Получение текста

In [22]:
!wget -O text.txt https://raw.githubusercontent.com/vifirsanova/compling/refs/heads/main/tasks/task1/data.txt

--2025-03-23 12:35:40--  https://raw.githubusercontent.com/vifirsanova/compling/refs/heads/main/tasks/task1/data.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 444304 (434K) [text/plain]
Saving to: ‘text.txt’


2025-03-23 12:35:40 (70.1 MB/s) - ‘text.txt’ saved [444304/444304]



In [23]:
with open("text.txt", "r", encoding="utf-8") as file:
    text = file.read()

text[:200]

'Title: 5 Common SQL Mistakes and How to Avoid Them\n\nEver wondered how to effectively use 5 common sql mistakes and how to avoid them.\n\nThis topic is crucial for developers because it helps in creating'

### Установка необходимых библиотек

In [24]:
import nltk
from nltk.tokenize import word_tokenize

from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('punkt')

nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Реализация класса

In [25]:
# Создание базового класса для предобработки текста
class TextProcessor:
    # Инициализация класса с исходным текстом
    def __init__(self, text):
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []

    # Метод для токенизации текста
    def tokenize(self):
        self.tokens = word_tokenize(self.text)
        return self.tokens
        pass

    # Метод для лемматизации токенов
    def lemmatize(self):
        lemmatizer = WordNetLemmatizer()
        self.cleaned_tokens = [lemmatizer.lemmatize(word) for word in self.tokens]
        return self.cleaned_tokens
        pass

    # Метод для удаления стоп-слов
    def remove_stopwords(self):
        stop_words = set(stopwords.words('english'))
        self.cleaned_tokens = [word for word in self.cleaned_tokens if word not in stop_words]
        return self.cleaned_tokens
        pass

processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)

Токены: ['Title', ':', '5', 'Common', 'SQL', 'Mistakes', 'and', 'How', 'to', 'Avoid', 'Them', 'Ever', 'wondered', 'how', 'to', 'effectively', 'use', '5', 'common', 'sql', 'mistakes', 'and', 'how', 'to', 'avoid', 'them', '.', 'This', 'topic', 'is', 'crucial', 'for', 'developers', 'because', 'it', 'helps', 'in', 'creating', 'efficient', 'and', 'reusable', 'code', '.', 'We', "'ll", 'cover', 'the', 'basics', 'and', 'also', 'discuss', 'some', 'advanced', 'techniques', '.', 'By', 'the', 'end', 'of', 'this', 'article', ',', 'you', "'ll", 'have', 'a', 'clear', 'understanding', 'of', 'how', 'to', 'implement', 'this', 'in', 'your', 'projects', '.', 'To', 'deepen', 'your', 'understanding', ',', 'explore', 'the', 'additional', 'resources', 'we', "'ve", 'shared', '.', 'Do', "n't", 'hesitate', 'to', 'experiment', 'and', 'learn', '.', 'Title', ':', 'Understanding', 'Python', 'Generators', 'If', 'you', "'re", 'new', 'to', 'coding', ',', 'this', 'guide', 'will', 'help', 'you', 'understand', 'understand

### **Критерии оценивания**

- **Отсутствие ошибок в ООП:** класс корректно инициализируется и выполняет все методы без ошибок (2 балла).  
- **Реализован метод токенизации:** текст корректно разделяется на токены (2 балла).  
- **Реализован метод лемматизации:** все токены преобразованы к леммам (2 балла).  
- **Реализован метод удаления стоп-слов:** стоп-слова корректно удалены из токенов (2 балла).  
- **Класс протестирован:** все методы вызваны, код работает (2 балла).  

Общий балл: **10 баллов**.

---

### **Примечания**

- Добавьте текстовые ячейки в Colab и комментарии с описанием этапов выполнения.
- Комментарии не оцениваются, но они важны для вашей работы и воспроизводимости кода
- Проверьте, что все методы выполняются корректно на примере любого текста.
- Пример текста для проверки работы пайплайна: `https://github.com/vifirsanova/compling/blob/main/tasks/task1/data.txt`.