<a href="https://colab.research.google.com/github/vifirsanova/compling/blob/main/tasks/task1/task1_advanced.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Задача 1: разработка пайплайна предобработки текста с ООП

#### Цель:
Hазработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

#### Методы, которые должен реализовывать разработанный класс:
1. Токенизация
2. Лемматизация
3. Удаление стоп-слов

Инструкция содержит подробное описание процесса создания класса. Результат вашей работы разместите в одной ячейке ниже инструкции

#### Инструкция

**Создание класса**

Определите класс `TextProcessor`, который будет содержать методы для предобработки текста.  

```python
# Создание базового класса для предобработки текста
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
```

**Метод токенизации**

Реализуйте метод, который разделяет текст на отдельные слова.

```python
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        # Реализуйте токенизацию здесь
        pass
```

Пример вызова метода:  
```python
processor = TextProcessor(text)
processor.tokenize()
print(processor.tokens)
```

**Метод лемматизации**

Добавьте метод, который преобразует слова к их леммам. Используйте `WordNetLemmatizer` из NLTK.

```python
    def lemmatize(self):
        """
        Метод для лемматизации токенов.
        """
        # Реализуйте лемматизацию здесь
        pass
```

Пример вызова метода:  
```python
processor.lemmatize()
print(processor.cleaned_tokens)
```

**Метод удаления стоп-слов**

Добавьте метод для удаления стоп-слов из токенов. Используйте список стоп-слов из NLTK.

```python
    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        # Реализуйте удаление стоп-слов здесь
        pass
```

Пример вызова метода:  
```python
processor.remove_stopwords()
print(processor.cleaned_tokens)
```

**Запуск пайплайна**

Объедините все шаги в пайплайн. Добавьте вызов каждого метода по порядку:

```python
processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)
```

### Код

In [None]:
# импорт необходимых библиотек
import nltk
from nltk.tokenize import word_tokenize # импортируем функцию для разбиения текста на токены
from nltk.stem import WordNetLemmatizer # импортируем класс для приведения слов к леммам
from nltk.corpus import stopwords # импортируем набор стоп-слов
nltk.download('stopwords') # скачиваем набор стоп-слов, которые необходимы для фильтрации текста от ненужных слов
nltk.download('wordnet') # скачиваем корпус WordNet, который используется для лемматизации
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [None]:
# задача метода __init__ — инициализация объекта класса, установка начальных значений атрибутов и выполнение любых других задач, которые необходимо выполнить при создании объекта
class TextProcessor: # шаблон для создания объектов, которые занимаются обработкой текста
  def __init__(self, text): # self — это ссылка на текущий объект класса
    self.text = text # хранит исходный текст, который передается при создании объекта
    self.tokens = [] # пустой список, который позже будет заполняться токенами
    self.cleaned_tokens = [] # пустой список, который будет хранить очищенные токены после обработки

  def tokenize(self): # функция токенизации
    self.tokens = word_tokenize(self.text) # применяем метод токенизации на отдельные слова
    return self.tokens

  def lemmatize(self): # функция лемматизации
    lemmatizer = WordNetLemmatizer() # создается объект WordNetLemmatizer, который используется для приведения слов к лемме
    self.cleaned_tokens = [lemmatizer.lemmatize(token) for token in self.tokens] # внутри списка каждый токен подвергается лемматизации
    return self.cleaned_tokens

  def remove_stopwords(self): # функция удаления стоп-слов
    stop_words = set(stopwords.words('english')) # создается множество стоп-слов
    self.cleaned_tokens = [word for word in self.cleaned_tokens if word not in stop_words] # внутри списка выражение перебирает каждый токен в списке self.cleaned_tokens и проверяет, является ли токен стоп-словом
    return self.cleaned_tokens

In [None]:
with open('data.txt', 'r', encoding='UTF8') as file: # файл открывается в режиме чтения ('r') с кодировкой UTF-8
  text = file.read()

In [None]:
# поэтапная обработка текста
processor = TextProcessor(text)
processor.tokenize()
processor.lemmatize()
processor.remove_stopwords()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)

Токены: ['Title', ':', '5', 'Common', 'SQL', 'Mistakes', 'and', 'How', 'to', 'Avoid', 'Them', 'Ever', 'wondered', 'how', 'to', 'effectively', 'use', '5', 'common', 'sql', 'mistakes', 'and', 'how', 'to', 'avoid', 'them', '.', 'This', 'topic', 'is', 'crucial', 'for', 'developers', 'because', 'it', 'helps', 'in', 'creating', 'efficient', 'and', 'reusable', 'code', '.', 'We', "'ll", 'cover', 'the', 'basics', 'and', 'also', 'discuss', 'some', 'advanced', 'techniques', '.', 'By', 'the', 'end', 'of', 'this', 'article', ',', 'you', "'ll", 'have', 'a', 'clear', 'understanding', 'of', 'how', 'to', 'implement', 'this', 'in', 'your', 'projects', '.', 'To', 'deepen', 'your', 'understanding', ',', 'explore', 'the', 'additional', 'resources', 'we', "'ve", 'shared', '.', 'Do', "n't", 'hesitate', 'to', 'experiment', 'and', 'learn', '.', 'Title', ':', 'Understanding', 'Python', 'Generators', 'If', 'you', "'re", 'new', 'to', 'coding', ',', 'this', 'guide', 'will', 'help', 'you', 'understand', 'understand

### **Критерии оценивания**

- **Отсутствие ошибок в ООП:** класс корректно инициализируется и выполняет все методы без ошибок (2 балла).  
- **Реализован метод токенизации:** текст корректно разделяется на токены (2 балла).  
- **Реализован метод лемматизации:** все токены преобразованы к леммам (2 балла).  
- **Реализован метод удаления стоп-слов:** стоп-слова корректно удалены из токенов (2 балла).  
- **Класс протестирован:** все методы вызваны, код работает (2 балла).  

Общий балл: **10 баллов**.

---

### **Примечания**

- Добавьте текстовые ячейки в Colab и комментарии с описанием этапов выполнения.
- Комментарии не оцениваются, но они важны для вашей работы и воспроизводимости кода
- Проверьте, что все методы выполняются корректно на примере любого текста.
- Пример текста для проверки работы пайплайна: `https://github.com/vifirsanova/compling/blob/main/tasks/task1/data.txt`.