<a href="https://colab.research.google.com/github/vifirsanova/compling/blob/main/tasks/task1/task1_advanced.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Задача 1: разработка пайплайна предобработки текста с ООП

#### Цель:
Hазработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

#### Методы, которые должен реализовывать разработанный класс:
1. Токенизация
2. Лемматизация
3. Удаление стоп-слов

Инструкция содержит подробное описание процесса создания класса. Результат вашей работы разместите в одной ячейке ниже инструкции

#### Инструкция

**Создание класса**

Определите класс `TextProcessor`, который будет содержать методы для предобработки текста.  

```python
# Создание базового класса для предобработки текста
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
```

**Метод токенизации**

Реализуйте метод, который разделяет текст на отдельные слова.

```python
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        # Реализуйте токенизацию здесь
        pass
```

Пример вызова метода:  
```python
processor = TextProcessor(text)
processor.tokenize()
print(processor.tokens)
```

**Метод лемматизации**

Добавьте метод, который преобразует слова к их леммам. Используйте `WordNetLemmatizer` из NLTK.

```python
    def lemmatize(self):
        """
        Метод для лемматизации токенов.
        """
        # Реализуйте лемматизацию здесь
        pass
```

Пример вызова метода:  
```python
processor.lemmatize()
print(processor.cleaned_tokens)
```

**Метод удаления стоп-слов**

Добавьте метод для удаления стоп-слов из токенов. Используйте список стоп-слов из NLTK.

```python
    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        # Реализуйте удаление стоп-слов здесь
        pass
```

Пример вызова метода:  
```python
processor.remove_stopwords()
print(processor.cleaned_tokens)
```

**Запуск пайплайна**

Объедините все шаги в пайплайн. Добавьте вызов каждого метода по порядку:

```python
processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)
```

In [14]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...


True

In [22]:
import nltk
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger_eng.zip.


True

In [25]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [74]:
### ВАШЕ РЕШЕНИЕ ЗДЕСЬ

### Сначала опишите класс

### В процессе реализации класса, вызывайте каждый метод,
### чтобы убедиться в том, что программа выполняется корректно

### В конце работы запустите пайплайн:
### вызовите все методы согласно инструкции
import re
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import stopwords
import pymorphy3

# Создаём свойства класса: списки и инструменты, которые нужны на дальнейших этапах предобработки
class TextProcessor:
    def __init__(self, text):
        self.text = text
        self.sentences = []
        self.tokens = []
        self.cleaned_tokens = []
        self.lemmatizer = WordNetLemmatizer()
        self.morph = pymorphy3.MorphAnalyzer()
        self.stop_ru = set(stopwords.words('russian'))
        self.stop_en = set(stopwords.words('english'))


# Делим текст на предложения по точке, вопросительному и восклицательному знакам, а также служебным символам; удаляем лишние символы
    def sentenize(self):
        self.sentences = re.split(r'(?<=[.!?])\s*[\n\r]*\s*', self.text)
        self.sentences = [sentence for sentence in self.sentences if sentence.strip()]
        return self.sentences
    
# Осуществляем токенизацию по пробелу, учитываем непрототипические случаи с апострофами (англ) и дефисами (ру)
    def tokenize(self):
        pattern = r'\b[\w\'-]+\b'
        self.tokens = re.findall(pattern, self.text)
        self.tokens = [token.lower() for token in self.tokens]
        return self.tokens
    
# Вспомогательный метод для дальнейших операций, чтобы определить язык, на котором написан текст, и в зависимости от этого выбирать нужное свойство класса
    def detect_language(self, token):
        if re.match(r'[а-яА-ЯёЁ]', token):
            return 'ru'
        else:
            return 'en'
    
    # Вспомогательный метод для корректной лемматизации
    def gettag(self, word):
        tag = pos_tag([word])[0][1][0].lower()
        tag_dict = {
            'n': 'n', 
            'v': 'v',
            'a': 'a',
            'r': 'r'
        }
        return tag_dict.get(tag, 'n')
    
    # Лемматизация в зависимости от языка текста (nltk для английского, pymorphy3 для русского)
    def lemmatize(self):
        self.cleaned_tokens = []
        for token in self.tokens:
            lang = self.detect_language(token)
            if lang == 'ru':
                self.cleaned_tokens.append(self.morph.parse(token)[0].normal_form)
            else:
                pos = self.gettag(token)
                self.cleaned_tokens.append(self.lemmatizer.lemmatize(token, pos))
        return self.cleaned_tokens
    
    # Сравнение лемм с набором стопслов: если лемма есть в стоп-словах, удаляем ее из списка cleaned_tokens, в результате чего получаем список очищенных лемм
    def remove_stopwords(self):
        for token in self.cleaned_tokens:
            lang = self.detect_language(token)
            if lang == 'ru' and token in self.stop_ru:
                self.cleaned_tokens.remove(token)
            elif lang == 'en' and token in self.stop_en:
                self.cleaned_tokens.remove(token)
        return self.cleaned_tokens


In [75]:
f = 'data.txt'
with open(f, 'r', encoding='utf8') as file:
    text = file.read()
processor = TextProcessor(text)
processor.sentenize()
processor.tokenize()
processor.lemmatize()
processor.remove_stopwords()
print("Предложения:", '; '.join(processor.sentences))
print("Токены:", ', '.join(processor.tokens))
print("Лемматизированные токены:", ', '.join(processor.cleaned_tokens))

Предложения: Title: 5 Common SQL Mistakes and How to Avoid Them

Ever wondered how to effectively use 5 common sql mistakes and how to avoid them.; This topic is crucial for developers because it helps in creating efficient and reusable code.; We'll cover the basics and also discuss some advanced techniques.; By the end of this article, you'll have a clear understanding of how to implement this in your projects.; To deepen your understanding, explore the additional resources we've shared.; Don't hesitate to experiment and learn.; Title: Understanding Python Generators

If you're new to coding, this guide will help you understand understanding python generators.; Through this blog, we aim to provide a clear explanation of the concepts, complete with code snippets and real-world applications.; If you've been avoiding this topic, now's the time to tackle it!; We hope this guide has provided you with a solid foundation.; If you have any questions, feel free to leave a comment below.; Title

### **Критерии оценивания**

- **Отсутствие ошибок в ООП:** класс корректно инициализируется и выполняет все методы без ошибок (2 балла).  
- **Реализован метод токенизации:** текст корректно разделяется на токены (2 балла).  
- **Реализован метод лемматизации:** все токены преобразованы к леммам (2 балла).  
- **Реализован метод удаления стоп-слов:** стоп-слова корректно удалены из токенов (2 балла).  
- **Класс протестирован:** все методы вызваны, код работает (2 балла).  

Общий балл: **10 баллов**.

---

### **Примечания**

- Добавьте текстовые ячейки в Colab и комментарии с описанием этапов выполнения.
- Комментарии не оцениваются, но они важны для вашей работы и воспроизводимости кода
- Проверьте, что все методы выполняются корректно на примере любого текста.
- Пример текста для проверки работы пайплайна: `https://github.com/vifirsanova/compling/blob/main/tasks/task1/data.txt`.