<a href="https://colab.research.google.com/github/AlisaUrikh/comp_lingua/blob/main/Urikh_task1_advanced.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Задача 1: разработка пайплайна предобработки текста с ООП

#### Цель:
Hазработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

#### Методы, которые должен реализовывать разработанный класс:
1. Токенизация
2. Лемматизация
3. Удаление стоп-слов

Инструкция содержит подробное описание процесса создания класса. Результат вашей работы разместите в одной ячейке ниже инструкции

#### Инструкция

**Создание класса**

Определите класс `TextProcessor`, который будет содержать методы для предобработки текста.  

```python
# Создание базового класса для предобработки текста
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
```

**Метод токенизации**

Реализуйте метод, который разделяет текст на отдельные слова.

```python
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        # Реализуйте токенизацию здесь
        pass
```

Пример вызова метода:  
```python
processor = TextProcessor(text)
processor.tokenize()
print(processor.tokens)
```

**Метод лемматизации**

Добавьте метод, который преобразует слова к их леммам. Используйте `WordNetLemmatizer` из NLTK.

```python
    def lemmatize(self):
        """
        Метод для лемматизации токенов.
        """
        # Реализуйте лемматизацию здесь
        pass
```

Пример вызова метода:  
```python
processor.lemmatize()
print(processor.cleaned_tokens)
```

**Метод удаления стоп-слов**

Добавьте метод для удаления стоп-слов из токенов. Используйте список стоп-слов из NLTK.

```python
    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        # Реализуйте удаление стоп-слов здесь
        pass
```

Пример вызова метода:  
```python
processor.remove_stopwords()
print(processor.cleaned_tokens)
```

**Запуск пайплайна**

Объедините все шаги в пайплайн. Добавьте вызов каждого метода по порядку:

```python
processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)
```

In [None]:
### ВАШЕ РЕШЕНИЕ ЗДЕСЬ
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import string

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('wordnet')

!wget https://raw.githubusercontent.com/AlisaUrikh/comp_lingua/refs/heads/main/pp.txt
with open("pp.txt", "r", encoding="utf-8") as file:
    text = file.read()

class TextProcessor:
    def __init__(self, text):
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
        self.lemmatized_tokens = []

    def tokenize(self):
        self.tokens = word_tokenize(self.text)
        return self.tokens

    def lemmatize(self):
        wnl = WordNetLemmatizer()
        self.lemmatized_tokens = [wnl.lemmatize(token.lower()) for token in self.tokens]
        return self.lemmatized_tokens

    def remove_stopwords(self):
        stop_words = set(stopwords.words('english'))
        self.cleaned_tokens = [token for token in self.lemmatized_tokens
                               if token not in stop_words and token not in string.punctuation] #убрать знаки препинания
        return self.cleaned_tokens


if __name__ == '__main__':
  processor = TextProcessor(text)
  processor.tokenize()
  processor.lemmatize()
  processor.remove_stopwords()

  print("Токены:", processor.tokens)
  print("Лемматизированные токены:", processor.cleaned_tokens)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


--2025-02-03 18:53:27--  https://raw.githubusercontent.com/AlisaUrikh/comp_lingua/refs/heads/main/pp.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 736132 (719K) [text/plain]
Saving to: ‘pp.txt.3’


2025-02-03 18:53:27 (13.0 MB/s) - ‘pp.txt.3’ saved [736132/736132]

['chapter', 'i', 'it', 'is', 'a', 'truth', 'universally', 'acknowledged', ',', 'that', 'a', 'single', 'man', 'in', 'possession', 'of', 'a', 'good', 'fortune', 'must', 'be', 'in', 'want', 'of', 'a', 'wife', '.', 'however', 'little', 'known', 'the', 'feeling', 'or', 'view', 'of', 'such', 'a', 'man', 'may', 'be', 'on', 'his', 'first', 'entering', 'a', 'neighbourhood', ',', 'this', 'truth', 'is', 'so', 'well', 'fixed', 'in', 'the', 'mind', 'of', 'the', 'surrounding', 'family', ',', 'that', 'he',

In [None]:
# можно добавить pos-tagging для более "осмысленной" лемматизации
...
from nltk import pos_tag

...
nltk.download('averaged_perceptron_tagger')

...

def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

#дополняем функцию lemmatize()
def lemmatize(self):
        wnl = WordNetLemmatizer()
        tagged_tokens = pos_tag(self.tokens)
        self.lemmatized_tokens = [
            wnl.lemmatize(token.lower(), get_wordnet_pos(tag)) for token, tag in tagged_tokens
        ]
        return self.lemmatized_tokens
 ...

### **Критерии оценивания**

- **Отсутствие ошибок в ООП:** класс корректно инициализируется и выполняет все методы без ошибок (2 балла).  
- **Реализован метод токенизации:** текст корректно разделяется на токены (2 балла).  
- **Реализован метод лемматизации:** все токены преобразованы к леммам (2 балла).  
- **Реализован метод удаления стоп-слов:** стоп-слова корректно удалены из токенов (2 балла).  
- **Класс протестирован:** все методы вызваны, код работает (2 балла).  

Общий балл: **10 баллов**.

---

### **Примечания**

- Добавьте текстовые ячейки в Colab и комментарии с описанием этапов выполнения.
- Комментарии не оцениваются, но они важны для вашей работы и воспроизводимости кода
- Проверьте, что все методы выполняются корректно на примере любого текста.
- Пример текста для проверки работы пайплайна: `https://github.com/vifirsanova/compling/blob/main/tasks/task1/data.txt`.