<a href="https://colab.research.google.com/github/AnnaFattakhova/NLP-Course/blob/main/Fattakhova_task1_advanced.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Задача 1: разработка пайплайна предобработки текста с ООП

#### Цель:
Разработать класс на Python с использованием принципов объектно-ориентированного программирования (ООП), который реализует пайплайн для предобработки текста

#### Методы, которые должен реализовывать разработанный класс:
1. Токенизация
2. Лемматизация
3. Удаление стоп-слов

Инструкция содержит подробное описание процесса создания класса. Результат вашей работы разместите в одной ячейке ниже инструкции

#### Инструкция

**Создание класса**

Определите класс `TextProcessor`, который будет содержать методы для предобработки текста.  

```python
# Создание базового класса для предобработки текста
class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []
```

**Метод токенизации**

Реализуйте метод, который разделяет текст на отдельные слова.

```python
    def tokenize(self):
        """
        Метод для токенизации текста.
        """
        # Реализуйте токенизацию здесь
        pass
```

Пример вызова метода:  
```python
processor = TextProcessor(text)
processor.tokenize()
print(processor.tokens)
```

**Метод лемматизации**

Добавьте метод, который преобразует слова к их леммам. Используйте `WordNetLemmatizer` из NLTK.

```python
    def lemmatize(self):
        """
        Метод для лемматизации токенов.
        """
        # Реализуйте лемматизацию здесь
        pass
```

Пример вызова метода:  
```python
processor.lemmatize()
print(processor.cleaned_tokens)
```

**Метод удаления стоп-слов**

Добавьте метод для удаления стоп-слов из токенов. Используйте список стоп-слов из NLTK.

```python
    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        # Реализуйте удаление стоп-слов здесь
        pass
```

Пример вызова метода:  
```python
processor.remove_stopwords()
print(processor.cleaned_tokens)
```

**Запуск пайплайна**

Объедините все шаги в пайплайн. Добавьте вызов каждого метода по порядку:

```python
processor = TextProcessor(text)
processor.tokenize()
processor.remove_stopwords()
processor.lemmatize()

# Вывод итогового результата
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)
```

In [1]:
### ВАШЕ РЕШЕНИЕ ЗДЕСЬ


# Загружаем необходимые библиотеки
import nltk
import re
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
#для лемматизации всех частей речи
from nltk import pos_tag
from nltk.corpus import wordnet

# Загружаем необходимые ресурсы
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')
#для лемматизации всех частей речи
nltk.download('averaged_perceptron_tagger_eng')

class TextProcessor:
    def __init__(self, text):
        """
        Инициализация класса с исходным текстом.
        """
        self.text = text
        self.tokens = []
        self.cleaned_tokens = []

    def tokenize(self):
        """
        Метод для токенизации текста (слов).
        """
        self.tokens = word_tokenize(self.text)

    #для всех частей речи
    def get_wordnet_pos(self, tag):
        """
        Преобразование POS-тегов NLTK в формат WordNet.
        """
        if tag.startswith('J'):
            return wordnet.ADJ  # прилагательные
        elif tag.startswith('V'):
            return wordnet.VERB  # глаголы
        elif tag.startswith('N'):
            return wordnet.NOUN  # существительные
        elif tag.startswith('R'):
            return wordnet.ADV  # наречия
        else:
            return wordnet.NOUN  # в остальных случаях по умолчанию существительное

    def lemmatize(self):
        """
        Метод для лемматизации всех частей речи.
        """
        lemmatizer = WordNetLemmatizer()
        pos_tags = pos_tag(self.tokens)  # Определяем POS-теги
        self.tokens = [lemmatizer.lemmatize(word, self.get_wordnet_pos(tag)) for word, tag in pos_tags]

    #только для существительных
    #def lemmatize(self):
        #"""
       # Метод для лемматизации токенов.
       # """
       # lemmatizer = WordNetLemmatizer()
       # self.tokens = [lemmatizer.lemmatize(word) for word in self.tokens]

    def remove_stopwords(self):
        """
        Метод для удаления стоп-слов.
        """
        stop_words = set(stopwords.words('english'))
        self.cleaned_tokens = [word for word in self.tokens if word.lower() not in stop_words]

    def process(self):
        """
        Запуск полного пайплайна обработки текста.
        """
        self.tokenize()
        self.lemmatize()
        self.remove_stopwords()
        return ' '.join(self.cleaned_tokens)

# Читаем текст из файла
!wget data.txt https://raw.githubusercontent.com/vifirsanova/compling/refs/heads/main/tasks/task1/data.txt

with open("data.txt", "r", encoding="utf-8") as file:
    data = file.read()

text = data.lower()
text = re.sub(r'[^a-zA-Z0-9\s]', '', text)

# Создаем и запускаем обработку текста
processor = TextProcessor(text)
processor.tokenize()
processor.lemmatize()
processor.remove_stopwords()

# Выводим результаты
print("Токены:", processor.tokens)
print("Лемматизированные токены:", processor.cleaned_tokens)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


--2025-02-05 20:15:18--  http://data.txt/
Resolving data.txt (data.txt)... failed: Name or service not known.
wget: unable to resolve host address ‘data.txt’
--2025-02-05 20:15:18--  https://raw.githubusercontent.com/vifirsanova/compling/refs/heads/main/tasks/task1/data.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 444304 (434K) [text/plain]
Saving to: ‘data.txt’


2025-02-05 20:15:18 (11.3 MB/s) - ‘data.txt’ saved [444304/444304]

FINISHED --2025-02-05 20:15:18--
Total wall clock time: 0.5s
Downloaded: 1 files, 434K in 0.04s (11.3 MB/s)
Токены: ['title', '5', 'common', 'sql', 'mistake', 'and', 'how', 'to', 'avoid', 'them', 'ever', 'wonder', 'how', 'to', 'effectively', 'use', '5', 'common', 'sql', 'mistake', 'and', 'how', 'to', 'avoid', 'them', 'this',

### **Критерии оценивания**

- **Отсутствие ошибок в ООП:** класс корректно инициализируется и выполняет все методы без ошибок (2 балла).  
- **Реализован метод токенизации:** текст корректно разделяется на токены (2 балла).  
- **Реализован метод лемматизации:** все токены преобразованы к леммам (2 балла).  
- **Реализован метод удаления стоп-слов:** стоп-слова корректно удалены из токенов (2 балла).  
- **Класс протестирован:** все методы вызваны, код работает (2 балла).  

Общий балл: **10 баллов**.

---

### **Примечания**

- Добавьте текстовые ячейки в Colab и комментарии с описанием этапов выполнения.
- Комментарии не оцениваются, но они важны для вашей работы и воспроизводимости кода
- Проверьте, что все методы выполняются корректно на примере любого текста.
- Пример текста для проверки работы пайплайна: `https://github.com/vifirsanova/compling/blob/main/tasks/task1/data.txt`.