### Задача 1: предобработка текста

#### Цель:
Научиться применять базовые методы предобработки текста с использованием библиотек NLTK и SpaCy

#### Требования:
1. Выполнить чистку данных
2. Выполнить удаление стоп-слов
3. Привести текст к нижнему регистру
4. Произвести лемматизацию



### Шаг 1: Установка и загрузка необходимых библиотек  

В этом шаге мы устанавливаем и загружаем библиотеки NLTK и SpaCy, которые понадобятся для предобработки текста. NLTK (Natural Language Toolkit) — это набор инструментов для обработки естественного языка, который включает в себя токенизацию, удаление стоп-слов и лемматизацию.

Сначала мы импортируем nltk и загружаем из него список стоп-слов, чтобы в дальнейшем удалить часто встречающиеся служебные слова. Затем скачиваем stopwords, содержащий эти списки, и punkt, который необходим для токенизации текста. Без punkt функция nltk.word_tokenize() работать не будет. После этого импортируем spacy, который нам понадобится для лемматизации.

In [16]:
# Установите необходимые библиотеки (замените плейсхолдеры на ваш код)
# Для NLTK:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')

# Для SpaCy:
import spacy

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Шаг 2: Загрузка текста  

На этом этапе мы загружаем текст статьи, который будем обрабатывать. Данные находятся по ссылке на GitHub (`https://github.com/vifirsanova/compling/blob/main/tasks/task1/data.txt`), но важно использовать сырую (raw) ссылку, чтобы скачать сам текст, а не HTML-страницу. Сначала мы загружаем текстовый файл с GitHub, используя команду wget. Затем открываем файл и читаем его содержимое.

In [17]:
# Загрузка текста с помощью командной строки
!wget -O article.txt https://raw.githubusercontent.com/vifirsanova/compling/refs/heads/main/tasks/task1/data.txt

--2025-02-05 12:57:47--  https://raw.githubusercontent.com/vifirsanova/compling/refs/heads/main/tasks/task1/data.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.110.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 444304 (434K) [text/plain]
Saving to: ‘article.txt’


2025-02-05 12:57:47 (9.11 MB/s) - ‘article.txt’ saved [444304/444304]



In [18]:
# Код для открытия файла
with open("article.txt", "r", encoding="utf-8") as file:
    article = file.read()

# Посмотрим на первые несколько строк текста
print(article[:500])  # Печатаем первые 500 символов, чтобы убедиться, что текст загружен

Title: 5 Common SQL Mistakes and How to Avoid Them

Ever wondered how to effectively use 5 common sql mistakes and how to avoid them.

This topic is crucial for developers because it helps in creating efficient and reusable code. We'll cover the basics and also discuss some advanced techniques. By the end of this article, you'll have a clear understanding of how to implement this in your projects.

To deepen your understanding, explore the additional resources we've shared. Don't hesitate to exp


### Шаг 3: Чистка текста  

На этом этапе мы удалим все знаки препинания из текста, чтобы оставшиеся слова можно было обрабатывать без лишних символов. Для этого будем использовать регулярные выражения с помощью модуля `re` в Python.

1. `import re` — импортирует модуль регулярных выражений, который поможет нам легко удалить знаки препинания.
2. `re.sub(r'[^\w\s]', '', article)` — регулярное выражение, которое заменяет все символы, не являющиеся буквами (`\w`) или пробелами (`\s`), на пустую строку.

In [19]:
# Код для удаления пунктуации
import re  # Для работы с регулярными выражениями
cleaned_text = re.sub(r'[^\w\s]', '', article)  # Удаляем все символы, которые не являются буквами или пробелами
print("Текст без пунктуации:", cleaned_text[:500])  # Печатаем первые 500 символов очищенного текста

Текст без пунктуации: Title 5 Common SQL Mistakes and How to Avoid Them

Ever wondered how to effectively use 5 common sql mistakes and how to avoid them

This topic is crucial for developers because it helps in creating efficient and reusable code Well cover the basics and also discuss some advanced techniques By the end of this article youll have a clear understanding of how to implement this in your projects

To deepen your understanding explore the additional resources weve shared Dont hesitate to experiment and 


### Шаг 4: Приведение текста к нижнему регистру  

На этом этапе мы преобразуем весь текст в нижний регистр с помощью метода  `lower()`. Это необходимо, чтобы одинаковые слова, написанные с разным регистром, воспринимались как одно и то же слово. Например, "Python" и "python" будут приведены к одному виду — "python".

In [20]:
# Код для приведения к нижнему регистру
cleaned_text = cleaned_text.lower()
print("Текст в нижнем регистре:", cleaned_text[:500])  # Печатаем первые 500 символов

Текст в нижнем регистре: title 5 common sql mistakes and how to avoid them

ever wondered how to effectively use 5 common sql mistakes and how to avoid them

this topic is crucial for developers because it helps in creating efficient and reusable code well cover the basics and also discuss some advanced techniques by the end of this article youll have a clear understanding of how to implement this in your projects

to deepen your understanding explore the additional resources weve shared dont hesitate to experiment and 


### Шаг 5: Удаление стоп-слов  

На этом этапе мы удалим из текста стоп-слова. Стоп-слова — это слова, которые часто встречаются в языке, но не несут важной смысловой нагрузки (например, "и", "в", "на", "с", "the", "is"). Удаление стоп-слов помогает уменьшить объем текста и сосредоточиться на более информативных словах.

Для этого будем использовать библиотеку `NLTK`, которая предоставляет готовый список стоп-слов для различных языков, в том числе для английского.

1. `stopwords.words('english')` — загружает список стоп-слов для английского языка из библиотеки NLTK.
2. `nltk.word_tokenize(cleaned_text)` — токенизирует текст, то есть разбивает его на отдельные слова.
3. `[word for word in words if word not in stop_words]` — список с фильтрацией, в котором мы сохраняем только те слова, которые не находятся в списке стоп-слов.

In [25]:
# Код для удаления стоп-слов с помощью NLTK
nltk.download('punkt_tab') #без этого выдает ошибку, догружаем модуль
stop_words = set(stopwords.words('english'))  # Загружаем список стоп-слов для английского языка
words = nltk.word_tokenize(cleaned_text)  # Токенизируем текст (разбиваем на отдельные слова)
filtered_words = [word for word in words if word not in stop_words]  # Удаляем стоп-слова
print("Текст без стоп-слов:", filtered_words[:20])  # Печатаем первые 20 слов

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Текст без стоп-слов: ['title', '5', 'common', 'sql', 'mistakes', 'avoid', 'ever', 'wondered', 'effectively', 'use', '5', 'common', 'sql', 'mistakes', 'avoid', 'topic', 'crucial', 'developers', 'helps', 'creating']


### Шаг 6: Лемматизация  

На этом этапе мы выполним лемматизацию текста с помощью SpaCy. Лемматизация — это процесс приведения слов к их базовой форме (лемме). Например, слова "running" и "ran" будут приведены к лемме "run". Лемматизация помогает унифицировать формы слов и улучшить качество анализа текста.

Для этого используем библиотеку SpaCy, которая предлагает мощные инструменты для обработки естественного языка. Мы будем использовать модель `en_core_web_sm`, которая предобучена на английском языке и позволяет выполнять лемматизацию.

1. `nlp = spacy.load("en_core_web_sm")` — загружает модель SpaCy для английского языка, которая необходима для обработки текста и выполнения лемматизации.
2. `' '.join(filtered_words)` — объединяет список слов обратно в строку, так как SpaCy работает с текстами, а не с отдельными словами.
3. `doc = nlp(text)` — передаем текст в модель SpaCy для анализа. Модель разбивает текст на токены и выполняет различные операции, включая лемматизацию.
4. `[token.lemma_ for token in doc]` — для каждого токена (слова) из текста извлекается лемма с помощью атрибута lemma_. Это приводит все слова к их базовой форме.

In [26]:
# Загружаем модель для английского языка
nlp = spacy.load("en_core_web_sm")

# Код для лемматизации
doc = nlp(' '.join(filtered_words))  # Преобразуем список слов обратно в строку
lemmatized_words = [token.lemma_ for token in doc]  # Лемматизируем каждое слово
print("Лемматизированный текст:", lemmatized_words[:20])  # Печатаем первые 20 лемматизированных слов

Лемматизированный текст: ['title', '5', 'common', 'sql', 'mistake', 'avoid', 'ever', 'wonder', 'effectively', 'use', '5', 'common', 'sql', 'mistake', 'avoid', 'topic', 'crucial', 'developer', 'help', 'create']


### Шаг 7: Вывод результатов  

На этом этапе мы собираем все ранее обработанные этапы (чистка, приведение к нижнему регистру, удаление стоп-слов и лемматизация) и выводим итоговый текст. Этот текст является очищенной и подготовленной версией исходного текста, готовой для дальнейшего анализа или использования в моделях машинного обучения.

`' '.join(lemmatized_words)` — объединяет список лемматизированных слов обратно в строку, где слова разделены пробелами. Теперь у нас есть итоговый текст, очищенный от ненужных символов и приведенный к базовым формам слов.

In [27]:
# Итоговый текст
final_text = ' '.join(lemmatized_words)  # Объединяем лемматизированные слова в строку
print("Итоговый текст:", final_text)

Итоговый текст: title 5 common sql mistake avoid ever wonder effectively use 5 common sql mistake avoid topic crucial developer help create efficient reusable code well cover basic also discuss advanced technique end article you ll clear understanding implement project deepen understanding explore additional resource we ve share do not hesitate experiment learn title understand python generator you re new code guide help understand understand python generator blog aim provide clear explanation concept complete code snippet realworld application you ve avoid topic now time tackle hope guide provide solid foundation question feel free leave comment title demystify functional programming concept article comprehensive guide demystify functional programming concept many developer struggle first right mindset tool become powerful addition skill set post well provide example common pitfall avoid stay tune indepth guide code software development next time title use git like pro post well dive 

### Критерии оценивания:
- **Чистка текста от артефактов:** текст очищен от пунктуации, символов (2 балла).
- **Удаление стоп-слов:** все стоп-слова удалены (2 балла).
- **Приведение текста к нижнему регистру:** весь текст преобразован в нижний регистр (2 балла).
- **Лемматизация:** слова приведены к леммам (2 балла).
- **Комментарии и описания:** каждый шаг кода содержит комментарии или текстовые описания (2 балла).

Общий балл: **10 баллов**.