In [9]:
import re  # імпортуємо модуль для роботи з регулярними виразами
import string  # імпортуємо модуль для роботи з пунктуацією та символами
from nltk.corpus import stopwords  # імпортуємо стоп-слова з бібліотеки NLTK

# Початковий "шумний" текст
text = 'Noisy Text Example with a lot of numbers and special symbols: 12345, #abc, @@qwerty, http://xyz. Data cleaning Done'
print("Початковий текст:\n", text)  # Виводимо текст перед обробкою

# 1. Перетворюємо текст у нижній регістр
text = text.lower()  # робимо всі літери маленькими для уніфікації
print("\nПісля переведення у нижній регістр:\n", text)  # Виводимо результат

# 2. Видаляємо згадки користувачів (@username)
text = re.sub("@\\S+", " ", text)  # замінюємо всі згадки на пробіл
print("\nПісля видалення згадок:\n", text)  # Виводимо результат

# 3. Видаляємо URL-адреси
text = re.sub("https*\\S+", " ", text)  # замінюємо всі посилання, що починаються з http або https, на пробіл
print("\nПісля видалення URL:\n", text)  # Виводимо результат

# 4. Видаляємо хештеги
text = re.sub("#\\S+", " ", text)  # замінюємо слова з # на пробіл
print("\nПісля видалення хештегів:\n", text)  # Виводимо результат

# 5. Видаляємо всі числа
text = re.sub("\\d", " ", text)  # замінюємо всі цифри на пробіл
print("\nПісля видалення чисел:\n", text)  # Виводимо результат

# 6. Видаляємо пунктуацію
text = re.sub('[%s]' % re.escape(string.punctuation), ' ', text)  # замінюємо усі знаки пунктуації на пробіл
print("\nПісля видалення пунктуації:\n", text)  # Виводимо результат

# 7. Видаляємо зайві пробіли (два або більше підряд)
text = re.sub('\\s{2,}', " ", text)  # замінюємо множинні пробіли на один
print("\nПісля видалення зайвих пробілів:\n", text)  # Виводимо результат

# 8. Видаляємо стоп-слова
stop_words = stopwords.words("english")  # отримуємо список англійських стоп-слів
text = ' '.join([word for word in text.split(' ') if word not in stop_words])  # залишаємо тільки значущі слова
print("\nПісля видалення стоп-слів:\n", text)  # Виводимо результат

# 9. Створюємо функцію для багаторазового очищення тексту
def clean_text(text):  # оголошуємо функцію
    text = text.lower()  # переводимо текст у нижній регістр
    text = re.sub("@\\S+", " ", text)  # видаляємо згадки
    text = re.sub("https*\\S+", " ", text)  # видаляємо URL
    text = re.sub("#\\S+", " ", text)  # видаляємо хештеги
    text = re.sub("\\d", " ", text)  # видаляємо числа
    text = re.sub('[%s]' % re.escape(string.punctuation), ' ', text)  # видаляємо пунктуацію
    text = re.sub('\\n', ' ', text)  # замінюємо символи нового рядка на пробіл
    text = re.sub('\\s{2,}', ' ', text)  # видаляємо зайві пробіли
    text = ' '.join([word for word in text.split(' ') if word not in stop_words])  # видаляємо стоп-слова
    return text  # повертаємо очищений текст

# Перевіряємо роботу функції на новому тексті
cleaned_text = clean_text('Here is another example: Visit http://example.com, follow @user123, #awesome!')
print("\nТекст після очищення функцією clean_text:\n", cleaned_text)  # Виводимо фінальний результат


Початковий текст:
 Noisy Text Example with a lot of numbers and special symbols: 12345, #abc, @@qwerty, http://xyz. Data cleaning Done

Після переведення у нижній регістр:
 noisy text example with a lot of numbers and special symbols: 12345, #abc, @@qwerty, http://xyz. data cleaning done

Після видалення згадок:
 noisy text example with a lot of numbers and special symbols: 12345, #abc,   http://xyz. data cleaning done

Після видалення URL:
 noisy text example with a lot of numbers and special symbols: 12345, #abc,     data cleaning done

Після видалення хештегів:
 noisy text example with a lot of numbers and special symbols: 12345,       data cleaning done

Після видалення чисел:
 noisy text example with a lot of numbers and special symbols:      ,       data cleaning done

Після видалення пунктуації:
 noisy text example with a lot of numbers and special symbols               data cleaning done

Після видалення зайвих пробілів:
 noisy text example with a lot of numbers and special sym