**Data Cleaning** (чистка данных) - этап предварительной обработки данных для анализа данных и машинного обучения.

**Примеры Data Cleaning:**
- удаление избыточных столбцов из табличных данных;
- приведение текста к нижнему регистру;
- чистка текста от HTML-артефактов

Загрузим тренировочный датасет, почистим его и проанализируем результаты.

# Задание 1: Загрузка данных

Загрузим тренировочный датасет и посмотрим на наши данные.

Представим, что мы загрузили статью в формате HTML.

Скачаем ее и выведем на экран первые 100 символов с помощью слайсинга (среза).

In [1]:
# загружаем тренировочные данные
!wget https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/data/data_cleaning.txt

--2025-10-16 16:34:28--  https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/data/data_cleaning.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2377 (2.3K) [text/plain]
Saving to: ‘data_cleaning.txt’


2025-10-16 16:34:29 (37.6 MB/s) - ‘data_cleaning.txt’ saved [2377/2377]



In [2]:
# запишем данные в переменную data
with open('data_cleaning.txt', 'r') as f:
  data = f.read()

In [3]:
# выведите на экран первые 100 символов с помощью слайсинга
'''
<!DOCTYPE html>
<html>
<head>
    <title>Sample HTML Document</title>
</head>
<body>
    <h1>Welcome
'''


print(data[:100])

<!DOCTYPE html>
<html>
<head>
    <title>Sample HTML Document</title>
</head>
<body>
    <h1>Welcome


# Задание 2: Удаление артефактов

В данных много артефактов - HTML-тегов.

Удалим HTML-артефакты с помощью регулярных выражений RegEx

In [4]:
# пропишем паттерн для поиска HTML-тегов вида <tag> ... </tag>
import re   # загрузим библиотеку для обработки регулярных выражений

tag_pattern = r'<[^>]+>'    # паттерн для поиска тегов

Используйте функцию `re.sub` (substitution) для чистки данных

`re.sub` ищет в строке `string` соответствия RegEx-паттерну `pattern` и меняет найденное на указанную строку `repl`

Как используем функцию: `re.sub(pattern, repl, string)`

- `pattern` - паттерн RegEx, соответствия которому будет искать функция
- `repl` - на что будем менять найденные соответствия
- `string` - где будем искать, наш датасет

Запишите результат в переменную `clean_text` и выведите на экран с 720-го по 800-ый символ очищенного текста

Используйте слайсинг

In [5]:
# Подсказки:
# используйте паттерн, записанный в переменную tag_pattern
# замените результат на пустую строку ""
### ваш код здесь: примените re.sub ###
### ваш код здесь: выведите результат с 720-го по 800-ый символ ###
#  It's crucial to handle HTML entities such as &lt;div&gt;, &lt;p&gt;, &amp;, etc

data_clean = re.sub(tag_pattern, '', data)
print(data_clean[720:800])

 It's crucial to handle HTML entities such as &lt;div&gt;, &lt;p&gt;, &amp;, etc


Мы удалили не все специальные символы HTML

Создадим еще один паттерн и повторим процедуру

In [6]:
symbols_pattern = r'&\w+;'    # паттерн для поиска специальных символов

Используйте `re.sub` для удаления этих символов

Теперь функция принимает на вход паттерн `symbols_pattern` и текст `clean_text`

Перезапишите переменную `clean_text`

Выведите на экран с 720-го по 800-ый символ, чтобы убедиться в том, что чистка прошла успешно

In [7]:
### ваш код здесь: примените re.sub ###
### ваш код здесь: выведите результат с 720-го по 800-ый символ ###

data_clean = re.sub(symbols_pattern, '', data_clean)
print(data_clean[720:800])

 It's crucial to handle HTML entities such as div, p, , etc. HTML entities are s


В нашем тексте остались двойные пробелы

Уберем им с помощью очередного паттерна

In [8]:
# \n\n\n    Sample HTML Document\n\n\n    Welcome to Data Cleaning\n    This is a sample paragraph with HTML
# выведите на экран первые 100 символов вашего текущего результата
# на этот раз не используйте print
### ваш код здесь
data_clean[:100]

'\n\n\n    Sample HTML Document\n\n\n    Welcome to Data Cleaning\n    This is a sample paragraph with HTML '

Создаем паттерн для поиска двойных пробелов

Повторите процедуру, перезапишите результат в `clean_text` и выведите первые 100 символов

Что мы запишем в переменную `repl`, чтобы не удалить абсолютно все пробелы?

In [9]:
space_pattern = r'\s+'

### ваш код здесь: примените re.sub ###
### ваш код здесь: выведите первые 100 символов, не используя print ###
#  Sample HTML Document Welcome to Data Cleaning This is a sample paragraph with HTML artifacts such a

clean_text = re.sub(space_pattern, ' ', data_clean)
clean_text[:100]

' Sample HTML Document Welcome to Data Cleaning This is a sample paragraph with HTML artifacts such a'

# Задание 3: Смена регистра

Приведем все слова к нижнему регистру с помощью функции `lower`

Запишем результат в переменную `text_lower` и выведем на экран последние 100 символов

In [30]:
### ваш код здесь: примените lower к clean_text ###
### ваш код здесь: выведите первые 100 символов с конца, используйте слайсинг и не забудьте про - ###
# e learning models, making predictions, or generating insights to support decision-making processes.
text_lower = clean_text.lower()
text_lower[-100:]

'e learning models, making predictions, or generating insights to support decision-making processes. '

# Задание 4: Удаление стоп-слов

Удалим частотные слова, которые создают шум для решения задач

Загрузим список стоп-слов

In [17]:
!wget https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/data/stopwords.txt

--2025-10-16 16:39:47--  https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/data/stopwords.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 954 [text/plain]
Saving to: ‘stopwords.txt’


2025-10-16 16:39:47 (8.28 MB/s) - ‘stopwords.txt’ saved [954/954]



In [18]:
# запишем данные в переменную stopwords
with open('stopwords.txt', 'r') as f:
  stopwords = f.read().split()

Выведите на экран первые 10 стоп-слов

In [19]:
stopwords[:10]

['a', 'about', 'above', 'after', 'again', 'against', 'all', 'am', 'an', 'and']

С помощью `random` мы можем "вытянуть" из списка стоп-слов случайное слово

In [20]:
import random
random.choice(stopwords)

"mustn't"

"Вытяните" еще одно случайное слово и запишите его в переменную `random_word`

In [32]:
random_word = random.choice(stopwords)
random_word

"why's"

Проверьте, есть ли это слово в `text_lower` с помощью `in`

Выведите на экран это слово

In [33]:
### ваш код здесь: вывод на экран текста "Результат проверки:" и проверки с in ###
### ваш код здесь: вывод текста "Случайное слово:" и random_word ###
# Результат проверки: False
# Случайное слово: there's

print('Результат проверки:', random_word in text_lower)
print('Случайное слово:', random_word)

Результат проверки: False
Случайное слово: why's


Попробуйте сгенерировать еще несколько слов и проверить их наличие в `text_lower`

Для этого запустите повторно две последние ячейки

In [None]:
"""
Вот так будет выглядеть текст после удаления стоп-слов _без_ токенизации
Заменятся все аналогичные сочетания знаков
Поэтому перед _удалением_ стоп-слов, проведем токенизацию
"""

' s mple html  cu nt  lco    d t  cle n ng t   s   s mple p r gr ph w th html  rt f cts    s bold  nd  t l c text. d t  cle n ng  s  n essent  l process  n prep r ng d t     n lys s.  t  nvolves v r ous techn ques   cle n, tr ns m,  nd preprocess d t .  n d t  cle n ng,  t\'s  mp t nt   remove s p w ds l ke "t ", " nd", " ", etc. s p w ds  re comm  w ds th t  re  ten f ltered     text d t   c use t y    t c rry s gn f c nt   n ng.  re\'s   t r p r gr ph.   t  s text  s  n  perc se   lo rc se.  t\'s  mp t nt   st nd rd ze t  text c se   ensure c s stency  n t  d t set. t  c n    ch eved   c vert ng  ll text   lo rc se    perc se.  t\'s cruc  l   h ndle html ent t es    s d v, p, , etc. html ent t es  re spec  l ch r cters   symbols th t h ve spec f c   n ngs  n html. t y need     properly h ndled    vo d  ssues   d t  process ng. d t  cle n ng  l   nvolves de l ng w th m ss ng v lues. m ss ng v lues c n occur due   v r ous re s s    s  ncomplete d t  collect     d t  entry err s.  t\'s 

# Задание 5: Токенизация

Токенизируем датасет для дальнейшей работы

Создадим 2 набора токенов: с сегментацией по предложениям и с сегментацией по словам

Создайте переменную `sentences`

С помощью `split` разделите текст на предложения (сегменты, разделенные знаком `.`)

Выведите на экран первые 10 элементов `sentences`

In [34]:
### ваш код здесь: split для сегментации по знаку `.` ###
### вывод на экран первых 10 предложений ###
sentences = text_lower.split('.')
sentences[:10]

[' sample html document welcome to data cleaning this is a sample paragraph with html artifacts such as bold and italic text',
 ' data cleaning is an essential process in preparing data for analysis',
 ' it involves various techniques to clean, transform, and preprocess data',
 ' in data cleaning, it\'s important to remove stop words like "the", "and", "of", etc',
 ' stop words are common words that are often filtered out from text data because they do not carry significant meaning',
 " here's another paragraph",
 ' sometimes text is in uppercase or lowercase',
 " it's important to standardize the text case to ensure consistency in the dataset",
 ' this can be achieved by converting all text to lowercase or uppercase',
 " it's crucial to handle html entities such as div, p, , etc"]

Создайте переменную `tokens`

С помощью `split` разделите текст `text_lower` на слова

Выведите первые 10 элементов

In [35]:
### ваш код здесь: split для сегментации по пробелу ###
### ваш код здесь: вывод на экран первых 10 слов ###

tokens = text_lower.split()
tokens[:10]

['sample',
 'html',
 'document',
 'welcome',
 'to',
 'data',
 'cleaning',
 'this',
 'is',
 'a']

 Удалим стоп-слова

In [36]:
clean_tokens = []

for token in tokens:  # итерация по списку токенов tokens
  if token not in stopwords:  # проверяем отсутствие токена в списке стоп-слов
    clean_tokens.append(token)  # добавляем токен в новый очищенный список токенов, если его нет в стоп-словах

print(clean_tokens[:10])

['sample', 'html', 'document', 'welcome', 'data', 'cleaning', 'sample', 'paragraph', 'html', 'artifacts']


# И еще одно задание...

В ячейке ниже вы сможете загрузить еще один текст

Используйте свой код и код из задания, чтобы

1. удалить артефакты (html-теги, специальные символы и двойные пробелы)

2. привести текст к нижнему регистру

3. токенизировать текст по предложениям

4. токенизировать текст по словам

5. удалить стоп-слова

In [37]:
!wget https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/extracurricular/artefacts.txt

--2025-10-16 16:50:18--  https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/extracurricular/artefacts.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 845 [text/plain]
Saving to: ‘artefacts.txt’


2025-10-16 16:50:18 (48.9 MB/s) - ‘artefacts.txt’ saved [845/845]



In [46]:
# запишем данные в переменную artefacts
with open('artefacts.txt', 'r') as f:
  artefacts = f.read()

In [47]:
artefacts[:100]

'<!DOCTYPE html>\n<html>\n<head>\n    <title>Sample Web Page</title>\n</head>\n<body>\n    <h1>Welcome to O'

In [70]:
# удалить артефакты (html-теги, специальные символы и двойные пробелы)
# tag_pattern
symbols_pattern = r'&\\w+;'
# space_pattern

artefacts_new = re.sub(tag_pattern, '', artefacts)
artefacts_new = re.sub(symbols_pattern, '', artefacts_new)
artefacts_new = re.sub(space_pattern, ' ', artefacts_new)

artefacts_new[:100]

' Sample Web Page Welcome to Our Website This is some sample text on our website. You can contact us '

In [71]:
# привести текст к нижнему регистру

artefacts_lower = artefacts_new.lower()
artefacts_lower[:100]

' sample web page welcome to our website this is some sample text on our website. you can contact us '

In [72]:
# токенизировать текст по предложениям

artefacts_lower.split('.')[:10]

[' sample web page welcome to our website this is some sample text on our website',
 ' you can contact us at info@example',
 'com',
 ' latest news breaking news: important announcement lorem ipsum dolor sit amet, consectetur adipiscing elit',
 ' vivamus lacinia, arcu in fermentum tincidunt',
 ' &copy; 2023 our website',
 ' all rights reserved',
 ' | privacy policy | contact us console',
 "log('this is some javascript content that runs in the browser",
 "'); "]

In [73]:
# токенизировать текст по словам

print(artefacts_lower.split()[:100])

['sample', 'web', 'page', 'welcome', 'to', 'our', 'website', 'this', 'is', 'some', 'sample', 'text', 'on', 'our', 'website.', 'you', 'can', 'contact', 'us', 'at', 'info@example.com.', 'latest', 'news', 'breaking', 'news:', 'important', 'announcement', 'lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit.', 'vivamus', 'lacinia,', 'arcu', 'in', 'fermentum', 'tincidunt.', '&copy;', '2023', 'our', 'website.', 'all', 'rights', 'reserved.', '|', 'privacy', 'policy', '|', 'contact', 'us', "console.log('this", 'is', 'some', 'javascript', 'content', 'that', 'runs', 'in', 'the', "browser.');"]


In [74]:
# удалить стоп-слова

clean_artefacts = []

for token in tokens:  # итерация по списку токенов tokens
  if token not in stopwords:  # проверяем отсутствие токена в списке стоп-слов
    clean_artefacts.append(token)  # добавляем токен в новый очищенный список токенов, если его нет в стоп-словах

print(clean_artefacts[:10])

['sample', 'html', 'document', 'welcome', 'data', 'cleaning', 'sample', 'paragraph', 'html', 'artifacts']
