<a href="https://colab.research.google.com/github/vifirsanova/hse-python-course/blob/main/extracurricular/clean_tokenize_vectorize.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Регулярные выражения

Как использовать регулярные выражения для чистки данных после скрейпинга?

Артефакты:

- HTML-теги
- повторяющийся контент
- JavaScript-артефакты
- реклама, подвал сайта, элементы меню
- даты, email-адреса, url

In [None]:
!wget https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/extracurricular/artefacts.txt

--2023-10-16 12:55:23--  https://raw.githubusercontent.com/vifirsanova/hse-python-course/main/extracurricular/artefacts.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 845 [text/plain]
Saving to: ‘artefacts.txt’


2023-10-16 12:55:23 (42.0 MB/s) - ‘artefacts.txt’ saved [845/845]



Вы загрузили учебный файл artefacts.txt

Откройте его и сохраните в переменную sample_data

In [None]:
### ваш код здесь

Регулярные выражения позволяют искать, извлекать, изменять текстовые данные, основываясь на шаблонах и правилах.

**Литералы**: это просто текст, точное соответствие символам. Например, регулярное выражение cat будет соответствовать строке "cat" в тексте.

In [None]:
import re

string = "A cat is on the mat. A cat is on the table."

#   string = re.sub(pattern, replacement, original_string, count=0)
new_string = re.sub('cat', 'pug', string, count=1)

new_string

'A pug is on the mat. A cat is on the table.'

**Метасимволы**: метасимволы имеют специальное значение.

. (точка) любой символ, кроме новой строки

\* (звездочка) 0 и более повторений символа или группы

\+ (плюс) 1 и более повторений символа или группы

? (вопросительный знак) 0 или 1 повторение символа или группы

In [None]:
html_tags = re.compile(r'<.*?>') #

cleaned_html = html_tags.sub('', sample_data)

print('***BEFORE***')
print()
print(sample_data)
print()
print('***AFTER***')
print()
print(cleaned_html)

***BEFORE***

<!DOCTYPE html>
<html>
<head>
    <title>Sample Web Page</title>
</head>
<body>
    <h1>Welcome to Our Website</h1>
    <p>This is some sample text on our website. You can contact us at <a href="mailto:info@example.com">info@example.com</a>.</p>

    <h2>Latest News</h2>
    <div class="news-article">
        <h3><a href="https://example-news.com/article-123">Breaking News: Important Announcement</a></h3>
        <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus lacinia, arcu in fermentum tincidunt.</p>
    </div>

    <div id="footer">
        <p>&copy; 2023 Our Website. All rights reserved. | <a href="/privacy-policy">Privacy Policy</a> | <a href="/contact-us">Contact Us</a></p>
    </div>

    <script>
        console.log('This is some JavaScript content that runs in the browser.');
    </script>
</body>
</html>


***AFTER***




    Sample Web Page


    Welcome to Our Website
    This is some sample text on our website. You can contact us at info@ex

Выражение `"<.*?>"` означает поиск любого символа (`.`), который может появиться ноль или более раз (`*`), ленивый (non-greedy) квантификатор `?`.

Давайте разберём по частям:

- `<` и `>` - обычные символы `<` и `>`, они будут точно соответствовать символам `<` и `>` в тексте
- `.` - соответствует любому одиночному символу, кроме символа новой строки
- `*` - квантификатор `*` означает, что предыдущий символ (в данном случае `.`) может повторяться от нуля до бесконечности раз. Он стремится найти максимально длинное совпадение (жадное совпадение).
- `?` - вопросительный знак после `*` делает квантификатор ленивым (non-greedy). Это означает, что он будет искать минимальное совпадение вместо максимального.

Таким образом, выражение `"<.*?>"` будет искать самое короткое совпадение, которое начинается с символа `<` и заканчивается ближайшим символом `>`.

Например, если у вас есть текст `<tag1>some text</tag1> <tag2>more text</tag2>`, то `"<.*?>"` найдет `"<tag1>"` и `"<tag2>"` вместо всей строки `"<tag1>some text</tag1> <tag2>"`.

In [None]:
vowels = re.compile(r'[aeiou]')

text = "This is a sample sentence"

vowels.findall(text)

### теперь найдите все гласные в тексте с артефактами, но приведите текст к нижнему регистру и удалите повторы в выводе

['i', 'i', 'a', 'a', 'e', 'e', 'e', 'e']

**Наборы символов**: любой набор символов в квадратных скобках. Например, [aeiou] соответствует набору гласных

**Диапазоны**: внутри набора можно задать диапазон, используя дефис. Например, [0-9] соответствует любой цифре, [a-zA-Z] всем буквам латинского алфавита.

In [None]:
text = "В этoм текcтe cпрятались латинcкие буквы."

### найдите их!

**Инверсия набора**: ^ в начале набора инвертирует соответствие. Например, [^0-9] соответствует любому символу, который не является цифрой.

In [None]:
### найдите в очищенном от html-артефактов тексте все, что не является текстом
### можно использовать классы
### \d - digit
### \s - space
### \t - tab
### \n - newline
### \w - word

Подведем итог и почистим наш учебный пример

In [None]:
email_addresses = re.compile(r'\b[\w.-]+?@\w+?\.\w+?\b')
copyright_symbol = re.compile(r'&copy;')

no_emails = email_addresses.sub('', cleaned_html)
no_copy = copyright_symbol.sub('', no_emails)

final_text = re.sub(r'[^\w.,;!?\n]', ' ', no_copy)
final_text = re.sub(r'\n+', '\n', final_text)
final_text = re.sub(r'([.,;!?])', r' \1', final_text)
final_text = re.sub(r' +', r' ', final_text)

print('***BEFORE***')
print()
print(cleaned_html)
print()
print('***AFTER***')
print()
print(final_text)

***BEFORE***




    Sample Web Page


    Welcome to Our Website
    This is some sample text on our website. You can contact us at info@example.com.

    Latest News
    
        Breaking News: Important Announcement
        Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus lacinia, arcu in fermentum tincidunt.
    

    
        &copy; 2023 Our Website. All rights reserved. | Privacy Policy | Contact Us
    

    
        console.log('This is some JavaScript content that runs in the browser.');
    




***AFTER***


 Sample Web Page
 Welcome to Our Website
 This is some sample text on our website . You can contact us at .
 Latest News
 
 Breaking News Important Announcement
 Lorem ipsum dolor sit amet , consectetur adipiscing elit . Vivamus lacinia , arcu in fermentum tincidunt .
 
 
 2023 Our Website . All rights reserved . Privacy Policy Contact Us
 
 
 console .log This is some JavaScript content that runs in the browser . ;
 



Упражнение

В этом тексте есть:
* HTML-артефакты `<div>`
* лишние пробелы
* ссылка `http://login.com`
* ненужные символы `# &`

Почистите этот пример с помощью RegEx

Дополнительне примеры можно найти здесь: https://turbolab.in/data-cleaning-using-regular-expression/

In [None]:
test = '<div>      What is Science?&  Scientists seek to understand the fundamental# principles that explain natural patterns and processes.  Science http://login.com '

clean_test = ### ваш код здесь

Задание: определить артефакты в своем корпусе и почистить его

# Токенизация

Что такое токенизация, как создать собственный токенизатор и использовать готовые?

In [None]:
# функция для простой токенизации
# принимает на вход текст
# приводит текст к нижнем регистру с помощью lower()
# "рубит" текст на элементы, разделенные пробелом (слова)

def tokenize(text):
  return text.lower().split()

tokenized = tokenize(final_text)
tokenized

['sample',
 'web',
 'page',
 'welcome',
 'to',
 'our',
 'website',
 'this',
 'is',
 'some',
 'sample',
 'text',
 'on',
 'our',
 'website',
 '.',
 'you',
 'can',
 'contact',
 'us',
 'at',
 '.',
 'latest',
 'news',
 'breaking',
 'news',
 'important',
 'announcement',
 'lorem',
 'ipsum',
 'dolor',
 'sit',
 'amet',
 ',',
 'consectetur',
 'adipiscing',
 'elit',
 '.',
 'vivamus',
 'lacinia',
 ',',
 'arcu',
 'in',
 'fermentum',
 'tincidunt',
 '.',
 '2023',
 'our',
 'website',
 '.',
 'all',
 'rights',
 'reserved',
 '.',
 'privacy',
 'policy',
 'contact',
 'us',
 'console',
 '.log',
 'this',
 'is',
 'some',
 'javascript',
 'content',
 'that',
 'runs',
 'in',
 'the',
 'browser',
 '.',
 ';']

Сравним с токенизацией NLTK

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# импортируем токенизатор NLTK

from nltk.tokenize import word_tokenize

# применим токенизатор к двум текстам:
# к сырому

text_tokens = word_tokenize(sample_data)

# и к чистому

clean_text_tokens = word_tokenize(final_text)

print('Токенизированный "чистый текст"', clean_text_tokens)
print('Токенизированный "сырой текст"', text_tokens)

Токенизированный "чистый текст" ['Sample', 'Web', 'Page', 'Welcome', 'to', 'Our', 'Website', 'This', 'is', 'some', 'sample', 'text', 'on', 'our', 'website', '.', 'You', 'can', 'contact', 'us', 'at', '.', 'Latest', 'News', 'Breaking', 'News', 'Important', 'Announcement', 'Lorem', 'ipsum', 'dolor', 'sit', 'amet', ',', 'consectetur', 'adipiscing', 'elit', '.', 'Vivamus', 'lacinia', ',', 'arcu', 'in', 'fermentum', 'tincidunt', '.', '2023', 'Our', 'Website', '.', 'All', 'rights', 'reserved', '.', 'Privacy', 'Policy', 'Contact', 'Us', 'console', '.log', 'This', 'is', 'some', 'JavaScript', 'content', 'that', 'runs', 'in', 'the', 'browser', '.', ';']
Токенизированный "сырой текст" ['<', '!', 'DOCTYPE', 'html', '>', '<', 'html', '>', '<', 'head', '>', '<', 'title', '>', 'Sample', 'Web', 'Page', '<', '/title', '>', '<', '/head', '>', '<', 'body', '>', '<', 'h1', '>', 'Welcome', 'to', 'Our', 'Website', '<', '/h1', '>', '<', 'p', '>', 'This', 'is', 'some', 'sample', 'text', 'on', 'our', 'website',

In [None]:
# загрузим список стоп-слов из NLTK

from nltk.corpus import stopwords
nltk.download('stopwords')

# сохраним стоп-слова для английского языка в отдельный список

sw = stopwords.words('english')

sw[:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [None]:
# чтобы удалить стоп-слова, "пробежимся" по токенизированному списку
# если слово отсутсвует в списке стоп-слов, сохраним его в новый список tokenized_no_sw

tokenized_no_sw = [x for x in tokenized if not x in sw]

# посмотрим на новый список

print(tokenized)
print(tokenized_no_sw)

['sample', 'web', 'page', 'welcome', 'to', 'our', 'website', 'this', 'is', 'some', 'sample', 'text', 'on', 'our', 'website', '.', 'you', 'can', 'contact', 'us', 'at', '.', 'latest', 'news', 'breaking', 'news', 'important', 'announcement', 'lorem', 'ipsum', 'dolor', 'sit', 'amet', ',', 'consectetur', 'adipiscing', 'elit', '.', 'vivamus', 'lacinia', ',', 'arcu', 'in', 'fermentum', 'tincidunt', '.', '2023', 'our', 'website', '.', 'all', 'rights', 'reserved', '.', 'privacy', 'policy', 'contact', 'us', 'console', '.log', 'this', 'is', 'some', 'javascript', 'content', 'that', 'runs', 'in', 'the', 'browser', '.', ';']
['sample', 'web', 'page', 'welcome', 'website', 'sample', 'text', 'website', '.', 'contact', 'us', '.', 'latest', 'news', 'breaking', 'news', 'important', 'announcement', 'lorem', 'ipsum', 'dolor', 'sit', 'amet', ',', 'consectetur', 'adipiscing', 'elit', '.', 'vivamus', 'lacinia', ',', 'arcu', 'fermentum', 'tincidunt', '.', '2023', 'website', '.', 'rights', 'reserved', '.', 'pri

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

In [None]:
doc = nlp(final_text)

for token in doc[:10]:
    print(token.text)


 
Sample
Web
Page

 
Welcome
to
Our
Website

 


Задание:

Токенизировать свой корпус с помощью любой из библиотек, а также создать союственную функцию для токенизации. В чем принципиальная разница в результатах?

# Bag-of-Words

Как создать свой частотный словарь, что такое "мешок слов" и зачем он нужен NLP-инженеру?

In [None]:
# нам понадобится один метод из библиотеки Collections

from collections import Counter

# частотный словарь строится автоматически

glossary = Counter(tokenized_no_sw)

# сохраним наиболее частотные элементы словаря

freq_glossary = glossary.most_common()

# посмотрим на результат

freq_glossary[:10]

[('.', 7),
 ('website', 3),
 ('sample', 2),
 ('contact', 2),
 ('us', 2),
 ('news', 2),
 (',', 2),
 ('web', 1),
 ('page', 1),
 ('welcome', 1)]

Bag-of-Words (BoW) - это простая модель для создания векторного представления текста.

Мешок слов представляет текст в виде набора слов, игнорируя порядок слов в тексте и учитывая только их наличие или частоту встречаемости.

Как создать мешок слов?

1. **Токенизация**: документ разбивается на отдельные токены. Можно удалить знаки препинания, привести слова к нижнему регистру.

2. **Построение вектора**: каждый документ представляется в виде вектора признаков. Каждое слово является признаком. Значение вектора обозначает частотность встречаемости (5, если слово встречается в документе 5 раз) или отсутствие (0) данного слова в документе.

In [None]:
docs = [tokenize(x) for x in final_text.split(' .')]

docs

[['sample',
  'web',
  'page',
  'welcome',
  'to',
  'our',
  'website',
  'this',
  'is',
  'some',
  'sample',
  'text',
  'on',
  'our',
  'website'],
 ['you', 'can', 'contact', 'us', 'at'],
 ['latest',
  'news',
  'breaking',
  'news',
  'important',
  'announcement',
  'lorem',
  'ipsum',
  'dolor',
  'sit',
  'amet',
  ',',
  'consectetur',
  'adipiscing',
  'elit'],
 ['vivamus', 'lacinia', ',', 'arcu', 'in', 'fermentum', 'tincidunt'],
 ['2023', 'our', 'website'],
 ['all', 'rights', 'reserved'],
 ['privacy', 'policy', 'contact', 'us', 'console'],
 ['log',
  'this',
  'is',
  'some',
  'javascript',
  'content',
  'that',
  'runs',
  'in',
  'the',
  'browser'],
 [';']]

In [None]:
# чтобы удалить стоп-слова, "пробежимся" по токенизированному списку
# если слово отсутсвует в списке стоп-слов, сохраним его в новый список tokenized_no_sw

docs_no_sw = []

for sent in docs:
  docs_no_sw.append([x for x in sent if not x in sw])

# посмотрим на новый список

docs_no_sw

[['sample', 'web', 'page', 'welcome', 'website', 'sample', 'text', 'website'],
 ['contact', 'us'],
 ['latest',
  'news',
  'breaking',
  'news',
  'important',
  'announcement',
  'lorem',
  'ipsum',
  'dolor',
  'sit',
  'amet',
  ',',
  'consectetur',
  'adipiscing',
  'elit'],
 ['vivamus', 'lacinia', ',', 'arcu', 'fermentum', 'tincidunt'],
 ['2023', 'website'],
 ['rights', 'reserved'],
 ['privacy', 'policy', 'contact', 'us', 'console'],
 ['log', 'javascript', 'content', 'runs', 'browser'],
 [';']]

In [None]:
glossaries = []

for sent in docs_no_sw:
  glossary = Counter(sent)
  glossaries.append(glossary.most_common())

glossaries

[[('sample', 2),
  ('website', 2),
  ('web', 1),
  ('page', 1),
  ('welcome', 1),
  ('text', 1)],
 [('contact', 1), ('us', 1)],
 [('news', 2),
  ('latest', 1),
  ('breaking', 1),
  ('important', 1),
  ('announcement', 1),
  ('lorem', 1),
  ('ipsum', 1),
  ('dolor', 1),
  ('sit', 1),
  ('amet', 1),
  (',', 1),
  ('consectetur', 1),
  ('adipiscing', 1),
  ('elit', 1)],
 [('vivamus', 1),
  ('lacinia', 1),
  (',', 1),
  ('arcu', 1),
  ('fermentum', 1),
  ('tincidunt', 1)],
 [('2023', 1), ('website', 1)],
 [('rights', 1), ('reserved', 1)],
 [('privacy', 1), ('policy', 1), ('contact', 1), ('us', 1), ('console', 1)],
 [('log', 1), ('javascript', 1), ('content', 1), ('runs', 1), ('browser', 1)],
 [(';', 1)]]

In [None]:
import pandas as pd

df = pd.DataFrame(glossaries[0], columns =['word', 'frequency'])

df

Unnamed: 0,word,frequency
0,sample,2
1,website,2
2,web,1
3,page,1
4,welcome,1
5,text,1


In [None]:
df = pd.DataFrame(glossaries[2], columns =['word', 'frequency'])

df

Unnamed: 0,word,frequency
0,news,2
1,latest,1
2,breaking,1
3,important,1
4,announcement,1
5,lorem,1
6,ipsum,1
7,dolor,1
8,sit,1
9,amet,1


Почти готово! Теперь эти таблицы нужно привести к такому виду, чтобы наши предложения можно было сравнить, в том числе с помощью нейросетей

In [None]:
words = set(item for sublist in docs_no_sw for item in sublist)

print(words)

{'sample', 'consectetur', 'contact', 'content', 'breaking', 'dolor', 'reserved', 'website', 'javascript', 'announcement', 'lacinia', 'amet', 'tincidunt', 'console', 'ipsum', 'news', 'sit', 'latest', 'arcu', 'important', ';', 'fermentum', 'lorem', ',', 'privacy', 'elit', 'text', 'policy', 'vivamus', 'rights', 'welcome', 'page', 'runs', 'adipiscing', 'us', 'browser', '2023', 'web', 'log'}


In [None]:
for sent in glossaries:
  temp = [x[0] for x in sent]
  for word in words:
    if word not in temp:
      sent.append(tuple([word, 0]))
  print(sent)

[('sample', 2), ('website', 2), ('web', 1), ('page', 1), ('welcome', 1), ('text', 1), ('consectetur', 0), ('contact', 0), ('content', 0), ('breaking', 0), ('dolor', 0), ('reserved', 0), ('javascript', 0), ('announcement', 0), ('lacinia', 0), ('amet', 0), ('tincidunt', 0), ('console', 0), ('ipsum', 0), ('news', 0), ('sit', 0), ('latest', 0), ('arcu', 0), ('important', 0), (';', 0), ('fermentum', 0), ('lorem', 0), (',', 0), ('privacy', 0), ('elit', 0), ('policy', 0), ('vivamus', 0), ('rights', 0), ('runs', 0), ('adipiscing', 0), ('us', 0), ('browser', 0), ('2023', 0), ('log', 0)]
[('contact', 1), ('us', 1), ('sample', 0), ('consectetur', 0), ('content', 0), ('breaking', 0), ('dolor', 0), ('reserved', 0), ('website', 0), ('javascript', 0), ('announcement', 0), ('lacinia', 0), ('amet', 0), ('tincidunt', 0), ('console', 0), ('ipsum', 0), ('news', 0), ('sit', 0), ('latest', 0), ('arcu', 0), ('important', 0), (';', 0), ('fermentum', 0), ('lorem', 0), (',', 0), ('privacy', 0), ('elit', 0), ('t

Собираем мешок слов

In [None]:
df1 = pd.DataFrame(glossaries[0], columns=['word', 'sentence 0'])
df2 = pd.DataFrame(glossaries[2], columns=['word', 'sentence 2'])

df = df1.merge(df2, on='word')

df.columns = ['word', 'sentence 0', 'sentence 1']

df

Unnamed: 0,word,sentence 0,sentence 1
0,sample,2,0
1,website,2,0
2,web,1,0
3,page,1,0
4,welcome,1,0
5,text,1,0
6,consectetur,0,1
7,contact,0,0
8,content,0,0
9,breaking,0,1


# Что дальше?

* Знакомимся со [Spacy](https://course.spacy.io/en/)
* учимся строить вектора с [Gensim](https://www.machinelearningplus.com/nlp/gensim-tutorial/)
* Узнаем о возможностях [NLTK](https://www.datacamp.com/tutorial/text-analytics-beginners-nltk)
* Для работы с русскоязычными данными изучаем библиотеку [Natasha](https://github.com/natasha/natasha)
* Изучаем Transformer на [HuggingFace](https://)