# Data Science – Упражнения для обработки текста


## NLP

### Упражнение 1: Часто встречающиеся слова
Найдите в «Моби Дике» наиболее часто используемые слова, которые не являются стоп-словами и знаками препинания. Подсказка: здесь может пригодиться [`str.isalpha()`](https://docs.python.org/3/library/stdtypes.html#str.isalpha).

In [1]:
import nltk
nltk.download('all')
from nltk.corpus import stopwords
stopwords = nltk.corpus.stopwords.words('english')
from nltk.book import *

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping grammars/basque_grammars.zip.
[nltk_data]    | Downloading package bcp47 to /root/nltk_data...
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   U

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


**Найдем топ 60 слов, которые чаще всего используются**

Создадим сначала частотное распределение

In [20]:
frequency_dist = FreqDist(text1)
print(frequency_dist)

<FreqDist with 19317 samples and 260819 outcomes>


Далее получим топ 600 часто встречающихся слов

In [22]:
most_common = frequency_dist.most_common(600)

Сделаем фильтрацию слов по стоп-словам и наличию только букв

In [23]:
filtered_words = [word_tuple for word_tuple in most_common if word_tuple[0].lower() not in stopwords]
filtered_words = [word_tuple for word_tuple in filtered_words if word_tuple[0].isalpha()]
filtered_words[0:60]

[('whale', 906),
 ('one', 889),
 ('like', 624),
 ('upon', 538),
 ('man', 508),
 ('ship', 507),
 ('Ahab', 501),
 ('ye', 460),
 ('old', 436),
 ('sea', 433),
 ('would', 421),
 ('head', 335),
 ('though', 335),
 ('boat', 330),
 ('time', 324),
 ('long', 318),
 ('said', 302),
 ('yet', 300),
 ('still', 299),
 ('great', 293),
 ('two', 285),
 ('seemed', 283),
 ('must', 282),
 ('Whale', 282),
 ('last', 277),
 ('way', 269),
 ('Stubb', 255),
 ('see', 253),
 ('Queequeg', 252),
 ('little', 247),
 ('round', 242),
 ('whales', 237),
 ('say', 237),
 ('three', 237),
 ('men', 236),
 ('thou', 232),
 ('may', 230),
 ('us', 228),
 ('every', 222),
 ('much', 218),
 ('could', 215),
 ('Captain', 215),
 ('first', 210),
 ('side', 208),
 ('hand', 205),
 ('ever', 203),
 ('Starbuck', 196),
 ('never', 195),
 ('good', 192),
 ('white', 191),
 ('deck', 189),
 ('thing', 188),
 ('almost', 186),
 ('water', 185),
 ('might', 183),
 ('go', 182),
 ('even', 181),
 ('made', 178),
 ('away', 175),
 ('well', 174)]

Построим столбчатую диаграмму часто встречаемых слов

1. Переведем в датафрейм

In [24]:
import pandas as pd
df = pd.DataFrame(filtered_words, columns=['Word', 'Frequency'])
print(df.head())

    Word  Frequency
0  whale        906
1    one        889
2   like        624
3   upon        538
4    man        508


2. Проверим тип данных у Frequency

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Word       420 non-null    object
 1   Frequency  420 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 6.7+ KB


3. Для графика используем топ 20 слов, чтобы не было нагромождения

In [29]:
df_top_20 = df.head(20)

4. Используем библиотеку альтаир для создание диаграммы, где при наведении показывалось значение

In [None]:
import altair as alt

In [44]:
chart = alt.Chart(df_top_20).mark_bar().encode(
    x='Word',
    y='Frequency',
    tooltip=['Frequency']
).properties(
    title='Топ 20 слов', width=alt.Step(50)
)
chart

## Упражнение 2

Вы злой спамер, который заметил, что многие люди пытаются запутать свою электронную почту, используя пометку: «alex at utah dot edu». Ниже приведены три примера текста таких писем. Попробуйте извлечь «alex at utah dot edu» и т. д. Начните с первой строки. Затем расширьте свое регулярное выражение, чтобы оно работало со всеми ними одновременно. Обратите внимание, что второе и третье сделать намного сложнее!

You're an evil Spammer who's observed that many people try to obfuscate their e-mail using this notation: "`alex at utah dot edu`". Below are three examples of such e-mails text. Try to extract "alex at utah dot edu", etc. Start with the first string. Then extend your regular expression to work on all of them at the same time. Note that the second and third are slightly harder to do!

In [4]:
import re
html_smart = "You can reach me: alex at utah dot edu"
html_smart2 = "You can reach me: alex dot lex at utah dot edu"
html_smart3 = "You can reach me: alex dot lex at sci dot utah dot edu"

In [5]:
def testRegex(regex):
    for html in (html_smart, html_smart2, html_smart3):
        print(re.search(regex, html).group())

**1 регулярное выражение**

In [8]:
# TODO write your regex here
mail_regex = "\w+\sat\s\w+\sdot\s\w+"

In [9]:
testRegex(mail_regex)

alex at utah dot edu
lex at utah dot edu
lex at sci dot utah


**2 регулярное выражение**

In [46]:
better_regex = "((\w+\s)+(\sdot)*)+at\s\w+\sdot\s\w+"

In [47]:
testRegex(better_regex)

alex at utah dot edu
alex dot lex at utah dot edu
alex dot lex at sci dot utah


**3 регулярное выражение**

In [48]:
best_regex = "((\w+\s)+(\sdot)*)+at(\s\w+\sdot)+\s\w+"

In [49]:
testRegex(best_regex)

alex at utah dot edu
alex dot lex at utah dot edu
alex dot lex at sci dot utah dot edu


## Упражнение 2.2: Найдите наречия

Напишите регулярное выражение, которое находит все наречия в предложении. Наречия характеризуются окончанием на «ly».

In [13]:
text = "He was carefully disguised but captured quickly by police."

**Найдем все наречия, которые оканчиваются на -ly, используя регулярное выражение**

In [14]:
re.findall(r"\w+ly", text)

['carefully', 'quickly']

### Упражнение 2.3: Телефонные номера

Извлеките из текста номера телефонов, которые следуют шаблону (xxx) xxx-xxxx:

In [16]:
phone_numbers = "(857) 131-2235, (801) 134-2215, but this one (12) 13044441 shouldnt match. Also, this is common in twelve (12) countries and one (1) state"

**Найдем все телефонные номера в строке, имеющий формат (xxx) xxx-xxxx**

\([0-9]{3}\) означает поиск открывающей скобки, за которой следуют три цифры, а затем закрывающая скобка.


\s обозначает пробел.


[0-9]{3} и [0-9]{4} представляют три цифры и четыре цифры соответственно, разделенные дефисом.

In [17]:
re.findall(r"\([0-9]{3}\)\s[0-9]{3}-[0-9]{4}", phone_numbers)

['(857) 131-2235', '(801) 134-2215']

### Упражнение 2.4. HTML-контент

Извлеките содержимое между тегами `<b>` и `<i>`, но не другими тегами:

In [18]:
html_tags = "This is <b>important</b> and <u>very</u><i>timely</i>"

**Извлечем содержимое между тегами `<b>` и `<i>`**

In [19]:
re.findall(r"<[bi]>(.*?)<\/[bi]>", html_tags)

['important', 'timely']