# **19 Работа со строками**

Курс ведёт **Александр Джумурат** Data Scientist в ivi

## **19.1** *Введение*

Для аналитка обычно открыт доступ к огромным объёмам текстовой информации. В рамках этого модуля я расскажу как извлечь из этого сырого объёма данных какие-то полезные инсайты, к которым можно применить аналитические инструменты, которые мы изучили ранее в первых частях нашей программы.\
Например, в online-кинотеатре [ivi](https://www.ivi.ru) текстовая информация представлена сюжетами фильмов, рецензиями пользователей, а также, например, интересными фактами о съёмочном процессе.

В работе со строками есть как стандартные приёмы (такие как удаление знаков пунктуации или приведение к нижнему регистру), так и более продвинутые техники (например, работа с регулярными выражениями). Этим приёмы будут продемонстрированы в рамках этого модуля.

Мы будем работать с датасетом, который называется "описание фильмов". Давайте посомтрим как выглядит этот датасет.\
Приёмы работы со строками, которые я продемонстрирую, мы будем изучать на примере набора данных с текстовыми описаниями фильмов. Посмотрим как он выглядит.\
Набор данных состоит из двух колонок:
- первая колонка называется `content`, - и она содержит в себе ссылку на страницу online-кинотеатра [ivi](https://www.ivi.ru), на которой размещён данный контент,
- вторая колонка называется `description`

In [1]:
import pandas as pd

text_df = pd.read_csv("./data/content_description.csv", sep='\t')
text_df.head()

Unnamed: 0,content,description
0,https://www.ivi.ru/watch/157318/description,"Лучший подарок, который только можно было прид..."
1,https://www.ivi.ru/watch/98336/description,Через какие трудности приходится проходить Сан...
2,https://www.ivi.ru/watch/183533/description,Миловидный Давид - позор для своего отца. Не в...
3,https://www.ivi.ru/watch/157319/description,Экранизация сатирического бестселлера Стивена ...
4,https://www.ivi.ru/watch/51342/description,«Леди удача» – авантюрная романтическая комеди...


## **19.2** *Стандартные приёмы работы с текстом*

Очень часто при обработке данных строкового типа (напиример, текстов) требуются дополнительные преобразования, которые помогут повысить качество итогового решения.

Основные приёмы:

* приведение к нижнему регистру
* удаление знаков препинания

Эти приёмы следует применять с осторожностью - например, если вы планируете решать задачу извлечения из текста всех пар *имя+фамилия* то к нижнему регистру приводить не нужено - это приведёт к потере важной информации и затруднит решение исходной задачи

In [2]:
import string

sample_str = text_df.description.values[1]

print(sample_str + '\n\n')

print("Приводим к нижнему регистру:")
print(sample_str.lower() + '\n\n')

print("Удаляем знаки препинания:")
print("".join([i for i in sample_str.lower() if i not in string.punctuation]) + '\n\n')

Через какие трудности приходится проходить Санта Клаусу каждый год, чтобы под каждой елкой появился тот самый подарок, расскажет мульт «Нико 2».   Маленький олененок Нико мечтает продолжить дело отца. Ведь его папа самый знаменитый и уважаемый олень на свете. О его работе мечтает каждый – он трудится в упряжке самого Санта Клауса. Но сам Нико пока еще слишком маленький для такого тяжелого и ответственного дела. Так что пока он сам ждет Санту с подарками. Накануне Рождества он встречается со своими самыми близкими друзьями: белкой Джулиусом, лаской Вилмой и сводным братишкой Джонни, чтобы вместе встречать Рождество и не пропустить заветную оленью упряжку. Но, как всегда в пути Санту ждут невероятные приключения. На этот раз все настолько серьезно, что детишки всего мира могут и вовсе остаться без подарков. Хорошо, что Нико и его товарищи всегда готовы прийти на помощь. Им не страшны любые испытания и приключения: ведь среди них – достойный сын одного из оленей упряжки самого Санта Клаус

## **19.3** *Регулярные выражения в python*

*Регулярные выражения* являются как бы языком программирования внутри языка программирования Python.

Они позволяют извлекать из текста очень сложную информацию. На примерах посмотрим как, например, извлекать из текстов e-mail'ы пользователей или, например, норера телефонов и разную другую полезную информацию.

Среди стандартных модулей python существует библиотека для работы [с регулярными выражениями re](https://docs.python.org/3/library/re.html) (подробнее [тут](https://tproger.ru/translations/regular-expression-python/))

Простешая задача для регулярных выражений - разделение текста на отдельные слова.

In [3]:
import re

# строка для примера
test_string = text_df.description.values[4]
# шаблон регулярного выражения
reg_expr = r'\w+'
# компилируем регулярное выражение
reg_expr_compiled = re.compile(reg_expr)
print("компилированное регулярное вырадение ", type(reg_expr_compiled), '\n\n')
# применяем метод findall для поиска всех совпадений с шаблоном регулярного выражения в тексте 
res = reg_expr_compiled.findall(test_string) 
# результат
print (res)

компилированное регулярное вырадение  <class 're.Pattern'> 


['Леди', 'удача', 'авантюрная', 'романтическая', 'комедия', 'снятая', 'в', 'двадцатые', 'годы', 'ХХ', 'века', 'на', 'заре', 'звукового', 'кинематографа', 'Главную', 'роль', 'исполнила', 'обаятельная', 'Норма', 'Ширер', 'пятикратный', 'номинант', 'и', 'лауреат', 'премии', 'Оскар', 'за', 'фильм', 'Развод', 'Сюжет', 'и', 'посыл', 'картины', 'несмотря', 'на', 'ее', 'почтенный', 'возраст', 'нисколько', 'не', 'устарели', 'В', 'мелодраме', 'которую', 'вы', 'можете', 'посмотреть', 'онлайн', 'представлена', 'забавная', 'история', 'авантюристки', 'по', 'прозвищу', 'Ангельское', 'Личико', 'С', 'равным', 'успехом', 'показанные', 'события', 'могли', 'произойти', 'и', 'в', 'наше', 'время', 'как', 'вы', 'сами', 'можете', 'убедиться', 'люди', 'за', 'несколько', 'десятилетий', 'мало', 'изменились', 'в', 'глобальных', 'вещах', 'Прелестная', 'девушка', 'Долли', 'опасная', 'авантюристка', 'со', 'стажем', 'Она', 'зарабатывает', 'на', 'жизнь', 'ш

Как видно, скомпилированное регулярное выражение имеет класс `Pattern`. В силу того, что скомпилированное регулярное выражение является *классом*, у него есть некоторые методы, которые мы будем использовать.
Мы видим результат применения метода `findall` - это список отдельных слов, совпадающих с регулярным выражением с текстом. Также можно заметить, что эти слова не содержат никаких знаков пунктуации. В то же время, регулярное выражение справилось с тем, что выбрало также и римскую цифру *XX*.

В этом примере можно увидеть основные атрибуты регулярных выражений. В частности, мы поняли, что регулярные выражения представляют собой просто строку в кавычках, которую зачастую предворяет спецификатор `r`. Во-вторых, строку перед использованием нужно скомпилировать в отдельный объект регулярного выражения, который имеет полезные атрибуты и методы для работы с текстом. А, в-третьих, внутри шаблона можно использовать спец-символы - в примере это `\w`. Посмотрим какие ещё спец-символы существуют.

В этом примере можно увидеть базовые приёмы применения библиотеки регулярных выражений в python

* регулярное выражение - строка в кавычках (перед кавычками вспомогательный символ `r`)
* строку перед использованием нужно скомпилировать в специальный объеrn [Regular expression object](https://docs.python.org/3/library/re.html#regular-expression-objects)
* В шаблонах можно использовать `спецсимволы`

Примеры спецсимволов:

* `.` Любой символ
* `\w`  Любая буква (то, что может быть частью слова), а также цифры и _ 
*  `\W`  Всё, что не входит в `\w` 
*  `\d`  Любая цифра 
*  `\D`  Всё, что не входит в `\d` 
* `\b` граница слова
* `[…]`  Символьный класс - любой из перечисленных символов 

Кроме спецсимволов можно использовать т.н. квантификаторы - указатели количества вхождений

* `+` - одно или более вхождений
* `*` ноль или больше вхождений
* `{m,n}` от m до n вхождений
* `{n}` ровно `n` вхождений
* `\s` пробельный символ - например, табуляция
* `^` начало вхождения
* `$` конец вхождения
* `()` - группирующие скобки. Позволяет искать подстроки

Продемонстрируем простейшие примеры применения регулярных выражений.

Разделим строку на отдельные символы

In [4]:
sample_str = 'Мама mama@ya.ru мыла раму с мылом'

result = re.findall(r'.', sample_str)
print(result)

['М', 'а', 'м', 'а', ' ', 'm', 'a', 'm', 'a', '@', 'y', 'a', '.', 'r', 'u', ' ', 'м', 'ы', 'л', 'а', ' ', 'р', 'а', 'м', 'у', ' ', 'с', ' ', 'м', 'ы', 'л', 'о', 'м']


Усложним регулярку и извлечём все слова - идущие подряд непробельные символы (спецсимволы не в счёт)

In [5]:
result = re.findall(r'\w*', sample_str)
print(result)

['Мама', '', 'mama', '', 'ya', '', 'ru', '', 'мыла', '', 'раму', '', 'с', '', 'мылом', '']


В выдаче есть пробелы - заменим `*` на `+`

In [6]:
result = re.findall(r'\w+', sample_str)
print(result)

['Мама', 'mama', 'ya', 'ru', 'мыла', 'раму', 'с', 'мылом']


Первое слово в тексте

In [7]:
result = re.findall(r'^\w+', sample_str)
print(result)

['Мама']


Последнее слово в тексте

In [8]:
result = re.findall(r'\w+$', sample_str)
print(result)

['мылом']


Вернуть все пары символов

In [9]:
result = re.findall(r'\w\w', sample_str)
print(result)

['Ма', 'ма', 'ma', 'ma', 'ya', 'ru', 'мы', 'ла', 'ра', 'му', 'мы', 'ло']


Вернуть все пары символов только в начале слова (включая пробелы)

In [10]:
result = re.findall(r'\b\w.', sample_str)
print(result)

['Ма', 'ma', 'ya', 'ru', 'мы', 'ра', 'с ', 'мы']


Вернуть список доменов электронной почты

In [11]:
result = re.findall(r'@\w+', sample_str)
print(result)

['@ya']


Добавим в результат доменную зону(домен верхнего уровня)

In [12]:
result = re.findall(r'@\w+.\w+', sample_str)
print(result)

['@ya.ru']


Второй вариант — вытащить только доменную зону, используя группировку

In [13]:
result = re.findall(r'@\w+.(\w+)', sample_str)
print(result)
# из всего совпадение, которое произошло, мы вытаскиваем только его часть, ту, которая заключена в скобочки ()

['ru']


Наконец, извлечём email полностью

In [14]:
result = re.findall(r'\w+@\w+.\w+', sample_str)
print(result)

['mama@ya.ru']


Т.о. мы решили простейшую задачу: достали e-mail адрес из строки при помощи регулярных выражений. В аналитике встречается много подбных задач.

В примерах выше функция `findall` возвращала целый список вхождений регулярного выражения в текст.\
Теперь построим более сложную систему и применить регулярные выражения уже внутри каждого элемента, который мы обнаружили в тексте.

Для примера, решим задачу распознавания номера телефона. В данном примере, у нас есть последовательность вхождений цифровых подпоследовательностей в строку.

Разбив текст на отдельные слова, мы получаем список отдельных сущностей (т.н. токенов) каждый токен можно обработать отдельно своей регуляркой - например проверить телефонный номер - номер должен быть длиной 10 знаков и начинаться с 8 или 7.\
Сформируем регулярное выражение, которое содержит в себе символьный класс: внутри квадратных скобок мы задаём элементы, которые могут встречаться в начале нашего вхождения (7 или 8). Затем, в фигурных скобках мы задаём квантификатор (количество вхождений элемента, т.е. 7 или 8 должны входить ровно 1 раз).\
В дальнейшем снова идёт символьный класс только с цифрами от 0 до 9. И затем, квантификатор количества, указывающий на то, что всего цифр должно быть 9.\
Для того, чтобы применить это регулярное выражение к тексту, мы вызываем функцию `match`, и если у нас совпадение произошло, мы печатаем отладочное сообщение что это номер телефона, а если вхождение не найдено, - то мы выводим *no*.

In [15]:
tokens = ['79999999999', '999999-9999', '99999x99999', '79966631324']

for val in tokens:
    if re.match(r'[7-8]{1}[0-9]{10}', val) and len(val) == 11:
        print('phone number')
    else:
        print('no')

phone number
no
no
phone number


Другой интересный кейс - вытаскивание из текста всех имён собственных. Именем собственным мы будем считать любой текст, заключённый внутри кавычек. Для этой задачи нам помогут группирующие скобки `()`.

In [16]:
print(text_df.description.values[4])
raw_text = text_df.description.values[4]

print("\n\nПользуясь регулярными выражения, доcтанем из текста имена собственные (всё, что внутри кавычек):\n\n")
regular_expr = r'«(.*?)»'
reg_expr_compiled = re.compile(regular_expr) # компилируем р.в.
# применяем выражение к тексту
for g in reg_expr_compiled.findall(raw_text): # применяем скомпилированное р.в. ко всему тексту целиком
    print(g)

«Леди удача» – авантюрная романтическая комедия, снятая в двадцатые годы ХХ века, на заре звукового кинематографа. Главную роль исполнила обаятельная Норма Ширер, пятикратный номинант и лауреат премии «Оскар» за фильм «Развод». Сюжет и посыл картины, несмотря на ее почтенный возраст, нисколько не устарели. В мелодраме, которую вы можете посмотреть онлайн, представлена забавная история авантюристки по прозвищу Ангельское Личико. С равным успехом показанные события могли произойти и в наше время – как вы сами можете убедиться, люди за несколько десятилетий мало изменились в глобальных вещах.   Прелестная девушка Долли – опасная авантюристка со стажем. Она зарабатывает на жизнь шантажом по простой и многократно отработанной схеме. Долли знакомится с богатым мужчиной, приглашает его к себе на квартиру, а затем начинает требовать деньги за соблюдение молчания. В результате полицейских происков девушка оказывается под арестом, однако избегает строгого наказания. Выйдя на свободу, она снимает

Итак, пользуясь регулярными выражениями, мы извлекли из текста все имена собственные и распечатали их

Таким образом, мы решили довольно сложную задачу, которую невозможно было бы решить с помощью простых приёмов работы с текстом, таких как: приведение к нижнему регистру и удаление знаков препинания.

### *Итоги*

В данном уроке мы познакомились с таким мощным инструментом для анализа текстов, как регулярные выражения. Пользуясь регулярными выражениями можно извлекать из текста огромное количество факторов. Например: имена телефонов, имена людей или адреса электронной почты. Все эти факторы помогут построить мощную систему аналитики.

## **19.4** *Статистики текста*

С "сырым" текстом аналитику невозможно работать - нужно как-то преобразовать его в численный вид - этот процесс называется *векторизацией*. Когда мы из "сырого" текста получаем какое-то численное представление, которое обычно основано на статистиках слов, которые входят в этот текст.

Чтобы продемострировать, как применять векторизацию, решим задачу прогнозирования жанра фильма по его описанию.

Для начала разобъём текст на слова с помощью регулярных выражений

In [17]:
corpus = []
# регулярка для поиска слов
regular_expr = r'\w+'
reg_expr_compiled = re.compile(regular_expr)

for raw_text in text_df.description.values:
    # приводим к нижнему регистру
    raw_text_lower = raw_text.lower()
    # разбиваем текст на слова
    text_by_words = reg_expr_compiled.findall(raw_text_lower) 
    corpus.append(text_by_words)
print(corpus[1])

['через', 'какие', 'трудности', 'приходится', 'проходить', 'санта', 'клаусу', 'каждый', 'год', 'чтобы', 'под', 'каждой', 'елкой', 'появился', 'тот', 'самый', 'подарок', 'расскажет', 'мульт', 'нико', '2', 'маленький', 'олененок', 'нико', 'мечтает', 'продолжить', 'дело', 'отца', 'ведь', 'его', 'папа', 'самый', 'знаменитый', 'и', 'уважаемый', 'олень', 'на', 'свете', 'о', 'его', 'работе', 'мечтает', 'каждый', 'он', 'трудится', 'в', 'упряжке', 'самого', 'санта', 'клауса', 'но', 'сам', 'нико', 'пока', 'еще', 'слишком', 'маленький', 'для', 'такого', 'тяжелого', 'и', 'ответственного', 'дела', 'так', 'что', 'пока', 'он', 'сам', 'ждет', 'санту', 'с', 'подарками', 'накануне', 'рождества', 'он', 'встречается', 'со', 'своими', 'самыми', 'близкими', 'друзьями', 'белкой', 'джулиусом', 'лаской', 'вилмой', 'и', 'сводным', 'братишкой', 'джонни', 'чтобы', 'вместе', 'встречать', 'рождество', 'и', 'не', 'пропустить', 'заветную', 'оленью', 'упряжку', 'но', 'как', 'всегда', 'в', 'пути', 'санту', 'ждут', 'нев

Как видно, слова в тексте могут находиться в разных формах. Например `друзьями` и `друзьям` - это, очевидно, одно и то же слово. Чтобы учесть этот факт, приведём каждое слово к нормальной форме.

In [18]:
import pymorphy2

normalized_corpus = []
morph = pymorphy2.MorphAnalyzer()

for token_list in corpus:
    normalized_token_list = []
    for word in token_list:
        parsed_token = morph.parse(word)
        normal_form = parsed_token[0].normal_form
        normalized_token_list.append(normal_form)
    normalized_corpus.append(normalized_token_list)
print(normalized_corpus[1])

['через', 'какой', 'трудность', 'приходиться', 'проходить', 'сант', 'клаус', 'каждый', 'год', 'чтобы', 'под', 'каждый', 'ёлка', 'появиться', 'тот', 'самый', 'подарок', 'рассказать', 'мульт', 'нико', '2', 'маленький', 'оленёнок', 'нико', 'мечтать', 'продолжить', 'дело', 'отец', 'ведь', 'он', 'папа', 'самый', 'знаменитый', 'и', 'уважаемый', 'олень', 'на', 'свет', 'о', 'он', 'работа', 'мечтать', 'каждый', 'он', 'трудиться', 'в', 'упряжка', 'самый', 'сант', 'клаус', 'но', 'сам', 'нико', 'пока', 'ещё', 'слишком', 'маленький', 'для', 'такой', 'тяжёлый', 'и', 'ответственный', 'дело', 'так', 'что', 'пока', 'он', 'сам', 'ждать', 'сант', 'с', 'подарок', 'накануне', 'рождество', 'он', 'встречаться', 'с', 'свой', 'самый', 'близкие', 'друг', 'белка', 'джулиус', 'ласка', 'вилма', 'и', 'сводный', 'братишка', 'джонни', 'чтобы', 'вместе', 'встречать', 'рождество', 'и', 'не', 'пропустить', 'заветный', 'олений', 'упряжка', 'но', 'как', 'всегда', 'в', 'путь', 'сант', 'ждать', 'невероятный', 'приключение',

Итак, мы преобразовали слова в каждом доступном документе к нормальной форме. Чтобы было удобнее считать статистики, преобразуем текстовый корпус в pandas.DataFrame с колонками `doc_id | word | dummy` где столбец `dummy` - вспомогательный, он будет содержать всегда единицу

In [19]:
doc_count = len(normalized_corpus)
doc_ids = []
tokens = []

for doc_id in range(doc_count):
    for token in normalized_corpus[doc_id]:
        doc_ids.append(doc_id)
        tokens.append(token)

tokens_df = pd.DataFrame({
    'doc_id': doc_ids,
    'word': tokens
})

tokens_df = tokens_df.assign(dummy = 1)

tokens_df.head()

Unnamed: 0,doc_id,word,dummy
0,0,хороший,1
1,0,подарок,1
2,0,который,1
3,0,только,1
4,0,можно,1


Пользуясь этой таблицей, можно считать по тексту разнообразные статистики. Например, вычислим top-5 самых употребляемых слов в документа `doc_id==0`

In [20]:
word_count_df = tokens_df.groupby(['doc_id','word'])['dummy'].count().reset_index()

word_count_df[word_count_df.doc_id==0].sort_values(by='dummy', ascending=False).head(10)

Unnamed: 0,doc_id,word,dummy
6,0,в,10
28,0,и,7
36,0,который,5
110,0,шерлок,4
83,0,сериал,4
76,0,с,4
8,0,весь,3
74,0,риколетти,3
104,0,холмс,2
22,0,же,2


По часто встречаемым словам видно, что это Сериал про Шерлока Холмса