# Модуль 10. Работа с текстом

Для аналитика обычно открыт доступ к огромным объёмам текстовой информации.

Этот подуль посвящён тому, как извлечь из больших объёмов текста полезную информацию и применить к ней аналитические инструменты.

Например, в онлайн-кинотеатре ivi текстовая информация это сюжеты фильмов, рецензии пользователей - или, например, подборки интерересных фактов о съёмочном процессе.

В работе со строками есть несколько стандартных приёмов, которые будут продемонстрированы на примере датасета с описаниями фильмов

In [1]:
import pandas as pd

text_df = pd.read_csv("./data/content_description.csv", sep='\t')
text_df.head()

Unnamed: 0,content,description
0,https://www.ivi.ru/watch/157318/description,"Лучший подарок, который только можно было прид..."
1,https://www.ivi.ru/watch/98336/description,Через какие трудности приходится проходить Сан...
2,https://www.ivi.ru/watch/183533/description,Миловидный Давид - позор для своего отца. Не в...
3,https://www.ivi.ru/watch/157319/description,Экранизация сатирического бестселлера Стивена ...
4,https://www.ivi.ru/watch/51342/description,«Леди удача» – авантюрная романтическая комеди...


## 10.1 Стандартные приёмы работы с текстом

Очень часто при обработке данных строкового типа (напиример, текстов) часто требуются дополнительные преобразования, которые помогут повысить качество итогового решения.

Основные приёмы:

* приведение к нижнему регистру
* удаление знаков препинания

Эти приёмы следует применять с осторожностью - например, если вы планируете решать задачу извлечения из текста всех пар *имя+фамилия* то к нижнему регистру приводить не нужено - это приведёт к потере важной информации и затруднит решение исходной задачи

In [2]:
import string
import re

sample_str = text_df.description.values[1]

print(sample_str + '\n\n')

print("Приводим к нижнему регистру:")
print(sample_str.lower() + '\n\n')

print("Удаляем знаки препинания:")
print("".join([i for i in sample_str.lower() if i not in string.punctuation]) + '\n\n')

Через какие трудности приходится проходить Санта Клаусу каждый год, чтобы под каждой елкой появился тот самый подарок, расскажет мульт «Нико 2».   Маленький олененок Нико мечтает продолжить дело отца. Ведь его папа самый знаменитый и уважаемый олень на свете. О его работе мечтает каждый – он трудится в упряжке самого Санта Клауса. Но сам Нико пока еще слишком маленький для такого тяжелого и ответственного дела. Так что пока он сам ждет Санту с подарками. Накануне Рождества он встречается со своими самыми близкими друзьями: белкой Джулиусом, лаской Вилмой и сводным братишкой Джонни, чтобы вместе встречать Рождество и не пропустить заветную оленью упряжку. Но, как всегда в пути Санту ждут невероятные приключения. На этот раз все настолько серьезно, что детишки всего мира могут и вовсе остаться без подарков. Хорошо, что Нико и его товарищи всегда готовы прийти на помощь. Им не страшны любые испытания и приключения: ведь среди них – достойный сын одного из оленей упряжки самого Санта Клаус