# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

### Работа с txt-файлами. Предобработка текста.

Сначала мы посмотрим, как считывать текст из txt-файлов. Это необходимое умение, поскольку не всегда набор текстов сохранен в виде готовой таблицы и выгружен в csv-файл. Часто приходится иметь дело с множеством txt-файлов, которые просто лежат в одной папке. 

Откроем txt-файл, в котором сохранено описание фильма «Господин оформитель» из Википедии.

In [1]:
f = open('mytext.txt', 'r', encoding = 'UTF-8')

Для открытия файла используется функция `open()`. Так как мы открываем файл только для чтения, мы выставляем флаг (аргумент) `r` (от *read*). Если нужно открыть файл сразу для всего (чтение, изменение, сохранение), то можно выставить флаг `a` (от *all*). При открытии файла лучше сразу указывать его кодировку, особенно если файл не на латинице, здесь это `UTF-8`.

Чтобы считать строки в файле, понадобится метод `.readlines()`:

In [2]:
lines = f.readlines()

In [3]:
lines

['Действие происходит в Петербурге в 1908—1914 годах. Знаменитый художник-оформитель, Платон Андреевич, хочет продлить жизнь человека в скульптуре и на рисунках, пытаясь побороть смерть и усовершенствовать окружающий мир с помощью своего таланта. Многие годы ему не давала покоя мысль о состязании с Всевышним. Ему, автору великолепных восковых манекенов, хотелось создать нечто совершенное и вечное, не поддающееся течению времени.\n',
 '\n',
 'В 1908 году художник получает заказ от ювелира на оформление витрины магазина. В поисках натурщицы для изготовления манекена для витрины, художник находит Анну, молодую девушку, смертельно больную чахоткой, и ваяет с неё свой лучший манекен, вкладывая в работу всю душу.\n',
 '\n',
 'Проходит время, на дворе 1914 год. Известный ранее художник впал в забвение, дела идут совсем не так хорошо, как в прежние времена. Под влиянием творческого кризиса художник начинает злоупотреблять морфием, ему грозит полное разорение.\n',
 '\n',
 'Однажды, находясь в к

Теперь все в порядке. Приведем в порядок наши строки. Видно, что в списке строк встречаются «пустые» строки, состоящие из одного символа для перехода на новую строку (`\n`). Кроме того, этот символ встречается на конце строк. Исправим это, используя lambda-функцию и `filter()`!  

In [5]:
# убираем пустые строки
clean = list(filter(lambda x: x != '\n', lines))
clean

['Действие происходит в Петербурге в 1908—1914 годах. Знаменитый художник-оформитель, Платон Андреевич, хочет продлить жизнь человека в скульптуре и на рисунках, пытаясь побороть смерть и усовершенствовать окружающий мир с помощью своего таланта. Многие годы ему не давала покоя мысль о состязании с Всевышним. Ему, автору великолепных восковых манекенов, хотелось создать нечто совершенное и вечное, не поддающееся течению времени.\n',
 'В 1908 году художник получает заказ от ювелира на оформление витрины магазина. В поисках натурщицы для изготовления манекена для витрины, художник находит Анну, молодую девушку, смертельно больную чахоткой, и ваяет с неё свой лучший манекен, вкладывая в работу всю душу.\n',
 'Проходит время, на дворе 1914 год. Известный ранее художник впал в забвение, дела идут совсем не так хорошо, как в прежние времена. Под влиянием творческого кризиса художник начинает злоупотреблять морфием, ему грозит полное разорение.\n',
 'Однажды, находясь в крайней нужде, Платон 

In [6]:
# убираем \n на конце строк (и лишние пробелы по краям вообще)
clean = [s.strip() for s in clean]
clean

['Действие происходит в Петербурге в 1908—1914 годах. Знаменитый художник-оформитель, Платон Андреевич, хочет продлить жизнь человека в скульптуре и на рисунках, пытаясь побороть смерть и усовершенствовать окружающий мир с помощью своего таланта. Многие годы ему не давала покоя мысль о состязании с Всевышним. Ему, автору великолепных восковых манекенов, хотелось создать нечто совершенное и вечное, не поддающееся течению времени.',
 'В 1908 году художник получает заказ от ювелира на оформление витрины магазина. В поисках натурщицы для изготовления манекена для витрины, художник находит Анну, молодую девушку, смертельно больную чахоткой, и ваяет с неё свой лучший манекен, вкладывая в работу всю душу.',
 'Проходит время, на дворе 1914 год. Известный ранее художник впал в забвение, дела идут совсем не так хорошо, как в прежние времена. Под влиянием творческого кризиса художник начинает злоупотреблять морфием, ему грозит полное разорение.',
 'Однажды, находясь в крайней нужде, Платон Андрее

Так как при анализе текстов часто используется модель "мешка слов" (*bag of words*), грамматическая структура предложений, порядок слов и знаки препинания не играют никакой роли. Давайте для начала избавимся от знаков пунктуации. Импортируем модуль `string`, который позволит получить готовую строку со знаками препинания:

In [7]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

Получили строку, в которой учтены почти все знаки препинания. Почему почти? Так как многие модули ориентированы на англоязычный текст (и вообще текст на латинице), русская пунктуация в рассмотрение не входит. Так, здесь не хватает кавычек-ёлочек, принятых в русскоязычных текстах. Кроме того, здесь не хватает тире. Добавим их. Так как результат `string.punctuation` – это обычная строка, к ней можно добавить свои символы с помощью конкатенации:

In [8]:
to_remove = string.punctuation + '«»—'
to_remove

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~«»—'

Убирать из текстов символы, которые есть в строке `to_remove`, можно по-разному. Мы воспользуемся такой хитростью: создадим `translator`, который будет заменять знаки препинания из `to_remove` на пустые строки `''`, а затем будем использовать его в качестве функции, которая будет применяться в методе `translate` для строк.

In [9]:
# создаем translator
translator = str.maketrans('', '', to_remove)

In [10]:
# применяем (на примере одной строки)
s = 'После всех попыток добиться истины, оформитель слышит от неё только: «Забудьте об Анне. Её больше нет».'
s.translate(translator)

'После всех попыток добиться истины оформитель слышит от неё только Забудьте об Анне Её больше нет'

**Задание.** Написать функцию `normalize(x)`, которая удаляет в строке `x` все знаки препинания, приводит весь текст к нижнему регистру и возвращает новую строку. 

*Решение:*

In [11]:
def normalize(x):
    to_remove = string.punctuation + '«»—'
    translator = str.maketrans('', '', to_remove)
    res = x.translate(translator)
    res = res.lower()
    return res

Применим функцию к элементам списка `сlean` и назовем новый список `normalized`.

In [12]:
normalized = [normalize(c) for c in clean]
normalized

['действие происходит в петербурге в 19081914 годах знаменитый художникоформитель платон андреевич хочет продлить жизнь человека в скульптуре и на рисунках пытаясь побороть смерть и усовершенствовать окружающий мир с помощью своего таланта многие годы ему не давала покоя мысль о состязании с всевышним ему автору великолепных восковых манекенов хотелось создать нечто совершенное и вечное не поддающееся течению времени',
 'в 1908 году художник получает заказ от ювелира на оформление витрины магазина в поисках натурщицы для изготовления манекена для витрины художник находит анну молодую девушку смертельно больную чахоткой и ваяет с неё свой лучший манекен вкладывая в работу всю душу',
 'проходит время на дворе 1914 год известный ранее художник впал в забвение дела идут совсем не так хорошо как в прежние времена под влиянием творческого кризиса художник начинает злоупотреблять морфием ему грозит полное разорение',
 'однажды находясь в крайней нужде платон андреевич принял предложение некое

In [13]:
text = " ".join(normalized)
text

'действие происходит в петербурге в 19081914 годах знаменитый художникоформитель платон андреевич хочет продлить жизнь человека в скульптуре и на рисунках пытаясь побороть смерть и усовершенствовать окружающий мир с помощью своего таланта многие годы ему не давала покоя мысль о состязании с всевышним ему автору великолепных восковых манекенов хотелось создать нечто совершенное и вечное не поддающееся течению времени в 1908 году художник получает заказ от ювелира на оформление витрины магазина в поисках натурщицы для изготовления манекена для витрины художник находит анну молодую девушку смертельно больную чахоткой и ваяет с неё свой лучший манекен вкладывая в работу всю душу проходит время на дворе 1914 год известный ранее художник впал в забвение дела идут совсем не так хорошо как в прежние времена под влиянием творческого кризиса художник начинает злоупотреблять морфием ему грозит полное разорение однажды находясь в крайней нужде платон андреевич принял предложение некоего богатого д