# Python для анализа данных

## Работа с файлами в Python: чтение и запись текстовых файлов. Исключения. Try/except

Автор: *Татьяна Рогович, НИУ ВШЭ*

## Файловый ввод-вывод

Как правило, если указать в Python не полный путь к файлу, а только его название, то он будет искать файл в рабочей директории. Как узнать, где это?


In [1]:
import os
os.getcwd()

'C:\\Users\\meale\\HSE\\HSE 2021-2022\\DPO'

Функция getcwd() из модуля os возвращает нам путь к вашей рабочей папке. Так, например, в Windows по умолчанию Anaconda делает рабочей папкой для Jupyter папку пользователя в Users. Это можно изменить или глобально, прописав путь к вашей папке в свойствах, или локально в рамках сессии.

Функция chdir() принимает в качестве аргумента путь к папке и меняет рабочую директорию. Теперь к файлам, хранящимся в ней вы сможете обращаться без полного пути. Также все новые файлы будут сохраняться туда же.

In [6]:
os.chdir('C:\\Users\\meale\\HSE\\HSE 2021-2022\\DPO')
os.getcwd()

'C:\\Users\\meale\\HSE\\HSE 2021-2022\\DPO'

.listdir() вернет нам список содержимого директории. Очень полезная функция - можно запустить цикл, если нужно обработать все файлы в папке.

In [7]:
os.listdir()

['.ipynb_checkpoints',
 '05_calculus.ipynb',
 '2.Derivative.ipynb',
 '2020_DPO_10_3_selenium-books.ipynb',
 '2020_DPO_10_4_BS_Download-Copy1.ipynb',
 '2020_DPO_10_4_BS_Download.ipynb',
 '2020_DPO_6_Files.ipynb',
 '2020_DPO_9_1_lect-selenium-1.ipynb',
 '2020_DPO_9_4_Openpyxl.ipynb',
 '3.1.Goodness_of_Fit.ipynb',
 '3.4.Two-sample_Tests.ChiSquare.ipynb',
 '8_3_API_XML_JSON-Copy1.ipynb',
 '8_3_API_XML_JSON.ipynb',
 'books.csv',
 'Borodina.pdf',
 'chart.xlsx',
 'for (1).ipynb',
 'hello_world.xlsx',
 'hello_world_append.xlsx',
 'Html_Intro.ipynb',
 'kulikova_thesis.pdf',
 'lect-selenium-1.ipynb',
 'line_chart.xlsx',
 'Mitrofanova.pdf',
 'Pandas_Intro_Titanic.ipynb',
 'Part2_regex.ipynb',
 'python_12_web_scraping.ipynb',
 'Resume.pdf',
 'sample_conditional_formatting.xlsx',
 'sample_conditional_formatting_color_scale.xlsx',
 'sample_conditional_formatting_color_scale_3.xlsx',
 'sample_conditional_formatting_data_bar.xlsx',
 'sample_conditional_formatting_icon_set.xlsx',
 'sample_formulae.xlsx

Давайте попробуем создать файл, записать в него что-нибудь и сохранить.

Функция open() возвращает файловый объект и мы используем ее обычно с двумя аргументами - имя файла и режим (например, запись или чтение). Выше мы открыли файл test.txt в режиме записи 'w' (если такого файла не существовало, он будет создан).

Такой объект называется file handle или дескриптор файла.

![](https://www.py4e.com/images/handle.svg)  
Source: https://www.py4e.com/html3/07-files

Какие могут быть режимы открытия файла (mode):

* 'r' - read, только чтение
* 'w' - write, только запись (если файл с таким именем существовал, он будет удален).
* 'a' - append, новые данные будут записаны в конец файла
* 'r+' - чтение+запись.

Если не передать второй аргумент, то файл автоматически откроется в режиме чтения.

Encoding - именнованный параметр, если работаете с кириллицей или языками со спецсимволами, то лучше задать utf8.

Метод write записал данные в наш файл. После этого файл нужно закрыть, чтобы он выгрузился из оперативной памяти. Если этого не сделать, то в какой-то момент питоновский сборщик мусора все равно до него доберется и закроет файл, но большие файлы могут съедать достаточно много ресурсов, поэтому лучше за этим следить.

Теперь дававайте попробуем открыть в режиме чтения.

После того, как мы закрыли файл, обратиться к нему больше нельзя.

Хорошим тоном при работе с файлами считается открывать их с помощью ключевого слова with. Преимущество этого способа в том, что файл закроется автоматически, когда закончатся вложенные операции.

А теперь попробуем записать в файл новые строки.

Еще один вариант записать данные в файл вот так:

Мы выше уже видели два метода файла .write() и .read(). Еще один метод, который очень часто используется - это readline. Он позволяет не загружать файл целиком в память, а считывать его построчно. Знаком остановки здесь будет выступать \n

.readline() - генератор. При обращении он выдает нам новую строку. 

Также, чтобы прочитать все строки поочередно, можно запустить цикл. Тут не стоит забывать, что переменная f, хоть и прикидывается списком строк, когда мы её итерируем, на самом деле таковым не является. В действительности при открытии файла мы запоминаем позицию, на которой мы этот файл читаем. Изначально она указывает на самое начало файла, но с каждой итерацией сдвигается. Когда мы прочитаем файл целиком, дальнейшие попытки из него что-то прочитать ни к чему не приведут: указатель текущей позиции сдвинулся до самого конца и файл закончился.

Файл можно перемотать на начало, если воспользоваться методом .seek(), который возвращается к символу на этой позиции.

Если методу read() передать целое число, то питон прочитает только заданное количество символов или битов, если информация в файле записана в бинарном формате.

Чтобы считать все строки файла в список, можно вызвать список от файлового объекта или использовать метод .readlines().

## Пример: чтение файла построчно

Давайте откроем файл mbox.txt

В файле есть строки формата
"Date: Sat, 5 Jan 2008 09:12:18 -0500" - время, когда ушло письмо. Давайте создадим словарик, в который будем сохранять, в каком часу люди пишут письма (час от 0 до 23 - ключ, количество писем, написанных в это время, - значение).

## Try except

Увидели, что у каждого письма на самом деле две строки, начинающихся с 'Date: '. Нужно придумать еще одну эвристику. Например, давайте забирать только те, которые заканчиваются скобкой.

Ок, будем работать с этим форматом. Тут можно обойтись без регулярок и доставать данные через двойной split() - сначала по пробелу, а потом по ':'.

И, наконец, собираем в словарь.

Мы будем проходить графики отдельным блоком, но давайте быстренько построим распределение отправки писем по времени суток.

Для начала создадим список отсортированных по ключам значений. Функция построения графика будет брать два аргумента - данные для шкал x и y. На x положим отсортированные ключи, а на y, соответствующие им значения.

In [1]:
import matplotlib.pyplot as plt # импортировали библиотеку для построения графиков
%matplotlib inline 
# запустили "магическую" функцию, которая будет отображать графики прямо в блокноте


## Немного про исключения

Почти наверняка вы уже делали что-то, что приводило к сообщению об ошибке. Сегодня мы научимся их обрабатывать и писать собственные исключения - наши инструкции для Python, чтобы код не ломался, как только что-то пойдет не так.

Например, мы хотим открывать файл по запросу от пользователя, но хотим обработать случай, когда пользователь введет неправильное название.

Напишем блок try/except. Try будет исполняться до тех пор, пока что-то не сломается. Как только возникнет ошибка, ваша программа перейдет в часть except и выполнит действие, описанное в ней. Сообщения об ошибке выведено не будет.

Except позволил нам избежать ошибки и остановки работы программы

Естественно, try-except можно использовать не только с файлами.

Но что делать, если мы хотим пропускать только определенный вид ошибок, но видеть сообщения об остальных? Try/except хороший инструмент для отладки кода. Давайте посмотрим, как называется ошибка при попытке вызова неопределенной переменной.

`NameError: name 'y' is not defined` - название нашей ошибки NameError, давайте обрабатывать его отдельно.

А теперь давайте попробуем разделить что-нибудь на 0.

Если после вывода в except использовать ключевое слово raise, то программа закончит работу ошибкой. Отличие от того, чтобы просто не использовать except для других случаев в том, что до окончания работы программы будет выпонелнено все, что написано внутри except. Сравним.

Except может одновременно обрабатывать несколько исключений.

Except может использоваться с else - будет исполнено, если не было ошибки.

Еще один важный момент - использование ключевого слова pass. Достаточно часто пригождается при вэб-скрейпинге. Так вы можете заложить воможность того, что данные не придут в нужном формате и, например, не записывать их в ячейку таблицы, а просто пропустить.

Иногда вам может понадобиться создавать свои исключения - персонализированные сообщения об ошибке, которые валидны только для вашей программы.

Или же вы можете использовать уже существующие исключения и персонализировать сообщение об ошибке.

Давайте попробуем решить такую задачу: вы ждете от пользователя на ввод число. Будем запрашивать число до тех пор, пока не добьемся правильного ввода.