## Работа с файлами

Питон работает с файлами на самом деле не напрямую, а через систему (поэтому там есть свои тонкости). Система управляет открытыми файлами и всяким таким, а у питона есть только дескриптор файла (специальный класс), который ему позволяет читать данные из файла. Мы успели разобрать, как открывать, закрывать, читать и писать файлы. 

Прежде чем начать что-то делать с файлом, нужно его открыть. 

    file = open(path, mode, encoding)
    
Команда open создает объект класса IOWrapper, у которого есть свои методы чтения, записи и закрытия. Path - это путь к файлу, единственный обязательный аргумент. Обратите внимание:

- В Windows в путях файлов используется бекслеш \\. Поскольку все аргументы в open передаются в виде строк, питон будет пытаться искать эскейп-последовательности (такие, как \\n). Чтобы этого избежать, можно либо вручную экранировать слеши: \\\\, либо просто писать буковку r перед строкой: так называемые raw-строки питон читает as is.
- В юниксовых системах (MacOS, Linux) такой проблемы нет, потому что там используются прямые слеши /.

Пути к файлам бывают абсолютные и относительные. Абсолютный путь включает в себя все от корня (буквы диска в windows, папки home в Linux). Относительный - только какую-то часть пути; например, если наш скрипт (или тетрадка юпитера) лежит в папке Code, а в этой папке есть подпапка files, то путь files/myfile.txt будет относительным (и будет искаться в одной папке со скриптом, конечно, поэтому бдите и не используйте относительные пути для файлов, которые лежат незнамо где). 

Питон, в отличие от этих ваших текстовых редакторов, не умеет самопроизвольно переставлять курсор в файле куда захочется; он воспринимает файл как список строк и читает его построчно (посимвольно даже). Считал строку один - к ней нет возврата. Считал весь файл - файл только закрывать. Следовательно, у питона есть несколько режимов, в каких можно открывать файл. Нам пригодятся три самых распространенных:

- r - режим чтения
- w - режим записи
- a - режим записи с дополнением

По умолчанию, если не указать режим, будет 'r'. Если мы с таким режимом передаем путь к  несуществующему файлу, питон вывалит ошибку. 

Вот с режимом 'w' похитрее. Во-первых, именно так мы можем создавать несуществующие файлы: указываем любой путь (должны только папки существовать, файла может не быть по этому пути), и там появится файл. с таким расширением, какое мы ему припишем, кстати, но внутри он будет текстовый. Во-вторых, если мы открываем в таком режиме уже существующий файл, все его содержимое перезапишется. Бдите. 

А режим 'a' как раз позволяет добавлять новые записи в существующий файл; если файла нет, он его создаст, а если файл есть, то он в него дозапишет в конец. 

Наконец, аргумент encoding тоже передается строкой и может содержать название кодировки. Пользователям windows предлагается по умолчанию всегда прописывать encoding='utf8', потому что юникод - самая удобная кодировка, особенно для лингвистов. Питон 3, как я говорила в самом начале, отлично работает с юникодом, это его родная кодировка. 

Итак, открываем несуществующий файл:

In [11]:
file = open('test.txt', 'w', encoding='utf8')

Супер. Теперь о том, как читать и записывать в файл. 

Как читать:

1. file.read() - считает **все** содержимое файла, вернет его одной длиннющей строкой, в которой будет много \\n. 
2. file.readlines() - считает **все** содержимое файла, вернет его списком строк. В конце каждой строки, кроме последней, будет прилеплен \\n. 
3. file.readline() - считает **одну строчку** из файла, вернет ее, собственно, строчкой. То же про конец строки и \\n.
4. for line in file: ... - будет считывать по **одной строчке** из файла, пока не дойдет до конца. 

Лучше всего использовать способ 4 для объемных файлов. В противном случае вы, например, загружаете гигабайтовый текстовый файл в оперативную память махом, и ноутбук превращается в тыкву...

Как писать:

1. file.write('...') - записывает одну строчку в файл. НЕ ставит \\n в ее конце. Возвращает количество записанных символов. 
2. file.writelines(['...', '...', '...']) - записывает список строк в файл. Тоже не ставит \\n.
3. print(whatever, file=filename) - самый понтовый способ, потому что автоматически ставит \\n и вообще использует все возможности принта. И f-строк. 

Запишем что-нибудь в наш открытый файл:

In [12]:
file.write('Hello world! ')
print('\nА это принт напринтил', file=file)
file.writelines([word + '\n' for word in input().split()])  # я вручную прилепила \n каждому слову

 это список слов где каждое слово это отдельная строка


Чтобы записанная информация сохранилась в файл, необходимо его закрыть. Вообще файлы нужно за собой закрывать! Даже если вы только из них читаете, не забудьте выполнить команду:

    file.close()
    
Иначе ваш файл останется болтаться открытым в оперативе. Это как фантик за собой в мусорку не выкинуть. 

In [13]:
file.close()

Теперь можно считать все эти строчки обратно из файла:

In [14]:
file = open('test.txt', 'r', encoding='utf8')
for line in file:
    print(line.rstrip())  # rstrip нужен, чтобы откусить \n

Hello world!
А это принт напринтил
это
список
слов
где
каждое
слово
это
отдельная
строка


In [15]:
file.close()  # выкинем за собой фантик

## Работа с файловой системой с помощью модуля os

Открывать, читать/писать и закрывать файлы питон умеет сам; но для того, чтобы создавать папки, удалять папки и файлы и работать с путями, нужен какой-нибудь модуль. Самый простой модуль, который мы с вами обсудили - это модуль os. Также пользуется популярностью модуль pathlib (любопытные могут посмотреть его). 

Какие команды этого модуля мы обсудили?

- os.listdir(path) - принимает на вход путь к папке (path), возвращает перечень всего, что в ней есть, в виде списка строк. 
- os.remove(path) - удаляет файл навсегда
- os.rmdir(path) - удаляет папку
- os.mkdir(path) - создает папку (но если не существует какой-то папки в пути до названия новой папки, то не получится)
- os.makedirs(path) - создает папку и все промежуточные несуществующие (н-р, если я захочу в текущем каталоге завести папку test, а в ней папку texts, то эта функция сделает ровно то, что надо)

os.path

- os.path.exists(path) - проверяет, существует ли такой путь. Вернет True/False
- os.path.isdir(path) - проверяет, является ли путь папкой
- os.path.isfile(path) - проверяет, является ли путь файлом
- os.path.isabs(path) - проверяет, является ли путь абсолютным (т.е., начинается с буквы диска в Windows или со слова home в юниксовых системах)
- os.path.abspath(path) - возвращает абсолютный путь по относительному
- os.path.splitext(path) - делит путь на все, что идет до расширения, и расширение. Возвращает кортеж из двух элементов, в котором второй элемент может быть, н-р, '.txt'
- os.path.split(path) - делит путь на название файла (вместе с расширением) и все остальное. 
- os.path.join(path1, path2...) - объединяет несколько строк в один путь. Не умеет работать с буквой диска (т.е., не получится правильно объединить 'C:' и 'Python'). Учитывает особенности системы.

### Форматы файлов, сериализация

Мы с вами поговорили о разных форматах файлов, которые используются при работе со скриптами. Файлы, которые умеет обрабатывать питон, находятся на своего рода шкале по человекочитаемости:
1. .txt файлы - легко читаются человеком, трудно читаются скриптами (потому что не структурированы)
2. .json, .csv файлы - могут читаться как человеком, так и машиной
3. бинарные файлы - не предназначены для чтения человеком

Работать с обычными текстовыми файлами мы с вами уже умеем и научимся это делать еще виртуознее, когда освоим регулярки. 

#### JSON

json - Java Script Object Notation; первоначально создавался для другого ЯП, но может быть использован и для типов питона. Это такой формат, в котором объекты питона записываются в машиночитаемом виде, но при этом могут читаться и человеком. Запись данных в машиночитаемом виде называется сериализацией: когда мы считываем такие файлы снова программой, не нужно их специально парсить (явно для человека). 

С json-файлами работает модуль json, который является стандартным модулем из библиотек питона. 

In [None]:
import json

нам для работы достаточно знать четыре функции:

- json.load(file)
- json.dump(object, file, ensure_ascii=False, indent=4)
- json.loads(string)
- json.dumps(object)

load загружает файл, dump сохраняет объект в файл, loads десереализует строку в объект питона, а dumps, наоборот, сериализует. 

In [None]:
with open('new.json') as file:  # я не указываю кодировку, потому что пользуюсь unix системой, но в Windows не забывайте об этом
    data = json.load(file)

In [None]:
"""Такой способ чтения иногда бывает нужен, если в json не один объект, а много строк с объектами"""
data = []

with open('google.json') as file:
    for line in file:
        data.append(json.loads(line))

In [None]:
with open('new2.json', 'w', encoding='utf8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

Когда сохраняем файл в формате json, последние два параметра необязательны, но лучше всегда указывать ensure_ascii=False (чтобы записывать в utf8); indent - это отступы внутри файла, если не указать этот параметр, весь объект запишется в одну строчку. 4 - это количество пробелов в отступе. 

#### Бинарные файлы, pickle, dill

Быстрее и лучше всего машина читает бинарные файлы, записывать которые умеет стандартный модуль pickle. Такие файлы не читаются человеком (практически). Также можно использовать библиотеку dill (ее надо установить pip install dill), у обоих модулей примерно одинаковый синтаксис. 

In [None]:
import pickle

pickle.dump(data, open('data', 'wb'))  # wb - режим записи бинарника. Не забывайте про b
data = pickle.load(open('data', 'rb'))  # rb - режим чтения бинарника. Есть также ab

In [None]:
import dill

dill.dump(data, open('data', 'wb'))
data = dill.load(open('data', 'rb'))