### Форматы файлов, сериализация

Мы с вами поговорили о разных форматах файлов, которые используются при работе со скриптами. Файлы, которые умеет обрабатывать питон, находятся на своего рода шкале по человекочитаемости:
1. .txt файлы - легко читаются человеком, трудно читаются скриптами (потому что не структурированы)
2. .json, .csv файлы - могут читаться как человеком, так и машиной
3. бинарные файлы - не предназначены для чтения человеком

Работать с обычными текстовыми файлами мы с вами уже умеем и научимся это делать еще виртуознее, когда освоим регулярки. 

#### JSON

json - Java Script Object Notation; первоначально создавался для другого ЯП, но может быть использован и для типов питона. Это такой формат, в котором объекты питона записываются в машиночитаемом виде, но при этом могут читаться и человеком. Запись данных в машиночитаемом виде называется сериализацией: когда мы считываем такие файлы снова программой, не нужно их специально парсить (явно для человека). 

С json-файлами работает модуль json, который является стандартным модулем из библиотек питона. 

In [None]:
import json

нам для работы достаточно знать четыре функции:

- json.load(file)
- json.dump(object, file, ensure_ascii=False, indent=4)
- json.loads(string)
- json.dumps(object)

load загружает файл, dump сохраняет объект в файл, loads десереализует строку в объект питона, а dumps, наоборот, сериализует. 

In [None]:
with open('new.json') as file:  # я не указываю кодировку, потому что пользуюсь unix системой, но в Windows не забывайте об этом
    data = json.load(file)

In [None]:
"""Такой способ чтения иногда бывает нужен, если в json не один объект, а много строк с объектами"""
data = []

with open('google.json') as file:
    for line in file:
        data.append(json.loads(line))

In [None]:
with open('new2.json', 'w', encoding='utf8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

Когда сохраняем файл в формате json, последние два параметра необязательны, но лучше всегда указывать ensure_ascii=False (чтобы записывать в utf8); indent - это отступы внутри файла, если не указать этот параметр, весь объект запишется в одну строчку. 4 - это количество пробелов в отступе. 

#### CSV, TSV

csv (comma separated values) или tsv (tab separated values) - формат табличных данных. В таких файлах можно хранить таблицы. В первой строке этого файла обычно хранятся названия колонок (или нет), разделенные делимитером (запятой, знаком табуляции или др), а в следующих строках хранятся значения строчек таблицы, тоже через делимитер. 

У питона есть модуль, который умеет читать и писать данные в csv, но на практике гораздо чаще используются pandas (будем изучать). 

Какие понятия связаны с csv?

1. delimiter - то, что разделяет ячейки в файле. Как правило, запятая или \t
2. QUOTECHAR - значок, которым обозначаются границы значений, если вдруг внутри значения попадается делимитер (например, запятая или табуляция в текстовой ячейке)
3. Способ цитирования - каким образом мы обозначаем границы значений: всегда, в некоторых случаях, никогда. 

Параметры quoting:

- csv.QUOTE_ALL

    Будет брать в кавычки (или другой значок, если мы его укажем) все значения подряд.
    
- csv.QUOTE_MINIMAL

    Будет брать в кавычки только такие значения, внутри которых попадается делимитер.
    
- csv.QUOTE_NONNUMERIC

    Будет брать в кавычки только нечисловые типы данных и все числовые конвертировать в float.
    
- csv.QUOTE_NONE

    Ничего не будет брать в кавычки; если внутри значений попадется делимитер, он его заэскейпит ( \ )

In [1]:
import csv

In [4]:
"""Хотим считать файл в csv"""
with open('affairs.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    c = 0
    for row in reader:
        c += 1
        print(', '.join(row))
        if c >= 5:
            break

rate_marriage, age, yrs_married, children, religious, educ, occupation, occupation_husb, affairs
3.0, 32.0, 9.0, 3.0, 3.0, 17.0, 2.0, 5.0, 0.1111111
3.0, 27.0, 13.0, 3.0, 1.0, 14.0, 3.0, 4.0, 3.2307692
4.0, 22.0, 2.5, 0.0, 1.0, 16.0, 3.0, 5.0, 1.3999996000000001
4.0, 37.0, 16.5, 4.0, 3.0, 16.0, 5.0, 5.0, 0.7272727


In [5]:
data = []
with open('affairs.csv') as csvfile:
    reader = csv.reader(csvfile) # на самом деле обязателен здесь только файл
    for row in reader:
        data.append(row)
print(data[:1])

[['rate_marriage', 'age', 'yrs_married', 'children', 'religious', 'educ', 'occupation', 'occupation_husb', 'affairs']]


In [7]:
with open('affairsnew.tsv', 'w', encoding='utf8') as csvfile:
    writer = csv.writer(csvfile, delimiter='\t', quoting=csv.QUOTE_ALL)
    for row in data:
        writer.writerow(row)

Можете посмотреть, что получилось. 

#### Бинарные файлы, pickle, dill

Быстрее и лучше всего машина читает бинарные файлы, записывать которые умеет стандартный модуль pickle. Такие файлы не читаются человеком (практически). Также можно использовать библиотеку dill (ее надо установить pip install dill), у обоих модулей примерно одинаковый синтаксис. 

In [None]:
import pickle

pickle.dump(data, open('data', 'wb'))  # wb - режим записи бинарника. Не забывайте про b
data = pickle.load(open('data', 'rb'))  # rb - режим чтения бинарника. Есть также ab

In [None]:
import dill

dill.dump(data, open('data', 'wb'))
data = dill.load(open('data', 'rb'))