JSON &mdash; это формат хранения (*сериализации*) структурированных данных. По сути, объект JSON &mdash; это большой список или словарь, элементами которого могут быть:

* списки
* словари
* строки
* числа
* логические значения
* `None` (будет записано в файл как `null`)

В Python есть модуль `json` для работы с такими файлами. В нём есть функции `load()` для чтения из текстового файла и `dump()` для записи.

In [None]:
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/example.json

In [None]:
import json
with open("example.json") as f:
    data = json.load(f)

print(data)

In [None]:
data["spouse"] = "Renée"
with open("example2.json", "w") as f:
    json.dump(data, f)

Самый простой способ хранения табличных данных &mdash; файлы .csv. По сути, это всё те же текстовые файлы (plain text). В каждой строке такого файла хранится одна строка таблицы, её ячейки разделены специальным символом-разделителем (delimiter). По умолчанию этот символ &mdash; запятая (именно поэтому формат называется .csv &mdash; comma-separated values). Если в роли разделителя выступает другой символ, могут использоваться другие расширения, например, .tsv (tab-separated values). Файлы .csv поддерживаются всеми табличными редакторами, поэтому их можно открывать в Excel, Google Spreadsheets или любом другом редакторе, которым вы привыкли пользоваться.

Важно помнить, что, поскольку файлы .csv представляют собой текстовые файлы, они также могут быть подвержены проблемам с кодировками.

Первая строчка таблицы может содержать названия столбцов. В таком случае она называется заголовком (или шапкой) таблицы (header row).

Для работы с файлами .csv в Python существует разные сторонние библиотеки, но самое простое средство &mdash; встроенная библиотека `csv`. Она поддерживает чтение и запись в разных режимах и с разными разделителями.

In [None]:
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/work_types.csv
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/student_marks.csv


Функция `reader()` возвращает специальный объект для чтения csv-файла. Он является итерируемым объектом и на каждом шаге цикла выдаёт список строк, соответствующих ячейкам таблицы в одной строчке. Обратите внимание на аргумент `newline=""` при открытии файла: он нужен для того, чтобы модуль `csv` корректно обрабатывал переводы строки независимо от платформы.

In [None]:
import csv

with open("work_types.csv", newline="", encoding="utf-8") as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

Его можно переделать в список, тогда весь файл прочитается в память и доступ к данным можно будет получить вне контекстного менеджера (то есть вне `with`).

In [None]:
import csv

with open("work_types.csv", newline="", encoding="utf-8") as f:
    reader = csv.reader(f)
    work_types_rows = list(reader)

print(work_types_rows)

Для записи данных в файл существует функция `writer()`. Она возвращает специальный объект для записи, у которого есть методы `.writerow()` для записи одной строчки таблицы (он принимает на вход список значений) и `.writerows()` для записи нескольких строк сразу (он принимает на вход список списков значений). Значения могут быть как строками, так и другими значениями (они будут превращены в строки с помощью `str()`).

In [None]:
work_types_rows.append(["программирование", 2.0])

with open("work_types_mod.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(work_types_rows)

Если файл как-то отличается от конфигурации по умолчанию, можно прописать эти различия в специальных аргументах к функциям `reader` и `writer`:

* `delimiter` &mdash; разделитель: например, `";"` или `"\t"`. По умолчанию &mdash; `","`.
* `quotechar` &mdash; кавычки, в которые заключаются строки, в которых есть специальные символы (например, `delimiter`). По умолчанию &mdash; `'"'`.
* `escapechar` &mdash; символ, позволяющий экранировать символы (то есть делать их не специальными, а обычными). По умолчанию &mdash; `None`.
* `doublequote` &mdash; логическое значение, показывающее, что делать с `quotechar` в середине поля. Если `True`, то он будет удваиваться. По умолчанию &mdash; `True`.

С полным списком можно ознакомиться в [документации](https://docs.python.org/3/library/csv.html#csv-fmt-params).

Предустановленные наборы параметров заключены в т.н. &laquo;диалектах&raquo;. Чтобы посмотреть, какие есть диалекты, воспользуемся функциями `list_dialects()` и `get_dialect()`.

In [None]:
for name in csv.list_dialects():
    dialect = csv.get_dialect(name)
    print((name, dialect.delimiter, dialect.lineterminator))

Название диалекта передаётся в качестве аргумента в функции `reader()` и `writer()`:

In [None]:
with open("work_types.csv", newline="", encoding="utf-8") as f:
    reader = csv.reader(f, dialect="excel")
    work_types_rows = list(reader)

print(work_types_rows)

Если у таблицы есть шапка, то можно воспользоваться специальными классами `DictReader` и `DictWriter`. В этом случае каждая строчка таблицы будет представлена не в виде списка значений, а в виде словаря, ключами которого будут названия столбцов, а значениями &mdash; строки с данными из соответствующих ячеек.

In [None]:
with open("student_marks.csv", newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    student_marks = list(reader)
    header = reader.fieldnames

print(header)
for row in student_marks[:10]:
    print(row)

Задание. Используя файл result.json с сообщениями канала ОКСФ, составьте таблицу со следующими данными: дата, время, длина сообщения в символах (то есть сумма длин всех полей "text" в словаре "text_entities"), есть ли прикреплённая картинка, количество реакций. Запишите её в файл .csv.