JSON &mdash; это формат хранения (*сериализации*) структурированных данных. По сути, объект JSON &mdash; это большой список или словарь, элементами которого могут быть:

* списки
* словари
* строки
* числа
* логические значения
* `None` (будет записано в файл как `null`)

В Python есть модуль `json` для работы с такими файлами. В нём есть функции `load()` для чтения из текстового файла и `dump()` для записи.

In [1]:
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/example.json

--2025-12-04 07:57:41--  https://phonetics-spbu.github.io/courses/python_genling_bac/files/example.json
Resolving phonetics-spbu.github.io (phonetics-spbu.github.io)... 185.199.109.153, 185.199.110.153, 185.199.111.153, ...
Connecting to phonetics-spbu.github.io (phonetics-spbu.github.io)|185.199.109.153|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 459 [application/json]
Saving to: ‘example.json’


2025-12-04 07:57:41 (3.91 MB/s) - ‘example.json’ saved [459/459]



In [2]:
import json
with open("example.json") as f:
    data = json.load(f)

print(data)

{'first_name': 'John', 'last_name': 'Smith', 'is_alive': True, 'age': 27, 'address': {'street_address': '21 2nd Street', 'city': 'New York', 'state': 'NY', 'postal_code': '10021-3100'}, 'phone_numbers': [{'type': 'home', 'number': '212 555-1234'}, {'type': 'office', 'number': '646 555-4567'}], 'children': ['Catherine', 'Thomas', 'Trevor'], 'spouse': None}


In [3]:
data["spouse"] = "Renée"
with open("example2.json", "w") as f:
    json.dump(data, f)

Самый простой способ хранения табличных данных &mdash; файлы .csv. По сути, это всё те же текстовые файлы (plain text). В каждой строке такого файла хранится одна строка таблицы, её ячейки разделены специальным символом-разделителем (delimiter). По умолчанию этот символ &mdash; запятая (именно поэтому формат называется .csv &mdash; comma-separated values). Если в роли разделителя выступает другой символ, могут использоваться другие расширения, например, .tsv (tab-separated values). Файлы .csv поддерживаются всеми табличными редакторами, поэтому их можно открывать в Excel, Google Spreadsheets или любом другом редакторе, которым вы привыкли пользоваться.

Важно помнить, что, поскольку файлы .csv представляют собой текстовые файлы, они также могут быть подвержены проблемам с кодировками.

Первая строчка таблицы может содержать названия столбцов. В таком случае она называется заголовком (или шапкой) таблицы (header row).

Для работы с файлами .csv в Python существует разные сторонние библиотеки, но самое простое средство &mdash; встроенная библиотека `csv`. Она поддерживает чтение и запись в разных режимах и с разными разделителями.

In [5]:
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/work_types.csv
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/student_marks.csv

--2025-12-04 08:02:57--  https://phonetics-spbu.github.io/courses/python_genling_bac/files/work_types.csv
Resolving phonetics-spbu.github.io (phonetics-spbu.github.io)... 185.199.108.153, 185.199.109.153, 185.199.110.153, ...
Connecting to phonetics-spbu.github.io (phonetics-spbu.github.io)|185.199.108.153|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 236 [text/csv]
Saving to: ‘work_types.csv’


2025-12-04 08:02:57 (4.69 MB/s) - ‘work_types.csv’ saved [236/236]

--2025-12-04 08:02:57--  https://phonetics-spbu.github.io/courses/python_genling_bac/files/student_marks.csv
Resolving phonetics-spbu.github.io (phonetics-spbu.github.io)... 185.199.108.153, 185.199.109.153, 185.199.110.153, ...
Connecting to phonetics-spbu.github.io (phonetics-spbu.github.io)|185.199.108.153|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 13643 (13K) [text/csv]
Saving to: ‘student_marks.csv’


2025-12-04 08:02:57 (23.3 MB/s) - ‘student_marks.csv’ saved [136


Функция `reader()` возвращает специальный объект для чтения csv-файла. Он является итерируемым объектом и на каждом шаге цикла выдаёт список строк, соответствующих ячейкам таблицы в одной строчке. Обратите внимание на аргумент `newline=""` при открытии файла: он нужен для того, чтобы модуль `csv` корректно обрабатывал переводы строки независимо от платформы.

In [6]:
import csv

with open("work_types.csv", newline="", encoding="utf-8") as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['работа на уроке', '1.0']
['домашняя работа', '1.0']
['самостоятельная работа', '1.2']
['практическая работа', '1.3']
['проверочная работа', '1.3']
['контрольная работа', '1.5']


Его можно переделать в список, тогда весь файл прочитается в память и доступ к данным можно будет получить вне контекстного менеджера (то есть вне `with`).

In [7]:
import csv

with open("work_types.csv", newline="", encoding="utf-8") as f:
    reader = csv.reader(f)
    work_types_rows = list(reader)

print(work_types_rows)

[['работа на уроке', '1.0'], ['домашняя работа', '1.0'], ['самостоятельная работа', '1.2'], ['практическая работа', '1.3'], ['проверочная работа', '1.3'], ['контрольная работа', '1.5']]


Для записи данных в файл существует функция `writer()`. Она возвращает специальный объект для записи, у которого есть методы `.writerow()` для записи одной строчки таблицы (он принимает на вход список значений) и `.writerows()` для записи нескольких строк сразу (он принимает на вход список списков значений). Значения могут быть как строками, так и другими значениями (они будут превращены в строки с помощью `str()`).

In [8]:
work_types_rows.append(["программирование", 2.0])

with open("work_types_mod.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(work_types_rows)

In [9]:
work_types_rows

[['работа на уроке', '1.0'],
 ['домашняя работа', '1.0'],
 ['самостоятельная работа', '1.2'],
 ['практическая работа', '1.3'],
 ['проверочная работа', '1.3'],
 ['контрольная работа', '1.5'],
 ['программирование', 2.0]]

In [12]:
work_type_col_0 = [row[0] for row in work_types_rows]
work_type_col_0

['работа на уроке',
 'домашняя работа',
 'самостоятельная работа',
 'практическая работа',
 'проверочная работа',
 'контрольная работа',
 'программирование']

Если файл как-то отличается от конфигурации по умолчанию, можно прописать эти различия в специальных аргументах к функциям `reader` и `writer`:

* `delimiter` &mdash; разделитель: например, `";"` или `"\t"`. По умолчанию &mdash; `","`.
* `quotechar` &mdash; кавычки, в которые заключаются строки, в которых есть специальные символы (например, `delimiter`). По умолчанию &mdash; `'"'`.
* `escapechar` &mdash; символ, позволяющий экранировать символы (то есть делать их не специальными, а обычными). По умолчанию &mdash; `None`.
* `doublequote` &mdash; логическое значение, показывающее, что делать с `quotechar` в середине поля. Если `True`, то он будет удваиваться. По умолчанию &mdash; `True`.

С полным списком можно ознакомиться в [документации](https://docs.python.org/3/library/csv.html#csv-fmt-params).

Предустановленные наборы параметров заключены в т.н. &laquo;диалектах&raquo;. Чтобы посмотреть, какие есть диалекты, воспользуемся функциями `list_dialects()` и `get_dialect()`.

In [None]:
for name in csv.list_dialects():
    dialect = csv.get_dialect(name)
    print((name, dialect.delimiter, dialect.lineterminator))

Название диалекта передаётся в качестве аргумента в функции `reader()` и `writer()`:

In [13]:
with open("work_types.csv", newline="", encoding="utf-8") as f:
    reader = csv.reader(f, dialect="excel")
    work_types_rows = list(reader)

print(work_types_rows)

[['работа на уроке', '1.0'], ['домашняя работа', '1.0'], ['самостоятельная работа', '1.2'], ['практическая работа', '1.3'], ['проверочная работа', '1.3'], ['контрольная работа', '1.5']]


Если у таблицы есть шапка, то можно воспользоваться специальными классами `DictReader` и `DictWriter`. В этом случае каждая строчка таблицы будет представлена не в виде списка значений, а в виде словаря, ключами которого будут названия столбцов, а значениями &mdash; строки с данными из соответствующих ячеек.

In [14]:
with open("student_marks.csv", newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    student_marks = list(reader)
    header = reader.fieldnames

print(header)
for row in student_marks[:10]:
    print(row)

['фамилия', 'имя', 'предмет', 'вид работы', 'оценка']
{'фамилия': 'Голубева', 'имя': 'Марина', 'предмет': 'французский язык', 'вид работы': 'проверочная работа', 'оценка': '4'}
{'фамилия': 'Ветровская', 'имя': 'Анастасия', 'предмет': 'фонетика', 'вид работы': 'практическая работа', 'оценка': '3'}
{'фамилия': 'Звездин', 'имя': 'Артемий', 'предмет': 'информатика', 'вид работы': 'работа на уроке', 'оценка': '5'}
{'фамилия': 'Ветровская', 'имя': 'Анастасия', 'предмет': 'информатика', 'вид работы': 'практическая работа', 'оценка': '4'}
{'фамилия': 'Солодовников', 'имя': 'Виктор', 'предмет': 'французский язык', 'вид работы': 'контрольная работа', 'оценка': '5'}
{'фамилия': 'Солодовников', 'имя': 'Виктор', 'предмет': 'информатика', 'вид работы': 'практическая работа', 'оценка': '2'}
{'фамилия': 'Воронцова', 'имя': 'Кира', 'предмет': 'математика', 'вид работы': 'работа на уроке', 'оценка': '5'}
{'фамилия': 'Громов', 'имя': 'Илья', 'предмет': 'французский язык', 'вид работы': 'домашняя работа',

Задание. Используя файл result.json с сообщениями канала ОКСФ, составьте таблицу со следующими данными: дата, время, длина сообщения в символах (то есть сумма длин всех полей "text" в словаре "text_entities"), есть ли прикреплённая картинка, количество реакций. Запишите её в файл .csv.

In [15]:
import json

In [16]:
with open("result.json") as f:
    data = json.load(f)

In [19]:
data["name"]

'ОКСФ | Открытая конференция студентов-филологов'

In [20]:
len(data["messages"])

100

In [55]:
csv_obj = []

In [56]:
for msg in data["messages"]:
  new_row = {}
  #"2024-12-24T13:37:51"
  [date, time] = msg["date"].split("T")
  new_row["дата"] = date
  new_row["время"] = time

  msg_len = 0
  # for text_entity in msg["text"]:
  #   if isinstance(text_entity, str):
  #     msg_len = msg_len + len(text_entity)
  #   else:
  #     msg_len = msg_len + len(text_entity["text"])
  # new_row["длина сообщения"] = msg_len

  for text_entity in msg["text_entities"]:
    msg_len = msg_len + len(text_entity["text"])
  new_row["длина сообщения"] = msg_len

  has_photo = "photo" in msg.keys()
  new_row["есть ли картинка"] = has_photo

  if "reactions" in msg.keys():
    reactions_counter = sum([react["count"] for react in msg["reactions"]])
  else:
    reactions_counter = 0
  new_row["количество реакций"] = reactions_counter

  csv_obj.append(new_row)

In [57]:
csv_obj[1]

{'дата': '2024-12-24',
 'время': '13:37:51',
 'длина сообщения': 1423,
 'есть ли картинка': True,
 'количество реакций': 5}

In [60]:
with open("oksf_stat.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=['дата', 'время', 'длина сообщения', 'есть ли картинка', 'количество реакций'])
    writer.writeheader()
    writer.writerows(csv_obj)

In [63]:
csv_obj_sorted = sorted(csv_obj, key=lambda x: x["количество реакций"], reverse=True)
csv_obj_sorted[2]

{'дата': '2025-04-12',
 'время': '18:58:30',
 'длина сообщения': 106,
 'есть ли картинка': True,
 'количество реакций': 50}