# Лекция 6. Работа с файлами (расширенная лекция). Чтение и запись данных в форматах CSV, JSON и YAML.

В предыдущих лекциях рассматривался самый простой вариант - запись информации в обычный текстовый файл.

В этой лекции рассматривается чтение и запись данных в форматах CSV, JSON и YAML:

* CSV - это табличный формат представления данных. Он может быть получен, например, при экспорте данных из таблицы или базе данных. Аналогичным образом данные могут быть записаны в этом формате для последующего импорта в таблицу.
* JSON - это формат, который очень часто используется в API. Кроме того, этот формат позволит сохранить такие структуры данных как словари или списки в структурированном формате и затем прочитать их из файла в формате JSON и получить те же структуры данных в Python.
* Формат YAML очень часто используется для описания сценариев. Например, он используется в Ansible. Кроме того, в этом формате удобно записывать вручную параметры, которые должны считывать скрипты.

> Python позволяет записывать объекты самого языка в файлы и считывать их с помощью модуля Pickle

# Работа с файлами в формате CSV, JSON, YAML

Сериализация данных - это сохранение данных в каком-то формате, чаще всего, структурированном.

Например, это могут быть:

* файлы в формате YAML или JSON
* файлы в формате CSV
* база данных

В этой лекции рассматриваются форматы CSV, JSON, YAML, а в одной из последующих лекций - базы данных.

Для каждого из этих форматов в Python есть модуль, который существенно упрощает работу с ними.

# Работа с файлами в формате CSV

**CSV (Comma-Separated Values)** - текстовый формат, предназначенный для представления табличных данных, например, это могут быть данные из таблицы или данные из БД (реализация похожего формата от Microsoft - XLSX).

В этом формате каждая строка файла - это строка таблицы. Несмотря на название формата, разделителем может быть не только запятая.

И хотя у форматов с другим разделителем может быть и собственное название, например, TSV (tab separated values), тем не менее, под форматом CSV понимают, как правило, любые разделители.

Пример файла в формате CSV:

```csv
"Name", "Sex", "Age", "Height (in)", "Weight (lbs)"
"Alex", "M", 41, 74, 170
"Bert", "M", 42, 68, 166
"Dave", "M", 39, 72, 167
"Carl", "M", 32, 70, 155
"Elly", "F", 30, 66, 124
"Fran", "F", 33, 66, 115
"Gwen", "F", 26, 64, 121
"Hank", "M", 30, 71, 158
"Ivan", "M", 53, 72, 175
"Jake", "M", 32, 69, 143
"Kate", "F", 47, 69, 139
"Luke", "M", 34, 72, 163
"Myra", "F", 23, 62, 98
"Neil", "M", 36, 75, 160
"Omar", "M", 38, 70, 145
"Page", "F", 31, 67, 135
"Quin", "M", 29, 71, 176
"Ruth", "F", 28, 65, 131
```

![csv](./pics/csv_example.png)

В стандартной библиотеке Python есть модуль csv, который позволяет работать с файлами в CSV формате.



## Чтение

Пример чтения файла в формате CSV:

In [1]:
import csv

with open('./examples/people.csv') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['Name', 'Sex', 'Age', 'Height(in)', 'Weight(lbs)']
['Alex', 'M', '41', '74', '170']
['Bert', 'M', '42', '68', '166']
['Dave', 'M', '39', '72', '167']
['Carl', 'M', '32', '70', '155']
['Elly', 'F', '30', '66', '124']
['Fran', 'F', '33', '66', '115']
['Gwen', 'F', '26', '64', '121']
['Hank', 'M', '30', '71', '158']
['Ivan', 'M', '53', '72', '175']
['Jake', 'M', '32', '69', '143']
['Kate', 'F', '47', '69', '139']
['Luke', 'M', '34', '72', '163']
['Myra', 'F', '23', '62', '98']
['Neil', 'M', '36', '75', '160']
['Omar', 'M', '38', '70', '145']
['Page', 'F', '31', '67', '135']
['Quin', 'M', '29', '71', '176']
['Ruth', 'F', '28', '65', '131']


В первом списке находятся названия столбцов, а в остальных соответствующие значения.

Обратите внимание, что сам `csv.reader` возвращает итератор:

In [2]:
import csv

with open('./examples/people.csv') as f:
    reader = csv.reader(f)
    print(reader)

<_csv.reader object at 0x10758dfc0>


При необходимости его можно превратить в список таким образом:

In [3]:
with open('./examples/people.csv') as f:
    reader = csv.reader(f)
    print(list(reader))

[['Name', 'Sex', 'Age', 'Height(in)', 'Weight(lbs)'], ['Alex', 'M', '41', '74', '170'], ['Bert', 'M', '42', '68', '166'], ['Dave', 'M', '39', '72', '167'], ['Carl', 'M', '32', '70', '155'], ['Elly', 'F', '30', '66', '124'], ['Fran', 'F', '33', '66', '115'], ['Gwen', 'F', '26', '64', '121'], ['Hank', 'M', '30', '71', '158'], ['Ivan', 'M', '53', '72', '175'], ['Jake', 'M', '32', '69', '143'], ['Kate', 'F', '47', '69', '139'], ['Luke', 'M', '34', '72', '163'], ['Myra', 'F', '23', '62', '98'], ['Neil', 'M', '36', '75', '160'], ['Omar', 'M', '38', '70', '145'], ['Page', 'F', '31', '67', '135'], ['Quin', 'M', '29', '71', '176'], ['Ruth', 'F', '28', '65', '131']]


Чаще всего заголовки столбцов удобней получить отдельным объектом. Это можно сделать таким образом:

In [4]:
import csv

with open('./examples/people.csv') as f:
    reader = csv.reader(f)
    headers = next(reader)
    print('Headers: ', headers)
    for row in reader:
        print(row)

Headers:  ['Name', 'Sex', 'Age', 'Height(in)', 'Weight(lbs)']
['Alex', 'M', '41', '74', '170']
['Bert', 'M', '42', '68', '166']
['Dave', 'M', '39', '72', '167']
['Carl', 'M', '32', '70', '155']
['Elly', 'F', '30', '66', '124']
['Fran', 'F', '33', '66', '115']
['Gwen', 'F', '26', '64', '121']
['Hank', 'M', '30', '71', '158']
['Ivan', 'M', '53', '72', '175']
['Jake', 'M', '32', '69', '143']
['Kate', 'F', '47', '69', '139']
['Luke', 'M', '34', '72', '163']
['Myra', 'F', '23', '62', '98']
['Neil', 'M', '36', '75', '160']
['Omar', 'M', '38', '70', '145']
['Page', 'F', '31', '67', '135']
['Quin', 'M', '29', '71', '176']
['Ruth', 'F', '28', '65', '131']


Иногда в результате обработки гораздо удобней получить словари, в которых ключи - это названия столбцов, а значения - значения столбцов.

Для этого в модуле есть `DictReader`:

In [1]:
import csv

with open('./examples/people.csv') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row['Name'], row['Sex'])

Alex M
Bert M
Dave M
Carl M
Elly F
Fran F
Gwen F
Hank M
Ivan M
Jake M
Kate F
Luke M
Myra F
Neil M
Omar M
Page F
Quin M
Ruth F


## Запись

Аналогичным образом с помощью модуля csv можно и записать файл в формате CSV:

In [2]:
import csv

data = [['hostname', 'vendor', 'model', 'location'],
        ['sw1', 'Cisco', '3750', 'London, Best str'],
        ['sw2', 'Cisco', '3850', 'Liverpool, Better str'],
        ['sw3', 'Cisco', '3650', 'Liverpool, Better str'],
        ['sw4', 'Cisco', '3650', 'London, Best str']]


with open('./examples/sw_data.csv', 'w') as f:
    writer = csv.writer(f)
    for row in data:
        writer.writerow(row)

with open('./examples/sw_data.csv') as f:
    print(f.read())

hostname,vendor,model,location
sw1,Cisco,3750,"London, Best str"
sw2,Cisco,3850,"Liverpool, Better str"
sw3,Cisco,3650,"Liverpool, Better str"
sw4,Cisco,3650,"London, Best str"



В примере выше строки из списка сначала записываются в файл, а затем содержимое файла выводится на стандартный поток вывода.

Обратите внимание на интересную особенность: строки в последнем столбце взяты в кавычки, а остальные значения - нет.

Так получилось из-за того, что во всех строках последнего столбца есть запятая. И кавычки указывают на то, что именно является целой строкой. Когда запятая находится в кавычках, модуль `csv` не воспринимает её как разделитель.

Иногда лучше, чтобы все строки были в кавычках. Конечно, в данном случае достаточно простой пример, но когда в строках больше значений, то кавычки позволяют указать, где начинается и заканчивается значение.

Модуль `csv` позволяет управлять этим. Для того, чтобы все строки записывались в CSV-файл с кавычками, надо изменить скрипт таким образом: 

In [3]:
import csv


data = [['hostname', 'vendor', 'model', 'location'],
        ['sw1', 'Cisco', '3750', 'London, Best str'],
        ['sw2', 'Cisco', '3850', 'Liverpool, Better str'],
        ['sw3', 'Cisco', '3650', 'Liverpool, Better str'],
        ['sw4', 'Cisco', '3650', 'London, Best str']]


with open('./examples/sw_data.csv', 'w') as f:
    writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)
    for row in data:
        writer.writerow(row)

with open('./examples/sw_data.csv') as f:
    print(f.read())

"hostname","vendor","model","location"
"sw1","Cisco","3750","London, Best str"
"sw2","Cisco","3850","Liverpool, Better str"
"sw3","Cisco","3650","Liverpool, Better str"
"sw4","Cisco","3650","London, Best str"



Теперь все значения с кавычками. И поскольку номер модели задан как строка в изначальном списке, тут он тоже в кавычках.

Кроме метода `writerow`, поддерживается метод `writerows`. Ему можно передать любой итерируемый объект.

Например, предыдущий пример можно записать таким образом: 

In [4]:
import csv

data = [['hostname', 'vendor', 'model', 'location'],
        ['sw1', 'Cisco', '3750', 'London, Best str'],
        ['sw2', 'Cisco', '3850', 'Liverpool, Better str'],
        ['sw3', 'Cisco', '3650', 'Liverpool, Better str'],
        ['sw4', 'Cisco', '3650', 'London, Best str']]


with open('./examples/sw_data.csv', 'w') as f:
    writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)
    writer.writerows(data)

with open('./examples/sw_data.csv') as f:
    print(f.read())

"hostname","vendor","model","location"
"sw1","Cisco","3750","London, Best str"
"sw2","Cisco","3850","Liverpool, Better str"
"sw3","Cisco","3650","Liverpool, Better str"
"sw4","Cisco","3650","London, Best str"



## `DictWriter`

С помощью `DictWriter` можно записать словари в формат CSV.

В целом `DictWriter` работает так же, как `writer`, но так как словари не упорядочены, надо указывать явно в каком порядке будут идти столбцы в файле. Для этого используется параметр `fieldnames`:

In [5]:
import csv

data = [{
    'hostname': 'sw1',
    'location': 'London',
    'model': '3750',
    'vendor': 'Cisco'
}, {
    'hostname': 'sw2',
    'location': 'Liverpool',
    'model': '3850',
    'vendor': 'Cisco'
}, {
    'hostname': 'sw3',
    'location': 'Liverpool',
    'model': '3650',
    'vendor': 'Cisco'
}, {
    'hostname': 'sw4',
    'location': 'London',
    'model': '3650',
    'vendor': 'Cisco'
}]

with open('./examples/csv_write_dictwriter.csv', 'w') as f:
    writer = csv.DictWriter(
        f, fieldnames=list(data[0].keys()), quoting=csv.QUOTE_NONNUMERIC)
    writer.writeheader()
    for d in data:
        writer.writerow(d)

## Указание разделителя

Иногда в качестве разделителя используются другие значения. В таком случае должна быть возможность подсказать модулю, какой именно разделитель использовать.

Например, если в файле используется разделитель `;`: 

```csv
hostname;vendor;model;location
sw1;Cisco;3750;London
sw2;Cisco;3850;Liverpool
sw3;Cisco;3650;Liverpool
sw4;Cisco;3650;London
```

Достаточно просто указать, какой разделитель используется в `reader`:

In [1]:
import csv

with open('./examples/sw_data2.csv') as f:
    reader = csv.reader(f, delimiter=';')
    for row in reader:
        print(row)

['hostname', 'vendor', 'model', 'location']
['sw1', 'Cisco', '3750', 'London']
['sw2', 'Cisco', '3850', 'Liverpool']
['sw3', 'Cisco', '3650', 'Liverpool']
['sw4', 'Cisco', '3650', 'London']


# Работа с файлами в формате JSON

**JSON (JavaScript Object Notation)** - повсеместно распространенный текстовый формат обмена данными, основанный на JavaScript. Как и многие другие текстовые форматы, JSON легко читается людьми

JSON по синтаксису очень похож на Python и достаточно удобен для восприятия.

Как и в случае с CSV, в Python есть модуль, который позволяет легко записывать и читать данные в формате JSON.

Пример файла в формате JSON:

```json
{ 
	"id": "0001",
	"type": "donut",
	"name": "Cake",
	"ppu": 0.55,
	"batters":
		{
			"batter":
				[
					{ "id": "1001", "type": "Regular" },
					{ "id": "1002", "type": "Chocolate" },
					{ "id": "1003", "type": "Blueberry" },
					{ "id": "1004", "type": "Devil's Food" }
				]
		},
	"topping":
		[
			{ "id": "5001", "type": "None" },
			{ "id": "5002", "type": "Glazed" },
			{ "id": "5005", "type": "Sugar" },
			{ "id": "5007", "type": "Powdered Sugar" },
			{ "id": "5006", "type": "Chocolate with Sprinkles" },
			{ "id": "5003", "type": "Chocolate" },
			{ "id": "5004", "type": "Maple" }
		]
}
```

## Чтение

Файл `sw_templates.json`:

```
{
  "access": [
    "switchport mode access",
    "switchport access vlan",
    "switchport nonegotiate",
    "spanning-tree portfast",
    "spanning-tree bpduguard enable"
  ],
  "trunk": [
    "switchport trunk encapsulation dot1q",
    "switchport mode trunk",
    "switchport trunk native vlan 999",
    "switchport trunk allowed vlan"
  ]
}
```

Для чтения в модуле json есть два метода:

* `json.load` - метод считывает файл в формате JSON и возвращает объекты Python
* `json.loads` - метод считывает строку в формате JSON и возвращает объекты Python

### `json.load`

Чтение файла в формате JSON в объект Python:

In [None]:
import json

with open('./examples/sw_templates.json') as f:
    templates = json.load(f)

print(templates)

for section, commands in templates.items():
    print(section)
    print('\n'.join(commands))

### `json.loads`

Считывание строки в формате JSON в объект Python:

In [None]:
import json

with open('./examples/sw_templates.json') as f:
    file_content = f.read()
    templates = json.loads(file_content)

print(templates)

for section, commands in templates.items():
    print(section)
    print('\n'.join(commands))

## Запись

Запись файла в формате JSON также осуществляется достаточно легко.

Для записи информации в формате JSON в модуле json также два метода:

* `json.dump` - метод записывает объект Python в файл в формате JSON
* `json.dumps` - метод возвращает строку в формате JSON

### `json.dumps`

Преобразование объекта в строку в формате JSON: 

In [None]:
import json

trunk_template = [
    'switchport trunk encapsulation dot1q', 'switchport mode trunk',
    'switchport trunk native vlan 999', 'switchport trunk allowed vlan'
]

access_template = [
    'switchport mode access', 'switchport access vlan',
    'switchport nonegotiate', 'spanning-tree portfast',
    'spanning-tree bpduguard enable'
]

to_json = {'trunk': trunk_template, 'access': access_template}

with open('./examples/sw_templates.json', 'w') as f:
    f.write(json.dumps(to_json))

with open('./examples/sw_templates.json') as f:
    print(f.read())

Метод `json.dumps` подходит для ситуаций, когда надо вернуть строку в формате JSON. Например, чтобы передать ее API.

### `json.dump`

Запись объекта Python в файл в формате JSON:

In [None]:
import json

trunk_template = [
    'switchport trunk encapsulation dot1q', 'switchport mode trunk',
    'switchport trunk native vlan 999', 'switchport trunk allowed vlan'
]

access_template = [
    'switchport mode access', 'switchport access vlan',
    'switchport nonegotiate', 'spanning-tree portfast',
    'spanning-tree bpduguard enable'
]

to_json = {'trunk': trunk_template, 'access': access_template}

with open('./examples/sw_templates.json', 'w') as f:
    json.dump(to_json, f)

with open('./examples/sw_templates.json') as f:
    print(f.read())

Когда нужно записать информацию в формате JSON в файл, лучше использовать метод `dump`.

### Дополнительные параметры методов записи

Методам `dump` и `dumps` можно передавать дополнительные параметры для управления форматом вывода.

По умолчанию эти методы записывают информацию в компактном представлении. Как правило, когда данные используются другими программами, визуальное представление данных не важно. Если же данные в файле нужно будет считать человеку, такой формат не очень удобно воспринимать.

К счастью, модуль `json` позволяет управлять подобными вещами.

Передав дополнительные параметры методу `dump` (или методу `dumps`), можно получить более удобный для чтения вывод:

In [None]:
import json

trunk_template = [
    'switchport trunk encapsulation dot1q', 'switchport mode trunk',
    'switchport trunk native vlan 999', 'switchport trunk allowed vlan'
]

access_template = [
    'switchport mode access', 'switchport access vlan',
    'switchport nonegotiate', 'spanning-tree portfast',
    'spanning-tree bpduguard enable'
]

to_json = {'trunk': trunk_template, 'access': access_template}

with open('./examples/sw_templates.json', 'w') as f:
    json.dump(to_json, f, sort_keys=True, indent=2)

with open('./examples/sw_templates.json') as f:
    print(f.read())

### Изменение типа данных

Еще один важный аспект преобразования данных в формат JSON: данные не всегда будут того же типа, что исходные данные в Python.

Например, кортежи при записи в JSON превращаются в списки:

In [None]:
import json

trunk_template = ('switchport trunk encapsulation dot1q',
    'switchport mode trunk',
    'switchport trunk native vlan 999',
    'switchport trunk allowed vlan')

print(type(trunk_template))

with open('./examples/trunk_template.json', 'w') as f:
    json.dump(trunk_template, f, sort_keys=True, indent=2)

templates = json.load(open('./examples/trunk_template.json'))
print(type(templates))

Так происходит из-за того, что в JSON используются другие типы данных и не для всех типов данных Python есть соответствия.

Таблица конвертации данных Python в JSON:

| **Python**  |	**JSON** |
| ----------- | -------- |
| dict	      | object   |
| list, tuple |	array    |
| str         | string   |
| int, float  | number   |
| True        |	true     |
| False       |	false    |
| None        |	null     |

Таблица конвертации JSON в данные Python:

| **JSON**      | **Python** |
| ------------- | ---------- |
| object        | dict       |
| array         | list       |
| string        | str        |
| number (int)  | int        | 
| number (real) | float      |
| true          | True       |
| false         | False      |
| null          | None       |

### Ограничение по типам данных

В формат JSON нельзя записать словарь, у которого ключи - кортежи:

In [None]:
to_json = {('trunk', 'cisco'): trunk_template, 'access': access_template}

with open('sw_templates.json', 'w') as f:
    json.dump(to_json, f)

С помощью дополнительного параметра можно игнорировать подобные ключи:

In [None]:
to_json = {('trunk', 'cisco'): trunk_template, 'access': access_template}

with open('sw_templates.json', 'w') as f:
    json.dump(to_json, f, skipkeys=True)

Кроме того, в JSON ключами словаря могут быть только строки. Но, если в словаре Python использовались числа, ошибки не будет. Вместо этого выполнится конвертация чисел в строки:

In [None]:
d = {1: 100, 2: 200}
json.dumps(d)

# Работа с файлами в формате YAML

**YAML (Yet Another Markup Language, позже YAML Ain't Markup Language)** - формат сериализации данных, концептуально близкий к языкам разметки, но ориентированный на удобство ввода-вывода типичных структур данных многих языков программирования.

В трактовке названия отражена история развития: на ранних этапах YAML расшифровывался как Yet Another Markup Language («Ещё один язык разметки») и даже позиционировался как конкурент XML, но позже был переименован с целью акцентировать внимание на данных, а не на разметке документов.

YAML более приятен для восприятия человеком, чем JSON, поэтому его часто используют для описания сценариев в ПО. Например, в Ansible.

## Синтаксис YAML

Как и Python, YAML использует отступы для указания структуры документа. Но в YAML можно использовать только пробелы и нельзя использовать знаки табуляции.

Еще одна схожесть с Python: комментарии начинаются с символа `#` и продолжаются до конца строки.

### Список

Список может быть записан в одну строку:

```yaml
[switchport mode access, switchport access vlan, switchport nonegotiate, spanning-tree portfast, spanning-tree bpduguard enable]
```

Или каждый элемент списка в своей строке:

```yaml
- switchport mode access
- switchport access vlan
- switchport nonegotiate
- spanning-tree portfast
- spanning-tree bpduguard enable
```

Когда список записан таким блоком, каждая строка должна начинаться с `- ` (минуса и пробела), и все строки в списке должны быть на одном уровне отступа.

### Словарь

Словарь также может быть записан в одну строку:

```yaml
{ vlan: 100, name: IT }
```

Или блоком:

```yaml
vlan: 100
name: IT
```

### Строки

Строки в YAML не обязательно брать в кавычки. Это удобно, но иногда всё же следует использовать кавычки. Например, когда в строке используется какой-то специальный символ (специальный для YAML).

Такую строку, например, нужно взять в кавычки, чтобы она была корректно воспринята YAML:

```yaml
command: "sh interface | include Queueing strategy:"
```

### Комбинация элементов

Словарь, в котором есть два ключа: access и trunk. Значения, которые соответствуют этим ключам - списки команд:

```yaml
access:
- switchport mode access
- switchport access vlan
- switchport nonegotiate
- spanning-tree portfast
- spanning-tree bpduguard enable

trunk:
- switchport trunk encapsulation dot1q
- switchport mode trunk
- switchport trunk native vlan 999
- switchport trunk allowed vlan
```

Список словарей:

```yaml
- BS: 1550
  IT: 791
  id: 11
  name: Liverpool
  to_id: 1
  to_name: LONDON
- BS: 1510
  IT: 793
  id: 12
  name: Bristol
  to_id: 1
  to_name: LONDON
- BS: 1650
  IT: 892
  id: 14
  name: Coventry
  to_id: 2
  to_name: Manchester
```

## Модуль PyYAML

Для работы с YAML в Python используется модуль PyYAML. Он не входит в стандартную библиотеку модулей, поэтому его нужно установить:

```python
pip install pyyaml
```

Работа с ним аналогична модулям `csv` и `json`.

### Чтение из YAML

Попробуем преобразовать данные из файла YAML в объекты Python.

Файл `info.yaml`:

```yaml
- BS: 1550
  IT: 791
  id: 11
  name: Liverpool
  to_id: 1
  to_name: LONDON
- BS: 1510
  IT: 793
  id: 12
  name: Bristol
  to_id: 1
  to_name: LONDON
- BS: 1650
  IT: 892
  id: 14
  name: Coventry
  to_id: 2
  to_name: Manchester
```

Чтение из YAML:

In [None]:
import yaml
from pprint import pprint

with open('./examples/info.yaml') as f:
    templates = yaml.safe_load(f)

pprint(templates)

Формат YAML очень удобен для хранения различных параметров, особенно, если они заполняются вручную.

### Запись в YAML

Запись объектов Python в YAML:

In [None]:
import yaml

trunk_template = [
    'switchport trunk encapsulation dot1q', 'switchport mode trunk',
    'switchport trunk native vlan 999', 'switchport trunk allowed vlan'
]

access_template = [
    'switchport mode access', 'switchport access vlan',
    'switchport nonegotiate', 'spanning-tree portfast',
    'spanning-tree bpduguard enable'
]

to_yaml = {'trunk': trunk_template, 'access': access_template}

with open('./examples/sw_templates.yaml', 'w') as f:
    yaml.dump(to_yaml, f, default_flow_style=False)

with open('./examples/sw_templates.yaml') as f:
    print(f.read())