### Обработка входных данных. Конфигурационные файлы. Модули JSON и YAML.  

В ряде задач необходимо использовать входные данные различного объема и формата. Также для достижения высокого уровня автоматизации может быть удобно использовать специальные конфигурационные файлы, в которых определен набор входных параметров. Рассмотрим несколько часто встречающихся форматов конфигурационных файлов.


### 1. Формат JSON

**JSON (JavaScript Object Notation)** - современный и широко распространенный текстовый формат хранения и обмена данных. Его преимуществом является возможность хранения данных следующих нескольких типов: int, float, bool, string, list, dict, null. Стандартная библиотека `json` позволяет легко читать и записывать любые json файлы. 

In [None]:
import math
import json
import os 

# Создадим некоторый набор данных:
some_data = {
    'string': 'some strange string',
    'int': 42,
    'float': -math.pi,
    'bool': True,
    'none': None,
    'list': [1, 2, 3, 4, 5.0, '6', 'rgddddd', False],
    'dict': {
        '1': 1,
        '2': True,
        '3': None,
        '4': 'qwerty'
    }
}

# Можно сконвертировать этот набор данных в json-строку:
print(json.dumps(some_data))
# То же самое, но удобнее для восприятия:
print(json.dumps(some_data, indent=4), end='\n\n')

# Запись данных в файл:
with open(os.path.join('./data', 'data.json'), 'w') as file:
    json.dump(some_data, file)

# Прочитаем данные из файла и выведем в консоль:
with open(os.path.join('data', 'data.json')) as file:
    data_from_file = json.load(file)
print(f'Type: {type(data_from_file)}')
print(data_from_file)

{"string": "some strange string", "int": 42, "float": -3.141592653589793, "bool": true, "none": null, "list": [1, 2, 3, 4, 5.0, "6", "rgddddd", false], "dict": {"1": 1, "2": true, "3": null, "4": "qwerty"}}
{
    "string": "some strange string",
    "int": 42,
    "float": -3.141592653589793,
    "bool": true,
    "none": null,
    "list": [
        1,
        2,
        3,
        4,
        5.0,
        "6",
        "rgddddd",
        false
    ],
    "dict": {
        "1": 1,
        "2": true,
        "3": null,
        "4": "qwerty"
    }
}

Type: <class 'dict'>
{'string': 'some strange string', 'int': 42, 'float': -3.141592653589793, 'bool': True, 'none': None, 'list': [1, 2, 3, 4, 5.0, '6', 'rgddddd', False], 'dict': {'1': 1, '2': True, '3': None, '4': 'qwerty'}}


### 2. Формат YAML

**YAML (Yet Another Markup Language)** - ещё один современный текстовый формат хранения и обмена данных, который по своим свойствам аналогичен json. Для работы с `yaml` файлами необходима сторонняя библиотека `pyyaml`: 

In [None]:
!pip install pyyaml

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import yaml
import pprint

with open(os.path.join('data', 'data.yaml'), 'w') as file:
    yaml.dump(some_data, file)

with open(os.path.join('data', 'data.yaml')) as file:
    obj = yaml.safe_load(file)
    pprint.pprint(obj)

{'bool': True,
 'dict': {'1': 1, '2': True, '3': None, '4': 'qwerty'},
 'float': -3.141592653589793,
 'int': 42,
 'list': [1, 2, 3, 4, 5.0, '6', 'rgddddd', False],
 'none': None,
 'string': 'some strange string'}


### Цели создания

На сегодняшний день существует множество вариантов создания конфигурационных файлов. Одни подходят к системе Windows, другие нет. Одни имеют возможность для задания более тонких настроек проектов, но имеют довольно непонятный и громозкий синтаксис. Другие наоборот, в угоду более наглядному и простому обращению оказываются не способными поддерживать большие проекты. Сообщество разработчиков устало от «зоопарка» различных форматов для конфигов, им хотелось упростить себе жизнь и прийти к единому понятному формату. И в 2001 году Кларк Эванс создал YAML 1.0.

Его основные цели:

    1. быть понятным человеку;
    2. поддерживать структуры данных, родные для языков программирования;
    3. быть переносимым между языками программирования;
    4. использовать цельную модель данных для поддержки обычного инструментария;
    5. поддерживать потоковую обработку;
    6. быть выразительным и расширяемым;
    7. быть лёгким в реализации и использовании.


### YAML vs. JSON

По сути YAML — это расширенная версия известного нам формата JSON.

у JSON-формата есть некоторые ограничения:

* нельзя создавать переменные;
* нельзя использовать внешние переменные (например, переменные окружения);
* нельзя переопределять значения.


Чтобы смягчить эти ограничения, можно заменить переменные с помощью создания JSON-файлов. Но в других языках программирования это не вариант, поэтому YAML и стал так популярен.

In [None]:
with open(os.path.join('data', 'ex1.yaml')) as file:
    obj = yaml.safe_load(file)
    pprint.pprint(obj)

{'book': [25, 12, ['l', 'r', 't'], ['90, 90']], 'books': ['dg', 56]}


### Базовый синтаксис

Синтаксис YAML прост и лаконичен, но есть несколько особенностей. Практически каждый YAML-файл строится на базе списка. Каждый элемент списка это список пар «ключ-значение», который обычно называют словарем. То есть представление модели объекта с помощью YAML сводится к тому, чтобы описать эту модель в терминах списков и словарей.

Иногда YAML-файлы начинаются с тройного тире `---` и заканчиваются троеточием `...`, а иногда эти последовательности символов в начале и в конце файла опускают. PyYAML корректно работает в обоих случаях.

Все элементы списка располагаются на одном и том же уровне и начинаются с `- `(тире и пробел). 

Также можно оставлять комментарии через символ `#`:


```yaml      
--- # Начало файла
# Список фруктов
- Apple
- Orange
- Strawberry
- Mango
... # Конец файла
```

YAML поддерживает стандартные типы данных: целочисленный (`int`), вещественный (`float`), булев (`bool`), строковый (`string`) и `null`. При необходимости их можно явно указывать с помощью следующей конструкции
`!!type`:
```yaml
exp: !!float 2.718281828459045
num: !!int 10
name: !!string bob
```


#### Якорь (переменная или ссылка)

Якорь — это механизм для создания переменных, на которые затем можно ссылаться.

```yaml
---
base-config: &base
  width: 640
  height: 480

image1: 
  <<: *base
  color: red
...

```



Более подробно об особенностях и возможностях синтаксиса [yaml](https://proglib.io/p/konfiguracionnye-fayly-kak-instrument-upravleniya-prilozheniyami-na-python-2021-06-11)


In [None]:
with open(os.path.join('data', 'ex2.yaml')) as file:
    obj = yaml.safe_load(file)
    pprint.pprint(obj)

{'base-config': {'height': 480, 'width': 640},
 'image1': {'color': 'red', 'height': 480, 'width': 640}}


## Конфигурация проекта 

Рассмотрим небольшой пример того, как можно с помощью конфигурационного файла задать настройки для проекта на `python`.

Пусть наш проект будет иметь следующую структуру:

```
project/
    --> settings/
        - config.yaml
    --> pictures/ 
    --> py_files/
        - main.py  
        - parser.py
```
Файл `parser.py` содержит в себе функцию для считывания конфигурационного файла.
Файл  `main.py` - это основной файл программы. Соответственно, в нем будут запускаться основные функции и из него будут сохраняться результаты в папку `pictures`.


Чтобы запустить программу достаточно из директории `project` выполнить следующую команду:

```bash
python ./py_files/main.py
```
