<a href="https://colab.research.google.com/github/esaukova/Python_classes/blob/main/%D0%A6%D0%9A_PY100_%D0%A2%D0%B5%D0%BC%D0%B0_6_%D0%A0%D0%B0%D1%81%D1%88%D0%B8%D1%80%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B2%D0%BE%D0%B7%D0%BC%D0%BE%D0%B6%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%B8%CC%86_%D0%A0%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_%D1%81_%D0%B8%D1%81%D1%82%D0%BE%D1%87%D0%BD%D0%B8%D0%BA%D0%B0%D0%BC%D0%B8_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Расширенные возможности использования функций. Работа с источниками данных.

## Файлы


Python по умолчанию достаточно просто работает с файлами операционной системы.  
Перед работой с файлом надо его открыть с помощью команды `open`.
```python
f = open('path/to/file', 'filemode', encoding='utf-8')
```

Результатом этой операции будет указатель на файл,  
в котором указатель текущей позиции поставлен на начало или конец файла.

Давайте по порядку разберем все аргументы:
- `path/to/file` путь к файлу может быть относительным или абсолютным.
- `filemode` режим, в котором файл нужно открывать.  
Записывается в виде строки, состоит из двух букв.  
Первая буква:
    - **r** – открыть на чтение (по умолчанию)
    - **w** – перезаписать и открыть на запись (если файла нет, то он создастся)
    - **x** – создать и открыть на запись (если уже есть – исключение)
    - **a** – открыть на дозапись (указатель будет поставлен в конец)

    Вторая буква:
    - **t** – открыть в текстовом виде (по умолчанию)
    - **b** – открыть в бинарном виде
- `encoding` – указание, в какой кодировке файл записан (utf-8, cp1251 и т.д.)

При открытии файла в режимах на запись ставится блокировка на уровне операционной системы

### Чтение и запись файла
При открытии файла внутри него ставится указатель текущей позиции,  
аналогию можно провести с курсором.  
При открытии в режиме чтения или записи указатель ставится на начало,  
в режиме **a** – в конец.

In [None]:
f = open('test.txt', 'w')  # "wt"

# Запишем в файл строку
f.write("This is a test string\n")

22

Ввиду того, что вывод в файл буферизируется, данные,  
записанные при помощи `file.write()` и `file.writelines()`  
в файловую систему могут попасть не сразу.

Для принудительной записи можно использовать метод `file.flush()`,  
а можно дождаться отработки `file.close()`.

In [None]:
f.flush()  # очищаем данные, которые

In [None]:
# обязательно нужно закрыть файл иначе он будет заблокирован ОС
f.close()

`f.read(n)` – операция, читающая с текущего места **`n`** символов,  
если файл открыт в `t` режиме, или **`n`** байт, если файл открыт в `b` режиме,  
и возвращающая прочитанную информацию.

In [None]:
f = open('test.txt')  # 'rt'
print(f.read())

# обязательно закрываем файл
f.close()

This is a test string



In [None]:
f = open('test.txt', 'w', encoding="utf-8")
f.write("Hello, Русский текст\n")
f.close()

f = open('test.txt')
print(f.read())

Hello, Русский текст



### Чтение и запись построчно
Зачастую с файлами удобнее работать построчно,  
поэтому для этого есть отдельные методы

In [None]:
f = open('test.txt', 'a', encoding='utf8')  # открываем файл на дозапись

sequence = ["other string\n", "123\n", "test test\n"]
f.writelines(sequence) # берет строки из sequence и записывает в файл (без переносов)

f.close()

Метод `f.writelines(sequence)` не будет сам за вас дозаписывать  
символ конца строки (`"\n"`).  
Поэтому при необходимости его нужно записывать вручную.  

Попробуем теперь построчно считать файл.

In [None]:
f = open('test.txt', 'r', encoding='utf8')

print(f.readlines())  # считывает все строки в список и возвращает список

f.close()

['Hello, Русский текст\n', 'other string\n', '123\n', 'test test\n']


Объект файл является **итератором**, поэтому его можно использовать в цикле `for`.  
На каждом шаге возвращается новая строка.

In [None]:
f = open('test.txt') # можно перечислять строки в файле
for line in f:
    print(line.rstrip())  # rstrip или использовать print(line, end='')

f.close()

Hello, Русский текст
other string
123
test test


---
### Менеджер контекста with
После работы с файлом его нужно освободить с помощью метода `close()`.

Обработчик данного файла освобождается для операционной системы  
(если файл был открыт для записи) и другие приложения могут получать к нему доступ.

Если не закрыть – будет висеть, пока не закроете Python или  
сборщик мусора (garbage collector) не решит удалить его.

Для явного указания места работы с файлом, а также чтобы не забывать  
закрыть файл после обработки, существует менеджер контекста `with`.  

В блоке менеджера контекста открытый файл «жив» и с ним можно работать,  
при выходе из блока – файл закрывается.

Блок `with` сокращает запись при работе с блоком try-except
```python
try:
    f = open(...)  # открываем файл
    ...  # работаем с файлом
except Exception:  # вдруг возникнет какая-то ошибка
    ...
finally:
    f.close()  # файл закроется в любом случае и не потеряем буферизированные данные
```

```python
with open(...) as f:  # открываем файл
    ...  # работаем с файлом
```

Менеджер контекста неявно вызывает закрытие файла после работы.  
Что освобождает вас от забот о том, закрыли ли вы файл или нет.  

Закрытие файла происходит при любом стечении обстоятельств,  
даже если внутри `with` будет ошибка.

In [None]:
with open('test.txt') as f:
    for line in f:
        print(line.rstrip())

Hello, Русский текст
other string
123
test test


In [None]:
# копирование содержимого файла
with open("test.txt", 'r') as f_src:
    with open("test_new.txt", "w") as f_dst:
        for line in f_src:
            f_dst.write(line)

## Работа с файловой системой

Модуль `os` предоставляет множество функций для работы с операционной системой,  
причём их поведение, как правило, не зависит от ОС, поэтому  
программы остаются переносимыми.

Рассмотрим наиболее часто используемые из них.

Для начала нужно импортировать модуль `os`

In [None]:
import os

In [None]:
# Выведем имя операционной системы
os.name

'posix'

### Абсолютный и относительный путь

Абсолютный путь показывает точное местонахождение файла,  
а относительный показывает путь к файлу относительно какой-либо "отправной точки".

Linux:
- /home/user/docs/Letter.txt - абсолютный путь
- user/docs/Letter.txt - относительный путь

Windows:
- C:\user\docs\Letter.txt - абсолютный путь
- user\docs\Letter.txt - относительный путь  

Примечание:  
В windows системе в качестве разделителя так же можно использовать `/`

#### Текущая рабочая директория `os.getcwd()`

С помощью команды `os.getcwd()` можно получить текущую рабочую папку (директорию).

In [None]:
os.getcwd()

'/content'

С помощью функции `os.listdir()` можно получить весь список файлов,  
находящихся в директории.  

По умолчанию в текущей директории.

In [None]:
# список файлов и директорий в папке
os.listdir()

['.config',
 'test.txt',
 'russian.json',
 'russian_ensure_ascii.json',
 'test_new.txt',
 'sample_data']

In [None]:
# список файлов и директорий в другой директории отличной от текущей
os.listdir("/content")  # абсолютный путь

['.config',
 'test.txt',
 'russian.json',
 'russian_ensure_ascii.json',
 'test_new.txt',
 'sample_data']

In [None]:
# список файлов и директорий в другой директории отличной от текущей
os.listdir("sample_data")  # относительный путь

['anscombe.json',
 'README.md',
 'mnist_train_small.csv',
 'california_housing_test.csv',
 'mnist_test.csv',
 'california_housing_train.csv']

#### Работа с путями `os.path.join`

Для того чтобы склеивать пути следует использовать функцию `os.path.join`

In [None]:
import os

absolute_path = os.path.join("/content", "sample_data")  # абсолютный путь

print(absolute_path)  # /content/sample_data
print(os.path.exists(absolute_path))  # True

/content/sample_data
True


In [None]:
relative_path = os.path.join("sample_data", "mnist_test.csv")  # относительный путь

print(relative_path)  # sample_data/mnist_test.csv
print(os.path.exists(relative_path))  # True

sample_data/mnist_test.csv
True


Функция `os.chdir()` позволяет нам изменить директорию,  
который мы в данный момент используем.  


In [None]:
BASE_DIR = "/content"
relative_path = os.path.join("sample_data", "mnist_test.csv")  # относительный путей

os.chdir(BASE_DIR)  # сменили текущую рабочую директорию

print(os.path.exists(relative_path))  # True
print(os.path.exists(os.path.join(BASE_DIR, relative_path)))  # True

True
True


### Создание, перемещение и удаление файлов и папок

#### Создание папок

In [None]:
BASE_DIR = "/content"
src_tmp_folder = os.path.join(BASE_DIR, "src_tmp_folder")
os.mkdir(src_tmp_folder)

In [None]:
dst_tmp_folder = os.path.join(BASE_DIR, "dst_tmp_folder", "inside_folder")
os.makedirs(dst_tmp_folder)

#### Перемещение файлов и папок

Для того чтобы переместить файл необходимо воспользоваться  
функцией `os.rename()`, которая принимает откуда и куда надо переместить файл.

In [None]:
src = os.path.join("/content/src_tmp_folder", "tmp_file.txt")
dst = os.path.join("/content/dst_tmp_folder/inside_folder", "tmp_file.txt")

with open(src, "w") as f:
    f.write("test\n")

os.rename(src, dst)

Для того чтобы переместить папку со всем её содержимым,  
необходимо воспользоваться модулем `shutil` и функцией `shutil.move()`

In [None]:
import shutil

shutil.move("/content/src_tmp_folder", "/content/dst_tmp_folder/inside_folder")

'/content/dst_tmp_folder/inside_folder/src_tmp_folder'

#### Обход содержимого папки. `os.walk()`

Для того чтобы обойти все папки и посмотреть их содержимое,  
в модуле `os` есть функция `os.walk()`

In [None]:
dir = "/content/dst_tmp_folder"
for root, dirs, files in os.walk(dir):
    print("Текущая директория", root)
    print("---")

    if dirs:
        print("Список папок", dirs)
    else:
        print("Папок нет")
    print("---")

    if files:
        print("Список файлов", files)
    else:
        print("Файлов нет")
    print("---")

    if files and dirs:
        print("Все пути:")
    for f in files:
        print("Файл ", os.path.join(root, f))
    for d in dirs:
        print("Папка ", os.path.join(root, d))
    print("===")

Текущая директория /content/dst_tmp_folder
---
Список папок ['inside_folder']
---
Файлов нет
---
Папка  /content/dst_tmp_folder/inside_folder
===
Текущая директория /content/dst_tmp_folder/inside_folder
---
Список папок ['src_tmp_folder']
---
Список файлов ['tmp_file.txt']
---
Все пути:
Файл  /content/dst_tmp_folder/inside_folder/tmp_file.txt
Папка  /content/dst_tmp_folder/inside_folder/src_tmp_folder
===
Текущая директория /content/dst_tmp_folder/inside_folder/src_tmp_folder
---
Папок нет
---
Файлов нет
---
===


#### Удаление файлов и папок

Для того чтобы удалить файл есть функция `os.remove()`.  
А вот функция `os.rmdir()` удаляет директорию но только пустую.


In [None]:
os.remove("/content/dst_tmp_folder/inside_folder/tmp_file.txt")  # удаляем файл
os.rmdir("/content/dst_tmp_folder/inside_folder/src_tmp_folder")  # удаляем пустую папку


**Будте очень осторожны, используя данную фукцию!!!**  
`shutil.rmtree(path)` Удаляет текущую директорию (path)  
и все поддиректории c их содержимым

In [None]:
import shutil

shutil.rmtree("/content/dst_tmp_folder")  # удаляем папку с содержимым

### Временные файлы и папки

Иногда бывают необходимы временные папки или файлы.  
Чтобы вручную не очищать за собой временныые файлы и папки,  
лучше использовать встроенные модуль [tempfile](https://docs.python.org/3/library/tempfile.html)

```python
import tempfile

# создание временного файла
with tempfile.TemporaryFile() as fp:
    ...

# создание временной папки
with tempfile.TemporaryDirectory() as tmpdirname:
    print('created temporary directory', tmpdirname)
```

## Сериализация данных

**Сериализация** – процесс перевода какой-либо структуры данных в другой  формат,  
более удобный для хранения и/или передачи.  

Основная задача сериализации – эффективно (т.е. обычно с наименьшим размером)  
сохранить или передать данные, при условии, что их можно десериализовать в исходные.  

![https://app.diagrams.net/#G1hW2mNoQfq5Y49n2TOazzJNmAxIg7WwGz](https://drive.google.com/uc?id=1hW2mNoQfq5Y49n2TOazzJNmAxIg7WwGz)

### JSON


**JSON** – JavaScript Object Notation – текстовый формат обмена данными.  

Легко читаем людьми, однозначно записывает данные, подходит для  
сериализации сложных структур. Много используется в вебе.

Пример JSON:
```JavaScript
{
    "firstName": "Иван",
    "lastName": "Иванов",
    "address": {
        "streetAddress": "Московское ш., 101, кв.101",
        "city": "Ленинград",
        "postalCode": "101101“
    },
    "phoneNumbers": ["812 123-1234", "916 123-4567“]
}
```

**Преимущества**:
- Человекочитаем – легко проверять данные и находить ошибки в реализации
- Текстовый формат
- Лаконичен
- Широко распространен

**Недостатки**:
- Поддерживает ограниченное число типов данных (числа, строки, Boolean, None, list, dict)
- Нельзя задать рекурсивные структуры


---
JSON – формат сплошь и рядом используемый в веб-технологиях.   
Для работы с ним в python используется модуль `json`.


In [None]:
# импортируем модуль JSON
import json

Основные методы:
- `json.dumps(obj)` – сериализует python объект в строку формата JSON
- `json.loads(str)` – десериализует строку формата JSON в объект языка Python  
(выдает `ValueError`, если строка неверная)



#### Сериализация

Процесс, при котором берется python объект,  
а на выходе получается строка формата json

In [None]:
# Сериализуем Python объект в json строку
json.dumps([1, 2, 3, {'4': 5, '6': 7}])

'[1, 2, 3, {"4": 5, "6": 7}]'

In [None]:
# вывод в читабельном формате
print(json.dumps([1, 2, 3, {'4': 5, '6': 7}], indent=4))  # indent - задает дополнительные отступы

[
    1,
    2,
    3,
    {
        "4": 5,
        "6": 7
    }
]


In [None]:
# json по умолчанию "не дружит" с русскими текстами
print(json.dumps({"english text": "русский текст"}))

{"english text": "\u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u0442\u0435\u043a\u0441\u0442"}


In [None]:
print(
    json.dumps(
        {"english text": "русский текст"},
        ensure_ascii=False) # флаг ensure_ascii дает ожидаемый вид текста
)

{"english text": "русский текст"}


In [None]:
print(json.dumps(
    {"english text": "русский текст"},
    ensure_ascii=False,
    indent=4) # флаг ensure_ascii дает ожидаемый вид текста
)

{
    "english text": "русский текст"
}


#### Десериализация

Процесс обратный сериализации, при котором берется строка json формата,  
а на выходе получается объект python.  

Имейте ввиду результат десериализации не всегда эквивалентен исходному объекту.

In [None]:
def check_code_decode_json(src):
    json_str = json.dumps(src)
    python_obj = json.loads(json_str)

    print('Исходный python объект:', repr(src))
    print('json строка при сериализации:', repr(json_str))
    print('python объект при десериализации', repr(python_obj))

    return src == python_obj

In [None]:
src = [1, 2, 3, {"4": 5, '6': 7}]
print(check_code_decode_json(src))

Исходный python объект: [1, 2, 3, {'4': 5, '6': 7}]
json строка при сериализации: '[1, 2, 3, {"4": 5, "6": 7}]'
python объект при десериализации [1, 2, 3, {'4': 5, '6': 7}]
True


In [None]:
# использование tuple
src = [(1, 2, 3)]
print(check_code_decode_json(src))

Исходный python объект: [(1, 2, 3)]
json строка при сериализации: '[[1, 2, 3]]'
python объект при десериализации [[1, 2, 3]]
False


In [None]:
# в json ключи приводятся к строке, а в неявном виде не десериализуется назад
src = [{4: 5, 6: 7}]
check_code_decode_json(src)

Исходный python объект: [{4: 5, 6: 7}]
json строка при сериализации: '[{"4": 5, "6": 7}]'
python объект при десериализации [{'4': 5, '6': 7}]


False

#### Dump и load. JSON файлы

Не путайте `dumps` с `dump`, а `loads` с `load`!  
Последние функции предназначены для работы с каким-либо  
источником, например файлом

In [None]:
from pprint import pprint

file_path = "/content/sample_data/anscombe.json"
with open(file_path) as f:
    data = json.load(f)

pprint(data)  # выгрузили список словарей

[{'Series': 'I', 'X': 10.0, 'Y': 8.04},
 {'Series': 'I', 'X': 8.0, 'Y': 6.95},
 {'Series': 'I', 'X': 13.0, 'Y': 7.58},
 {'Series': 'I', 'X': 9.0, 'Y': 8.81},
 {'Series': 'I', 'X': 11.0, 'Y': 8.33},
 {'Series': 'I', 'X': 14.0, 'Y': 9.96},
 {'Series': 'I', 'X': 6.0, 'Y': 7.24},
 {'Series': 'I', 'X': 4.0, 'Y': 4.26},
 {'Series': 'I', 'X': 12.0, 'Y': 10.84},
 {'Series': 'I', 'X': 7.0, 'Y': 4.81},
 {'Series': 'I', 'X': 5.0, 'Y': 5.68},
 {'Series': 'II', 'X': 10.0, 'Y': 9.14},
 {'Series': 'II', 'X': 8.0, 'Y': 8.14},
 {'Series': 'II', 'X': 13.0, 'Y': 8.74},
 {'Series': 'II', 'X': 9.0, 'Y': 8.77},
 {'Series': 'II', 'X': 11.0, 'Y': 9.26},
 {'Series': 'II', 'X': 14.0, 'Y': 8.1},
 {'Series': 'II', 'X': 6.0, 'Y': 6.13},
 {'Series': 'II', 'X': 4.0, 'Y': 3.1},
 {'Series': 'II', 'X': 12.0, 'Y': 9.13},
 {'Series': 'II', 'X': 7.0, 'Y': 7.26},
 {'Series': 'II', 'X': 5.0, 'Y': 4.74},
 {'Series': 'III', 'X': 10.0, 'Y': 7.46},
 {'Series': 'III', 'X': 8.0, 'Y': 6.77},
 {'Series': 'III', 'X': 13.0, 'Y': 12.7

In [None]:
print(json.dumps(data[:5], indent=4))

[
    {
        "Series": "I",
        "X": 10.0,
        "Y": 8.04
    },
    {
        "Series": "I",
        "X": 8.0,
        "Y": 6.95
    },
    {
        "Series": "I",
        "X": 13.0,
        "Y": 7.58
    },
    {
        "Series": "I",
        "X": 9.0,
        "Y": 8.81
    },
    {
        "Series": "I",
        "X": 11.0,
        "Y": 8.33
    }
]


In [None]:
russian_data = {
    "Фамилия": "Петров",
    "Имя": "Петр",
}

filename = "russian.json"
with open(filename, "w") as f:
    json.dump(russian_data, f)


filename = "russian_ensure_ascii.json"
with open(filename, "w", encoding="utf8") as f:
    json.dump(russian_data, f, ensure_ascii=False)

### Pickle

Сериализация в JSON полезна в мире веба, если вам нужно что-то сохранить  
на диск – можно использовать бинарную сериализацию.

Самый популярный модуль для бинарной сериализации – `Pickle`.

Сохраняет объекты в бинарный формат, который потом можно восстановить  
при другом запуске или на другом устройстве.

По умолчанию в Python3 `pickle` версии – 3.


Внутри модуля реализовано всего несколько методов:
- `pickle.dump(obj, file)` – сохраняет объект **obj** в файл **file**
- `pickle.dumps(obj)` – сериализует объект и возвращает набор байт (для передачи по сети, например)
- `pickle.load(file)` – читает файл и восстанавливает объект из файла
- `pickle.loads(bytes_object)` – читает последовательность байт и восстанавливает по ним объект


Что можно «запиклить»?
- None, True, False
- целые, дробные и комплексные числа
- строки, байты, байт-массивы
- кортежи, списки, множества и словари, содержащие только "picklable" объекты
- функции, определенные на верхнем уровне модуля (только используя `def`, не лямбда функции)
- встроенные функции языка Python, определенные на верхнем уровне модуля
- классы, определенные на верхнем уровеня модуля
- экземпляры таких классов, чей результат `__dict__` или `__getstate__()` – "picklable"


#### Pickle vs JSON


JSON – формат текстовой сериализации,  
а `pickle` – формат бинарной сериализации

JSON человекочитаем, а `pickle` – нет

JSON не привязан к языку и часто используется вне экосистемы языка Python,  
в то время как `pickle` специфичен для языка Python

JSON (по умолчанию) может сериализовывать только часть встроенных типов языка Python,  
`pickle` может сериализовывать множество различных типов объектов

Если вы хотите сохранять данные, которые потом будут обрабатывать  
на python – берите `pickle`.  
Передача данных в вебе – JSON (даже если на другой стороне  
тоже python и pickle доступен).

#### Не только Pickle


В языке Python существуют и другие способы сериализации:
- Если объект – `NumPy` массив, можно использовать  
`np.save`, `np.savetxt`, `np.savez`, `np.savez_compressed`

- Для хранения больших файлов (астрономические данные, веса больших нейронных сетей и т.д.)  
используется формат `HDF5`.  
Работа с такими файлами в Python осуществляется с помощью библиотеки `h5py`  
и методов `create_dataset`, `File` и т.д.

Многие модули имеют собственные методы для сериализации данных  
(часто на основе – pickle)

### CSV

CSV (от англ. Comma-Separated Values — значения, разделённые запятыми) —  
текстовый формат, предназначенный для представления табличных данных.

Формат CSV является наиболее часто используемым  
форматом экспорта электронных таблиц.

Файл CSV обычно имеет расширение **`.csv`**.

In [None]:
filepath = "/content/sample_data/california_housing_test.csv"
with open(filepath) as f:
    for _ in range(5):
        print(repr(f.readline()))

'"longitude","latitude","housing_median_age","total_rooms","total_bedrooms","population","households","median_income","median_house_value"\n'
'-122.050000,37.370000,27.000000,3885.000000,661.000000,1537.000000,606.000000,6.608500,344700.000000\n'
'-118.300000,34.260000,43.000000,1510.000000,310.000000,809.000000,277.000000,3.599000,176500.000000\n'
'-117.810000,33.780000,27.000000,3589.000000,507.000000,1484.000000,495.000000,5.793400,270500.000000\n'
'-118.360000,33.820000,28.000000,67.000000,15.000000,49.000000,11.000000,6.135900,330000.000000\n'


In [None]:
import csv

filepath = "/content/sample_data/california_housing_test.csv"

with open(filepath) as f:
    lines = [line for line in csv.reader(f)]
    for line in lines[:5]:
        print(line)

['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value']
['-122.050000', '37.370000', '27.000000', '3885.000000', '661.000000', '1537.000000', '606.000000', '6.608500', '344700.000000']
['-118.300000', '34.260000', '43.000000', '1510.000000', '310.000000', '809.000000', '277.000000', '3.599000', '176500.000000']
['-117.810000', '33.780000', '27.000000', '3589.000000', '507.000000', '1484.000000', '495.000000', '5.793400', '270500.000000']
['-118.360000', '33.820000', '28.000000', '67.000000', '15.000000', '49.000000', '11.000000', '6.135900', '330000.000000']


In [None]:
filepath = "/content/sample_data/california_housing_test.csv"
with open(filepath) as f:
    lines = [line for line in csv.DictReader(f)]
    for line in lines[:5]:
        print(line)

OrderedDict([('longitude', '-122.050000'), ('latitude', '37.370000'), ('housing_median_age', '27.000000'), ('total_rooms', '3885.000000'), ('total_bedrooms', '661.000000'), ('population', '1537.000000'), ('households', '606.000000'), ('median_income', '6.608500'), ('median_house_value', '344700.000000')])
OrderedDict([('longitude', '-118.300000'), ('latitude', '34.260000'), ('housing_median_age', '43.000000'), ('total_rooms', '1510.000000'), ('total_bedrooms', '310.000000'), ('population', '809.000000'), ('households', '277.000000'), ('median_income', '3.599000'), ('median_house_value', '176500.000000')])
OrderedDict([('longitude', '-117.810000'), ('latitude', '33.780000'), ('housing_median_age', '27.000000'), ('total_rooms', '3589.000000'), ('total_bedrooms', '507.000000'), ('population', '1484.000000'), ('households', '495.000000'), ('median_income', '5.793400'), ('median_house_value', '270500.000000')])
OrderedDict([('longitude', '-118.360000'), ('latitude', '33.820000'), ('housing_

### YAML

YAML (YAML Ain’t Markup Language) - еще один текстовый формат для записи данных.

YAML более приятен для восприятия человеком, чем JSON,  
поэтому его часто используют для описания сценариев в ПО, например Docker-compose.

Список

Список может быть записан в одну строку:

```yaml
[item1, item2, item3]
```

Или каждый элемент списка в своей строке:

```yaml
- item1
- item2
- item3
```
Когда список записан таким блоком, каждая строка должна начинаться с - (минуса и пробела),  
и все строки в списке должны быть на одном уровне отступа.

Словарь

Словарь также может быть записан в одну строку:

```yaml
{ name: Петр, surname: Петров }
```
Или блоком:

```yaml
name: Петр
surname: Петров
```


Список словарей:

```yaml
- name: Петр
  surname: Петров
- name: Иван
  surname: Иванов
- name: Вася
  surname: Пупкин
```

### XML

XML - расширяемый язык разметки.

Основной идеей является использование разметки данных с помощью тегов.  
Тег — это некий текст, обернутый в угловые скобки
```xml
<Название тега> Содержимое тега </Название тега>
```

Пример:
```xml
<person>
    <name>Вася</name>
    <surname>Пупкин</surname>
</person>
```

## Анонимные lambda-функции.


### Создание анонимных lambda-функций.

Lambda функции в большинстве своем предназначены для выполнения  
каких-либо одноразовых действий и после свое выполенения они сразу удаляются.  

Lambda функции ещё называют анонимными функциями.  
Объявляются они по ключевому слову `lambda`.

lambda функции могут содержать в себе только  
одну инструкцию (выражение), которую они выполняют

```python
lambda arg1, arg2, ...: pass
```

```python
# эти две функции выполняют одно и тоже складывают два числа
def my_function(x1, x2):  # Обычная функция
    return x2 + x1

lambda x1, x2: x2 + x1  # Lambda функция
```

Поэтому [не следует](https://www.python.org/dev/peps/pep-0008/#programming-recommendations) присваивать lambda функцию  
какой-то переменной что-бы повторно использовать её.  
Во время трассировки программы вам будет сложно понять,  
где искать функцию, чтобы проверить, что она выполняет.

```python
lambda_function = lambda x1, x2: x2 + x1  # Неверное оформление из-за присваивая
```

In [None]:
def my_function(x1, x2):  # Обычная функция
    return x2 + x1

# именованая функция
print(my_function)

<function my_function at 0x7f8069070680>


In [None]:
# анонимная функция тип function
lambda x1, x2: x2 + x1

<function __main__.<lambda>>

In [None]:
# вторая анонимная функция
lambda x1, x2: x2 * x1

<function __main__.<lambda>>

### Применение анонимных lambda-функций.

##### ***Задача***

Дан словарь учеников.  
Отсортировать учеников по возрасту.  


In [None]:
students_dict = {
    'Саша': 27,
    'Кирилл': 52,
    'Маша': 14,
    'Петя': 36,
    'Оля': 43,
}

print(sorted(students_dict))

['Кирилл', 'Маша', 'Оля', 'Петя', 'Саша']


In [None]:
# По умолчанию, словать сортируется по ключам
print(dict(sorted(students_dict.items())))  # {'Кирилл': 52, 'Маша': 14, 'Оля': 43, 'Петя': 36, 'Саша': 27}

{'Кирилл': 52, 'Маша': 14, 'Оля': 43, 'Петя': 36, 'Саша': 27}


А вот чтобы отсортировать по значениям, нужно указать,  
что сортировать нужно по второму значению из каждого пары ключ-значение.  

Тут на помощь как раз приходят lambda функции.  
У встроенной функции `sortred()` можно задать аргумент *key*,  
который укажет, по какому ключу нужно производить сортировку

In [None]:
print(dict(sorted(students_dict.items(), key=lambda x: x[1])))  # {'Кирилл': 52, 'Маша': 14, 'Оля': 43, 'Петя': 36, 'Саша': 27}

{'Маша': 14, 'Саша': 27, 'Петя': 36, 'Оля': 43, 'Кирилл': 52}


##### ***Задача.***
Дан список с данными о росте и весе людей.  
Отсортировать их по [индексу](https://www.adme.ru/svoboda-sdelaj-sam/professionalnye-tablicy-sootnosheniya-vesa-i-rosta-996960/) массы тела.  
Он вычисляется по формуле:  

$$\frac{Вес\ тела\ в\ киллограммах}{Рост\ в\ метрах * Рост\ в\ метрах}$$

In [None]:
data = [
    (82, 191),
    (68, 174),
    (90, 189),
    (73, 179),
    (76, 184)
]

print(sorted([x[0] / x[1] ** 2 for x in data]))  # высчитываем индексы, но теряем исходные данные

print(sorted(data, key=lambda x: x[0] / x[1] ** 2))  # сортируем данные по ключевой функции

[0.0022448015122873348, 0.002246003435064077, 0.002247745401715962, 0.0022783308885490467, 0.0025195263290501385]
[(76, 184), (68, 174), (82, 191), (73, 179), (90, 189)]


##### ***Задача***

Дан словарь учеников.  
Найти самого минимального ученика по возрасту.  


In [None]:
students_list = [
    {
        "name": "Саша",
        "age": 27,
    },
    {
        "name": "Кирилл",
        "age": 52,
    },
    {
        "name": "Маша",
        "age": 14,
    },
    {
        "name": "Петя",
        "age": 36,
    },
    {
        "name": "Оля",
        "age": 43,
    },
]

print(min(students_list, key=lambda item: item["age"]))  # {'name': 'Маша', 'age': 14}

{'name': 'Маша', 'age': 14}


## Запаковка и распаковка множественных значений.



In [None]:
a, b = 1, 2
print(a)  # 1
print(b)  # 2

1
2


In [None]:
tuple_ = 1, 2
print(tuple_)  # (1, 2)

(1, 2)


Оператор `*` запаковывает множественные значения.  


In [None]:
tuple_ = 1, 2, 3, 4, 5
first_value, *last_values = tuple_

print(first_value)  # 1
print(last_values)  # [2, 3, 4, 5]

1
[2, 3, 4, 5]


In [None]:
tuple_ = 1, 2, 3, 4, 5
*first_values, last_value = tuple_

print(first_values)  # [1, 2, 3, 4]
print(last_value)  # 5

[1, 2, 3, 4]
5


In [None]:
tuple_ = 1, 2, 3, 4, 5
first_value, *middle_values, last_value = tuple_

print(first_value)
print(middle_values)
print(last_value)

1
[2, 3, 4]
5


In [None]:
tuple_ = (1,)
first_value, *last_values = tuple_

print(first_value)  # 1
print(last_values)  # []

1
[]


Также оператор `*` может распаковывать множественные значения.  


In [None]:
values = [1, 2, 3]

print(values)  # [1, 2, 3]
print(*values)  # 1 2 3

[1, 2, 3]
1 2 3


### args и kwargs

Существует два типа параметров функции

- позиционные - *args — это сокращение от arguments (аргументы)
- именованные - **kwargs — это сокращение от keyword arguments (именованные аргументы)

In [None]:
def print_args(*args):
    print(type(args), args)

print_args()
print_args(1)
print_args(1, 2, 3)

<class 'tuple'> ()
<class 'tuple'> (1,)
<class 'tuple'> (1, 2, 3)


In [None]:
def print_kwargs(**kwargs):
    print(type(kwargs), kwargs)

print_kwargs()
print_kwargs(kwarg1="kwarg1")
print_kwargs(kwarg1="kwarg1", kwarg2="kwarg2")

<class 'dict'> {}
<class 'dict'> {'kwarg1': 'kwarg1'}
<class 'dict'> {'kwarg1': 'kwarg1', 'kwarg2': 'kwarg2'}


In [None]:
def print_args_kwargs(*args, **kwargs):
    for index, arg in enumerate(args):
        print(f"Позиционный аргумент {index}: {arg}")

    for key, kwarg in kwargs.items():
        print(f"Именованный аргумент {key}: {kwarg}")

print_args_kwargs(1, 2, 3, kwarg1="kwarg1", kwarg2="kwarg2")

Позиционный аргумент 0: 1
Позиционный аргумент 1: 2
Позиционный аргумент 2: 3
Именованный аргумент kwarg1: kwarg1
Именованный аргумент kwarg2: kwarg2


Для дополнительного изучения,  
можно воспользоваться следующим [материалом](https://habr.com/ru/company/ruvds/blog/482464/)

##### ***Задача.***

Найти средний балл студента.  
Имя студента является обзательный аргументом,  
количетво оценок может быть переменной длины.

In [None]:
from typing import Tuple


def calc_mean_grade(student: str, *grades: Tuple[float, ...]):  # Tuple[float, ...] - кортеж чисел произвольной длины
   print(f"Студент: {student}")
   print(f"Средний балл: {sum(grades) / len(grades)}")


calc_mean_grade("Вася", 100, 95, 88, 92, 99)
calc_mean_grade("Петя", 92, 95, 99, 88)

Студент: Вася
Средний балл: 94.8
Студент: Петя
Средний балл: 93.5


##### ***Задача.***

Распечатать информацию о студенте.


In [None]:
def print_student_info(name: str, grade: float):
   print(f"Студент:     {name}")
   print(f"Оценка балл: {grade}")


student_dict = {
    "name": "Вася Пупкин",
    "grade": 97.5,
}
print_student_info(**student_dict)  # словарь распакуется в именованные аргументы

Студент:     Вася Пупкин
Оценка балл: 97.5
