# Лекция 3: Работа с файлами данных

__Автор: Сергей Вячеславович Макрушин, 2022 г.__

e-mail: s-makrushin@yandex.ru 

V 0.5 22.09.2022

## Разделы: <a class="anchor" id="разделы"></a>
* [Работа с файлами](#файлы)
    * [Работа с файловой системой](#файловая_система)
    * [Передача файлов по сети](#посети)
* [Типы файлов ](#типы_файлов)
    * [Работа с текстовыми файлами](#текстовые_файлы)
        * [Unicode](#юникод)        
    * [Работа с бинарными файлами](#бинарные)    
* [Сериализация и обмен данными](#сериализация)
    * [Формат Pickle](#pickle)
    * [Формат JSON ](#json)
    * [Формат XML ](#xml)
    * [Работа с XML](#работа-xml)

-

In [161]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v2.css")
HTML(html.read().decode('utf-8'))

# Файлы <a class="anchor" id="файлы"></a>
* [к оглавлению](#разделы)

## Работа с файловой системой <a class="anchor" id="файловая_система"></a>
* [к оглавлению](#разделы)

__Файл__

<em class="df"></em> __Файл__ - именованная область данных на носителе информации. Работа с файлами реализуется средствами операционных систем.

<center>         
    <img src="./img/L4_os_layers.png" alt="Роль операционной системы" style="width: 200px;"/>
    <b>Роль операционной системы</b>
</center>

* Операционная система предоставляет приложениям набор функций и структур (API) для работы с файлами.
* Использования API абстрагирует пользователя (программу) от специфики хранения файла:
    * Существует ли файл как __объект файловой системы__ или является, например, __устройством ввода-вывода__ 
    * В какой __файловой системе__ хранится файл: зачастую операционная система позволяет работать с несколькими видами файловых систем, которые предоставляют единый базовый API для прикладной работы с файлами.
    * На каком __физическом носителе__ хранится файл, например: файл может храниться на жестком диске или в оперативной памяти компьютера или на удаленном компьютере.



Про базовые операции работы с файлами см. Лекцию 5 курса Алгоритмы и структуры данных в языке программирования Python, часть 2: "Работа с файлами".

__Файловая система__

* <em class="df"></em> __Файловая система__ - порядок, определяющий способ организации, хранения и именования данных на носителях информации в компьютерах. Файловая система связывает носитель информации с одной стороны и API для доступа к файлам — с другой. 
* Файловая система не обязательно напрямую связана с физическим носителем информации. 
    * Существуют __виртуальные файловые системы__
    * Существуют __сетевые файловые системы__, которые являются лишь способом доступа к файлам, находящимся на удалённом компьютере.

<center>         
    <img src="./img/L4_The_File_System_Layer.jpg" alt="Уровни взаимодействия с файлами" style="width: 500px;"/>
    <b>Уровни взаимодействия с файлами</b>
</center>

Базовые работы с файловой системой в Python:

In [162]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : EE2C-D1DD

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\TOBD_2022\03_data_files\lec

21.09.2022  06:52    <DIR>          .
21.09.2022  05:40    <DIR>          ..
21.09.2022  06:44    <DIR>          .ipynb_checkpoints
28.09.2021  15:46               463 addres-book.json
28.09.2021  15:46               517 addres-book.xml
28.09.2021  15:46             2я471 addres-book-q.xml
19.09.2022  15:53               762 changes.txt
28.09.2021  15:46                34 dat1.pickle
28.09.2021  15:46                51 dat2.pickle
21.09.2022  06:23    <DIR>          img
15.03.2021  09:29             2я835 lec_v2.css
21.09.2022  06:34                47 lec03_example.txt
28.09.2021  15:46               529 shl_1.dat
16.12.2021  15:15           117я836 TOBD_lec_03_data_files_v2.ipynb
22.03.2022  10:04           119я011 TOBD_lec_03_data_files_v2-Copy1 (2).ipynb
21.09.2022  06:52           197я418 TOBD_lec_03_data_files_v4.ipynb
21.09.2022  06:42   

In [163]:
# базовый модуль для работы с функциями опреационной системы, в т.ч. работы с файловой системой:
import os
# модуль реализующий функцияии работы с путями в файловой системе:
import os.path

In [164]:
# получние текущией рабочей директории:
cwd = os.getcwd()
cwd

'E:\\YandexDisk\\Python\\Ipynb\\TOBD_2022\\03_data_files\\lec'

In [167]:
# изменение текущей директории:
os.chdir('..') # поднимаемся на одну директорию вверх
cwd2 = os.getcwd()
cwd2

'E:\\YandexDisk\\Python\\Ipynb\\TOBD_2022'

In [168]:
# типичная задача, получение списка директорий по опредленному пути:
from os import listdir
from os.path import isfile, join

# listdir - (ls) получение содержимого директории
# isfile -  проверка, является ли объект файлом или директорией
# join - корректный (инвариантный относительно ОС) способ конкатенации пути к файлу и имени файла:
onlyfiles = [f for f in listdir(cwd2) if isfile(join(cwd2, f))]
onlyfiles

['addres-book.json',
 'L1_python_st.png',
 'pwd.txt',
 'tmp2.txt',
 'tobd_im.jpg',
 'TOBD_yt_.png',
 '~$Темы ТОБД_в2.xlsx',
 'Визуал_v2.pptx',
 'Нагрузка галактика 30.08.xlsx',
 'Нагрузка галактика 30.08_в2.xlsx',
 'ППС и Штатное расписание 2021-2022_ВЕРСИЯ август.xlsx',
 'РПД_ТОБД_ПИ_2021_в6.docx',
 'РПД_ТОБД_ПМ_2021_в6.docx',
 'Темы ТОБД.xlsx',
 'Темы ТОБД_в2.xlsx']

In [169]:
# рекурсивный обход дочерних директорий и файлов в них:
for root, dirs, files in os.walk(cwd2):
    print(f"{root}, dirs: {dirs}, files: {files}")

E:\YandexDisk\Python\Ipynb\TOBD_2022, dirs: ['01_numpy', '02_pandas', '03_data_files', 'TOBD22_for_students', 'TOBD22_for_teachers', 'TOBD22_MSV_sem', 'РПД'], files: ['addres-book.json', 'L1_python_st.png', 'pwd.txt', 'tmp2.txt', 'tobd_im.jpg', 'TOBD_yt_.png', '~$Темы ТОБД_в2.xlsx', 'Визуал_v2.pptx', 'Нагрузка галактика 30.08.xlsx', 'Нагрузка галактика 30.08_в2.xlsx', 'ППС и Штатное расписание 2021-2022_ВЕРСИЯ август.xlsx', 'РПД_ТОБД_ПИ_2021_в6.docx', 'РПД_ТОБД_ПМ_2021_в6.docx', 'Темы ТОБД.xlsx', 'Темы ТОБД_в2.xlsx']
E:\YandexDisk\Python\Ipynb\TOBD_2022\01_numpy, dirs: ['lec', 'sem', 'tests', 'video'], files: []
E:\YandexDisk\Python\Ipynb\TOBD_2022\01_numpy\lec, dirs: ['.ipynb_checkpoints', 'img'], files: ['ab_ndarr.npz', 'ab_ndarr.zip', 'a_ndarr.npy', 'b_s1.txt', 'b_s2.txt', 'lec_v1.css', 'lec_v2.css', 'TOBD20_lec_01_numpy_v8.pdf', 'TOBD20_lec_01_numpy_v9 - Jupyter Notebook_.pdf', 'TOBD20_lec_01_numpy_v9.ipynb', 'TOBD20_lec_01_numpy_v9.pdf', 'xx_ndarr.npz', 'Технический_v1.ipynb']
E:\

Полезные функции для работы с файловой системой:
* `os.getcwd()` - получение текущего пути
* `os.chdir()` - изменение текущего пути
* `os.mkdir()` - создание новой директории
* `os.rename()` - переименование директории
* `os.rmdir()` - удаление директории
* `os.walk()` - получение содержимого директории

---

## Передача файлов по сети <a class="anchor" id="посети"></a>
* [к оглавлению](#разделы)

__Передача файлов по сети__

* Имеются протоколы передачи данных, которые позволяют передавать файлы по сети, в частности: FTP, HTTP, WebDav.



__FTP__

__FTP (File Transfer Protocol)__ - протокол передачи файлов со специального файлового сервера на компьютер пользователя. FTP дает возможность абоненту обмениваться двоичными и текстовыми файлами с любым компьютером сети. Установив связь с удаленным компьютером, пользователь может скопировать файл с удаленного компьютера на свой или скопировать файл со своего компьютера на удаленный.

<center>         
    <img src="./img/L3_ftp.png" alt="Стек технологий Python для обработки данных и научных расчетов" style="width: 400px;"/>
    <b>Принцип использования протокола ftp</b>
</center>

__WebDav__

__HTTP (Hyper Text Transfer Protocol)__ - это протокол передачи гипертекста (HTML - файлов). Протокол HTTP используется при пересылке Web-страниц между компьютерами, подключенными к одной сети. 
    
__WebDav (Web Distribute Authoring and Resirping)__ - набор расширений и дополнений к протоколу HTTP, поддерживающих совместную работу пользователей над редактированием файлов и управление файлами на удаленных веб-серверах.
* Изначально целью создания DAV являлась: "разработка дополнений к протоколу HTTP, обеспечивающих свободное взаимодействие инструментов распределённой разработки веб-страниц, в соответствии с потребностями работы пользователей".
* Однако на практики кроме коллективной работы над веб-документами WebDAV стал применяеться в качестве __сетевой файловой системы, эффективной для работы в Интернете__.
    * способной обрабатывать файлы целиком
    * поддерживающей хорошую производительность в условиях окружения с высокой временной задержкой передачи информации

WebDAV широко применяется в качестве :
* протокола для доступа через Интернет и манипулирования содержимым систем документооборота. Ещё одной важной целью WebDAV 
* инструмента поддержки работы распределённых команд по разработке программного обеспечения и обработки данных.

WebDAV расширяет средствами записи информации возможности НTTP в качестве стандартного уровня доступа к широкому кругу хранилищ информации.

__Работа с облачным хранилищем через браузер__

Классический пример работы с облачным файловым хранлищем через браузер (на примере Облака mail.ru):

<center>         
    <img src="./img/L3_cloud_fs.png" alt="Стек технологий Python для обработки данных и научных расчетов" style="width: 550px;"/>
    <b>Интерфейс работы с облачным хранилищем в браузере</b>
</center>

__Подключение к облачному хранилищу через WebDav клиент__

Подключение к фалам, хранящимся в облачном хранилище, через протокол webdav на примере работы с сервисом Облако mail.ru ( https://cloud.mail.ru ).
Инструкция по подключению к облаку по протоколу WebDav: https://help.mail.ru/cloud_web/app/webdav (адрес для подключения сервиса: https://webdav.cloud.mail.ru).

<br/>
<center>         
    <img src="./img/L3_cloud_fs_mount.png" alt="Стек технологий Python для обработки данных и научных расчетов" style="width: 550px;"/>
    <b>Работа с облачным хранилищем через клиент WebDav (встроенный в MS Windows)</b>
</center>

In [29]:
# Установка библиотеки доступа по WebDav в Python:
!pip install webdavclient3

Collecting webdavclient3
  Downloading webdavclient3-3.14.6.tar.gz (23 kB)
Building wheels for collected packages: webdavclient3
  Building wheel for webdavclient3 (setup.py): started
  Building wheel for webdavclient3 (setup.py): finished with status 'done'
  Created wheel for webdavclient3: filename=webdavclient3-3.14.6-py3-none-any.whl size=20888 sha256=9bf35b5a377912415a85cc8c9e8c86d329c93880b3e8d77978f8716a7380defb
  Stored in directory: c:\users\alpha\appdata\local\pip\cache\wheels\ca\ab\bd\90226b06142d06812d0dfea66a04ad2f684490d03f3fb139a5
Successfully built webdavclient3
Installing collected packages: webdavclient3
Successfully installed webdavclient3-3.14.6


In [170]:
# импорт:
from webdav3.client import Client

In [171]:
# настраиваем параметры подключения:
options = {
 'webdav_hostname': "https://webdav.cloud.mail.ru",
 'webdav_login':    "svm_webdav@mail.ru",
 'webdav_password': "тут пароль"
}

In [172]:
cd E:\YandexDisk\Python\Ipynb\TOBD_2022\03_data_files\

E:\YandexDisk\Python\Ipynb\TOBD_2022\03_data_files


In [176]:
# Из соображений конфиденциальности читаем пароль из файла:
with open("pwd.txt", "r") as f: 
    for line in f:
        pwd = line

options['webdav_password'] = pwd        

In [177]:
client = Client(options)

In [178]:
# Получить содержимое папки
client.list('/my_cloud_data/')

['addres-book-q.xml', 'addres-book.json', 'contributors_sample.json']

In [179]:
# Скопировать папку удаленно в облаке (без скачивания на локальный компьютер):
client.copy(remote_path_from="/my_cloud_data", remote_path_to='/my_cloud_data2')

In [180]:
client.list('/my_cloud_data2/')

['addres-book-q.xml', 'addres-book.json', 'contributors_sample.json']

In [181]:
# Скачать файл на локальный компьютер:
client.download(remote_path='/my_cloud_data/addres-book.json', local_path='addres-book.json')

In [182]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : EE2C-D1DD

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\TOBD_2022\03_data_files

21.09.2022  07:35    <DIR>          .
19.09.2022  13:19    <DIR>          ..
21.09.2022  07:36               463 addres-book.json
21.09.2022  07:34    <DIR>          lec
19.09.2022  13:13                20 pwd.txt
16.09.2022  11:20    <DIR>          sem
               2 д ©«®ў            483 Ў ©в
               4 Ї Ї®Є  83я978я788я864 Ў ©в бў®Ў®¤­®


In [183]:
# Загрузить файл с локального компьютера в облако
client.upload(remote_path='/addres-book2.json', local_path='addres-book.json')

In [184]:
client.list('/')

['addres-book2.json', 'my_cloud_data/', 'my_cloud_data2/']

# Типы файлов <a class="anchor" id="типы_файлов"></a>
* [к оглавлению](#разделы)

__Форматы файлов__

<em class="df"></em> __Формат файла__ - это стандартный способ организации информации для хранения в компьютерном файле. На уровне операционной системы файл, это всего лишь контейнер для данных, способ организации данных внутри файла определяется уже форматом файла, использованным для хранения информации. 
* Формат опредяет как данные кодируются в байты и как байты организуются в одномерный массив, в виде которого они хранятся в файле.
* Функционал по работе с файлами разных форматов (например их созданию из специализированных данных и чтению и использованию данных из них) реализуют специализированные программы, работающие поверх фйлового API операционной системы.
* Информация о формате файла является одним из видов метаданных.

<em class="df"></em> __Спецификация формата файла__ - подробное описание структуры файлов данного формата, то, как программы должны кодировать данные для записи в этот формат и как декодировать их при чтении.

Существуют:
* __"открытые" форматы файлов__ - имеют публично доступные спецификации, разработанные некоммерческими организациями и частными компаниями, разработчиками формата.
* __"закрытые" форматы файлов__ - организации разрабочики считают формат файла своей коммерческой тайной (например, старый формат файлов MS Office) или не считает нужным тратить время на написание подробной спецификации.
    * Обычно форматы файлов не защищены авторскими правами и "закрытые" форматы могут быть специфированные мтодами обратной разработкой (reverse engineering)

__Метаданные файлов__

<em class="df"></em> __Метаданные__ (metadata) - "данные о данных", или "информация о другой информации", или данные, относящиеся к дополнительной информации о содержимом или объекте. Можно выделить:
* описательные метаданные (descriptive metadata) - данные используемые для обнаружения или идентификации. Например: название, аннотация. К описательным метаданным можно отнести имя файла.
* структурные метаданные (structural metadata) - данные об организации данных. В частности: __формат файла__, версия формата данных.
* административные метаданные (administrative metadata) - информация которая помогает управлять ресурсом. Например: информация о правах доступа, времени с создания файла и времени последнего изменения.
* статистические метаданные (statistical metadata) - статистическая информация о данных.

На данный момент __нет единого подхода к хранению информации об формате файла__ и шире: о структурных метаданных и метаданных компьютерных файлов вообще. Возможны следующие варианты и их комбинации:
* __расширение файла__ - формат файла указанный в виде текстового обозначения в конце имени файла (после последней точки в имени файла). Существует большой список общеупотребимых расширений файлов: https://en.wikipedia.org/wiki/List_of_file_formats , при этом не все имена уникальны, а многи форматы имеют несколько альтернативных имен, например: `htm` и `html`.
* __внутренние метаданные__ - хранение информации о формате файла внтури самого файла (обычно - в самом начале файла), эта область файла именуется:
    * __заголовком файла__ (file header) если область больше чем несколько байт. Например HTML файлы начинаются с `<html>` или `<!DOCTYPE HTML>`.
    * __магическим числом__ (magic number) если область занимает всего несколько байт. В Unix-системах распространено использование двухбайтовых (и более длинных) магических чисел в начале файла для хранения информации о типе файла, см.: https://en.wikipedia.org/wiki/List_of_file_signatures .
* __внешние метаданные__ - явное хранение метаданных о файле в файловой системе.
    * <b class="b">+</b> прогрессивный и потенциально наиболее удобный вариант
    * <b class="b">-</b> на практике данный подход испытывает большие проблемы с переносимостью между операционными системами и файловыми системами из-за отстутсвия поддержки такого функционала многими ФС и ОС и API для передчи данных.
*  __MIME types__ (Multipurpose Internet Mail Extensions) - стандарт, описывающий передачу различных типов данных по электронной почте, а также, в общем случае, спецификация для кодирования информации и форматирования сообщений таким образом, чтобы их можно было пересылать по Интернету. 
    * MIME определяет механизмы для передачи разного рода информации внутри текстовых данных (в частности, с помощью электронной почты), а именно: текст на языках, для которых используются кодировки, отличные от ASCII, и нетекстовые данные, такие, как картинки, музыка, фильмы и программы.
    * система MIME types имеет стандартную систему идентификторов (управляемых организацией IANA), сотоящих из типа и подтипа, разделенного слешем, например: `text/html` или `image/gif`.
    * Официальный список MIME типов на сайте IANA: https://www.iana.org/assignments/media-types/media-types.xhtml .
    * На данный момент MIME __является  фундаментальным компонентом коммуникационных протоколов в интернете__,  в частоснти, в HTTP (HyperText Transfer Protocol)  серверы вставляют заголовок MIME при передачи любых данных WWW, далее этот заголовок используется клиентом (например браузером) для корректного отображения полученных данных.
    * Роль MIME types постоянно возрастает, однако они редко используются для данных, хранимых в локальных файловых системах. 

__Текстовые и бинарные файлы__

Форматы файлов можно разделить по __способу организаци хранения данных__ на:
* <em class="df"></em> __Tекстовые файлы__ - файл, содержащий текстовые данные, представленные как оследовательность символов (в основном печатных знаков, принадлежащих к определенному набору символов - кодовой таблице (кодировке)). Эти символы обычно сгруппированы в строки (lines, rows). В современных системах строки разделяются разделителями строк, иногда конец текстового файла также отмечается одним или более специальными знаками.
    * <b class="b">+</b> Универсальность - текстовый файл может быть прочитан на любой системе или ОС. При этом распространенной проблемой является определение __корректной кодировки файла__. 
    * <b class="b">+</b> Удобнство интерпретации файла - данные записанные в текстовом формате часто оформлены как "самозадокументрованные", т.е. могут интерпретироваться человеком без дополнительных спецификаций. 
    * <b class="b">+</b> Удобнство работы с файлом - формат текстового файла крайне прост и его можно просматривать и изменять текстовым редактором - программой, доступной для любой современной ОС. 
    * <b class="b">+</b> Наличие универсальных инструментов - в частности, многие системы управления версиями рассчитаны на текстовые файлы и могут выполнять с ними множество полезных операций, например находить разницу между двумя файлами, в то время, как с двоичными файлами могут работать только как с единым целым.
    * <b class="b">+</b> Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого. У сжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым.     
    * <b class="b">-</b> Низкая эффективность хранения - у больших несжатых текстовых файлов низкая информационная энтропия - эти файлы занимают больше места, нежели минимально необходимо. При этом данная избыточность определяет повышенную устойчивость данных к повреждениям.
    
    
* <em class="df"></em> __Двоичные (бинарные) файлы__ (binary file) - в узком смысле "не текстовые файлы". Файлы, байты в которых интерпретируются не как текст (при этом они могут включать фрагменты текста). 
    * <b class="b">+</b> Двоичные файлы сохраняют информацию аналогично представлении информации в памяти компьютера во время работы программы, что позволяет выполнять запись и чтение файла не выполняя никаких преобразований, что существенно ускоряет процесс ввода/вывода. 
    * <b class="b">+</b> Обычно хранение информации (в частности числовых массивов) в двоичном формате намного компактнее, что уменьшает требования к объему хранилища и увеличивает скорость ввода/вывода.
    * <b class="b">&plusmn;</b> Интерпретировать неизвестный двоичный формат намного сложнее что существенно усложняет работу с ним людей не имеющих доступа к инструментам, при помощи которых файлы создавались.
    * <b class="b">-</b> Обычно двоичные файлы намного менее переносимые. Хранение в двоичном формате часто несет специфику платформы (ОС, аппаратного обеспечения) и из-за сложности обратной разработки данные форматы требуют качественной открытой спецификации. Одна из распространенных проблем: __разница в порядке байтов или длине машинного слова__ на разных платформах. Подробнее см.: https://ru.wikipedia.org/wiki/Порядок_байтов .


## Работа с текстовыми файлами <a class="anchor" id="текстовые_файлы"></a>
* [к оглавлению](#разделы)

__Текстовые файлы__

* <em class="df"></em> __Tекстовые файлы__ - файл, содержащий текстовые данные, представленные как оследовательность символов (в основном печатных знаков, принадлежащих к определенному набору символов - кодовой таблице (кодировке)). Эти символы обычно сгруппированы в строки (lines, rows). В современных системах строки разделяются разделителями строк, иногда конец текстового файла также отмечается одним или более специальными знаками.

<center>         
    <img src="./img/L3_file_struct.png" alt="Телетайп" style="width: 550px;"/>
    <b>Логическая структура текстового файла</b>
</center>

Физически текстовый файл, как и двоичный, состоит из последовательности байт. Каждый символ кодируется одним или несколькими байтами. Символы конца строки или конца файла зависят от используемой операционной системы. Способ кодировки символов является метаинформацией файла.

__Кодировки (наборы символов)__

* __Набор символов (character set)__ — таблица, задающая кодировку множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания, спецсимволов). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько символов другого алфавита, в компьюетре, обычно в один или нескольким байтов.
    * Набор символов, который может использоваться несколькими языками. Пример: набор латинских символов используется в английском и большинстве европейских языков, хотя набор греческих символов используется только в греческом языке.
    * Хотя термин "набор символов" (character set, charset) сейчас является наиболее авторитетным, предшествовавший ему термин __"кодировка" (encoding)__ по-прежнему __используется в качестве синонима__.
    * Нередко вместо термина "набор символов" неправильно употребляют термин __"кодовая страница" (code page)__, означающий на самом деле частный случай набора символов с однобайтным кодированием


* __Символ__ (character) — это минимальная единица текста, имеющая семантическую ценность.
* __Кодированный набор символов (coded character set)__ — это набор символов, в котором каждому __символу соответствует уникальный номер__.
* __Код символа в наборе символов (кодовой таблице) (code point of a coded character set)__ — это любое допустимое значение в наборе символов или кодовом пространстве.
* __Кодовое пространство (code space)__ — диапазон целых чисел, значениями которых являются кодовые точки.
* __code unit__ — это «размер слова» схемы кодирования символов, например 7-битный, 8-битный, 16-битный. В некоторых схемах некоторые символы кодируются с использованием нескольких единиц кода, что приводит к кодированию переменной длины. 

__Распространенные кодировки__

В настоящее время чаще всего используются кодировки трёх типов: 
* __ASCII и совместимые с ней__
* __основанные на Юникоде (Unicode)__
* (реже) совместимые с EBCDIC
* в мире существует огромное количество различных кодировок (только для русского языка есть 4 кодировки, кроме вариантов, основанных на Unicode).

В программах с использованием русского языка используются такие варианты:
* __Кодировки, основанные на Юникоде (Unicode)__.
* __Кодировка CP1251 (Windows-1251)__ — используется, если необходимо иметь русские символы непрерывным массивом для лёгкости их обработки, и в случае использования ОС Windows, перекодировать такой текст можно без использования стороннего ПО.
* Для русского языка еще существуют кодировки: CP-866, KOI-8R, ISO-8859-5.

__Кодировка ASCII__

<center>         
    <img src="./img/L3_tty.png" alt="Телетайп" style="width: 550px;"/>
    <b>Телетайп - электромеханическая печатная машина, используемая для передачи между двумя абонентами текстовых сообщений по электрическому каналу</b>
</center>

ASCII (American standard code for information interchange) — название кодировки (набора, таблицы) символов, в которой некоторым распространённым печатным и непечатным символам сопоставлены числовые коды.
* Длинна кодовой таблицы ASCII - 128 символов (от 0 до 127) или 7 бит.
* Таблица была разработана и стандартизирована в США, в 1963 году и первоначально использовалась для телетайпов (которые использовались для передачи текстовых сообщений и были первыми терминалами для цифровых вычислительных машин).

__Кодовая таблица ASCII__

<center>         
    <img src="./img/L3_ASCII_table.png" alt="Телетайп" style="width: 550px;"/>
    <b>Кодовая таблица ASCII</b>
</center>

Таблица ASCII определяет коды для символов:
* управляющих символов
* десятичных цифр
* латинского алфавита (заглавных и строчных букв)
* знаков препинания
* (в специальных версиях) национального алфавита

In [185]:
# коды цифр, символов латинского алфавита ASCII удобно подобраны для чтения в двоичном формате:
for s in ['0', '1', '2', '...', '9', '------\n', 
          'A', 'B', 'C', '...', 'Y', 'Z', '------\n', 
          'a', 'b', 'c', '...', 'y', 'z']:
    if len(s) == 1:
        print(f'{s}: decimal {ord(s):3} hex 0x{ord(s):02x} binary {ord(s):08b}')
    else:
        print(s)

0: decimal  48 hex 0x30 binary 00110000
1: decimal  49 hex 0x31 binary 00110001
2: decimal  50 hex 0x32 binary 00110010
...
9: decimal  57 hex 0x39 binary 00111001
------

A: decimal  65 hex 0x41 binary 01000001
B: decimal  66 hex 0x42 binary 01000010
C: decimal  67 hex 0x43 binary 01000011
...
Y: decimal  89 hex 0x59 binary 01011001
Z: decimal  90 hex 0x5a binary 01011010
------

a: decimal  97 hex 0x61 binary 01100001
b: decimal  98 hex 0x62 binary 01100010
c: decimal  99 hex 0x63 binary 01100011
...
y: decimal 121 hex 0x79 binary 01111001
z: decimal 122 hex 0x7a binary 01111010


__Управляющие коды ASCII__

<center>         
    <img src="./img/L3_spch2.png" alt="Телетайп" style="width: 550px;"/>
    <b>Некоторые управляющие коды ASCII</b>
</center>

* В таблице ASCII было определено 29 управляющих символов, большинство из которых находилось в диапазоне 0x00h-0x1F.
* Управляющие символы ASCII предназначались для управления работой телетайпов и видеотерминалов и вводились на них сочетаниями с клавишей Ctrl, которая обнуляла в коде введённой клавиши бит 6. В современных компьютерных системах нигде, кроме эмуляторов терминала, не предусмотрен ввод этих символов напрямую (кроме символов табуляции и перевода строки) и большинство из перечисленных управляющих символов не используется.

__Переход на новую строку__

Разные платформы (ОС) используют разные коды в качестве символа новой строки, в частности:
* Windows: `\r\n`
* Unix: `\n`
* Старые компьютеры Макинтош: `\r`
* Существуют системы использующие: `\n\r`

При открытии файла в текстовом режиме в Python 3 все варианты окончания строки будут автоматически конвертироваться к `\n` (как при записи, так и при чтении). Например, в этом режиме в Windows nри чтении символ `\r` будет удален, а nри заnиси, наоборот, добавлен.

In [186]:
cd E:\YandexDisk\Python\Ipynb\TOBD_2022\03_data_files\lec\ 

E:\YandexDisk\Python\Ipynb\TOBD_2022\03_data_files\lec


In [188]:
with open("lec03_example.txt", "wt", encoding="cp1251") as f: 
    print('Строка1\nСтрока2', file=f)
    print('Строка3', end='', file=f) # значение по умолчанию end='\n'
    print(' продолжение строки3', file=f)

In [189]:
with open("lec03_example.txt", "rt", encoding="cp1251") as file: 
    for line in file:
        print(line, end='')

Строка1
Строка2
Строка3 продолжение строки3


In [190]:
with open("lec03_example.txt", "rb") as file: 
    for bs in file:
        print(bs)
        print(bs.decode("cp1251"))

b'\xd1\xf2\xf0\xee\xea\xe01\r\n'
Строка1

b'\xd1\xf2\xf0\xee\xea\xe02\r\n'
Строка2

b'\xd1\xf2\xf0\xee\xea\xe03 \xef\xf0\xee\xe4\xee\xeb\xe6\xe5\xed\xe8\xe5 \xf1\xf2\xf0\xee\xea\xe83\r\n'
Строка3 продолжение строки3



__Пробельные символы__

__Пробельные символы__ (Whitespace character) - символ или серия символов, которые представляют горизонтальное или вертикальное пространство в типографике. При отображении пробельные символы не соответствует видимогу символу, но обычно занимают область на отображаемой странице.

Например, символ проблеа U+0020 (также ASCII 32) (в Питоне: `' '`) представляет собой пустой символ в тексте, используемый в качестве разделителя слов в западных языках.


<center>         
    <img src="./img/L3_text_file.png" alt="Телетайп" style="width: 550px;"/>
    <b>Пример текстового файла при просмотре в обычном редакторе</b>
</center>
<br/>
<center>         
    <img src="./img/L3_text_file_whitespace.png" alt="Телетайп" style="width: 550px;"/>
    <b>Пример текстового файла с демонстрацией пробельных символов</b>
</center>
<br/>
<center>         
    <img src="./img/L3_text_file_bin.png" alt="Телетайп" style="width: 550px;"/>
    <b>Пример фрагмента текстового файла в режиме побайтного просмотра</b>
</center>

__Кодировка Windows 1251__

__Windows-1251__ — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для русских версий Microsoft Windows до 10-й версии.
* Синонимы: CP1251; ANSI (только в русскоязычной ОС Windows).
* Выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения).
* Содержит все символы для других славянских языков: украинского, белорусского, сербского, македонского и болгарского.
* Первая половина таблицы кодировки (коды от 0x00 до 0x7F) полностью соответствует кодировке ASCII

<center>         
    <img src="./img/L3_w1251.png" alt="Телетайп" style="width: 550px;"/>
    <b>Кодовая таблица Windows 1251 (вторая половина)</b>
</center>

Особенности (недостатки) Windows-1251:
* Строчная буква «я» имеет код 0xFF (255 в десятичной системе), что в некоторых случаях может приводить к техническим проблемам.
* Отсутствуют символы псевдографики, имеющиеся в CP866 и KOI8.
* Символы 'Ё' и 'ё' находятся вне алфавитной полседовательности.

In [191]:
alph = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
for s, b in zip(alph, bytes(alph, encoding='cp1251')):
    print(f'{s}: {b:08b}, int: {int(b)}')

а: 11100000, int: 224
б: 11100001, int: 225
в: 11100010, int: 226
г: 11100011, int: 227
д: 11100100, int: 228
е: 11100101, int: 229
ё: 10111000, int: 184
ж: 11100110, int: 230
з: 11100111, int: 231
и: 11101000, int: 232
й: 11101001, int: 233
к: 11101010, int: 234
л: 11101011, int: 235
м: 11101100, int: 236
н: 11101101, int: 237
о: 11101110, int: 238
п: 11101111, int: 239
р: 11110000, int: 240
с: 11110001, int: 241
т: 11110010, int: 242
у: 11110011, int: 243
ф: 11110100, int: 244
х: 11110101, int: 245
ц: 11110110, int: 246
ч: 11110111, int: 247
ш: 11111000, int: 248
щ: 11111001, int: 249
ъ: 11111010, int: 250
ы: 11111011, int: 251
ь: 11111100, int: 252
э: 11111101, int: 253
ю: 11111110, int: 254
я: 11111111, int: 255


### Unicode <a class="anchor" id="юникод"></a>
* [к оглавлению](#разделы)    

__Юникод__ 

__Юникод (Unicode)__ — стандарт кодирования символов, включающий в себя знаки почти всех письменных языков мира. В настоящее время стандарт является преобладающим в Интернете.

Стандарт состоит из двух основных частей: 
* __Универсального набора символов (Universal character set, UCS)__ который перечисляет допустимые по стандарту Юникод символы и присваивает каждому символу код в виде неотрицательного целого числа, записываемого обычно в шестнадцатеричной форме с префиксом U+, например, U+040F.
* Семейства __кодировок (Unicode transformation format, UTF)__ которое определяет способы преобразования кодов символов для передачи в потоке или в файле.

Причины создания юникода:
* Проблема неправильной раскодировки - вызвана отсутствием стандартизированной формы указания кодировки для файла и могла быть решена внедрением общей для всех языков кодировки.
* Проблема ограниченности набора символов - проблему можно было решить либо переключением шрифтов внутри документа, либо внедрением «широкой», универсальной кодировки.
* Проблема преобразования одной кодировки в другую - требовала точного понимания исходной и конечной кодировки и таблиц преобразования между ними.
* Проблема дублирования шрифтов - для каждой кодировки создавался свой шрифт, даже если наборы символов в кодировках совпадали, можно было бы решить созданием "больших" шрифтов, покрывающих самые различные символы, но это требовало создания единого реестра символов.

Была признана необходимость создания единой «широкой» (универсальной) кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными и в первых версях юникода (с 1991 г.) было решено использовать 16-битные символы фиксированной ширины, так как 8-битных символов очевидно нехватало, а использование 32-битных символов казалось слишком расточительным.

__Универсальный набор символов и плоскости Юникод__

* Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 2^16 (65 536 значений).
    * При этом в Юникоде планировалось кодировать не все существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в «области пользовательских символов» (private use area), которая первоначально занимала коды U+D800…U+F8FF.
    * Чтобы использовать Юникод также и в качестве промежуточного звена при преобразовании разных кодировок друг в друга, в него включили все символы, представленные во всех наиболее известных кодировках.

* В дальнейшем, однако, было принято решение кодировать все символы и проводить политику активного расширения набора символов, например, включив в него не только символы языков но и эмодзи. В связи с этим потребовалось значительно расширить кодовую область.
    * В связи с этим коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа универсального набора символов, которые в компьютере могут представляться множеством разных способов.
    * В текущей версии Unicode 15.0 описано 149 186 cимовлов (в версии 1.1 их было всего 34 233).     
    * Для текущего универсального набора символов недостаточно первоначальных 16 бит, сейчас в Unicode зарезервировано 1 112 064 кодов символов (для кодирования с избытком достаточно 21 бита, используется подмножество 21 битных значений, совместимое с форматом UTF-16).
    
Символы универсального набора символов Unicode обозначаются следующим образом:
* Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF) где xxx — шестнадцатеричные цифры.
    * Например, символ «я» (U+044F) имеет код 044F16 = 110310.
* Для кодов 10000…FFFFF:  «U+xxxxx» и для кодов 100000…10FFFF «U+xxxxxx». 

Кодовое пространство разбито на __17 плоскостей (planes)__ по 2^16 (65 536) символов.
* Нулевая плоскость (plane 0) называется базовой (basic) и содержит символы наиболее употребительных письменностей.
* Остальные плоскости — дополнительные (supplementary).

<center>         
    <img src="./img/L3_Unicode_mpl.png" alt="Телетайп" style="width: 550px;"/>
    <b>Базовая плоскость универсального набора символов</b>
</center>

В Юникоде 14.0 в базовой плоскости представлены следующие блоки:
* __Основная латиница (0000—007F)__ - точное повторение таблицы ASCII, что, в частности, позволяет фортмату UTF-8 быть обратно совестимым с кодировкой ASCII.
* Дополнение к латинице — 1 (0080—00FF)
* Расширенная латиница — A (0100—017F)
* Расширенная латиница — B (0180—024F)
* Расширения МФА (0250—02AF)
* Модификаторы букв (02B0—02FF)
* Комбинируемые диакритические знаки (0300—036F)
* Греческое и коптское письмо (0370—03FF)
* __Кириллица (0400—04FF)__, см. также Кириллица в Юникоде
    * Существует неоднозначность по отношению к кодированию некоторых букв: например, «Й» может быть закодирована как единый символ U+0419 либо как комбинация «И» U+0418 и диакритического знака U+0306. 
* ...

Блок содержит все буквы и управляющие коды из кодировки ASCII.

In [119]:
# Буквы русского алфавита в UCS:
alph = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
for s in alph:
    bs = bytes(s, encoding='UTF-16-BE') # обратите внимание на кодировку!
    s_i = int.from_bytes(bs, byteorder='little', signed=False)
    print(f'{s}: U-{bs[0]:02x}{bs[1]:02x} {bs[0]:08b} {bs[1]:08b}, int: {s_i}')

а: U-0430 00000100 00110000, int: 12292
б: U-0431 00000100 00110001, int: 12548
в: U-0432 00000100 00110010, int: 12804
г: U-0433 00000100 00110011, int: 13060
д: U-0434 00000100 00110100, int: 13316
е: U-0435 00000100 00110101, int: 13572
ё: U-0451 00000100 01010001, int: 20740
ж: U-0436 00000100 00110110, int: 13828
з: U-0437 00000100 00110111, int: 14084
и: U-0438 00000100 00111000, int: 14340
й: U-0439 00000100 00111001, int: 14596
к: U-043a 00000100 00111010, int: 14852
л: U-043b 00000100 00111011, int: 15108
м: U-043c 00000100 00111100, int: 15364
н: U-043d 00000100 00111101, int: 15620
о: U-043e 00000100 00111110, int: 15876
п: U-043f 00000100 00111111, int: 16132
р: U-0440 00000100 01000000, int: 16388
с: U-0441 00000100 01000001, int: 16644
т: U-0442 00000100 01000010, int: 16900
у: U-0443 00000100 01000011, int: 17156
ф: U-0444 00000100 01000100, int: 17412
х: U-0445 00000100 01000101, int: 17668
ц: U-0446 00000100 01000110, int: 17924
ч: U-0447 00000100 01000111, int: 18180


In [192]:
# запись символа й:
print("U-0439:\u0439")
# запись символа й как и с диакритическим знаком:
print('U-0438 U-0306:\u0438\u0306')
# запись символа по названию в Unicode: https://ru.wikipedia.org/wiki/Кириллица_в_Юникоде
print('cyrillic small letter short i:\N{cyrillic small letter short i}')

U-0439:й
U-0438 U-0306:й
cyrillic small letter short i:й


In [193]:
# Пример использования unicode для работы с эмоджи в Python:
print("\U0001f600")
print("\N{grinning face}")

😀
😀


__UTF-8__

__UTF-8 (Unicode Transformation Format)__ — распространённый стандарт кодирования символов, позволяющий компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4).
* UTF-8 беспечивает __полную обратную совместимость с 7-битной кодировкой ASCII__.
* UTF-8 сейчас __является доминирующей в веб-пространстве__ и широко распространена в UNIX-подобных операционных системах.
* UTF-8, по сравнению с UTF-16, __даёт наибольший выигрыш в компактности для текстов на латинице__, поскольку латинские буквы без диакритических знаков, цифры и наиболее распространённые знаки препинания кодируются в UTF-8 лишь одним байтом и коды этих символов соответствуют их кодам в ASCII.
* Идентификатор кодировки в Windows — 65001.

<center>         
    <img src="./img/L3_utf8.png" alt="Телетайп" style="width: 700px;"/>
    <b>Кодирование символов Unicode в переменном количестве байт</b>
</center>

</br>
<center>         
    <img src="./img/L3_utf8_exmpl.png" alt="Телетайп" style="width: 850px;"/>
    <b>Пример кодирование символов Unicode в переменном количестве байт UTF-8 </b>
</center>

Для указания, что файл содержит символы Юникода, в начале файла или может быть вставлен маркер последовательности байтов UTF-8: 0xEF 0xBB 0xBF

Не всякая последовательность байтов является допустимой. Декодер UTF-8 должен понимать и адекватно обрабатывать такие ошибки:
* Недопустимый байт.
* Байт продолжения (10xxxxxx) без начального байта.
* Отсутствие нужного количества байтов продолжения 10xxxxxx — например, двух после 1110xxxx).
* Строка обрывается посреди символа.
* Неэкономное кодирование — например, кодирование символа тремя байтами, когда можно двумя. (Существует нестандартный вариант UTF-8, который кодирует символ с кодом 0 как 1100.0000 1000.0000, отличая его от символа конца строки 0000.0000.)
* Последовательность байтов, декодирующаяся в недопустимую кодовую позицию (например символы суррогатных пар UTF-16).

__UTF-16__

UTF-16 (Unicode Transformation Format) — способов кодирования символов из Юникода в виде последовательности 16-битных слов (по 2 байта).
* Данная кодировка позволяет записывать символы Юникода в диапазонах U+0000..U+D7FF и U+E000..U+10FFFF (общим количеством 1 112 064).
* При этом каждый символ записывается одним или двумя словами (суррогатная пара).
* Исключенный отсюда диапазон D80016..DFFF16 используется для кодирования так называемых суррогатных пар.
* В первой версии Юникод (1991 г.) представляет собой 16-битную кодировку с фиксированной шириной символа (UCS-2) во второй версии был добавлен UTF-16 для расширения кодируемого диапазона до 1 112 064 символов.

Один символ кодировки UTF-16 представлен __последовательностью из двух байтов__ или двух пар байтов. Какой из двух байтов идёт впереди, старший или младший, зависит от порядка байтов:
* __little endian__ - порядок байтов от старшего к младшему $B_0, B_1, \ldots, B_{N-1}$ (принят в процессорах x86)
Систему, совместимую с процессорами x86, называют little endian,
* __big endian__ - порядок байтов от младшегок к старшему $B_{N-1}, \ldots, B_1, B_0$ (принят в процессорах SPARC)
* Для определения порядка байтов используется __метка порядка байто (byte order mark)__. В начале текста записывается код U+FEFF. 
* При считывании, если вместо U+FEFF считалось U+FFFE, значит порядок байтов обратный (little endian).
* Поскольку код U+FFFE в Юникоде не кодирует символ и зарезервирован как раз для целей определения порядка байтов. 
* Так как в кодировке UTF-8 не используются значения 0xFE и 0xFF, можно использовать метку порядка байтов как признак, позволяющий различать UTF-16 и UTF-8.

In [194]:
# Примеры работы различных кодировок UTF:
print('\u0430')
alph = 'а'
enc_l = ['UTF-8', 'UTF-16', 'UTF-16-BE', 'UTF-16-LE']
for enc in enc_l:
    bs = bytes('а', encoding=enc)
    print(f'{enc}:',[f'0x{b:08b}' for b in bs])
    print(f'{enc}:',[f'0x{b:02x}' for b in bs],'\n')

а
UTF-8: ['0x11010000', '0x10110000']
UTF-8: ['0xd0', '0xb0'] 

UTF-16: ['0x11111111', '0x11111110', '0x00110000', '0x00000100']
UTF-16: ['0xff', '0xfe', '0x30', '0x04'] 

UTF-16-BE: ['0x00000100', '0x00110000']
UTF-16-BE: ['0x04', '0x30'] 

UTF-16-LE: ['0x00110000', '0x00000100']
UTF-16-LE: ['0x30', '0x04'] 



__UTF-32__

__UTF-32 (Unicode Transformation Format)__ — способ кодирования символов Юникода, использующий для кодирования любого символа ровно 32 бита. 
* Символ UTF-32 является прямым представлением его кодовой позиции (Code point  (англ.)рус.).
* Остальные кодировки, UTF-8 и UTF-16, используют для представления символов переменное число байтов.
* __(+)__ Главное преимущество UTF-32 перед кодировками переменной длины заключается в том, что символы Юникод непосредственно индексируемы. Получение n-ой кодовой позиции является операцией, занимающей одинаковое время. 
* __(-)__ Главный недостаток UTF-32 — это неэффективное использование пространства, так как для хранения символа используется четыре байта.

UTF-32 применяется, главным образом, не в строках символов, а во внутренних API, где данные являются единственной кодовой позицией или глифом. Например, при прорисовке текста на последнем шаге происходит построение списка структур, каждая из которых включает в себя позиции x и у, атрибуты и единственный символ UTF-32, идентифицирующий глиф для прорисовки. Часто в «неиспользуемых» 11 битах каждого 32-битного символа хранится посторонняя информация.

* В программах на Python с версии 3.3 строки хранятся в UTF-32, но лидирующие нули оптимизируются в случае их неиспользования.
* UTF-32 используются для хранения строк в Unix в том случае, когда тип wchar_t определён как 32-битный. 
* В ОС Windows, в которой тип wchar_t имеет размер 16 бит, строки UTF-32 почти не используются.

## Работа с бинарными файлами <a class="anchor" id="бинарные"></a>
* [к оглавлению](#разделы)

__Байтовые строки в Python__

Базовая работа с бинарными файлами основана на манипулировании последовательностями байтов. Для этого в Python емеется тип `bytes`- неизменяемый тип, похожий на строки, но состоящий из целых чисел от 0 до 255 и его изменяемый аналог `bytesarray`.


In [440]:
# Примеры создания объектов bytes:

# заданное количество нулевых байтов:
bs0 = bytes(8)
print(bs0)

# На основе последовательности байтов в виде двух шестнадцетеричных цифр:
bs1 = b'\x62\x79\x74\x65\x73\x20\xd1'
print(f'bs1:{bs1}')

# На основе строки из символов ASCII:
bs2 = b'bytes' # тут допустимы только симоволы ASCII (коды от 0 до 127)
print(bs2)

# На основе строки Python с указанием кодировки:
bs3 = bytes('байты', encoding = 'cp1251')
print(f'bs3:{bs3}')

bs4 = bytes('байты', encoding = 'utf-8')
print(f'bs4:{bs4}')

# из строки с последовательностью шестнадцеричных цифр (каждая пара - 1 байт):
bs5 = bytes.fromhex('627974657320d1')
print(f'bs5:{bs5}')

# На основе последовательности числовых значений (от 0 до 255):
bs6 = bytes([98, 121, 116, 101, 115, 32, 209])
print(f'bs6:{bs6}')

# На основе генератора числовых значений (от 0 до 255):
bs7 = bytes(range(97, 107))
print(f'bs7:{bs7}')

b'\x00\x00\x00\x00\x00\x00\x00\x00'
bs1:b'bytes \xd1'
b'bytes'
bs3:b'\xe1\xe0\xe9\xf2\xfb'
bs4:b'\xd0\xb1\xd0\xb0\xd0\xb9\xd1\x82\xd1\x8b'
bs5:b'bytes \xd1'
bs6:b'bytes \xd1'
bs7:b'abcdefghij'


In [441]:
# оперирование элементами bytes происходит как с int:
print(type(bs1[0]), bs1[0])

<class 'int'> 98


In [442]:
# итерация по bytes возвращает значения типа int:
print(list(bs1)) 

[98, 121, 116, 101, 115, 32, 209]


In [443]:
# итерация по bytes возвращает значения типа int:
for i in bs1:
    print(i, type(i))

98 <class 'int'>
121 <class 'int'>
116 <class 'int'>
101 <class 'int'>
115 <class 'int'>
32 <class 'int'>
209 <class 'int'>


In [444]:
# получение строки с последовательностью шестнадцетеричных цифр:
print(bs1.hex())

627974657320d1


In [445]:
# сериализация числа в bytes:
my_int = 420420
my_int_bts_big = my_int.to_bytes(4, byteorder='big') # 4 - количество байт
my_int_bts_big

b'\x00\x06jD'

In [446]:
# вариант сериализации с обратным порядком байтов:
my_int.to_bytes(4, byteorder='little')

b'Dj\x06\x00'

In [447]:
# восстановление (десериализация данных из bytes):
int.from_bytes(my_int_bts_big, byteorder='big')

420420

Тип bytes - неизменяемый, при необходимости изменять массив байтов необходимо использовать bytesarray.

In [448]:
# ошибка - bytes неизменяемый объект!
bs1[1] = 97

TypeError: 'bytes' object does not support item assignment

In [449]:

bsa1 = bytearray(bs1)
bsa1

bytearray(b'bytes \xd1')

In [450]:
bsa1[1]

121

In [451]:
# bytesarray изменяемый объект:
bsa1[1] = 97
bsa1

bytearray(b'bates \xd1')

In [453]:
# bytesarray изменяемый объект:
bsa1.append(97)
bsa1

bytearray(b'bates \xd1aa')

Работа с бинарными файлами в Python:

In [454]:
numbers = [2, 4, 6, 8, 10, 12, 14]
numbers_bs = bytes(numbers)
numbers_bs

b'\x02\x04\x06\x08\n\x0c\x0e'

In [455]:
# запись в bytes в бинарный файл:
# старый способ работы с файлом (нужно избегать!):
f_wb = open("numbers_v1.bin","wb")
try:
    f_wb.write(numbers_bs)
# без использования блока with необходимо вручную закрывать файл:
finally:
    f_wb.close() 

In [456]:
# Чтение всего файла в виде одной строки байтов:
with open('numbers_v1.bin', 'rb') as f_rb1:
    content = f_rb1.read()
    
print(content)
print(list(content))

b'\x02\x04\x06\x08\n\x0c\x0e'
[2, 4, 6, 8, 10, 12, 14]


In [463]:
with open('numbers_v2.bin', 'wb') as f_wb3:
    for _ in range(3):
        int_chunk = [randint(1, 10_000_000) for _ in range(randint(2, 4))]
        print(int_chunk)
        f_wb3.write(b''.join(int_val.to_bytes(4, byteorder='big') for int_val in int_chunk))

[8381970, 623024, 7779606, 7657959]
[1694505, 4915883, 784382]
[470501, 8402757, 7723208]


In [464]:
import itertools

# Чтение файла блоками, с размером не больше заданного:
with open("numbers_v2.bin", "rb") as f_rb2:
    # читаем первый блок данных:
    bts = f_rb2.read(20) # 20 = 4 (байта на число) * 5 (чисел)
    while bts:
        print(f'len={len(bts)}: {bts}')        
        print([int.from_bytes(bytes(chunk), byteorder='big') 
               for chunk in itertools.zip_longest(*([iter(bts)] * 4))])
        # читаем очередной блок данных:
        bts = f_rb2.read(20)

len=20: b'\x00\x7f\xe6\x12\x00\t\x81\xb0\x00v\xb5\x16\x00t\xd9\xe7\x00\x19\xdb)'
[8381970, 623024, 7779606, 7657959, 1694505]
len=20: b'\x00K\x02\xab\x00\x0b\xf7\xfe\x00\x07-\xe5\x00\x807E\x00u\xd8\xc8'
[4915883, 784382, 470501, 8402757, 7723208]


# Сериализация и обмен данными <a class="anchor" id="сериализация"></a>
* [к оглавлению](#разделы)

__Назначение различных форматов файлов__

Форматы файлов для хранения данных можно разделить __по назначению форматов файлов__:
* __хранение данных конкретного типа__ - например: PNG-файлы используются для хранения изображений.
* __контейнеры данных__ - формат разработан для хранения нескольких различных типов данных. Например, формат OGG может использоваться для харанения разных типов мультимедиа информации: видое, аудио, текста (например субтитров) и метаданных.
* __сериализация данных__ - обратимый перевод структуры данных в последовательность битов.

__Сериализация данных__

<em class="df"></em> __Сериализация__ (serialization) - процесс перевода какой-либо структуры данных в последовательность битов. Обратной к  сериализации является операция __десериализации__ (deserialization) — восстановление начального состояния структуры данных из битовой последовательности.

* Сериализация используется:
    * для передачи объектов по сети и для сохранения их в файлы.
    * для сохранения состояния приложения или некоторых его структур данных, хранения в файле и последующего восстановления данных.
    * Список известных форматов данных для сериализации: https://en.wikipedia.org/wiki/Comparison_of_data-serialization_formats 

<center>         
    <img src="./img/L4_serialization-deserialization.jpeg" alt="сериализация-десериализация данных" style="width: 500px;"/>
    <b>Сериализация-десериализация данных</b>
</center>

Популярные форматы сериализации данных:
* Специализированные форматы рассмотриваемые в рамках курса:
    * __npy, npz__ - стандартный бинарный формат двоичного файла в NumPy для сохранения массива / массивов NumPy. Формат npy разработан так, чтобы быть максимально простым при достижении ограниченных целей (рассмотрены на лекции 1).
    * __pickle__ - бинарный формат для сериализации объектов Python в поток байтов. Реализуется как последовательность операций для выполнения на Pickle Virtual Machine. Формат определяется прежде всего реализацией Pickle Virtual Machine.
    * __Apache Parquet__ - открытый формат хранения данных для экосистемы Apache Hadoop. Он обеспечивает эффективные схемы сжатия и кодирования данных с повышенной производительностью для обработки больших объемов сложных данных.


* __XML__ (eXtensible Markup Language) - расширяемый язык разметки (рекомендован W3C). XML разрабатывался как язык с простым формальным синтаксисом, __удобный для создания и обработки документов программами и одновременно удобный для чтения и создания документов человеком__, с подчёркиванием нацеленности на использование в Интернете. Язык называется __расширяемым__, поскольку он не фиксирует разметку, используемую в документах: разработчик волен создать разметку в соответствии с потребностями к конкретной области, будучи ограниченным лишь синтаксическими правилами языка.
* __JSON__ (JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript.  JSON легко читается людьми. Несмотря на происхождение от JavaScript, формат считается независимым от языка и может использоваться практически с любым языком программирования.
* __YAML__ - «дружественный» формат сериализации данных, концептуально близкий к языкам разметки, но ориентированный на удобство ввода-вывода типичных структур данных многих языков программирования.   

__Структурирование данных__

Принято делить данные на три категории:
* __Структурированные__ – <b class="g">Ex:</b> реляционная база данных
* __Слабо (полу-) структурированные__ – <b class="g">Ex:</b> веб-страница
* __Не структурированные__ – <b class="g">Ex:</b> текст на естественном языке.

Слабо структурированное данные:
* Обычно слабо структурированные данные содержат __маркеры для отделения семантических элементов__ и для обеспечения частичной структуры данных в наборе данных, но не соответствуют строгой структуре отношений реляционной модели данных. Такой вид данных можно назвать __бессхемным__, а структуру — __самоописываемой__. В слабоструктурированных данных __сущности__, принадлежащие одному и тому же классу, __могут иметь разные атрибуты__, порядок атрибутов также не важен.

* Слабоструктурированные представления данных важны, т.к. для __обмена данными__ между разными системами (например в web) необходимо иметь __максимально гибкий формат__. 


* Часто слабо структурированные данные именуются документами. __Документ__  — объект, содержащий информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве. Обычно документы имеют внутреннюю структуру, при этом часто не существует стандарта такой струкутуры, т.е. в этом смысле документы являются безсхемной самоописываемой информацией.

__Сравнение популярных форматов сериалиазции данных__

Особенности, плюсы / минусы

* __pickle__ - бинарный формат для сериализации объектов Python в поток байтов. Реализуется как последовательность операций для выполнения на Pickle Virtual Machine. Формат определяется прежде всего реализацией Pickle Virtual Machine.

* __JSON__ (JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript.  JSON легко читается людьми. Несмотря на происхождение от JavaScript, формат считается независимым от языка и может использоваться практически с любым языком программирования.

* __XML__ (eXtensible Markup Language) - расширяемый язык разметки (рекомендован W3C). XML разрабатывался как язык с простым формальным синтаксисом, __удобный для создания и обработки документов программами и одновременно удобный для чтения и создания документов человеком__, с подчёркиванием нацеленности на использование в Интернете. Язык называется __расширяемым__, поскольку он не фиксирует разметку, используемую в документах: разработчик волен создать разметку в соответствии с потребностями к конкретной области, будучи ограниченным лишь синтаксическими правилами языка.

* __YAML__  (Yet Another Markup Language) - «дружественный» формат сериализации данных, концептуально близкий к языкам разметки, но ориентированный на удобство ввода-вывода типичных структур данных многих языков программирования, в том числе __удобство чтения и редактирование человеком__. Язык широко используется __для файлов конфигурации и в приложениях__, где данные хранятся или передаются. YAML нацелен на приложения, типичные для XML. YAML имеет __минимальный синтаксис__, который __намеренно отличается от SGML__ и совместим с JSON т.к.  использует `[...]` для списков и `{...}` для словарей. Для обозначения вложенности используются отступы, как в Python.

## Формат Pickle <a class="anchor" id="pickle"></a>
* [к оглавлению](#разделы)

__pickle__ - бинарный формат для сериализации объектов Python в поток байтов. 
* Реализуется как последовательность операций для выполнения на Pickle Virtual Machine. Формат определяется прежде всего реализацией Pickle Virtual Machine.
* Pickle небезопасный формат сериализации так как не защищен от ошибочных или вредоносных данных. 

Сохранение данных в Pickle

* Стандартное расширение для файлов: `.pickle`
* Могут встречаться расширения: `.pkl`, `.pck`, `.db`

In [261]:
# объект (данные) для сохранения:
dat1 = ["Строка", (12, 3)] 

In [262]:
import pickle # подключаем модуль pickle

In [263]:
# Стандартное расширение дл

with open('dat1.pickle', 'wb') as f:
    pickle.dump(dat1, f)

Pickle хранит данные в бинарном формате:

In [264]:
with open('dat1.pickle') as f:
    for l in f:
        print(l)

Ђ]q (X   РЎС‚СЂРѕРєР°qKK†qe.


In [265]:
with open('dat1.pickle', 'rb') as f:
    for l in f:
        print(l)

b'\x80\x03]q\x00(X\x0c\x00\x00\x00\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0q\x01K\x0cK\x03\x86q\x02e.'


Восстановление объектов (данных) из файла pickle:

In [266]:
with open('dat1.pickle', 'rb') as f:
    dat1_l = pickle.load(f)
    
dat1_l

['Строка', (12, 3)]

В один файл можно сохранить сразу несколько объектов, последовательно вызывая функцию `dump()`. 

In [267]:
dat2 = (6, 7, 8, 9, 10) 

In [268]:
with open('dat2.pickle', 'wb') as f:
    pickle.dump(dat1, f)
    pickle.dump(dat2, f)

In [269]:
# восстановление данных из файла:

with open('dat2.pickle', 'rb') as f:
    dat1_l2 = pickle.load(f)
    dat2_l2 = pickle.load(f)
dat1_l2, dat2_l2

(['Строка', (12, 3)], (6, 7, 8, 9, 10))

Модуль `pickle` позволяет также преобразовать объект в строку байтов и восстановить объект из строки. Для этого предназначены две функции: 
* `dumps(<Объект> [, <Протокол>] [, fix_imports=True])` - производит сериализацию объекта и возвращает последовательность байтов специального формата. 
* `lоаds(<Последовательность байтов>[, fix_imports=True] [, errors="strict"])` - преобразует последовательность байтов обратно в объект. 

In [270]:
bs = pickle.dumps(dat1)
bs

b'\x80\x03]q\x00(X\x0c\x00\x00\x00\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0q\x01K\x0cK\x03\x86q\x02e.'

In [271]:
type(bs)

bytes

In [272]:
pickle.loads(bs)

['Строка', (12, 3)]

Модуль shelve позволяет сохранять объекты под определенным ключом (задается в виде строки) и предоставляет интерфейс доступа, сходный со словарями. Для сериализации объекта используются возможности модуля `pickle`, а чтобы записать получивщуюся строку пo ключу в файл, применяется модуль `pickle`. Все эти действия модуль shelve производит незаметно для нас. 

Чтобы открыть файл с базой объектов, используется функция `open()`. Функция имеет следующий формат: 

`open (<Путь к файлу> [, flag="c"] [, protoco1=None] [, writeback=Fa1se])` 

В необязательном параметре flag можно указать один из режимов открытия файла: 
* r - только чтение; 
* w - чтение и запись; 
* с - чтение и запись (значение по умолчанию). Если файл не существует, он будет создан; 
* n - чтение и запись. Если файл не существует, он будет создан. Если файл существует, он будет перезаписан. 

Функция `open()` возвращает объект, с помощью которого производится дальнейшая работа с базой данных. Этот объект имеет следующие методы: 
* `close()` - закрывает файл с базой данных.
* `keys()` - возвращает объект с ключами; 
* `values()` - возвращает объект to значениями; 
* `items()` - возвращает объект, поддерживающий итерации. На каждой итерации возвращается кортеж, содержащий ключ и значение. 

* `get(<Ключ> [, <Значение по умолчанию>] )` - если ключ присутствует; то метод возвращает значение, соответствующее этому ключу. Если ключ отсутствует, то возвращается начение None или значение, указанное во втором nараметре; 
* `setdefault(<Ключ> [, <Значение по умолчанию>] )` ---: если ключ nрисутствует, то метод возвращает значение, соответствующее этому ключу. Если ключ отсутствует, то вставляет новый элемент со значением, указанным во втором параметре, и возвращает это значение. Если второй nараметр не указан, значением нового элемента будет None;  
* `рор (<Ключ> [, <Значение по умолчанию>] )` - удаляет элемент с указанным ключом и возвращает его значение. Если ключ отсутствует, то возвращается значение из второго nараметра. Если ключ отсутствует, и второй nараметр не указан, то возбуждается исключение KeyError; 
* `popitem()` - удаляет произвольный элемент и возвращает кортеж из ключа и значения. Если файл nустой, возбуждается исключение KeyError; 
* `clear ()` - удаляет все элементы. Метод ничего не возвращает в качестве значения; 
* `update ()` - добавляет элементы. Метод изменяет текущий объект и ничего не возвращает. Если элемент с указанным ключом уже присутствует, то его значение будет перезаписано.

Помимо этих методов можно воспользоваться функцией `len()` для nолучения количества 
элементов и оnератором `del` для удаления оnределенного элемента, а также оnератором `in` для nроверки существования ключа. 

In [273]:
import shelve

In [274]:
db = shelve.open("shl_1")

In [275]:
db["obj1"] = [1, 2, 3, 4, 5] 
db["obj2"] = (6, 7, 8, 9, 10) 

In [276]:
db["obj1"]

[1, 2, 3, 4, 5]

In [277]:
db["obj2"]

(6, 7, 8, 9, 10)

In [278]:
db.close()

In [279]:
db = shelve.open('shl_1')

In [280]:
db.keys()

KeysView(<shelve.DbfilenameShelf object at 0x000002C15AB4A548>)

In [281]:
list(db.keys())

['obj1', 'obj2']

In [282]:
list(db.values())

[[1, 2, 3, 4, 5], (6, 7, 8, 9, 10)]

In [283]:
for k, v in db.items():
    print('key: {}, value: {}'.format(k, v))

key: obj1, value: [1, 2, 3, 4, 5]
key: obj2, value: (6, 7, 8, 9, 10)


Восстанавливаем объекты из файла:

In [284]:
db = shelve.open('shl_1')

In [285]:
db.keys()

KeysView(<shelve.DbfilenameShelf object at 0x000002C15AB2BB08>)

In [286]:
list(db.keys())

['obj1', 'obj2']

In [287]:
list(db.values())

[[1, 2, 3, 4, 5], (6, 7, 8, 9, 10)]

In [288]:
for k, v in db.items():
    print('key: {}, value: {}'.format(k, v))

key: obj1, value: [1, 2, 3, 4, 5]
key: obj2, value: (6, 7, 8, 9, 10)


## Формат JSON <a class="anchor" id="json"></a>
* [к оглавлению](#разделы)


* __JSON__ (JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript. 

Причины популярности JSON:
* JSON __легко понимать__ (легко читается людьми, простой и понятный синтаксис).
* JSON'ом __легко манипулировать__ (програмно и вручную).
* JSON __легко генерировать__.
* Несмотря на происхождение от JavaScript, формат __считается независимым от языка программирования__ и может использоваться практически с любым языком программирования.
* Поскольку формат JSON является подмножеством синтаксиса языка JavaScript, то позволяет быстро сериализовать/десериалзовать данные между сервером и браузером из-за чего __получил очень ширкое распространение в веб-разработке__.
* За счёт своей лаконичности по сравнению с XML формат JSON __может быть более подходящим для сериализации сложных структур данных__. 


Чем JSON не является:
* форматом «документов»
* языком размеки
* языком программирования


Минусы JSON:
* <em class="mn"></em> нет конструкций для комментирования данных
* <em class="mn"></em> нет пространства имен
* <em class="mn"></em> нет валидации
* <em class="mn"></em> не расширяемый

__Синтаксис JSON__

* Массив: `[значение1, значение2, значениеN]`
* Объект (можно интерпретировать как словарь в Python): `{"имя1":значение1, "имя2":значение2, "имяN":значениеN}`, имена (ключи) здесь должны быть строками.
    * Пример: `{"имя1":"строка", "имя2":13, "имя3":true, "имя4":false, "имя5":null}`
* Сложный объект: 
`{"имя1":значение1, 
"имя2": {"имя2_1":значение2_1, "имя2_2":значение2_2} }`

Объекты и массивы в JSON являются конструкциями, а литералы непосредственно данными, которые группируются этими конструкциями. 

Список литералов JSON: 
* cтрока (заключается только в двойные кавычки: `"example"`)
* число (целые и числа с плавающей точкой)
* логическое значение (`true`, `false`)
* значение `null`

__Создание JSON объектов:__

Импорт библиотек:

In [289]:
import json # библиотека для работы с JSON
# import pandas as pd
import requests # библиотека для выполнения HTTP запросов

In [249]:
my_ab = [] # создаем адресную книгу

In [290]:
addr1 = {}
addr1['name'] = 'Faina Lee'
addr1['email'] = 'faina@mail.ru'
addr1['birthday'] = '22.08.1994'
addr1['phones'] = [{'phone': '232-19-55'},
                  {'phone': '+7 (916) 232-19-55'}]

my_ab.append(addr1)

In [291]:
addr2 = {}
addr2['name'] = 'Robert Lee'
addr2['email'] = 'robert@mail.ru'
addr2['birthday'] = '22.08.1994'
addr2['phones'] = [{'phone': '111-19-55'},
                  {'phone': '+7 (916) 445-19-55'}]
my_ab.append(addr2)

In [292]:
my_ab

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]},
 {'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [293]:
my_ab2 = [{
        'birthday': '22.08.1994',
        'email': 'faina@mail.ru',
        'id': 3,
        'name': 'Faina Lee',
        'phones': [{'phone': '232-19-55', 'phone_type': 'work'},
                   {'phone': '+7 (916) 199-93-79', 'phone_type': 'cell'},
                   {'phone': '+7 (912) 172-33-27', 'phone_type': 'home'}]
    },{
        'birthday': '02.11.1991',
        'email': 'robert@yandex.ru',
        'id': 4,
        'name': 'Robert Lee',
        'phones': [{'phone': '+7 (912) 672-13-71', 'phone_type': 'home'}]
    }]

In [294]:
my_ab2

[{'birthday': '22.08.1994',
  'email': 'faina@mail.ru',
  'id': 3,
  'name': 'Faina Lee',
  'phones': [{'phone': '232-19-55', 'phone_type': 'work'},
   {'phone': '+7 (916) 199-93-79', 'phone_type': 'cell'},
   {'phone': '+7 (912) 172-33-27', 'phone_type': 'home'}]},
 {'birthday': '02.11.1991',
  'email': 'robert@yandex.ru',
  'id': 4,
  'name': 'Robert Lee',
  'phones': [{'phone': '+7 (912) 672-13-71', 'phone_type': 'home'}]}]

In [295]:
with open('addres-book.json', mode='w', encoding='utf-8') as f: # открываем файл на запись
    json.dump(my_ab, f, indent=2)

Как выглядит файл:

In [296]:
with open('addres-book.json', 'r', encoding='utf-8') as f:
    for l in f:
        print(l, end="")

[
  {
    "name": "Faina Lee",
    "email": "faina@mail.ru",
    "birthday": "22.08.1994",
    "phones": [
      {
        "phone": "232-19-55"
      },
      {
        "phone": "+7 (916) 232-19-55"
      }
    ]
  },
  {
    "name": "Robert Lee",
    "email": "robert@mail.ru",
    "birthday": "22.08.1994",
    "phones": [
      {
        "phone": "111-19-55"
      },
      {
        "phone": "+7 (916) 445-19-55"
      }
    ]
  },
  {
    "name": "Faina Lee",
    "email": "faina@mail.ru",
    "birthday": "22.08.1994",
    "phones": [
      {
        "phone": "232-19-55"
      },
      {
        "phone": "+7 (916) 232-19-55"
      }
    ]
  },
  {
    "name": "Robert Lee",
    "email": "robert@mail.ru",
    "birthday": "22.08.1994",
    "phones": [
      {
        "phone": "111-19-55"
      },
      {
        "phone": "+7 (916) 445-19-55"
      }
    ]
  }
]

In [297]:
with open('addres-book.json', 'r', encoding='utf-8') as f: # открываем файл на чтение
    ab_fjs = json.load(f)

In [298]:
ab_fjs

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]},
 {'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [299]:
ab_fjs[0]['name']

'Faina Lee'

In [300]:
ab_fjs[1]['name']

'Robert Lee'

###  Получение данных в формате JSON из публичных REST API

<center>         
    <img src="./img/rest_api_service_1.png" alt="Работа REST API" style="width: 700px;"/>
    <b>Работа REST API</b>
</center>

__REST__ (от англ. Representational State Transfer — «передача состояния представления») — архитектурный стиль взаимодействия компонентов распределённого приложения в сети. 

__REST__ – это архитектурный стиль, а __RESTful API__ – это его практическое воплощение.

RESTful API сводится к четырем базовым операциям:
* получение данных в удобном для клиента формате
* создание новых данных
* обновление данных
* удаление данных

REST функционирует поверх протокола HTTP, поэтому стоит упомянуть о его основных особенностях. Для каждой операции указанной выше используется свой собственный HTTP метод:
* __GET__ – получение
* __POST__ – создание
* __PUT__ – обновление, модификация
* __DELETE__ – удаление

<center>         
    <img src="./img/request_methods_3.png" alt="Споставление методов HTTP запросам SQL и CRUD нотации/" style="width: 700px;"/>
    <b>Споставление методов HTTP запросам SQL и CRUD нотации</b>
</center>

Публичное API для работы с почтовыми индексами: http://api.zippopotam.us

In [301]:
ZIPPOPOTAM = 'http://api.zippopotam.us'
COUNTRY = 'RU'
zip_1 = '125009'
zip_2 = '129337'

In [302]:
'/'.join((ZIPPOPOTAM, COUNTRY, zip_1))

'http://api.zippopotam.us/RU/125009'

In [303]:
def url_rus_zip(zip_code):
    return '/'.join((ZIPPOPOTAM, COUNTRY, zip_code))

In [304]:
url_rus_zip(zip_1)

'http://api.zippopotam.us/RU/125009'

Краткая документация по библиотеке requests: http://docs.python-requests.org/en/master/user/quickstart/

In [305]:
# responce for HTTP GET request from http://api.zippopotam.us 
r = requests.get(url_rus_zip(zip_2))
r

<Response [200]>

In [306]:
r.content

b'{"post code": "129337", "country": "Russia", "country abbreviation": "RU", "places": [{"place name": "\\u041c\\u043e\\u0441\\u043a\\u0432\\u0430 337", "longitude": "45.6667", "state": "\\u041c\\u043e\\u0441\\u043a\\u0432\\u0430", "state abbreviation": "", "latitude": "60.15"}]}'

In [307]:
# Convert response into a python object
data = r.json()

In [308]:
# View the data
data

{'post code': '129337',
 'country': 'Russia',
 'country abbreviation': 'RU',
 'places': [{'place name': 'Москва 337',
   'longitude': '45.6667',
   'state': 'Москва',
   'state abbreviation': '',
   'latitude': '60.15'}]}

Разбор данных

In [309]:
# One level deep
data['places']

[{'place name': 'Москва 337',
  'longitude': '45.6667',
  'state': 'Москва',
  'state abbreviation': '',
  'latitude': '60.15'}]

In [310]:
# One level deep, second element
data['places'][0]

{'place name': 'Москва 337',
 'longitude': '45.6667',
 'state': 'Москва',
 'state abbreviation': '',
 'latitude': '60.15'}

In [311]:
# One level down, then second item, then it's longitude object
data['places'][0]['longitude']

'45.6667'

Цикл для вывода координат (широты и долготы) всех мест:

In [312]:
def extract_latlong(json):
    # For each element, i, in data.places,
    for i in data['places']:
        # print the latitude element and the longitude element
        print(i['latitude'], i['longitude'])

In [313]:
# Run the function
extract_latlong(data)

60.15 45.6667


## XML <a class="anchor" id="xml_"></a>
* [к оглавлению](#разделы)

### Формат XML <a class="anchor" id="xml"></a>
* [к оглавлению](#разделы)

<em class="df"></em> __XML__ (англ. eXtensible Markup Language) — расширяемый язык разметки.


Цели создания:
* Эффективное описание (структурирование) данных.
* Обмен данными между информационными системами (в первую очередь – через интернет).

Основные особенности:
* Простой синтаксис.
* Удобство создания и обработки документов программами.
* Удобство чтения и создания документов человеком (профессиональными пользователями).
* Удобство обмена документами в интернете.
* Гибкость применения и расширяемость - возможнсть создавать собственные расширения XML.
* Очень широкая распространенность и доступность инструментов.

* __Расширение XML__ — это конкретная грамматика, созданная на базе XML и представленная словарём тегов и их атрибутов, а также набором правил, определяющих какие атрибуты и элементы могут входить в состав других элементов.

<center>         
    <img src="./img/XML_hist.png" alt=" язСемействоыков SGML" style="width: 300px;"/>
    <b>Семейство языков SGML</b>
</center>

История вопроса:
1. 1969 году в IBM разработан язык __GML__ (Generalized Markup Language).
2. В 80-е на основе GML разрабатывается язык __SGML__ (Standard Generalized Markup Language) — стандартный обобщённый язык разметки, метаязык, на котором можно определять язык разметки для документов. HTML и XML произошли от SGML. 
3. __HTML__ — (HyperText Markup Language — «язык гипертекстовой разметки») это стандартный язык разметки документов в WWW. Большинство веб-страниц содержат описание разметки на языке HTML. HTML это приложение SGML (создан в 1991 г.) 
4. __XML__ (англ. eXtensible Markup Language) подмножество SGML, разработанное для упрощения процесса машинного разбора документа.создан в 1997 г.
5. __XHTML__ — расширяемый язык гипертекстовой разметки. XHTML, это семейство языков разметки веб-страниц на основе XML,

Сравнение XML и HTML:

<table border="1" class="docutils">
    <colgroup>
        <col width="30%">
        <col width="30%">
    </colgroup>
    <thead valign="bottom">
        <tr class="row-odd">
            <th class="head">XML</th>
            <th class="head">HTML</th>
        </tr>
    </thead>
    <tbody valign="top">
        <tr class="row-even">
            <td>Фиксированное множество тегов.</td>
            <td>Расширяемое множество тегов.</td>
        </tr>
        <tr class="row-odd">
            <td>Формат ориентирован на описание представления (внешнего вида) документа.</td>
            <td>Формат ориентирован на содержимое документа.</td>
        </tr>
        <tr class="row-even">
            <td>Единственное представление данных.</td>
            <td>Доступно множество форм представления документа.</td>
        </tr>
        <tr class="row-odd">
            <td>Нет возможностей валидации данных.</td>
            <td>Есть возможность валидации данных. Высокие требования к корректности разметки данных.</td>
        </tr>  
    </tbody>
</table>

Пример XML:

```XML 
<?xml version=“1.0” encoding =“UTF-8” ?>
<address-book>
<address id=“1”>
	<name>Bruce Lee</name>
	<email>bruce@gmail.com</email>
	<phones>
		<phone type=“work”>232-17-45</phone>
		<phone type=“home” code=“true”>(912) 212-34-12</phone>
	</phones>	
	<birthday>11.07.1984</birthday>
</address>
<!- This is comment in XML ->
<address id=“2”>
	<name>Alice Lee</name>
	<email>alee@yandex.ru</email>
	<work>John son</work>
	<phones/>
	<birthday>22.03.1985</birthday>
</address>
</address-book>```

__Элементы и теги__

<center>         
    <img src="./img/xml_examples_p1.png" alt="XML: элементы и теги" style="width: 500px;"/>
    <b>XML: элементы и теги</b>
</center>

* __Теги используются парами__: открывающий тег (например: `<tag-name />`) – закрывающий тег (например: `</tag-name>`). 
* __Элемент не имеющий содержимого__ может описываться одним тегом вида: `<tag-name />`
* Для элементов должна выполнятся __вложенность__.
* У документа должен быть __единственный корневой элемент__.
* Имена тегов __чувствительны к регистру__.

__Атрибуты__

<center>         
    <img src="./img/xml_examples_p2.png" alt="XML: атрибуты" style="width: 500px;"/>
    <b>XML: атрибуты</b>
</center>

* В элементе может быть только один атрибут с данным именем.
* Атрибуты __не имеют структуры__ (только строка с содержимым).
* Значение атрибута должно заключаться в кавычки.
* Правило использования: __содержимое в элементах, метаданные – в атрибутах__.

__Специальные символы__

<center>         
    <img src="./img/xml_examples_p3.png" alt=" язСемействоыков SGML" style="width: 500px;"/>
    <b>XML: специальные символы</b>
</center>


* Некоторые специальные символы должны быть заэкранированы (escaped) при помощи сущностей (entities):
    * `<`  →  `&lt;`
    * `&`  →  `&amp;`
    * `>`  →  `&gt;`
    * `“`  →  `&quot;`
    * `‘`  →  `&apos;`
* Тэги не могут содержать `<` или `&`

__Корректность и действительность XML__

Корректный XML документ
* <em class="df"></em> __Корректный (well-formed) XML документ__ соответствует всем общим правилам синтаксиса XML применимым к любому XML-документу. В частности:
    * правильная структура документа
    * совпадение имен в начальном и конечном теге элемента и т. п. 
* Документ, который неправильно построен (т.е. не является корректным XML документом), не может считаться документом XML.


* <em class="df"></em> Документ является __действительным XML документом__ (valid), если с ним связано объявление типа документа и документ отвечает ограничениям, представленным в объявлении типа.  
* Cпособами объявления типа являются:
    * Document type definition (DTD) - самый ранний способ определения типа. 
    * XML Schema definition (XSD) - более современный вариант. 
    * RELAX NG (Regular Language for XML Next Generation) 
    * DSDL (Document Schema Definition Languages)
    
* __XML процессоры (parsers)__ могут проверять или не проверять дйствительность XML документа. Проверяющие процессоры проверяют действительность документа и должны сообщать (по выбору пользователя) о нарушении ограничений, сформулированных в объявлении типа документа.

* Для большого количества прикладных областей созданы общедоступные объявления типов XML документов, что упрощает процедуру обмена данными между информационными системами.

__Примеры объявления схемы XML документов__

* Пример XML со ссылкой на DTD:
```XML 
<?xml version="1.0"?>
<!DOCTYPE note SYSTEM "http://www.w3schools.com/xml/note.dtd">
<note>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>```
         
* Пример XML со ссылкой на XML Schema (схема хранится в файле `note.xsd`):
```XML
<?xml version="1.0"?>
<note xmlns="http://www.w3schools.com" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3schools.com note.xsd">
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>```

* XML Schema:
    * Используется для тех же целей, что и схема БД. 
    * Имеет набор предопределенных простых типов (строки, целые числа и т.п.)
    * Позволяет определять собственные сложные типы
    * Спецификация XML Schema является рекомендацией W3C.
* Пример XML Schema (схема хранится в файле `note.xsd`):

```XML
<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" targetNamespace="http://www.w3schools.com" xmlns="http://www.w3schools.com" elementFormDefault="qualified">
    <xs:element name="note">
        <xs:complexType>
            <xs:sequence>
                <xs:element name="to" type="xs:string"/>
                <xs:element name="from" type="xs:string"/>
                <xs:element name="heading" type="xs:string"/>
                <xs:element name="body" type="xs:string"/>
            </xs:sequence>
        </xs:complexType>
    </xs:element>
</xs:schema> 
```


__Использование различных типов документов XML__

* Для большого количества прикладных областей созданы общедоступные объявления типов XML документов, что упрощает процедуру обмена данными между информационными системами.


Примеры широко известных типов документов XML :
* XHTML — версия HTML, отвечающая синтаксическим требованиям XML. 
* OpenDocument Format, Office Open XML — форматы файлов для офисных документов (Open Office и MS Office).
* FB2 — формат описания книг, базирующийся на XML. 
* XBRL (eXtensible Business Reporting Language) — расширяемый язык деловой отчётности: широко используемый в мире открытый стандарт обмена деловой информацией. XBRL позволяет выражать с помощью семантических средств общие для участников рынка и регулирующих органов требования к представлению бизнес-отчётности.
* RSS (Rich Site Summary) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами или онлайн-сервисами


Существует огромное количество форматов документов для различных предметных областей. Списки только некоторых типов документов XML:
* https://en.wikipedia.org/wiki/List_of_XML_markup_languages
* https://en.wikipedia.org/wiki/List_of_types_of_XML_schemas#Math_and_science

__JSON vs XML__

<center>         
    <img src="./img/XML_vs_JSON.png" alt="JSON vs XML" style="width: 600px;"/>
    <b>JSON vs XML</b>
</center>

JSON схож с XML по следующим пунктам:
* Текстовые форматы.
* Удобство чтения и создания документов человеком («само описывающие форматы»).
* Иерархические (значения могут содержать списки объектов или значений).

__Когда использовать JSON а когда XML?__
* JSON предпочтительнее в простых приложениях и позволяет удовлетворить простым требованиям по обмену данными.
* XML предпочтительнее для приложений со сложными требованиями к обмену данными, например, в корпоративном секторе.

JSON проще XML, но XML имеет более мощный инструментарий. Для обычных задач краткая семантика JSON позволяет получать более простой код. Для приложений со сложными требованиями к обмену данными, например, на предприятии, мощные функции XML могут значительно снизить риски.

JSON отличается от XML по следующим пунктам:

Преимущества JSON:
* <b class="b">+</b> Легче и быстрее чем XML.
* <b class="b">+</b> JSON использует типизированные объекты. Все значения XML являются строками и должны разбираться во время исполнения.
* <b class="b">+</b> Меньше синтаксиса, совсем нет семантики.

Преимущества XML:
* <b class="b">+</b> Наличие пространств имен (namespace). Позволяет расширять язык документа за счет использования различных схем.
* <b class="b">+</b> Атрибуты позволяют эффективно добавлять метаданные в документ. В JSON для этой цели приходится использовать ситуативные решения.
* <b class="b">+</b> Поддержка действительности документа, позволяет автоматически проверять соответствие документа спецификации.
* <b class="b">+</b> Множество дополнительных инструментов для работы с документами (XPath, XSL, XQuery), позволяющие обращаться к фрагментам документов и преобразоывать их.


JSON is best for simple applications, developed to satisfy simple requirements surrounding data interchange. XML is best for applications with complex requirements surrounding data interchange, such as in enterprise.


__Работа с данными XML в приложениях__


<center>         
    <img src="./img/SAX_vs_DOM.png" alt="Сравнение SAX и DOM парсеров" style="width: 600px;"/>
    <b>Сравнение SAX и DOM парсеров</b>
</center>

DOM (Document Object Model):
* <b class="b">+</b> Естественное соответствие древовидной структуры документа и его объектной модели.
* <b class="b">+</b> Возможность навигироваться по документу в любом направлении.
* <b class="b">-</b> Необходимо прочитать весь документ в память. 

SAX (Simple API for XML) 
* Событийный подход к разбору XML.
* <b class="b">-?</b> Более сложная логика работы с данными при их сложной организации.
* <b class="b">-</b> Только последовательное получение информации из документа.
* <b class="b">+</b> Можно обрабатывать только некоторую часть документа.
* <b class="b">+</b> Позволяет не хранить весь документ в памяти.



__DOM__

<center>         
    <img src="./img/DOM_str_.png " alt="Пример представления XML документа в виде DOM-дерева" style="width: 600px;"/>
    <b>Пример представления XML документа в виде DOM-дерева</b>
</center>


### Работа с XML в Python<a class="anchor" id="работа-xml"></a>
* [к оглавлению](#разделы)

BeautifulSoup является библиотекой Python для парсинга HTML и XML документов. Часто используется для скрапинга веб-страниц. BeautifulSoup позволяет трансформировать XML или HTML документ в древо объектов Python, аналогичное DOM-дереву. Элементами этого дерева могут быть теги, навигация или комментарии.

Документация по BeautifulSoup: 
* https://www.crummy.com/software/BeautifulSoup/
* https://www.crummy.com/software/BeautifulSoup/bs4/doc/
* Примеры работы BeautifulSoup с HTML: https://python-scripts.com/beautifulsoup-html-parsing


Импорт библитек:

In [1]:
# import required modules
import requests
from bs4 import BeautifulSoup

Пример для работы:

```XML
<?xml version="1.0" encoding="UTF-8" ?>
<address_book>
<address id="1">
	<name>Bruce Lee</name>
	<email>bruce@gmail.com</email>
	<phones>
		<phone type="work">232-17-45</phone>
		<phone type="home" code="true">+7 (912) 212-34-12</phone>
	</phones>	
	<birthday>11.07.1984</birthday>
</address>
<!-- This is comment in XML -->
<address id="2">
	<name>Alice Lee</name>
	<email>alee@yandex.ru</email>
	<work>John&amp;son</work>
	<phones/>
	<birthday>22.03.1985</birthday>
</address>
</address_book>
```

In [2]:
# Выполняем парсинг XML файла:
with open('.\\addres-book.xml') as f:
    ab = BeautifulSoup(f, 'xml')

In [3]:
ab

<?xml version="1.0" encoding="utf-8"?>
<address_book>
<address id="1">
<name>Bruce Lee</name>
<email>bruce@gmail.com</email>
<phones>
<phone type="work">232-17-45</phone>
<phone code="true" type="home">+7 (912) 212-34-12</phone>
</phones>
<birthday>11.07.1984</birthday>
</address>
<!-- This is comment in XML -->
<address id="2">
<name>Alice Lee</name>
<email>alee@yandex.ru</email>
<work>John&amp;son</work>
<phones/>
<birthday>22.03.1985</birthday>
</address>
</address_book>

In [4]:
# Переходим к корню дерева документа:
ab.address_book

<address_book>
<address id="1">
<name>Bruce Lee</name>
<email>bruce@gmail.com</email>
<phones>
<phone type="work">232-17-45</phone>
<phone code="true" type="home">+7 (912) 212-34-12</phone>
</phones>
<birthday>11.07.1984</birthday>
</address>
<!-- This is comment in XML -->
<address id="2">
<name>Alice Lee</name>
<email>alee@yandex.ru</email>
<work>John&amp;son</work>
<phones/>
<birthday>22.03.1985</birthday>
</address>
</address_book>

In [10]:
ab.address_book.find_all('address')

[<address id="1">
 <name>Bruce Lee</name>
 <email>bruce@gmail.com</email>
 <phones>
 <phone type="work">232-17-45</phone>
 <phone code="true" type="home">+7 (912) 212-34-12</phone>
 </phones>
 <birthday>11.07.1984</birthday>
 </address>, <address id="2">
 <name>Alice Lee</name>
 <email>alee@yandex.ru</email>
 <work>John&amp;son</work>
 <phones/>
 <birthday>22.03.1985</birthday>
 </address>]

In [11]:
ab.address_book.address.name

'address'

In [12]:
ab.address_book.address['id']

'1'

In [13]:
ab.address_book.address.text

'\nBruce Lee\nbruce@gmail.com\n\n232-17-45\n+7 (912) 212-34-12\n\n11.07.1984\n'

In [84]:
ab.address_book.address.getText('|',strip=True) # Получаем все дочерние строки разделенные заданным разделителем.

'Bruce Lee|bruce@gmail.com|232-17-45|+7 (912) 212-34-12|11.07.1984'

In [85]:
ab.address_book.address.contents

['\n',
 <name>Bruce Lee</name>,
 '\n',
 <email>bruce@gmail.com</email>,
 '\n',
 <phones>
 <phone type="work">232-17-45</phone>
 <phone code="true" type="home">+7 (912) 212-34-12</phone>
 </phones>,
 '\n',
 <birthday>11.07.1984</birthday>,
 '\n']

In [93]:
# обходим все дочерние элементы address:
for ch in ab.address_book.address.children:
    print(ch.name,'->', repr(ch))

None -> '\n'
name -> <name>Bruce Lee</name>
None -> '\n'
email -> <email>bruce@gmail.com</email>
None -> '\n'
phones -> <phones>
<phone type="work">232-17-45</phone>
<phone code="true" type="home">+7 (912) 212-34-12</phone>
</phones>
None -> '\n'
birthday -> <birthday>11.07.1984</birthday>
None -> '\n'


In [16]:
# получаем первый элемент соответствующий указанному пути:
ab.address_book.address.phone

<phone type="work">232-17-45</phone>

In [95]:
# получаем все дочерние элементы 'phone' для пути address_book.address:
ab.address_book.address.find_all('phone')

[<phone type="work">232-17-45</phone>,
 <phone code="true" type="home">+7 (912) 212-34-12</phone>]

In [96]:
# ищем элементы соответствующие более сложному условию:
ab.address_book.address.find('phone', type='home')

<phone code="true" type="home">+7 (912) 212-34-12</phone>

In [24]:
ab.address_book.address.find('phone', type='home')

<phone code="true" type="home">+7 (912) 212-34-12</phone>

In [23]:
ab.address_book.address.find('phone', attrs={'type': 'home'})

<phone code="true" type="home">+7 (912) 212-34-12</phone>

In [17]:
ph1 = ab.address_book.address.find('phone')

In [19]:
ph1

<phone type="work">232-17-45</phone>

In [21]:
ph1.next_sibling.next_sibling

<phone code="true" type="home">+7 (912) 212-34-12</phone>

In [99]:
list(ph1.next_siblings)

['\n', <phone code="true" type="home">+7 (912) 212-34-12</phone>, '\n']

In [100]:
ph1.next

'232-17-45'

In [101]:
list(ph1.nextGenerator())

['232-17-45',
 '\n',
 <phone code="true" type="home">+7 (912) 212-34-12</phone>,
 '+7 (912) 212-34-12',
 '\n',
 '\n',
 <birthday>11.07.1984</birthday>,
 '11.07.1984',
 '\n',
 '\n',
 ' This is comment in XML ',
 '\n',
 <address id="2">
 <name>Alice Lee</name>
 <email>alee@yandex.ru</email>
 <work>John&amp;son</work>
 <phones/>
 <birthday>22.03.1985</birthday>
 </address>,
 '\n',
 <name>Alice Lee</name>,
 'Alice Lee',
 '\n',
 <email>alee@yandex.ru</email>,
 'alee@yandex.ru',
 '\n',
 <work>John&amp;son</work>,
 'John&son',
 '\n',
 <phones/>,
 '\n',
 <birthday>22.03.1985</birthday>,
 '22.03.1985',
 '\n',
 '\n']

In [102]:
ph1.findNextSibling()

<phone code="true" type="home">+7 (912) 212-34-12</phone>

Более крупный пример:

```XML
<?xml version="1.0" encoding="UTF-8" ?>
<address_book>
<country name="algeria">
<address id="1">
	<gender>m</gender>
	<name>Aicha Barki</name>
	<email>aiqraa.asso@caramail.com</email>
	<position>Presidente</position>
	<company>Association Algerienne d'Alphabetisation Iqraa</company>
	<phones>
		<phone type="work">+ (213) 6150 4015</phone>
		<phone type="personal">+ (213) 2173 5247</phone>
	</phones>	
</address>
</country>
<country name="angola">
<address id="2">
	<gender>m</gender>
	<name>Francisco Domingos</name>
	<email>frandomingos@hotmail.com</email>
	<position>Directeur General</position>
	<company>Institut National de Education des Adultes</company>
	<phones>
		<phone type="work">+ (244-2) 325 023</phone>
		<phone type="personal">+ (244-2) 325 023</phone>
	</phones>	
</address>
<address id="3">
	<gender>f</gender>
	<name>Maria Luisa</name>
	<email>luisagrilo@ebonet.net</email>
	<position>Directrice Nationale</position>
	<company>Institut National de Education des Adultes</company>
	<phones>
		<phone type="personal">+ (244) 4232 2836</phone>
	</phones>	
</address>
<address id="4">
	<gender>m</gender>
	<name>Abraao Chanda</name>
	<email>ineda@snet.co.ao</email>
	<position>Chef</position>
	<company>Institut National de Education des Adultes</company>
	<phones>
		<phone type="work">+ (244-2) 325 023</phone>
		<phone type="personal">+ (244-2) 325 023</phone>
	</phones>	
</address>
</country>
<country name="argentina">
<address id="5">
	<gender>m</gender>
	<name>Beatriz Busaniche</name>
	<email>busaniche@caminandoutopias.org.ar</email>
	<position>Executive Director</position>
	<company>Universidad de Buenos Aires</company>
	<phones>
		<phone type="work">+ (54-11) 4784 1159</phone>
	</phones>	
</address>
</country>
<country name="australia">
<address id="6">
	<gender>f</gender>
	<name>Francesca Beddie</name>
	<email>f.beddie@ala.asn.au</email>
	<position>Executive Director</position>
	<company>Adult Learning Australia</company>
	<phones>
		<phone type="work">+ (61-2) 6274 9500</phone>
		<phone type="personal">+ (61-2) 6274 9513</phone>
	</phones>	
</address>
<address id="7">
	<gender>m</gender>
	<name>Graham John Smith</name>
	<email>grasm@connexus.net.au</email>
	<position>Secretary</position>
	<company>Disability Australia Ltd</company>
	<phones>
		<phone type="work">+ (61-3) 9807 4702</phone>
	</phones>	
</address>
</country>

</address_book>
```

In [106]:
with open('.\\addres-book-q.xml') as f:
    ab = BeautifulSoup(f, 'xml')

In [107]:
res = list();
for person in ab.address_book.find_all("address"):
    ph = [phones.next for phones in person.phones.find_all("phone")]
    res.append({person.find("name").next: ph})
res

[{'Aicha Barki': ['+ (213) 6150 4015', '+ (213) 2173 5247']},
 {'Francisco Domingos': ['+ (244-2) 325 023', '+ (244-2) 325 023']},
 {'Maria Luisa': ['+ (244) 4232 2836']},
 {'Abraao Chanda': ['+ (244-2) 325 023', '+ (244-2) 325 023']},
 {'Beatriz Busaniche': ['+ (54-11) 4784 1159']},
 {'Francesca Beddie': ['+ (61-2) 6274 9500', '+ (61-2) 6274 9513']},
 {'Graham John Smith': ['+ (61-3) 9807 4702']}]

In [108]:
ph1

<phone type="work">232-17-45</phone>

---

# Спасибо за внимание!

---------

TODO: requests (краулинг), 
* CSV
* ? mime type
* В других лекциях: numpy-native, xlsx, sqlite