# Лекция 4: Форматы данных

__Автор: Сергей Вячеславович Макрушин__ e-mail: SVMakrushin@fa.ru 

Финансовый универсиет, 2020 г. 

При подготовке лекции использованы материалы:
* Документация к рассмотренным пакетам

V 0.2 20.09.2020

## Разделы: <a class="anchor" id="разделы"></a>
* [Файлы](#файлы)
* [Сериализация и обмен данными](#сериализацияba)
    * [Формат Pickle](#pickle)
    * [Формат JSON ](#json)
    * [Формат XML ](#xml)
    * [Работа с XML](#работа-xml)
-
* [к оглавлению](#разделы)

In [1]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v1.css")
HTML(html.read().decode('utf-8'))

# Файлы <a class="anchor" id="файлы"></a>
* [к оглавлению](#разделы)

<em class="df"></em> __Файл__ - именованная область данных на носителе информации. Работа с файлами реализуется средствами операционных систем.



<center>         
    <img src="./img/L4_os_layers.png" alt="Роль операционной системы" style="width: 200px;"/>
    <b>Роль операционной системы</b>
</center>

* Операционная система предоставляет приложениям набор функций и структур (API) для работы с файлами.
* Использования API абстрагирует пользователя (программу) от специфики хранения файла:
    * Существует ли файл как __объект файловой системы__ или является, например, __устройством ввода-вывода__ 
    * В какой __файловой системе__ хранится файл: зачастую операционная система позволяет работать с несколькими видами файловых систем, которые предоставляют единый базовый API для прикладной работы с файлами.
    * На каком __физическом носителе__ хранится файл, например: файл может храниться на жестком диске или в оперативной памяти компьютера или на удаленном компьютере.

<center>         
    <img src="./img/L4_The_File_System_Layer.jpg" alt="Уровни взаимодействия с файлами" style="width: 400px;"/>
    <b>Уровни взаимодействия с файлами</b>
</center>

* <em class="df"></em> __Файловая система__ - порядок, определяющий способ организации, хранения и именования данных на носителях информации в компьютерах. Файловая система связывает носитель информации с одной стороны и API для доступа к файлам — с другой. 
* Файловая система не обязательно напрямую связана с физическим носителем информации. 
    * Существуют __виртуальные файловые системы__
    * Существуют __сетевые файловые системы__, которые являются лишь способом доступа к файлам, находящимся на удалённом компьютере.

* Имеются протоколы передачи данных, которые позволяют передавать файлы по сети, в частности:
    * __FTP  (File Transfer Protocol)__ - протокол передачи файлов со специального файлового сервера на компьютер пользователя. FTP дает возможность абоненту обмениваться двоичными и текстовыми файлами с любым компьютером сети. Установив связь с удаленным компьютером, пользователь может скопировать файл с удаленного компьютера на свой или скопировать файл со своего компьютера на удаленный.
    * __HTTP (Hyper Text Transfer Protocol)__ - это протокол передачи гипертекста. Протокол HTTP используется при пересылке Web-страниц между компьютерами, подключенными к одной сети. 
    * __WebDav (Web Distributed Authoring and Versioning) или просто DAV__ — набор расширений и дополнений к протоколу HTTP, поддерживающих совместную работу пользователей над редактированием файлов и управление файлами на удаленных веб-серверах. Сегодня DAV применяется в качестве сетевой файловой системы, эффективной для работы в Интернете и способной обрабатывать файлы целиком, поддерживая хорошую производительность работы в условиях окружения с высокой временной задержкой передачи информации.



<center>         
    <img src="./img/L4_The_File_System_Layer.jpg" alt="Стек технологий Python для обработки данных и научных расчетов" style="width: 400px;"/>
    <b>Стек технологий Python для обработки данных и научных расчетов</b>
</center>

In [6]:
#TODO: разделители (конец строки), кодировки

In [7]:
#работа с бинарным файлом

__Форматы файлов__

<em class="df"></em> __Формат файла__ - это стандартный способ организации информации для хранения в компьютерном файле. На уровне операционной системы файл, это всего лишь контейнер для данных, способ организации данных внутри файла определяется уже форматом файла, использованным для хранения информации. 
* Формат опредяет как данные кодируются в байты и как байты организуются в одномерный массив, в виде которого они хранятся в файле.
* Функционал по работе с файлами разных форматов (например их созданию из специализированных данных и чтению и использованию данных из них) реализуют специализированные программы, работающие поверх фйлового API операционной системы.
* Информация о формате файла является одним из видов метаданных. 


Форматы файлов можно разделить по __способу организаци хранения данных__ на:
* <em class="df"></em> __Tекстовые файлы__ - файл, содержащий текстовые данные, представленные как оследовательность символов (в основном печатных знаков, принадлежащих к определенному набору символов - кодовой таблице (кодировке)). Эти символы обычно сгруппированы в строки (lines, rows). В современных системах строки разделяются разделителями строк, иногда конец текстового файла также отмечается одним или более специальными знаками.
    * <b class="b">+</b> Универсальность - текстовый файл может быть прочитан на любой системе или ОС. При этом распространенной проблемой является определение __корректной кодировки файла__. 
    * <b class="b">+</b> Удобнство интерпретации файла - данные записанные в текстовом формате часто оформлены как "самозадокументрованные", т.е. могут интерпретироваться человеком без дополнительных спецификаций. 
    * <b class="b">+</b> Удобнство работы с файлом - формат текстового файла крайне прост и его можно просматривать и изменять текстовым редактором - программой, доступной для любой современной ОС. 
    * <b class="b">+</b> Наличие универсальных инструментов - в частности, многие системы управления версиями рассчитаны на текстовые файлы и могут выполнять с ними множество полезных операций, например находить разницу между двумя файлами, в то время, как с двоичными файлами могут работать только как с единым целым.
    * <b class="b">+</b> Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого. У сжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым.     
    * <b class="b">-</b> Низкая эффективность хранения - у больших несжатых текстовых файлов низкая информационная энтропия - эти файлы занимают больше места, нежели минимально необходимо. При этом данная избыточность определяет повышенную устойчивость данных к повреждениям.
    
* <em class="df"></em> __Двоичные (бинарные) файлы__ (binary file) - в узком смысле "не текстовые файлы". Файлы, байты в которых интерпретируются не как текст (при этом они могут включать фрагменты текста). 
    * <b class="b">+</b> Двоичные файлы сохраняют информацию аналогично представлении информации в памяти компьютера во время работы программы, что позволяет выполнять запись и чтение файла не выполняя никаких преобразований, что существенно ускоряет процесс ввода/вывода. 
    * <b class="b">+</b> Обычно хранение информации (в частности числовых массивов) в двоичном формате намного компактнее, что уменьшает требования к объему хранилища и увеличивает скорость ввода/вывода.
    * <b class="b">&plusmn;</b> Интерпретировать неизвестный двоичный формат намного сложнее что существенно усложняет работу с ним людей не имеющих доступа к инструментам, при помощи которых файлы создавались.
    * <b class="b">-</b> Обычно двоичные файлы намного менее переносимые. Хранение в двоичном формате часто несет специфику платформы (ОС, аппаратного обеспечения) и из-за сложности обратной разработки данные форматы требуют качественной открытой спецификации. Одна из распространенных проблем: __разница в порядке байтов или длине машинного слова__ на разных платформах. Подробнее см.: https://ru.wikipedia.org/wiki/Порядок_байтов .




In [110]:
# Работа с двоичными и бинарными файлами в Python

Форматы файлов можно разделить __по назначению форматов файлов__:
* __хранение данных конкретного типа__ - например: PNG-файлы используются для хранения изображений.
* __контейнеры данных__ - формат разработан для хранения нескольких различных типов данных. Например, формат OGG может использоваться для харанения разных типов мультимедиа информации: видое, аудио, текста (например субтитров) и метаданных.
* __сериализация данных__ - перевод 


<center>         
    <img src="./img/L4_serialization-deserialization.jpeg" alt="сериализация-десериализация данных" style="width: 500px;"/>
    <b>Сериализация-десериализация данных</b>
</center>

<em class="df"></em> __Сериализация__ (serialization) - процесс перевода какой-либо структуры данных в последовательность битов. Обратной к  сериализации является операция __десериализации__ (deserialization) — восстановление начального состояния структуры данных из битовой последовательности.
* Сериализация используется:
    * для передачи объектов по сети и для сохранения их в файлы.
    * для сохранения состояния приложения или некоторых его структур данных, хранения в файле и последующего восстановления данных.
    * Список известных форматов данных для сериализации: https://en.wikipedia.org/wiki/Comparison_of_data-serialization_formats .
        * __XML__ (eXtensible Markup Language) - расширяемый язык разметки (рекомендован W3C). XML разрабатывался как язык с простым формальным синтаксисом, __удобный для создания и обработки документов программами и одновременно удобный для чтения и создания документов человеком__, с подчёркиванием нацеленности на использование в Интернете. Язык называется __расширяемым__, поскольку он не фиксирует разметку, используемую в документах: разработчик волен создать разметку в соответствии с потребностями к конкретной области, будучи ограниченным лишь синтаксическими правилами языка.
        * __JSON__ (JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript.  JSON легко читается людьми. Несмотря на происхождение от JavaScript, формат считается независимым от языка и может использоваться практически с любым языком программирования.
        * __YAML__ - «дружественный» формат сериализации данных, концептуально близкий к языкам разметки, но ориентированный на удобство ввода-вывода типичных структур данных многих языков программирования.
    * Специализированные форматы, которые будут рассмотрены:
        * __pickle__ - бинарный формат для сериализации объектов Python в поток байтов. Реализуется как последовательность операций для выполнения на Pickle Virtual Machine. Формат определяется прежде всего реализацией Pickle Virtual Machine.
        * __Apache Parquet__ - открытый формат хранения данных для экосистемы Apache Hadoop. Он обеспечивает эффективные схемы сжатия и кодирования данных с повышенной производительностью для обработки больших объемов сложных данных.
        


In [8]:
# Вторая часть: CSV, numpy, Parquet, xlsx

<em class="df"></em> __Спецификация формата файла__ - подробное описание структуры файлов данного формата, то, как программы должны кодировать данные для записи в этот формат и как декодировать их при чтении.
Существуют:
* "открытые" форматы файлов - имеют публично доступные спецификации, разработанные некоммерческими организациями и частными компаниями, разработчиками формата.
* "закрытые" форматы файлов - организации разрабочики считают формат файла своей коммерческой тайной (например, старый формат файлов MS Office) или не считает нужным тратить время на написание подробной спецификации.

* Обычно форматы файлов не защищены авторскими правами и "закрытые" форматы могут быть специфированные мтодами обратной разработкой (reverse engineering)

__Метаданные и и опредеделение форматаы файлов__

<em class="df"></em> __Формат файла__ - это стандартный способ организации информации для хранения в компьютерном файле. На уровне операционной системы файл, это всего лишь контейнер для данных, способ организации данных внутри файла определяется уже форматом файла, использованным для хранения информации. 
* Формат опредяет как данные кодируются в байты и как байты организуются в одномерный массив, в виде которого они хранятся в файле.
* Функционал по работе с файлами разных форматов (например их созданию из специализированных данных и чтению и использованию данных из них) реализуют специализированные программы, работающие поверх фйлового API операционной системы.
* Информация о формате файла является одним из видов метаданных. 




<em class="df"></em> __Метаданные__ (metadata) - "данные о данных", или "информация о другой информации", или данные, относящиеся к дополнительной информации о содержимом или объекте. Можно выделить:
* описательные метаданные (descriptive metadata) - данные используемые для обнаружения или идентификации. Например: название, аннотация. К описательным метаданным можно отнести имя файла.
* структурные метаданные (structural metadata) - данные об организации данных. В частности: __формат файла__, версия формата данных.
* административные метаданные (administrative metadata) - информация которая помогает управлять ресурсом. Например: информация о правах доступа, времени с создания файла и времени последнего изменения.
* статистические метаданные (statistical metadata) - статистическая информация о данных.

На данный момент __нет единого подхода к хранению информации об формате файла__ и шире: о структурных метаданных и метаданных компьютерных файлов вообще. Возможны следующие варианты и их комбинации:
* __расширение файла__ - формат файла указанный в виде текстового обозначения в конце имени файла (после последней точки в имени файла). Существует большой список общеупотребимых расширений файлов: https://en.wikipedia.org/wiki/List_of_file_formats , при этом не все имена уникальны, а многи форматы имеют несколько альтернативных имен, например: `htm` и `html`.
* __внутренние метаданные__ - хранение информации о формате файла внтури самого файла (обычно - в самом начале файла), эта область файла именуется:
    * __заголовком файла__ (file header) если область больше чем несколько байт. Например HTML файлы начинаются с `<html>` или `<!DOCTYPE HTML>`.
    * __магическим числом__ (magic number) если область занимает всего несколько байт. В Unix-системах распространено использование двухбайтовых (и более длинных) магических чисел в начале файла для хранения информации о типе файла, см.: https://en.wikipedia.org/wiki/List_of_file_signatures .
* __внешние метаданные__ - явное хранение метаданных о файле в файловой системе.
    * <b class="b">+</b> прогрессивный и потенциально наиболее удобный вариант
    * <b class="b">-</b> на практике данный подход испытывает большие проблемы с переносимостью между операционными системами и файловыми системами из-за отстутсвия поддержки такого функционала многими ФС и ОС и API для передчи данных.
*  __MIME types__ (Multipurpose Internet Mail Extensions) - стандарт, описывающий передачу различных типов данных по электронной почте, а также, в общем случае, спецификация для кодирования информации и форматирования сообщений таким образом, чтобы их можно было пересылать по Интернету. 
    * MIME определяет механизмы для передачи разного рода информации внутри текстовых данных (в частности, с помощью электронной почты), а именно: текст на языках, для которых используются кодировки, отличные от ASCII, и нетекстовые данные, такие, как картинки, музыка, фильмы и программы.
    * система MIME types имеет стандартную систему идентификторов (управляемых организацией IANA), сотоящих из типа и подтипа, разделенного слешем, например: `text/html` или `image/gif`.
    * Официальный список MIME типов на сайте IANA: https://www.iana.org/assignments/media-types/media-types.xhtml .
    * На данный момент MIME __является  фундаментальным компонентом коммуникационных протоколов в интернете__,  в частоснти, в HTTP (HyperText Transfer Protocol)  серверы вставляют заголовок MIME при передачи любых данных WWW, далее этот заголовок используется клиентом (например браузером) для корректного отображения полученных данных.
    * Роль MIME types постоянно возрастает, однако они редко используются для данных, хранимых в локальных файловых системах. 

In [5]:
# MIME type из HTTP

__Структурирование данных__

Принято делить данные на три категории:
* __Структурированные__ – <b class="g">Ex:</b> реляционная база данных
* __Слабо (полу-) структурированные__ – <b class="g">Ex:</b> веб-страница
* __Не структурированные__ – <b class="g">Ex:</b> текст на естественном языке.

Слабо структурированное данные:
* Обычно слабо структурированные данные содержат __маркеры для отделения семантических элементов__ и для обеспечения частичной структуры данных в наборе данных, но не соответствуют строгой структуре отношений реляционной модели данных. Такой вид данных можно назвать __бессхемным__, а структуру — __самоописываемой__. В слабоструктурированных данных __сущности__, принадлежащие одному и тому же классу, __могут иметь разные атрибуты__, порядок атрибутов также не важен.

* Слабоструктурированные представления данных важны, т.к. для __обмена данными__ между разными системами (например в web) необходимо иметь __максимально гибкий формат__. 


* Часто слабо структурированные данные именуются документами. __Документ__  — объект, содержащий информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве. Обычно документы имеют внутреннюю структуру, при этом часто не существует стандарта такой струкутуры, т.е. в этом смысле документы являются безсхемной самоописываемой информацией.

# Сериализация и обмен данными <a class="anchor" id="сериализация"></a>
* [к оглавлению](#разделы)

Особенности, плюсы / минусы

* __pickle__ - бинарный формат для сериализации объектов Python в поток байтов. Реализуется как последовательность операций для выполнения на Pickle Virtual Machine. Формат определяется прежде всего реализацией Pickle Virtual Machine.

* __JSON__ (JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript.  JSON легко читается людьми. Несмотря на происхождение от JavaScript, формат считается независимым от языка и может использоваться практически с любым языком программирования.

* __XML__ (eXtensible Markup Language) - расширяемый язык разметки (рекомендован W3C). XML разрабатывался как язык с простым формальным синтаксисом, __удобный для создания и обработки документов программами и одновременно удобный для чтения и создания документов человеком__, с подчёркиванием нацеленности на использование в Интернете. Язык называется __расширяемым__, поскольку он не фиксирует разметку, используемую в документах: разработчик волен создать разметку в соответствии с потребностями к конкретной области, будучи ограниченным лишь синтаксическими правилами языка.


## Формат Pickle <a class="anchor" id="pickle"></a>
* [к оглавлению](#разделы)

__pickle__ - бинарный формат для сериализации объектов Python в поток байтов. Реализуется как последовательность операций для выполнения на Pickle Virtual Machine. Формат определяется прежде всего реализацией Pickle Virtual Machine.

The core general serialization mechanism is the pickle standard library module, alluding to the database systems term pickling[27][28][29] to describe data serialization (unpickling for deserializing). Pickle uses a simple stack-based virtual machine that records the instructions used to reconstruct the object. It is a cross-version customisable but unsafe (not secure against erroneous or malicious data) serialization format. Malformed or maliciously constructed data, may cause the deserializer to import arbitrary modules and instantiate any object.[30][31] The standard library also includes modules serializing to standard data formats: json (with built-in support for basic scalar and collection types and able to support arbitrary types via encoding and decoding hooks). plistlib (with support for both binary and XML property list formats). xdrlib (with support for the External Data Representation (XDR) standard as described in RFC 1014). Finally, it is recommended that an object's __repr__ be evaluable in the right environment, making it a rough match for Common Lisp's print-object. Not all object types can be pickled automatically, especially ones that hold operating system resources like file handles, but users can register custom "reduction" and construction functions to support the pickling and unpickling of arbitrary types. Pickle was originally implemented as the pure Python pickle module, but, in versions of Python prior to 3.0, the cPickle module (also a built-in) offers improved performance (up to 1000 times faster[30]). The cPickle was adapted from the Unladen Swallow project. In Python 3, users should always import the standard version, which attempts to import the accelerated version and falls back to the pure Python version.[32]

Сохранение данных в Pickle

* Стандартное расширение для файлов: `.pickle`
* Могут встречаться расширения: `.pkl`, `.pck`, `.db`

In [2]:
# объект (данные) для сохранения:
dat1 = ["Строка", (12, 3)] 

In [3]:
import pickle # подключаем модуль pickle

In [4]:
# Стандартное расширение дл

with open('dat1.pickle', 'wb') as f:
    pickle.dump(dat1, f)

Pickle хранит данные в бинарном формате:

In [5]:
with open('dat1.pickle') as f:
    for l in f:
        print(l)

Ђ]q (X   РЎС‚СЂРѕРєР°qKK†qe.


In [6]:
with open('dat1.pickle', 'rb') as f:
    for l in f:
        print(l)

b'\x80\x03]q\x00(X\x0c\x00\x00\x00\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0q\x01K\x0cK\x03\x86q\x02e.'


Восстановление объектов (данных) из файла pickle:

In [7]:
with open('dat1.pickle', 'rb') as f:
    dat1_l = pickle.load(f)
    
dat1_l

['Строка', (12, 3)]

В один файл можно сохранить сразу несколько объектов, последовательно вызывая функцию `dump()`. 

In [8]:
dat2 = (6, 7, 8, 9, 10) 

In [9]:
with open('dat2.pickle', 'wb') as f:
    pickle.dump(dat1, f)
    pickle.dump(dat2, f)

In [10]:
# восстановление данных из файла:

with open('dat2.pickle', 'rb') as f:
    dat1_l2 = pickle.load(f)
    dat2_l2 = pickle.load(f)
dat1_l2, dat2_l2

(['Строка', (12, 3)], (6, 7, 8, 9, 10))

Модуль `pickle` позволяет также преобразовать объект в последовательность байтов и восстановить объект из последовательности. Для этого предназначены две функции: 
* `dumps(<Объект> [, <Протокол>] [, fix_imports=True])` - производит сериализацию объекта и возвращает последовательность байтов специального формата. 
* `lоаds(<Последовательность байтов>[, fix_imports=True] [, errors="strict"])` - преобразует последовательность байтов обратно в объект. 

In [11]:
bs = pickle.dumps(dat1)
bs

b'\x80\x03]q\x00(X\x0c\x00\x00\x00\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0q\x01K\x0cK\x03\x86q\x02e.'

In [12]:
pickle.loads(bs)

['Строка', (12, 3)]

Модуль shelve позволяет сохранять объекты под определенным ключом (задается в виде строки) и предоставляет интерфейс доступа, сходный со словарями. Для сериализации объекта используются возможности модуля `pickle`, а чтобы записать получивщуюся строку пo ключу в файл, применяется модуль `pickle`. Все эти действия модуль shelve производит незаметно для нас. 

Чтобы открыть файл с базой объектов, используется функция `open()`. Функция имеет следующий формат: 

`open (<Путь к файлу> [, flag="c"] [, protoco1=None] [, writeback=Fa1se])` 

В необязательном параметре flag можно указать один из режимов открытия файла: 
* r - только чтение; 
* w - чтение и запись; 
* с - чтение и запись (значение по умолчанию). Если файл не существует, он будет создан; 
* n - чтение и запись. Если файл не существует, он будет создан. Если файл существует, он будет перезаписан. 

Функция `open()` возвращает объект, с помощью которого производится дальнейшая работа с базой данных. Этот объект имеет следующие методы: 
* `close()` - закрывает файл с базой данных.
* `keys()` - возвращает объект с ключами; 
* `values()` - возвращает объект to значениями; 
* `items()` - возвращает объект, поддерживающий итерации. На каждой итерации возвращается кортеж, содержащий ключ и значение. 

* `get(<Ключ> [, <Значение по умолчанию>] )` - если ключ присутствует; то метод возвращает значение, соответствующее этому ключу. Если ключ отсутствует, то возвращается начение None или значение, указанное во втором nараметре; 
* `setdefault(<Ключ> [, <Значение по умолчанию>] )` ---: если ключ nрисутствует, то метод возвращает значение, соответствующее этому ключу. Если ключ отсутствует, то вставляет новый элемент со значением, указанным во втором параметре, и возвращает это значение. Если второй nараметр не указан, значением нового элемента будет None;  
* `рор (<Ключ> [, <Значение по умолчанию>] )` - удаляет элемент с указанным ключом и возвращает его значение. Если ключ отсутствует, то возвращается значение из второго nараметра. Если ключ отсутствует, и второй nараметр не указан, то возбуждается исключение KeyError; 
* `popitem()` - удаляет произвольный элемент и возвращает кортеж из ключа и значения. Если файл nустой, возбуждается исключение KeyError; 
* `clear ()` - удаляет все элементы. Метод ничего не возвращает в качестве значения; 
* `update ()` - добавляет элементы. Метод изменяет текущий объект и ничего не возвращает. Если элемент с указанным ключом уже присутствует, то его значение будет перезаписано.

Помимо этих методов можно воспользоваться функцией `len()` для nолучения количества 
элементов и оnератором `del` для удаления оnределенного элемента, а также оnератором `in` для nроверки существования ключа. 

In [13]:
import shelve

In [14]:
db = shelve.open("shl_1")

In [15]:
db["obj1"] = [1, 2, 3, 4, 5] 
db["obj2"] = (6, 7, 8, 9, 10) 

In [16]:
db["obj1"]

[1, 2, 3, 4, 5]

In [17]:
db["obj2"]

(6, 7, 8, 9, 10)

In [18]:
db.close()

In [19]:
db = shelve.open('shl_1')

In [20]:
db.keys()

KeysView(<shelve.DbfilenameShelf object at 0x0000027E29EEB708>)

In [21]:
list(db.keys())

['obj1', 'obj2']

In [22]:
list(db.values())

[[1, 2, 3, 4, 5], (6, 7, 8, 9, 10)]

In [23]:
for k, v in db.items():
    print('key: {}, value: {}'.format(k, v))

key: obj1, value: [1, 2, 3, 4, 5]
key: obj2, value: (6, 7, 8, 9, 10)


Восстанавливаем объекты из файла:

In [22]:
db = shelve.open('shl_1')

In [23]:
db.keys()

KeysView(<shelve.DbfilenameShelf object at 0x0000027E29EF0EC8>)

In [24]:
list(db.keys())

['obj1', 'obj2']

In [25]:
list(db.values())

[[1, 2, 3, 4, 5], (6, 7, 8, 9, 10)]

In [27]:
for k, v in db.items():
    print('key: {}, value: {}'.format(k, v))

key: obj1, value: [1, 2, 3, 4, 5]
key: obj2, value: (6, 7, 8, 9, 10)


## Формат JSON <a class="anchor" id="json"></a>
* [к оглавлению](#разделы)


* __JSON__ (JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript. 

Причины популярности JSON:
* JSON __легко понимать__ (легко читается людьми, простой и понятный синтаксис).
* JSON'ом __легко манипулировать__ (програмно и вручную).
* JSON __легко генерировать__.
* Несмотря на происхождение от JavaScript, формат __считается независимым от языка программирования__ и может использоваться практически с любым языком программирования.
* Поскольку формат JSON является подмножеством синтаксиса языка JavaScript, то позволяет быстро сериализовать/десериалзовать данные между сервером и браузером из-за чего __получил очень ширкое распространение в веб-разработке__.
* За счёт своей лаконичности по сравнению с XML формат JSON __может быть более подходящим для сериализации сложных структур данных__. 

Чем JSON не является:
* Форматом «документов».
* Языком разметк.
* Языком программирования.


Минусы JSON:
* <em class="mn"></em> Нет конструкций для комментирования данных.
* <em class="mn"></em> Нет пространства имен.
* <em class="mn"></em> Нет валидации.
* <em class="mn"></em> Не расширяемый.

__Синтаксис JSON__

* Массив: `[значение1, значение2, значениеN]`
* Объект (можно интерпретировать как словарь в Python): `{имя1:значение1, имя2:значение2, имяN:значениеN}`
* Сложный объект: 
`{имя1:значение1, 
имя2: {имя2_1:значение2_1,имя2_2:значение2_2} }`

Объекты и массивы в JSON являются конструкциями, а литералы непосредственно данными, которые группируются этими конструкциями. 

Список литералов JSON: 
* cтрока
* число 
* логическое значение
* значение `null`

Пример: `{имя1:"строка", имя2:13, имя3:true, имя4:false, имя5:null}`

__Создание JSON объектов:__

Импорт библиотек:

In [28]:
import json # библиотека для работы с JSON
# import pandas as pd
import requests # библиотека для выполнения HTTP запросов

In [29]:
my_ab = [] # создаем адресную книгу

In [31]:
addr1 = {}
addr1['name'] = 'Faina Lee'
addr1['email'] = 'faina@mail.ru'
addr1['birthday'] = '22.08.1994'
addr1['phones'] = [{'phone': '232-19-55'},
                  {'phone': '+7 (916) 232-19-55'}]

my_ab.append(addr1)

In [32]:
addr2 = {}
addr2['name'] = 'Robert Lee'
addr2['email'] = 'robert@mail.ru'
addr2['birthday'] = '22.08.1994'
addr2['phones'] = [{'phone': '111-19-55'},
                  {'phone': '+7 (916) 445-19-55'}]
my_ab.append(addr2)

In [33]:
my_ab

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [34]:
my_ab2 = [{
        'birthday': '22.08.1994',
        'email': 'faina@mail.ru',
        'id': 3,
        'name': 'Faina Lee',
        'phones': [{'phone': '232-19-55', 'phone_type': 'work'},
                   {'phone': '+7 (916) 199-93-79', 'phone_type': 'cell'},
                   {'phone': '+7 (912) 172-33-27', 'phone_type': 'home'}]
    },{
        'birthday': '02.11.1991',
        'email': 'robert@yandex.ru',
        'id': 4,
        'name': 'Robert Lee',
        'phones': [{'phone': '+7 (912) 672-13-71', 'phone_type': 'home'}]
    }]

In [35]:
my_ab2

[{'birthday': '22.08.1994',
  'email': 'faina@mail.ru',
  'id': 3,
  'name': 'Faina Lee',
  'phones': [{'phone': '232-19-55', 'phone_type': 'work'},
   {'phone': '+7 (916) 199-93-79', 'phone_type': 'cell'},
   {'phone': '+7 (912) 172-33-27', 'phone_type': 'home'}]},
 {'birthday': '02.11.1991',
  'email': 'robert@yandex.ru',
  'id': 4,
  'name': 'Robert Lee',
  'phones': [{'phone': '+7 (912) 672-13-71', 'phone_type': 'home'}]}]

In [36]:
with open('addres-book.json', mode='w', encoding='utf-8') as f: # открываем файл на запись
    json.dump(my_ab, f, indent=2)

Как выглядит файл:

In [31]:
with open('addres-book.json', 'r', encoding='utf-8') as f:
    for l in f:
        print(l)

[

  {

    "name": "Faina Lee",

    "email": "faina@mail.ru",

    "birthday": "22.08.1994",

    "phones": [

      {

        "phone": "232-19-55"

      },

      {

        "phone": "+7 (916) 232-19-55"

      }

    ]

  },

  {

    "name": "Robert Lee",

    "email": "robert@mail.ru",

    "birthday": "22.08.1994",

    "phones": [

      {

        "phone": "111-19-55"

      },

      {

        "phone": "+7 (916) 445-19-55"

      }

    ]

  }

]


In [32]:
with open('addres-book.json', 'r', encoding='utf-8') as f: # открываем файл на чтение
    ab_fjs = json.load(f)

In [33]:
ab_fjs

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [34]:
ab_fjs[0]['name']

'Faina Lee'

In [35]:
ab_fjs[1]['name']

'Robert Lee'

###  Получение данных в формате JSON из публичных REST API

<center>         
    <img src="./img/rest_api_service_1.png" alt="Работа REST API" style="width: 700px;"/>
    <b>Работа REST API</b>
</center>

__REST__ (от англ. Representational State Transfer — «передача состояния представления») — архитектурный стиль взаимодействия компонентов распределённого приложения в сети. 

__REST__ – это архитектурный стиль, а __RESTful API__ – это его практическое воплощение.

RESTful API сводится к четырем базовым операциям:
* получение данных в удобном для клиента формате
* создание новых данных
* обновление данных
* удаление данных

REST функционирует поверх протокола HTTP, поэтому стоит упомянуть о его основных особенностях. Для каждой операции указанной выше используется свой собственный HTTP метод:
* __GET__ – получение
* __POST__ – создание
* __PUT__ – обновление, модификация
* __DELETE__ – удаление

<center>         
    <img src="./img/request_methods_3.png" alt="Споставление методов HTTP запросам SQL и CRUD нотации/" style="width: 700px;"/>
    <b>Споставление методов HTTP запросам SQL и CRUD нотации</b>
</center>

Публичное API для работы с почтовыми индексами: http://api.zippopotam.us

In [37]:
ZIPPOPOTAM = 'http://api.zippopotam.us'
COUNTRY = 'RU'
zip_1 = '125009'
zip_2 = '129337'

In [39]:
'/'.join((ZIPPOPOTAM, COUNTRY, zip_1))

'http://api.zippopotam.us/RU/125009'

In [40]:
def url_rus_zip(zip_code):
    return '/'.join((ZIPPOPOTAM, COUNTRY, zip_code))

In [41]:
url_rus_zip(zip_1)

'http://api.zippopotam.us/RU/125009'

Краткая документация по библиотеке requests: http://docs.python-requests.org/en/master/user/quickstart/

In [42]:
# responce for HTTP GET request from http://api.zippopotam.us 
r = requests.get(url_rus_zip(zip_2))
r

<Response [200]>

In [43]:
r.content

b'{"post code": "129337", "country": "Russia", "country abbreviation": "RU", "places": [{"place name": "\\u041c\\u043e\\u0441\\u043a\\u0432\\u0430 337", "longitude": "45.6667", "state": "\\u041c\\u043e\\u0441\\u043a\\u0432\\u0430", "state abbreviation": "", "latitude": "60.15"}]}'

In [44]:
# Convert response into a python object
data = r.json()

In [46]:
# View the data
data

{'post code': '129337',
 'country': 'Russia',
 'country abbreviation': 'RU',
 'places': [{'place name': 'Москва 337',
   'longitude': '45.6667',
   'state': 'Москва',
   'state abbreviation': '',
   'latitude': '60.15'}]}

Разбор данных

In [47]:
# One level deep
data['places']

[{'place name': 'Москва 337',
  'longitude': '45.6667',
  'state': 'Москва',
  'state abbreviation': '',
  'latitude': '60.15'}]

In [48]:
# One level deep, second element
data['places'][0]

{'place name': 'Москва 337',
 'longitude': '45.6667',
 'state': 'Москва',
 'state abbreviation': '',
 'latitude': '60.15'}

In [49]:
# One level down, then second item, then it's longitude object
data['places'][0]['longitude']

'45.6667'

Цикл для вывода координат (широты и долготы) всех мест:

In [50]:
def extract_latlong(json):
    # For each element, i, in data.places,
    for i in data['places']:
        # print the latitude element and the longitude element
        print(i['latitude'], i['longitude'])

In [51]:
# Run the function
extract_latlong(data)

60.15 45.6667


## Формат XML <a class="anchor" id="xml"></a>
* [к оглавлению](#разделы)

<em class="df"></em> __XML__ (англ. eXtensible Markup Language) — расширяемый язык разметки.


Цели создания:
* Эффективное описание (структурирование) данных.
* Обмен данными между информационными системами (в первую очередь – через интернет).

Основные особенности:
* Простой синтаксис.
* Удобство создания и обработки документов программами.
* Удобство чтения и создания документов человеком (профессиональными пользователями).
* Удобство обмена документами в интернете.
* Гибкость применения и расширяемость - возможнсть создавать собственные расширения XML.
* Очень широкая распространенность и доступность инструментов.

* __Расширение XML__ — это конкретная грамматика, созданная на базе XML и представленная словарём тегов и их атрибутов, а также набором правил, определяющих какие атрибуты и элементы могут входить в состав других элементов.

<center>         
    <img src="./img/XML_hist.png" alt=" язСемействоыков SGML" style="width: 300px;"/>
    <b>Семейство языков SGML</b>
</center>

История вопроса:
1. 1969 году в IBM разработан язык __GML__ (Generalized Markup Language).
2. В 80-е на основе GML разрабатывается язык __SGML__ (Standard Generalized Markup Language) — стандартный обобщённый язык разметки, метаязык, на котором можно определять язык разметки для документов. HTML и XML произошли от SGML. 
3. __HTML__ — (HyperText Markup Language — «язык гипертекстовой разметки») это стандартный язык разметки документов в WWW. Большинство веб-страниц содержат описание разметки на языке HTML. HTML это приложение SGML (создан в 1991 г.) 
4. __XML__ (англ. eXtensible Markup Language) подмножество SGML, разработанное для упрощения процесса машинного разбора документа.создан в 1997 г.
5. __XHTML__ — расширяемый язык гипертекстовой разметки. XHTML, это семейство языков разметки веб-страниц на основе XML,

Сравнение XML и HTML:

<table border="1" class="docutils">
    <colgroup>
        <col width="30%">
        <col width="30%">
    </colgroup>
    <thead valign="bottom">
        <tr class="row-odd">
            <th class="head">HTML</th>
            <th class="head">XML</th>
        </tr>
    </thead>
    <tbody valign="top">
        <tr class="row-even">
            <td>Фиксированное множество тегов.</td>
            <td>Расширяемое множество тегов.</td>
        </tr>
        <tr class="row-odd">
            <td>Формат ориентирован на описание представления (внешнего вида) документа.</td>
            <td>Формат ориентирован на содержимое документа.</td>
        </tr>
        <tr class="row-even">
            <td>Единственное представление данных.</td>
            <td>Доступно множество форм представления документа.</td>
        </tr>
        <tr class="row-odd">
            <td>Нет возможностей валидации данных.</td>
            <td>Есть возможность валидации данных. Высокие требования к корректности разметки данных.</td>
        </tr>  
    </tbody>
</table>

Пример XML:

```XML 
<?xml version=“1.0” encoding =“UTF-8” ?>
<address-book>
<address id=“1”>
	<name>Bruce Lee</name>
	<email>bruce@gmail.com</email>
	<phones>
		<phone type=“work”>232-17-45</phone>
		<phone type=“home” code=“true”>(912) 212-34-12</phone>
	</phones>	
	<birthday>11.07.1984</birthday>
</address>
<!- This is comment in XML ->
<address id=“2”>
	<name>Alice Lee</name>
	<email>alee@yandex.ru</email>
	<work>John son</work>
	<phones/>
	<birthday>22.03.1985</birthday>
</address>
</address-book>```

__Элементы и теги__

<center>         
    <img src="./img/xml_examples_p1.png" alt="XML: элементы и теги" style="width: 500px;"/>
    <b>XML: элементы и теги</b>
</center>

* __Теги используются парами__: открывающий тег (например: `<tag-name />`) – закрывающий тег (например: `</tag-name>`). 
* __Элемент не имеющий содержимого__ может описываться одним тегом вида: `<tag-name />`
* Для элементов должна выполнятся __вложенность__.
* У документа должен быть __единственный корневой элемент__.
* Имена тегов __чувствительны к регистру__.

__Атрибуты__

<center>         
    <img src="./img/xml_examples_p2.png" alt="XML: атрибуты" style="width: 500px;"/>
    <b>XML: атрибуты</b>
</center>

* В элементе может быть только один атрибут с данным именем.
* Атрибуты __не имеют структуры__ (только строка с содержимым).
* Значение атрибута должно заключаться в кавычки.
* Правило использования: __содержимое в элементах, метаданные – в атрибутах__.

__Специальные символы__

<center>         
    <img src="./img/xml_examples_p3.png" alt=" язСемействоыков SGML" style="width: 500px;"/>
    <b>XML: специальные символы</b>
</center>


* Некоторые специальные символы должны быть заэкранированы (escaped) при помощи сущностей (entities):
    * `<`  →  `&lt;`
    * `&`  →  `&amp;`
    * `>`  →  `&gt;`
    * `“`  →  `&quot;`
    * `‘`  →  `&apos;`
* Тэги не могут содержать `<` или `&`

__Корректность и действительность XML__

Корректный XML документ
* <em class="df"></em> __Корректный (well-formed) XML документ__ соответствует всем общим правилам синтаксиса XML применимым к любому XML-документу. В частности:
    * правильная структура документа
    * совпадение имен в начальном и конечном теге элемента и т. п. 
* Документ, который неправильно построен (т.е. не является корректным XML документом), не может считаться документом XML.


* <em class="df"></em> Документ является __действительным XML документом__ (valid), если с ним связано объявление типа документа и документ отвечает ограничениям, представленным в объявлении типа.  
* Cпособами объявления типа являются:
    * Document type definition (DTD) - самый ранний способ определения типа. 
    * XML Schema definition (XSD) - более современный вариант. 
    * RELAX NG (Regular Language for XML Next Generation) 
    * DSDL (Document Schema Definition Languages)
    
* __XML процессоры (parsers)__ могут проверять или не проверять дйствительность XML документа. Проверяющие процессоры проверяют действительность документа и должны сообщать (по выбору пользователя) о нарушении ограничений, сформулированных в объявлении типа документа.

* Для большого количества прикладных областей созданы общедоступные объявления типов XML документов, что упрощает процедуру обмена данными между информационными системами.

__Примеры объявления схемы XML документов__

* Пример XML со ссылкой на DTD:
```XML 
<?xml version="1.0"?>
<!DOCTYPE note SYSTEM "http://www.w3schools.com/xml/note.dtd">
<note>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>```
         
* Пример XML со ссылкой на XML Schema (схема хранится в файле `note.xsd`):
```XML
<?xml version="1.0"?>
<note xmlns="http://www.w3schools.com" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3schools.com note.xsd">
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>```

* XML Schema:
    * Используется для тех же целей, что и схема БД. 
    * Имеет набор предопределенных простых типов (строки, целые числа и т.п.)
    * Позволяет определять собственные сложные типы
    * Спецификация XML Schema является рекомендацией W3C.
* Пример XML Schema (схема хранится в файле `note.xsd`):

```XML
<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" targetNamespace="http://www.w3schools.com" xmlns="http://www.w3schools.com" elementFormDefault="qualified">
    <xs:element name="note">
        <xs:complexType>
            <xs:sequence>
                <xs:element name="to" type="xs:string"/>
                <xs:element name="from" type="xs:string"/>
                <xs:element name="heading" type="xs:string"/>
                <xs:element name="body" type="xs:string"/>
            </xs:sequence>
        </xs:complexType>
    </xs:element>
</xs:schema> 
```


__Использование различных типов документов XML__

* Для большого количества прикладных областей созданы общедоступные объявления типов XML документов, что упрощает процедуру обмена данными между информационными системами.


Примеры широко известных типов документов XML :
* XHTML — версия HTML, отвечающая синтаксическим требованиям XML. 
* OpenDocument Format, Office Open XML — форматы файлов для офисных документов (Open Office и MS Office).
* FB2 — формат описания книг, базирующийся на XML. 
* XBRL (eXtensible Business Reporting Language) — расширяемый язык деловой отчётности: широко используемый в мире открытый стандарт обмена деловой информацией. XBRL позволяет выражать с помощью семантических средств общие для участников рынка и регулирующих органов требования к представлению бизнес-отчётности.
* RSS (Rich Site Summary) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами или онлайн-сервисами


Существует огромное количество форматов документов для различных предметных областей. Списки только некоторых типов документов XML:
* https://en.wikipedia.org/wiki/List_of_XML_markup_languages
* https://en.wikipedia.org/wiki/List_of_types_of_XML_schemas#Math_and_science

__JSON vs XML__

<center>         
    <img src="./img/XML_vs_JSON.png" alt="JSON vs XML" style="width: 600px;"/>
    <b>JSON vs XML</b>
</center>

JSON схож с XML по следующим пунктам:
* Текстовые форматы.
* Удобство чтения и создания документов человеком («само описывающие форматы»).
* Иерархические (значения могут содержать списки объектов или значений).

__Когда использовать JSON а когда XML?__
* JSON предпочтительнее в простых приложениях и позволяет удовлетворить простым требованиям по обмену данными.
* XML предпочтительнее для приложений со сложными требованиями к обмену данными, например, в корпоративном секторе.

JSON проще XML, но XML имеет более мощный инструментарий. Для обычных задач краткая семантика JSON позволяет получать более простой код. Для приложений со сложными требованиями к обмену данными, например, на предприятии, мощные функции XML могут значительно снизить риски.

JSON отличается от XML по следующим пунктам:

Преимущества JSON:
* <b class="b">+</b> Легче и быстрее чем XML.
* <b class="b">+</b> JSON использует типизированные объекты. Все значения XML являются строками и должны разбираться во время исполнения.
* <b class="b">+</b> Меньше синтаксиса, совсем нет семантики.

Преимущества XML:
* <b class="b">+</b> Наличие пространств имен (namespace). Позволяет расширять язык документа за счет использования различных схем.
* <b class="b">+</b> Атрибуты позволяют эффективно добавлять метаданные в документ. В JSON для этой цели приходится использовать ситуативные решения.
* <b class="b">+</b> Поддержка действительности документа, позволяет автоматически проверять соответствие документа спецификации.
* <b class="b">+</b> Множество дополнительных инструментов для работы с документами (XPath, XSL, XQuery), позволяющие обращаться к фрагментам документов и преобразоывать их.


JSON is best for simple applications, developed to satisfy simple requirements surrounding data interchange. XML is best for applications with complex requirements surrounding data interchange, such as in enterprise.


__Работа с данными XML в приложениях__


<center>         
    <img src="./img/SAX_vs_DOM.png" alt="Сравнение SAX и DOM парсеров" style="width: 600px;"/>
    <b>Сравнение SAX и DOM парсеров</b>
</center>

DOM (Document Object Model):
* <b class="b">+</b> Естественное соответствие древовидной структуры документа и его объектной модели.
* <b class="b">+</b> Возможность навигироваться по документу в любом направлении.
* <b class="b">-</b> Необходимо прочитать весь документ в память. 

SAX (Simple API for XML) 
* Событийный подход к разбору XML.
* <b class="b">-?</b> Более сложная логика работы с данными при их сложной организации.
* <b class="b">-</b> Только последовательное получение информации из документа.
* <b class="b">+</b> Можно обрабатывать только некоторую часть документа.
* <b class="b">+</b> Позволяет не хранить весь документ в памяти.



__DOM__

<center>         
    <img src="./img/DOM_str_.png " alt="Пример представления XML документа в виде DOM-дерева" style="width: 600px;"/>
    <b>Пример представления XML документа в виде DOM-дерева</b>
</center>


## Работа с XML <a class="anchor" id="работа-xml"></a>
* [к оглавлению](#разделы)

BeautifulSoup является библиотекой Python для парсинга HTML и XML документов. Часто используется для скрапинга веб-страниц. BeautifulSoup позволяет трансформировать XML или HTML документ в древо объектов Python, аналогичное DOM-дереву. Элементами этого дерева могут быть теги, навигация или комментарии.

Документация по BeautifulSoup: 
* https://www.crummy.com/software/BeautifulSoup/
* https://www.crummy.com/software/BeautifulSoup/bs4/doc/
* Примеры работы BeautifulSoup с HTML: https://python-scripts.com/beautifulsoup-html-parsing


Импорт библитек:

In [50]:
# import required modules
import requests
from bs4 import BeautifulSoup

Пример для работы:

```XML
<?xml version="1.0" encoding="UTF-8" ?>
<address_book>
<address id="1">
	<name>Bruce Lee</name>
	<email>bruce@gmail.com</email>
	<phones>
		<phone type="work">232-17-45</phone>
		<phone type="home" code="true">+7 (912) 212-34-12</phone>
	</phones>	
	<birthday>11.07.1984</birthday>
</address>
<!-- This is comment in XML -->
<address id="2">
	<name>Alice Lee</name>
	<email>alee@yandex.ru</email>
	<work>John&amp;son</work>
	<phones/>
	<birthday>22.03.1985</birthday>
</address>
</address_book>
```

In [51]:
# Выполняем парсинг XML файла:
with open('.\\addres-book.xml') as f:
    ab = BeautifulSoup(f, 'xml')

In [53]:
ab

bs4.BeautifulSoup

In [79]:
# Переходим к корню дерева документа:
ab.address_book

<address_book>
<address id="1">
<name>Bruce Lee</name>
<email>bruce@gmail.com</email>
<phones>
<phone type="work">232-17-45</phone>
<phone code="true" type="home">+7 (912) 212-34-12</phone>
</phones>
<birthday>11.07.1984</birthday>
</address>
<!-- This is comment in XML -->
<address id="2">
<name>Alice Lee</name>
<email>alee@yandex.ru</email>
<work>John&amp;son</work>
<phones/>
<birthday>22.03.1985</birthday>
</address>
</address_book>

In [53]:
ab.address_book.address

<address id="1">
<name>Bruce Lee</name>
<email>bruce@gmail.com</email>
<phones>
<phone type="work">232-17-45</phone>
<phone code="true" type="home">+7 (912) 212-34-12</phone>
</phones>
<birthday>11.07.1984</birthday>
</address>

In [54]:
ab.address_book.address.name

'address'

In [55]:
ab.address_book.address['id']

'1'

In [56]:
ab.address_book.address.text

'\nBruce Lee\nbruce@gmail.com\n\n232-17-45\n+7 (912) 212-34-12\n\n11.07.1984\n'

In [57]:
ab.address_book.address.getText('|',strip=True) # Получаем все дочерние строки разделенные заданным разделителем.

'Bruce Lee|bruce@gmail.com|232-17-45|+7 (912) 212-34-12|11.07.1984'

In [58]:
ab.address_book.address.contents

['\n',
 <name>Bruce Lee</name>,
 '\n',
 <email>bruce@gmail.com</email>,
 '\n',
 <phones>
 <phone type="work">232-17-45</phone>
 <phone code="true" type="home">+7 (912) 212-34-12</phone>
 </phones>,
 '\n',
 <birthday>11.07.1984</birthday>,
 '\n']

In [59]:
# обходим все дочерние элементы address:
for ch in ab.address_book.address.children:
    print(ch.name,'->', repr(ch))

None -> '\n'
name -> <name>Bruce Lee</name>
None -> '\n'
email -> <email>bruce@gmail.com</email>
None -> '\n'
phones -> <phones>
<phone type="work">232-17-45</phone>
<phone code="true" type="home">+7 (912) 212-34-12</phone>
</phones>
None -> '\n'
birthday -> <birthday>11.07.1984</birthday>
None -> '\n'


In [60]:
# получаем первый элемент соответствующий указанному пути:
ab.address_book.address.phone

<phone type="work">232-17-45</phone>

In [61]:
# получаем все дочерние элементы 'phone' для пути address_book.address:
ab.address_book.address.find_all('phone')

[<phone type="work">232-17-45</phone>,
 <phone code="true" type="home">+7 (912) 212-34-12</phone>]

In [62]:
# ищем элементы соответствующие более сложному условию:
ab.address_book.address.find('phone', type='home')

<phone code="true" type="home">+7 (912) 212-34-12</phone>

In [63]:
ph1 = ab.address_book.address.find('phone')

In [64]:
ph1

<phone type="work">232-17-45</phone>

In [65]:
list(ph1.next_siblings)

['\n', <phone code="true" type="home">+7 (912) 212-34-12</phone>, '\n']

In [66]:
ph1.next

'232-17-45'

In [101]:
list(ph1.nextGenerator())

['232-17-45',
 '\n',
 <phone code="true" type="home">+7 (912) 212-34-12</phone>,
 '+7 (912) 212-34-12',
 '\n',
 '\n',
 <birthday>11.07.1984</birthday>,
 '11.07.1984',
 '\n',
 '\n',
 ' This is comment in XML ',
 '\n',
 <address id="2">
 <name>Alice Lee</name>
 <email>alee@yandex.ru</email>
 <work>John&amp;son</work>
 <phones/>
 <birthday>22.03.1985</birthday>
 </address>,
 '\n',
 <name>Alice Lee</name>,
 'Alice Lee',
 '\n',
 <email>alee@yandex.ru</email>,
 'alee@yandex.ru',
 '\n',
 <work>John&amp;son</work>,
 'John&son',
 '\n',
 <phones/>,
 '\n',
 <birthday>22.03.1985</birthday>,
 '22.03.1985',
 '\n',
 '\n']

In [102]:
ph1.findNextSibling()

<phone code="true" type="home">+7 (912) 212-34-12</phone>

Более крупный пример:

```XML
<?xml version="1.0" encoding="UTF-8" ?>
<address_book>
<country name="algeria">
<address id="1">
	<gender>m</gender>
	<name>Aicha Barki</name>
	<email>aiqraa.asso@caramail.com</email>
	<position>Presidente</position>
	<company>Association Algerienne d'Alphabetisation Iqraa</company>
	<phones>
		<phone type="work">+ (213) 6150 4015</phone>
		<phone type="personal">+ (213) 2173 5247</phone>
	</phones>	
</address>
</country>
<country name="angola">
<address id="2">
	<gender>m</gender>
	<name>Francisco Domingos</name>
	<email>frandomingos@hotmail.com</email>
	<position>Directeur General</position>
	<company>Institut National de Education des Adultes</company>
	<phones>
		<phone type="work">+ (244-2) 325 023</phone>
		<phone type="personal">+ (244-2) 325 023</phone>
	</phones>	
</address>
<address id="3">
	<gender>f</gender>
	<name>Maria Luisa</name>
	<email>luisagrilo@ebonet.net</email>
	<position>Directrice Nationale</position>
	<company>Institut National de Education des Adultes</company>
	<phones>
		<phone type="personal">+ (244) 4232 2836</phone>
	</phones>	
</address>
<address id="4">
	<gender>m</gender>
	<name>Abraao Chanda</name>
	<email>ineda@snet.co.ao</email>
	<position>Chef</position>
	<company>Institut National de Education des Adultes</company>
	<phones>
		<phone type="work">+ (244-2) 325 023</phone>
		<phone type="personal">+ (244-2) 325 023</phone>
	</phones>	
</address>
</country>
<country name="argentina">
<address id="5">
	<gender>m</gender>
	<name>Beatriz Busaniche</name>
	<email>busaniche@caminandoutopias.org.ar</email>
	<position>Executive Director</position>
	<company>Universidad de Buenos Aires</company>
	<phones>
		<phone type="work">+ (54-11) 4784 1159</phone>
	</phones>	
</address>
</country>
<country name="australia">
<address id="6">
	<gender>f</gender>
	<name>Francesca Beddie</name>
	<email>f.beddie@ala.asn.au</email>
	<position>Executive Director</position>
	<company>Adult Learning Australia</company>
	<phones>
		<phone type="work">+ (61-2) 6274 9500</phone>
		<phone type="personal">+ (61-2) 6274 9513</phone>
	</phones>	
</address>
<address id="7">
	<gender>m</gender>
	<name>Graham John Smith</name>
	<email>grasm@connexus.net.au</email>
	<position>Secretary</position>
	<company>Disability Australia Ltd</company>
	<phones>
		<phone type="work">+ (61-3) 9807 4702</phone>
	</phones>	
</address>
</country>

</address_book>
```

In [106]:
with open('.\\addres-book-q.xml') as f:
    ab = BeautifulSoup(f, 'xml')

In [107]:
res = list();
for person in ab.address_book.find_all("address"):
    ph = [phones.next for phones in person.phones.find_all("phone")]
    res.append({person.find("name").next: ph})
res

[{'Aicha Barki': ['+ (213) 6150 4015', '+ (213) 2173 5247']},
 {'Francisco Domingos': ['+ (244-2) 325 023', '+ (244-2) 325 023']},
 {'Maria Luisa': ['+ (244) 4232 2836']},
 {'Abraao Chanda': ['+ (244-2) 325 023', '+ (244-2) 325 023']},
 {'Beatriz Busaniche': ['+ (54-11) 4784 1159']},
 {'Francesca Beddie': ['+ (61-2) 6274 9500', '+ (61-2) 6274 9513']},
 {'Graham John Smith': ['+ (61-3) 9807 4702']}]

In [108]:
ph1

<phone type="work">232-17-45</phone>

---------

TODO: кодировки, requests (краулинг), mime type

CSV, numpy-native, parket, xlsx, sqlite