In [1]:
!git clone https://github.com/neuralcomputer/ML_School.git

Cloning into 'ML_School'...
remote: Enumerating objects: 94, done.[K
remote: Counting objects: 100% (15/15), done.[K
remote: Compressing objects: 100% (15/15), done.[K
remote: Total 94 (delta 5), reused 0 (delta 0), pack-reused 79[K
Receiving objects: 100% (94/94), 33.83 MiB | 30.28 MiB/s, done.
Resolving deltas: 100% (29/29), done.


# Обработка структурированного текста, json и xml

Мы уже познакомились со способами работы с текстовыми и табличными данными, но что если наши данные имеют более сложную структуру? Например веб-документ, в одном месте документа могут использоваться строки, в другом - числа, в третьем массивы чисел (изображения), все эти элементы могут быть связаны в некоторую __структуру__. Когда же мы хотим записать такие данные на диск или передать их по сети, то обязаны перевести данные в последовательность битов, ведь диск ничего не знает о структуре наших данных, он хранит последовательность битов не понимая, что они обозначают для нас.

Процесс перевода данных сложной структуры в последовательность битов называется __сериализация__. Обратный процесс, когда мы из последовательности битов хотим восстановить структуру данных, называется __десериализация__. Очень важно, чтобы десериализация давала ту же самую структуру данных, которая использовалась при сериализации, иначе мы потеряем важную информацию.   

Чтобы десериализация могла понять какая структура у данных, эта информация должна быть добавлена в сами данные. Каждый может придумать свои правила, как добавлять такую информацию о структуре. Но если вы придумаете свои правила, то другие вас могут не понять, поэтому люди договорились что будут использовать __стандартные__ способы и все будут знать и придерживаться правил, которые в этих стандартах заложены. Полезно будет использовать такие стандарты, которые были бы сразу понятны человеку, чтобы он мог прочитать сериализованные данные. Текст наиболее понятен человеку, поэтому стандарты сериализации (их называют также форматами), которые мы сегодня рассмотрим это текстовые форматы. Мы познакомимся с двумя стандартами: JSON и XML.

Не все можно сериализовать, если первая часть данных ссылается на вторую, а вторая ссылается на первую, то получим зацикливание, которое не сможем сериализовать (потому что не сможем решить какая часть должна быть первой, а какая второй в последовательности, ведь они ссылаются друг на друга). Инструменты для сериализации могут проверять такие случаи, или приводить к ошибкам, если такой проверки нет. Не надо использовать сериализацию для таких случаев, мы и не будем.


# 1. JSON
https://ru.wikipedia.org/wiki/JSON

JSON (от англ. JavaScript Object Notation, произносится как "джейсон") это текстовый формат для обмена данными и представляет собой либо структуру в виде набора пар *Ключ:значение*, либо упорядоченный набор значений (массив, вектор...) и может содержать:

* **запись** — неупорядоченное множество пар ключ:значение, заключённое в фигурные скобки «{ }». Ключ описывается строкой (__важно: ключ всегда строка__), между ним и значением стоит символ «:». Пары ключ-значение отделяются друг от друга запятыми.
* **массив** (одномерный) — упорядоченное множество значений. Массив заключается в квадратные скобки «[ ]». Значения разделяются запятыми. Массив может быть пустым, т.е. не содержать ни одного значения.
* **число** (целое или вещественное).
* **литералы** - символьные представления специальных переменных: true (логическое значение «истина»), false (логическое значение «ложь») и null.
* **строка** — упорядоченное множество из нуля или более символов юникода, заключённое в двойные кавычки "". Символы могут быть указаны с использованием *escape-последовательностей*, начинающихся с обратной косой черты «\» (поддерживаются варианты \', \", \\, \/, \t, \n, \r, \f и \b), или записаны шестнадцатеричным кодом в кодировке Unicode в виде \uFFFF.


В Python для работы с JSON нам потребуется библиотека `json`, которую мы и подключим.

Документацию на библиотеку можно посмотреть на https://pythonworld.ru/moduli/modul-json.html

Нам потребуются функции библиотеки `json`:

__СЕРИАЛИЗАЦИЯ:__

* `json.dump(obj, fp)`  сериализует объект `obj` как форматированный JSON *поток (файл)* в `fp` и может принимать дополнительные аргументы.

    <details>

    <summary> <i>Полный синтаксис:</i> (нажмите)</summary>
    
    `json.dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)`

    Если `skipkeys = True`, то ключи словаря не базового типа (str, unicode, int, long, float, bool, None) будут проигнорированы, вместо того, чтобы вызывать исключение TypeError.

    Если `ensure_ascii = True`, все не-ASCII символы в выводе будут экранированы последовательностями \uXXXX, и результатом будет строка, содержащая только ASCII символы. Если `ensure_ascii = False`, строки запишутся как есть.

    Если `check_circular = False`, то проверка циклических ссылок будет пропущена, а такие ссылки будут вызывать ошибку OverflowError.

    Если `allow_nan = False`, при попытке сериализовать значение с запятой, выходящее за допустимые пределы, будет вызываться ValueError (nan, inf, -inf) в строгом соответствии со спецификацией JSON, вместо того, чтобы использовать эквиваленты из JavaScript (NaN, Infinity, -Infinity).

    Если `indent` является неотрицательным числом, то массивы и объекты в JSON будут выводиться с этим уровнем отступа. Если уровень отступа 0, отрицательный или "", то вместо этого будут просто использоваться новые строки. Значение по умолчанию None отражает наиболее компактное представление. Если `indent` - строка, то она и будет использоваться в качестве отступа.

    Если `sort_keys = True`, то ключи выводимого словаря будут отсортированы.
    
    </details>
    
* `json.dumps(obj)`  сериализует объект `obj` как форматированную JSON *строку* и может принимать дополнительные аргументы, аналогичные `json.dump()`

__ДЕСЕРИАЛИЗАЦИЯ:__

* `json.load(fp)`  десериализует объект из *потока (файла)* `fp` и может принимать дополнительные аргументы. Если не удастся десериализовать JSON, будет возбуждено исключение ValueError.

    <details>

    <summary> <i>Полный синтаксис:</i> (нажмите)</summary>
    
    `json.load(fp, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)`

    `object_hook` - опциональная функция, которая применяется к результату декодирования объекта (dict). Использоваться будет значение, возвращаемое этой функцией, а не полученный словарь.

    `object_pairs_hook` - опциональная функция, которая применяется к результату декодирования объекта с определённой последовательностью пар ключ/значение. Будет использован результат, возвращаемый функцией, вместо исходного словаря. Если задан так же `object_hook`, то приоритет отдаётся `object_pairs_hook`.

    `parse_float`, если определён, будет вызван для каждого значения JSON с плавающей точкой. По умолчанию, это эквивалентно `float(num_str)`.

    `parse_int`, если определён, будет вызван для строки JSON с числовым значением. По умолчанию эквивалентно `int(num_str)`.

    `parse_constant`, если определён, будет вызван для следующих строк: "-Infinity", "Infinity", "NaN". Может быть использовано для возбуждения исключений при обнаружении ошибочных чисел JSON.
    
    </details>
    
* `json.loads(s)`  десериализует строку `s` и может принимать дополнительные аргументы, аналогичные `json.load()`. Если не удастся десериализовать JSON, будет возбуждено исключение ValueError.

Давайте попробуем десериализовать какой-нибудь JSON файл. Мы уже сделали такой файл `lighttag_annotations4.json`.

Это текстовый файл, к котором записаны следующие поля в кодировке UTF-8:
 * annotations_and_examples
        * content
        * metadata
        * annotations
        * classifications
 * relations

<details> Мы взяли файл полученный из размеченного  при помощи https://www.lighttag.io/  текста. </details>


Откроем файл на чтение с помощью `open()`, укажем кодировку файла UTF-8.

Прочитаем каждую строку этого файла (а она всего одна) и десериализуем ее с помощью `json.loads()`. При этом вернется список list, с которым будем дальше работать.

Просмотрим каждый элемент этого списка (в нашем примере он всего один). Внутри записан словарь dict, просмотрим его элементы (ключ и значение, используя `items()`).

Если ключ 'annotations_and_examples' то добавляем значение в переменную annotations_and_examples.

Если ключ 'relations' то добавляем значение в переменную relations. В нашем примере она пустая.


In [2]:
import os # для работы с файлами
import json # для работы с JSON

In [3]:
path = 'ML_School/lighttag_annotations4.json' # имя файла JSON

In [4]:


# открываем open() файл на чтение в кодировке UTF-8 и для каждой строки из этого файла
for line in open(path, 'r', encoding='utf-8'):
    raw_data = [] # пустой массив
    raw_data.append(json.loads(line)) # добавляем эту строку, десериализовав ее с помощью json.loads()
    #print(type(raw_data))
    annotations_and_examples=[] # пустой массив
    relations = [] # пустой массив
    for d in raw_data: #
        #print(type(d))
        for k, v in d.items(): #
            #print(k,v,'\n\n')
            if k == 'annotations_and_examples': #
                annotations_and_examples.append(v) #
            if k == 'relations': #
                relations.append(v) #

print(annotations_and_examples)
print('\n\n')
print(relations)

[[{'content': "'\\n############\\n2837,Бывшего министра природных ресурсов и экологии Кабардино-Балкарии ( КБР ) заподозрили в превышении должностных полномочий . Об этом сообщает пресс-служба управления МВД по республике . Оперативники выяснили , что в 2015 году в рамках реализации государственных программ в сфере охраны природы министерство природных ресурсов и экологии КБР заключило контракт со строительной компанией на выполнение работ по капитальному ремонту берегоукрепительного сооружения в пойме реки Баксан . В апреле 2016 года работы были остановлены . Несмотря на то , что берегоукрепление не было завершено , а качество работ не соответствовало требованиям госконтракта , экс-министр выделил деньги на оплату выполненных работ . Ущерб , нанесенный чиновником , оценивается в 3 , 7 млн руб . В отношении экс-главы Минэкологии КБР управление МВД по республике возбудило уголовное дело по ч . 2 ст . 286 УК РФ ( превышение должностных полномочий ) , а в отношении гендиректора строительн

С пустой relations ничего делать не надо, а в annotations_and_examples есть поля:

* content - сам текст
* metadata - малоинтересные сейчас метаданные
* annotations - аннотация, поля, содержащие индекс начала 'start' и конца 'end' части текста и его распознанный тип 'tag'   
* classifications - малоинтересное сейчас поле

Извлечем их, также как делали выше:

- смотрим строку в annotations_and_examples, это словарь (в нашем примере строка одна).  
- просматриваем ключи и значения каждой записи этого словаря
- разделяем значения в переменные по типу ключа.

In [5]:
for line in annotations_and_examples[0]:
    raw_data = []
    raw_data.append((line))
    content = []
    metadata = []
    annotations = []
    classifications = []
    for d in raw_data:
        for k, v in d.items():
            if k == 'content':
                content.append(v)
            if k == 'metadata':
                metadata.append(v)
            if k == 'annotations':
                annotations.append(v)
            if k == 'classifications':
                classifications.append(v)

Теперь в переменной annotations содержатся записи типа {'start': 25, 'end': 48, : 'м'}, можем посмотреть, что же такого там распозналось. Сам текст находится в переменной content, возьмем из нее только символы от  'start' до 'end', напечатаем символы и их распознанный тип (тэг) 'tag'.

Можно догадаться, что тэги обозначают:
* м - название места (город, область и т.п.)
* п - фамилия, имя
* д - дата, время
* ж - название организации (хм, наверное).

Конечно, при распознавании могут быть ошибки, так что точный смысл этих тэгов мы узнаем только от создателя этих данных. Но нам и не важно, мы умеем с ними теперь работать, чтобы они не обозначали.


In [6]:
for i,v in enumerate(annotations[0]):
    print(v['tag'],' : ',content[0][v['start'] : v['end']], '\n')


м  :  Кабардино-Балкарии 

д  :   в 2015 году 

д  :  В апреле 2016 года 

м  :  реки Баксан 

м  :  Татарстана  

п  :  Владимир Швецов 

ж  :  ЗАО Пассажирский автотранспортный комбинат 

п  :  Владимир Швецов 

п  :   Наталья Устинова 

п  :  ЗАО Авангард 

м  :  Кабардино-Балкарии 

м  :  Карачаево-Черкесии 

п  :  Вячеславу Дереву 

п  :  Дерев  

п  :  Дерева  

м  :  Карачаево-Черкесии 

м  :  Москву  

п  :  Дерева  

п  :  Дерев  

п  :  ООО Фирма Меркурий-2 

п  :  Дереву  

п  :  ЗАО Киево-Жураки АПК 

п  :  Дерев  

д  :  с апреля 2011 по январь 2016 года 

п  :  Дереву  

м  :  району Марьина Роща 

ж  :  ООО Рост-Лизинг 

ж  :  Оксана Шимко 

п  :  ООО Альтрон 

м  :  Якутия  

м  :  Республику Саха 

м  :  Крым  

п  :  Константин Пономарев  

м  :  Москвы  

м  :  Москвы  

м  :  Москве  

п  :  Ольги Алексеевой 

м  :  Москве  

п  :  Алексеева  

п  :  Алексеевой  

п  :  Алексеева  

п  :  Алексееву  

м  :  Нижегородской области 

м  :  Москву  

м  :  Малайзии  

м

# 2. XML

__XML__ (от английского eXtensible Markup Language) — это расширяемый язык разметки, он удобен для создания и обработки документов программами и одновременно удобен для чтения и создания документов человеком, особенно для документов в Интернете. Это довольно сложный язык, сейчас мы познакомимся только с основами.  https://ru.wikipedia.org/wiki/XML

Документ XML состоит из *элементов*. Элемент (англ. element) является понятием логической структуры документа. Каждый документ содержит один или несколько элементов. Границы элементов представлены начальным и конечным *тегами*. Имя элемента в начальном и конечном тегах элемента должно совпадать.

Тег (англ. tag) — конструкция разметки, которая содержит имя элемента и символы "<", "/", ">"
Пример: элемент с именем element1 (нужно писать без пробелов):

Начальный тег: __< element1 >__  . Может включать дополнительные атрибуты: < element1 attr1="value" >

Конечный тег: __</ element1 >__

Между тегами размещаются сами данные: строки, числа и т.п.

Вот некоторый пример из файла "example.xml" с которым мы будем работать:

```
  <annotation verified="yes">
  <folder>images</folder>
  <filename>raccoon-1.jpg</filename>
  <path>Desktop/raccoon/images/raccoon-1.jpg</path>
  <source>
  <database>Unknown</database>
  </source>
  <size>
  <width>650</width>
  <height>417</height>
  <depth>3</depth>
  </size>
  <segmented>0</segmented>
  <object>
  <name>raccoon</name>
  <pose>Unspecified</pose>
  <truncated>0</truncated>
  <difficult>0</difficult>
  <bndbox>
  <xmin>81</xmin>
  <ymin>88</ymin>
  <xmax>522</xmax>
  <ymax>408</ymax>
  </bndbox>
  </object>
  </annotation>
```

В файле теги разделяются символами переноса строки (\n) и табуляциями (\t), которые мы и будем использовать для разделения данных.
Никаких дополнительных библиотек нам, для такого простого примера, не потребуется. Мы уже умеем разделять строки командой `split`, этого сейчас достаточно.


Откроем файл для чтения командой `open` и напечатаем командой `print` его содержимое, прочитанное командой `read`. Команда `print` поймет что файл имеет тип XML и напечатает его в удобном виде.

In [7]:
f = open("ML_School/example.xml", "r") # открываем
print(f.read()) # читаем и печатаем

<annotation verified="yes">
	<folder>images</folder>
	<filename>raccoon-1.jpg</filename>
	<path>Desktop/raccoon/images/raccoon-1.jpg</path>
	<source>
		<database>Unknown</database>
	</source>
	<size>
		<width>650</width>
		<height>417</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>raccoon</name>
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>81</xmin>
			<ymin>88</ymin>
			<xmax>522</xmax>
			<ymax>408</ymax>
		</bndbox>
	</object>
</annotation>


 Если хотим посмотреть без форматирования, то не будем команду `print` использовать.

In [8]:
f = open("ML_School/example.xml", "r")
data = f.read()
data

'<annotation verified="yes">\n\t<folder>images</folder>\n\t<filename>raccoon-1.jpg</filename>\n\t<path>Desktop/raccoon/images/raccoon-1.jpg</path>\n\t<source>\n\t\t<database>Unknown</database>\n\t</source>\n\t<size>\n\t\t<width>650</width>\n\t\t<height>417</height>\n\t\t<depth>3</depth>\n\t</size>\n\t<segmented>0</segmented>\n\t<object>\n\t\t<name>raccoon</name>\n\t\t<pose>Unspecified</pose>\n\t\t<truncated>0</truncated>\n\t\t<difficult>0</difficult>\n\t\t<bndbox>\n\t\t\t<xmin>81</xmin>\n\t\t\t<ymin>88</ymin>\n\t\t\t<xmax>522</xmax>\n\t\t\t<ymax>408</ymax>\n\t\t</bndbox>\n\t</object>\n</annotation>'

Разделим строку с помощью команды `split` по символам '\n\t', не беда если где-то останутся лишние символы '\t'.

Выберем часть, с которой хотим поработать k=5 (помним, это индекс, который начинается с нуля, значит мы выберем шестую строку) и посмотрим на ее содержимое.

В этой строке есть начальный и конечный теги элемента database, разделим строку по символу '<', получим  три строки, первая с мусором '\t', вторая с названием и значением элемента: 'database>Unknown', третья с названием элемента '/database>' из конечного тега.

Нам надо узнать собственно в какой подстроке есть название и значение элемента. Проведем поиск в цикле.
Условия такие, что в подстроке есть символ '>' и этот символ расположен не в самом конце строки (понимаем это если длина подстроки больше или равна индексу расположения символа '>' плюс два.

Найдя такую подстроку, разделим ее по символу '>' и получим искомое: название и значение элемента.

Попробуйте самостоятельно для других k.  А что вернется если в подстроке нет названия и значения элемента?

In [9]:
list_data = data.split('\n\t') # Разделим по символам '\n\t'
list_data #

['<annotation verified="yes">',
 '<folder>images</folder>',
 '<filename>raccoon-1.jpg</filename>',
 '<path>Desktop/raccoon/images/raccoon-1.jpg</path>',
 '<source>',
 '\t<database>Unknown</database>',
 '</source>',
 '<size>',
 '\t<width>650</width>',
 '\t<height>417</height>',
 '\t<depth>3</depth>',
 '</size>',
 '<segmented>0</segmented>',
 '<object>',
 '\t<name>raccoon</name>',
 '\t<pose>Unspecified</pose>',
 '\t<truncated>0</truncated>',
 '\t<difficult>0</difficult>',
 '\t<bndbox>',
 '\t\t<xmin>81</xmin>',
 '\t\t<ymin>88</ymin>',
 '\t\t<xmax>522</xmax>',
 '\t\t<ymax>408</ymax>',
 '\t</bndbox>',
 '</object>\n</annotation>']

In [10]:
k = 5 # выберем часть, с которой работаем

In [11]:
list_data[k] # посмотрим на нее

'\t<database>Unknown</database>'

In [12]:
splited = list_data[k].split('<') # разделим эту часть по символу '<'
splited #

['\t', 'database>Unknown', '/database>']

In [13]:
res = [] # хранилище для результата
for i in range(len(splited)): # в цикле по количеству подстрок из  splited
    word = splited[i] # текущая подстрока
    if word.find('>')!=-1 and len(word)>=(word.find('>')+2): # проверяем в ней есть символ '>'? а он не последний?
        res.append(word) # тогда это нужная подстрока, добавим ее в результат
        print(word) #
        print(i) #
        break # все сделано, прервем цикл

database>Unknown
1


In [14]:
result=[];
if res: # если предыдущий результат res не пустой
    result=res[0].split('>') # разделим найденную подстроку по символу '>'

print(result) # увидим результат

['database', 'Unknown']


# Обсуждение, задание
Попробуйте самостоятельно создать простой XML или JSON файл и прочитать его.  