# Браки и разводы.
Проект является экспериментальной лабораторной работой.

## Цели.
1. Чтение и анализ xml файлов ЕМИСС.
2. Визуализация результаов анализа с помощью Altair.
3. Сторителлинг на основе визуального анализа.
4. Генерация html контента на основе сторителлинга.

## Чтение и анализ xml файлов ЕМИСС.

In [1]:
# Загружаем библиотеки
import pandas as pd

In [2]:
# Создаём ссылку на xml файл
#data_raw='Число зарегистрированных браков (оперативные данные).xml'
data_raw='Число зарегистрированных разводов в расчете на 1000 населения (оперативные данные).xml'

### Что внутри xml.

Для чтения используется функция read_xml. Посмотрев xml файл можно увидеть, что есть несколько элементов, на которые можно сослаться:
1. Коды регионов.
2. Информация о переменной.
3. Год.
4. Значения переменной.

#### Коды регионов.

Для чтения я использую функцию [read_xml](https://pandas.pydata.org/docs/reference/api/pandas.read_xml.html)

Пример использования, который мне помог:

Если файл выглядит так

```xml
xml = '''<?xml version='1.0' encoding='utf-8'?>
     <doc:data xmlns:doc="https://example.com">
       <doc:row>
         <doc:shape>square</doc:shape>
         <doc:degrees>360</doc:degrees>
         <doc:sides>4.0</doc:sides>
       </doc:row>
       <doc:row>
         <doc:shape>circle</doc:shape>
         <doc:degrees>360</doc:degrees>
         <doc:sides/>
       </doc:row>
       <doc:row>
         <doc:shape>triangle</doc:shape>
         <doc:degrees>180</doc:degrees>
         <doc:sides>3.0</doc:sides>
       </doc:row>
     </doc:data>'''
```

Тогда читать его нужно вот так

```python
df = pd.read_xml(xml,
                xpath="//doc:row",
                namespaces={"doc": "https://example.com"})
df
```

Результат

```
      shape  degrees  sides
0    square      360    4.0
1    circle      360    NaN
2  triangle      180    3.0
```
[Почитать по теме ещё](https://medium.com/@robertopreste/from-xml-to-pandas-dataframes-9292980b1c1c)

In [3]:
# Получение данных кодов регионов

namespaces_codes = 'http://www.SDMX.org/resources/SDMXML/schemas/v1_0/structure' # Имя объекта, где хранятся коды регионов

regiones_codes = pd.read_xml(data_raw, # Ссылка на файл
                            xpath="//structure:Code", # Путь внутри файла до данных
                            namespaces = {"structure": namespaces_codes}) # Имя объекта
regiones_codes # Результат

Unnamed: 0,value,Description
0,643,Российская Федерация
1,30,Центральный федеральный округ
2,14000000000,Белгородская область
3,15000000000,Брянская область
4,17000000000,Владимирская область
...,...,...
104,99000000000,Еврейская автономная область
105,77000000000,Чукотский автономный округ
106,39,Крымский федеральный округ
107,46001000000,Московская обл. в старых границах


In [4]:
regiones_codes = regiones_codes.rename(columns= {'value':'s_OKATO'}) # Переименовал колонку для будущего соединения таблиц
regiones_codes['s_OKATO'] = regiones_codes['s_OKATO'].astype(str) # Сделал значения в колонке текстом. Нужно будет для объединения таблиц
regiones_codes

Unnamed: 0,s_OKATO,Description
0,643,Российская Федерация
1,30,Центральный федеральный округ
2,14000000000,Белгородская область
3,15000000000,Брянская область
4,17000000000,Владимирская область
...,...,...
104,99000000000,Еврейская автономная область
105,77000000000,Чукотский автономный округ
106,39,Крымский федеральный округ
107,46001000000,Московская обл. в старых границах


#### Информация о переменной.

In [5]:
namespaces_values = 'http://www.SDMX.org/resources/SDMXML/schemas/v1_0/generic'

regiones_values = pd.read_xml(data_raw, xpath="//generic:Value", namespaces = {"generic": namespaces_values})
regiones_values

Unnamed: 0,concept,value
0,s_OKATO,643
1,EI,"промилле (0,1 процента)"
2,PERIOD,январь
3,s_OKATO,643
4,EI,"промилле (0,1 процента)"
...,...,...
71152,EI,"промилле (0,1 процента)"
71153,PERIOD,декабрь
71154,s_OKATO,45001000000
71155,EI,"промилле (0,1 процента)"


Полученные данные идут подряд в определённой последовательности. Нужно первый столбец сделать названием колонок. Для начала нам нужен список колонок.

In [6]:
concept_list = regiones_values['concept'].drop_duplicates() # Забираю список концептов и удалаю дубликаты
concept_list

0    s_OKATO
1         EI
2     PERIOD
Name: concept, dtype: object

In [7]:
regiones_values_pivot = pd.DataFrame()

for i in concept_list:
    regiones_values_pivot[i] = regiones_values.loc[regiones_values['concept'] == i]['value'].values

regiones_values_pivot

Unnamed: 0,s_OKATO,EI,PERIOD
0,643,"промилле (0,1 процента)",январь
1,643,"промилле (0,1 процента)",январь-февраль
2,643,"промилле (0,1 процента)",январь-март
3,643,"промилле (0,1 процента)",январь-апрель
4,643,"промилле (0,1 процента)",январь-май
...,...,...,...
23714,45001000000,"промилле (0,1 процента)",январь-октябрь
23715,45001000000,"промилле (0,1 процента)",ноябрь
23716,45001000000,"промилле (0,1 процента)",январь-ноябрь
23717,45001000000,"промилле (0,1 процента)",декабрь


#### Год

In [8]:
regiones_Obs = pd.read_xml(data_raw, xpath="//generic:Obs", namespaces = {"generic": "http://www.SDMX.org/resources/SDMXML/schemas/v1_0/generic"})
regiones_Obs

Unnamed: 0,Time,ObsValue
0,2006,
1,2006,
2,2006,
3,2006,
4,2006,
...,...,...
23714,2013,
23715,2013,
23716,2013,
23717,2013,


#### Значения

In [9]:
regiones_ObsValue = pd.read_xml(data_raw, xpath="//generic:ObsValue", namespaces = {"generic": "http://www.SDMX.org/resources/SDMXML/schemas/v1_0/generic"})
regiones_ObsValue

Unnamed: 0,value
0,341
1,377
2,417
3,424
4,434
...,...
23714,0
23715,0
23716,0
23717,0


## Сведение и консолидация

In [10]:
data = pd.concat([regiones_values_pivot,regiones_Obs['Time'],regiones_ObsValue],axis=1).merge(regiones_codes, on='s_OKATO')
data

Unnamed: 0,s_OKATO,EI,PERIOD,Time,value,Description
0,643,"промилле (0,1 процента)",январь,2006,341,Российская Федерация
1,643,"промилле (0,1 процента)",январь-февраль,2006,377,Российская Федерация
2,643,"промилле (0,1 процента)",январь-март,2006,417,Российская Федерация
3,643,"промилле (0,1 процента)",январь-апрель,2006,424,Российская Федерация
4,643,"промилле (0,1 процента)",январь-май,2006,434,Российская Федерация
...,...,...,...,...,...,...
20135,45001000000,"промилле (0,1 процента)",январь-октябрь,2013,0,Москва в старых границах
20136,45001000000,"промилле (0,1 процента)",ноябрь,2013,0,Москва в старых границах
20137,45001000000,"промилле (0,1 процента)",январь-ноябрь,2013,0,Москва в старых границах
20138,45001000000,"промилле (0,1 процента)",декабрь,2013,0,Москва в старых границах
