#### ОГЛАВЛЕНИЕ

1. [Подготовка среды и изучение содержания данных](#0.0)   
    * [Установка необходимых библиотек](#1)  
    * [Загрузка файлов](#2)  
    * [Валидация xml-файлов и xsd-схемы](#3)  
    * [Визуальное знакомство со структурой полученных файлов](#4)  
  
  
2. [Архитектура БД в PostgreSQL](#0.1)  
    * [Подключение к Базе данных PostgreSQL](#5)  
    * [Описание структуры БД](#6)  
    * [Создание необходимых таблиц в Базе данных](#7)  
  
  
3. [Подготовка и парсинг данных в Базу данных](#0.2)  
    * [Функции для запросов на добавление данных в БД](#8)  
    * [Функции для парсинга данных из xml-файлов и добавления их в БД](#9)  
    * [Парсинг данных из xlm-файлов в БД](#10)  
____

## Подготовка среды и изучение содержания данных <a name=‘0.0’></a>

### Установка необходимых библиотек <a name='1'></a>

In [510]:
import xmlschema
from pprint import pprint
import psycopg2
from psycopg2 import OperationalError
from psycopg2.errors import ForeignKeyViolation
import os

### Загрузка файлов <a name='2'></a>

In [339]:
# название файла с xsd-схемой и локальный путь к нему
schema_file = 'structure-20201220.xsd'
schema = xmlschema.XMLSchema(schema_file)

In [431]:
# создадим список с локальными путями к 150 файлам из датасета
file_directory = 'data/'

folder = []
for i in os.walk(file_directory):
    folder.append(i)

In [432]:
address_list = []
for address, dirs, files in folder:
    for file in files[:150]:
        address_list.append(address + file)

print('Количество файлов: {}'.format(len(address_list)))

Количество файлов: 150


### Валидация xml-файлов и xsd-схемы <a name='3'></a>

В процессе первичной валидации xml-файлов было обнаружино общее несоответствие в xsd-схеме:  
не хватало блока информации "ВидСуб" в схеме, который присутствовал во всех файлах. После добавления в схему этого блока проблема исчезла.  
  
Были взяты 150 файлов из архива и проверенв на соответствие схеме для дальнейшей работы с ними:

In [446]:
error = 0
for xml in address_list:
    if schema.is_valid(xml):
        continue
    else:
        error += 1

print('Количество ошибок: {} \nКоличество проверенных файлов: {}'
      .format(error, len(address_list)))

Количество ошибок: 0 
Количество проверенных файлов: 150


### Визуальное знакомство со структурой полученных файлов <a name=‘4’></a>

In [342]:
data_dict = schema.to_dict(file_xml)
pprint(data_dict.keys())

dict_keys(['@ИдФайл', '@ВерсФорм', '@ТипИнф', '@КолДок', 'ИдОтпр', 'Документ'])


In [454]:
pprint(data_dict['Документ'][9])

{'@ВидСуб': '2',
 '@ДатаСост': '18.12.2020',
 '@ИдДок': 'a38e7782-dc88-49f8-b85f-1ba270bc1674',
 'СвПредПод': [{'@ВидПП': '2',
                '@ДатаПрин': '11.06.2020',
                '@ИННЮЛ': '7707329152',
                '@КатСуб': '2',
                '@НаимОрг': 'ФЕДЕРАЛЬНАЯ НАЛОГОВАЯ СЛУЖБА',
                '@СрокПод': '11.06.2020',
                'ВидПод': {'@КодВид': '0103',
                           '@НаимВид': 'Предоставление субсидий и грантов'},
                'ИнфНаруш': {'@ИнфНаруш': '2', '@ИнфНецел': '2'},
                'РазмПод': [{'@ЕдПод': '1', '@РазмПод': Decimal('303250.00')}],
                'ФормПод': {'@КодФорм': '0100',
                            '@НаимФорм': 'Финансовая поддержка'}},
               {'@ВидПП': '2',
                '@ДатаПрин': '20.05.2020',
                '@ИННЮЛ': '7707329152',
                '@КатСуб': '2',
                '@НаимОрг': 'ФЕДЕРАЛЬНАЯ НАЛОГОВАЯ СЛУЖБА',
                '@СрокПод': '20.05.2020',
                'ВидПод'

В полученных файлах присутствуют несколько ключей, но необходимая нам информация находится по ключевому слову "Документ".

## Архитектура БД в PostgreSQL <a name='0.1'></a>

### Подключение к Базе данных PostgreSQL <a name='5'></a>

Для подключения базе данных необходимо ввести наименование БД, имя пользователя и пароль, адрес сервера и номер порта для переменной:

In [345]:
connect = psycopg2.connect(
    database='cpur',
    user='cpur',
    password='cpur',
    host='localhost',
    port=5432,
)

Функция для упрощения процесса отправки запросов к БД:

In [344]:
def execute_query(connection, query):
    '''
    Функция принимает:
    connection — объект подключения, представляющий базу данных,
    query — запрос к базе данных. Автокоммит включен.
    
    Возвращает информацию о статусе выполнения запроса.
    '''
    connection.autocommit = True
    cursor = connection.cursor()
    cursor.execute(query)

### Описание структуры БД <a name='6'></a>

![](http://dl3.joxi.net/drive/2021/01/22/0043/3666/2862674/74/4891f85cff.png)  

Данные хранятся в 4 таблицах, связанных между собой ([ссылка на схему](http://dl3.joxi.net/drive/2021/01/22/0043/3666/2862674/74/4891f85cff.png)):  
* в таблице `entity` хранятся данные о получателях подддержки,  
* в таблице `institution` хранятся данные об органах, предоставляющих поддержку,  
* в таблице `support` собранны данные о видах и подвидах оказываемой поддержки согласно словарю СФВРМСП-ПП,  
* в таблице `request` хранятся данные о текущем статусе запросов на поддержку, количестве и виде поддержки, а также дополнительная информация о получателях поддержки и налии правонарушений.

### Создание необходимых таблиц в Базе данных <a name='7'></a>

Создадим необходимую архитектуру БД перед началом работы. Для запуска запроса к БД необходимо убрать коммит ячейки и перезапустить код.

In [391]:
create_entity_table = '''
CREATE TABLE entity (
    entity_inn VARCHAR(12) PRIMARY KEY,
    company VARCHAR(1000),
    full_name VARCHAR(180)
)
'''

In [347]:
#execute_query(connect, create_entity_table)

In [348]:
create_state_support_table = '''
CREATE TABLE institution (
    institution_inn VARCHAR(12) PRIMARY KEY,
    company VARCHAR(1000)
)
'''

In [349]:
#execute_query(connect, create_state_support_table)

In [350]:
create_type_support_table = '''
CREATE TABLE support (
    type_id VARCHAR(4) PRIMARY KEY,
    name_type VARCHAR(200) NOT NULL,
    form_id VARCHAR(4) NOT NULL,
    name_form VARCHAR(100) NOT NULL
)
'''

In [351]:
#execute_query(connect, create_type_support_table)

In [352]:
create_request_support_table = '''
CREATE TABLE request (
    id_request SERIAL PRIMARY KEY,
    entity_inn VARCHAR(12) REFERENCES entity (entity_inn),
    entity_type INTEGER,
    entity_category INTEGER,
    institution_inn VARCHAR(10) REFERENCES institution (institution_inn),
    action_type VARCHAR(4) REFERENCES support(type_id),
    start_date DATE,
    plan_date DATE,
    stop_date DATE,
    cost DECIMAL,
    cost_unit INTEGER,
    offence INTEGER,
    misuse INTEGER,
    
    CONSTRAINT unit_min_max CHECK (cost_unit > 0 AND cost_unit <= 5),
    CONSTRAINT offence_min_max CHECK (offence > 0 AND offence <= 2),
    CONSTRAINT misuse_min_max CHECK (misuse > 0 AND misuse <= 2),
    CONSTRAINT type_min_max CHECK (entity_type > 0 AND entity_type <= 3),
    CONSTRAINT category_min_max CHECK (entity_category > 0 AND entity_category <= 4)
)
'''

In [354]:
#execute_query(connect, create_request_support_table)

## Подготовка и парсинг данных в Базу данных <a name='0.2'></a>

### Функции для запросов на добавление данных в БД <a name='8'></a>

In [466]:
class UserInfo:
    def __init__(self, document):
        if 'СвФЛ' in document:
            self.entity_inn = document['СвФЛ']['@ИННФЛ']
            self.name = document['СвФЛ']['ФИО']['@Фамилия']
            self.company = None
        else:
            self.entity_inn = document['СвЮЛ']['@ИННЮЛ']
            self.company = document['СвЮЛ']['@НаимОрг'].replace("'", '')
            self.name = None
            
def add_inn_info(user_info):
    '''
    Функция отправляет запрос к БД PostgreSQL и добавляет общую информацию
    о получателе поддержки в таблицу "entity". 
    Дублирующиеся значения по первичному ключу "entity_inn" игнорируются.
    '''
    if user_info.company is None:
        execute_query(connect, "INSERT INTO entity\
                               (entity_inn, full_name)\
                                VALUES {} \
                                ON CONFLICT (entity_inn) DO NOTHING"
                      .format((user_info.entity_inn, user_info.name)))
    else:
        execute_query(connect, "INSERT INTO entity\
                               (entity_inn, company)\
                                VALUES {} \
                                ON CONFLICT (entity_inn) DO NOTHING"
                      .format((user_info.entity_inn, user_info.company)))

In [393]:
def add_inn_institution(institution_inn, company):
    '''
    Функция отправляет запрос к БД PostgreSQL и добавляет общую информацию
    об органах, предоставляющих поддержку в таблицу "institution". 
    Дублирующиеся значения по первичному ключу "institution_inn" игнорируются.
    '''
    execute_query(connect, "INSERT INTO institution\
                           (institution_inn, company)\
                            VALUES {} \
                            ON CONFLICT (institution_inn) DO NOTHING"
                  .format((institution_inn, company)))

In [394]:
def add_support_type(type_id, name_type, form_id, name_form):
    '''
    Функция отправляет запрос к БД PostgreSQL и добавляет общую информацию
    о типах предоставляемой поддержки в таблицу "support". 
    Дублирующиеся значения по первичному ключу "type_id" игнорируются.
    '''
    execute_query(connect, "INSERT INTO support\
                           (type_id, name_type, form_id, name_form)\
                            VALUES {} \
                            ON CONFLICT (type_id) DO NOTHING"
                  .format((type_id, name_type, form_id, name_form)))

In [513]:
def to_ps_date(date):
    d, m, y = date.split(".")
    return "-".join((y, m, d))

def add_request_info(entity_inn, entity_type, entity_category, institution_inn, action_type,
                     start_date, plan_date, stop_date, cost, cost_unit, offence, misuse):
    '''
    Функция отправляет запрос к БД PostgreSQL и добавляет информацию
    о поступивших запросах в таблицу "request". Каждой записи присваивается
    уникальное значение-ключ "id_request"
    '''
    req_template = "INSERT INTO request\
                           (entity_inn, entity_type, entity_category,\
                            institution_inn, action_type,\
                            start_date, plan_date,"
    params = [entity_inn, entity_type, entity_category, institution_inn,
                          action_type, to_ps_date(start_date), to_ps_date(plan_date)]
    if stop_date:
        req_template += "stop_date,"
        params.append(to_ps_date(stop_date))
    
    req_template += "cost, cost_unit, offence, misuse) VALUES {}"
    params += [str(cost), cost_unit, offence, misuse]
    try:
        execute_query(connect, req_template.format(tuple(params)))
    except ForeignKeyViolation as e:
        print(e)

### Функции для парсинга данных из xml-файлов и добавления их в БД <a name='9'></a>

In [396]:
# данные о получателях поддержки
def save_user(document):
    user = UserInfo(document)
    add_inn_info(user)

In [384]:
# данные о видах оказываемой поддержки
def save_type_support(document):
    support = document['СвПредПод']
    for item in support:
        type_id = item['ВидПод']['@КодВид']
        name_type = item['ВидПод']['@НаимВид']
        form_id = item['ФормПод']['@КодФорм']
        name_form = item['ФормПод']['@НаимФорм']
        add_support_type(type_id, name_type, form_id, name_form)


In [413]:
# данные о запросах на оказание поддержки
def save_request(document):
    request = document['СвПредПод']
    entity_inn = UserInfo(document).entity_inn
    for item in request:
        entity_type = item['@ВидПП']
        entity_category = item['@КатСуб']
        institution_inn = item['@ИННЮЛ']
        action_type = item['ВидПод']['@КодВид']
        start_date = item['@ДатаПрин']
        plan_date = item['@СрокПод'] 
        cost = item['РазмПод'][0]['@РазмПод']
        cost_unit = item['РазмПод'][0]['@ЕдПод']
        offence = item['ИнфНаруш']['@ИнфНаруш']
        misuse = item['ИнфНаруш']['@ИнфНецел']
        if '@ДатаПрекр' in item:
            stop_date = item['@ДатаПрекр']
        else:
            stop_date = None
    
        add_request_info(entity_inn, entity_type, entity_category, institution_inn, 
                         action_type, start_date, plan_date, stop_date, cost, 
                         cost_unit, offence, misuse)

In [363]:
# данные об органах, предоставляющих поддержку
def save_institution(document):
    institution = document['СвПредПод']
    for item in institution:
        institution_inn = item['@ИННЮЛ']
        company = item['@НаимОрг']
    
    add_inn_institution(institution_inn, company)

### Парсинг данных из xlm-файлов в БД <a name='10'></a>

In [456]:
for xml in address_list:
    data_dict = schema.to_dict(xml)
    for doc in data_dict['Документ']:
        save_type_support(doc)

In [469]:
for xml in address_list:
    data_dict = schema.to_dict(xml)
    for doc in data_dict['Документ']:
        save_user(doc)

In [518]:
for xml in address_list:
    data_dict = schema.to_dict(xml)
    for doc in data_dict['Документ']:
        save_institution(doc)

При парсинге запросов на поддержку в таблицу `request` ряд строк для повторяющихся ИНН организаций, оказывающих поддержку, не получилось обработать. При создании итоговой версии Базы данных на это необходимо обратить внимание и выявить проблему. На данном этапе мы собрали ряд отчетов об ошибке, из которых можно будет взять необходимую информацию и провести с ее помощью ресерч проблемы.

In [519]:
for xml in address_list:
    data_dict = schema.to_dict(xml)
    for doc in data_dict['Документ']:
        save_request(doc)

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(4701001377) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(4708007427) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(4708007427) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5252030901) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(2983010493) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(3728013000) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(3728013000) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(3728013000) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(3728013000) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5260420574) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5503081005) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5503047244) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5503047244) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(2528885651) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(2721222733) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5836013675) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1640003883) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1640003883) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1643007798) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1654022036) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1813000930) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1601005936) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(1601005936) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5260420574) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5205995010) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(9105003502) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(0258010691) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(0258010684) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5260420574) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5902993324) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(6606011805) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(2801226420) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(5433107553) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(0275913140) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institution_inn_fkey"
DETAIL:  Key (institution_inn)=(8901023569) is not present in table "institution".

insert or update on table "request" violates foreign key constraint "request_institut

In [520]:
# завершение подключения к Базе данных
connect.close()