## Цель
- Собрать базу открытых данных с сайта Московской патриархии о персоналиях, организациях, богослужебных указаниях и храмах, структурировать их и загрузить в хаб открытых данных

## Задача
- проинвентаризировать данные на сайте Московской патриархии
- написать парсеры и выгрузить данные в форматах CSV и JSON
- загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.
## Требования
- открытый исходный код в Github под свободной лицензией
- межплатформенный код (возможность запуска на Linux/Windows)
- предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
- переносить все данные в CKAN или на отдельный хостинг (например, в Github)
## Данные
- Персоналии - http://www.patriarchia.ru/db/persons/
- Организации - http://www.patriarchia.ru/db/organizations/
- Богослужебные указания - http://www.patriarchia.ru/bu/
- Храмы - http://map.patriarhia.ru/
## Пожелания
- реализация в виде программы командной строки или веб-приложения
- возможность запуска на MacOSX
- использовать скриптовые языки такие как Python, Perl, R и другие.

In [1]:
import requests      
import numpy as np   
import pandas as pd  
import time          
from bs4 import BeautifulSoup

In [2]:
link_persons = "http://www.patriarchia.ru/db/persons/"
link_organizations = "http://www.patriarchia.ru/db/organizations/"
link_methodology = "http://www.patriarchia.ru/bu/"
link_churches = "http://map.patriarhia.ru/"

In [3]:
persons = requests.get(link_persons)

In [5]:
html = persons.content

In [7]:
soup = BeautifulSoup(html, 'html.parser')

In [9]:
persons = soup.find('div', attrs={"class":"main"})

In [10]:
persons = persons.findAll('a', href=True)

In [15]:
persons[0:2]

[<a href="/db/text/2147951.html">Августин, епископ Городецкий и Ветлужский (Анисимов Анатолий Иванович)</a>,
 <a href="http://www.patriarchia.ru/db/persons/31911/">Епископат РПЦ</a>]

In [30]:
persons[1]['href']

'http://www.patriarchia.ru/db/persons/31911/'

In [24]:
persons[1].text

'Епископат РПЦ'

In [52]:
dfPersons = {}

for i in range(0, len(persons)-1, 2):
    name = persons[i].text
    link = persons[i+1]['href']
    affiliation = persons[i+1].text
    dfPersons[i] = {"name":name, "link":link, "affiliation":affiliation}

In [53]:
pd.DataFrame.from_dict(dfPersons, orient='index')

Unnamed: 0,name,link,affiliation
0,"Августин, епископ Городецкий и Ветлужский (Ани...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
2,"Августин, митрополит Белоцерковский и Богуслав...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
4,"Агапит, архиепископ Штутгартский (РПЦЗ), викар...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
6,"Агапит, митрополит Могилев-Подольский и Шаргор...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
8,"Агафангел, епископ Норильский и Туруханский (Д...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
10,"Агафангел, митрополит Одесский и Измаильский (...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
12,"Адриан, епископ Ржевский и Торопецкий (Ульянов...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
14,"Адриан, Патриарх Московский и всея Руси",http://www.patriarchia.ru/db/persons/30918/,Деятели Русской Православной Церкви
16,"Аксий, епископ Нерчинский и Краснокаменский (Л...",http://www.patriarchia.ru/db/persons/31911/,Епископат РПЦ
18,"Александр Агейкин, протоиерей",http://www.patriarchia.ru/db/persons/30918/,Деятели Русской Православной Церкви


In [51]:
dfPersons

{}