## Проект. Государственные деньги для НКО

### Постановка задачи

В нашем распоряжении есть дамп данных обо всех НКО России (актуален на 26.08.2021), в котором
содержится информация о получении государственных грантов,
госконтрактов и субсидий, регионе и дате регистрации, а также ОКВЭД
(классификатор экономической деятельности).

Необходимо проверить, есть ли зависимость вероятности получения
грантов/госконтрактов от государства от её характеристик:
* от региона регистрации организации;
* от возраста организации;
* от экономической деятельности организации; 
* от организационно-правовой формы (ОПФ/ОКОПФ);
* от формы НКО;
* от наличия записей организации в соц.сетях (её публичности).

In [3]:
# Подключение необходимых библиотек
import pandas as pd
import ijson
import warnings
warnings.filterwarnings('ignore')

1. Сбор данных

In [4]:
files = [
    'ngo_dump_01.json',
    'ngo_dump_02.json',
    'ngo_dump_03.json',
    'ngo_dump_04.json',
    'ngo_dump_05.json',
    'ngo_dump_06.json',
    'ngo_dump_07.json',
    'ngo_dump_08.json',
    'ngo_dump_09.json',
    'ngo_dump_10.json',
    'ngo_dump_11.json',
    'ngo_dump_12.json',
    'ngo_dump_13.json',
    'ngo_dump_14.json',
    'ngo_dump_15.json'
]

# Список ключей для считывания данных из json-файла
colunms_for_fd = [
    'ogrn', # ОГРН организации (уникальный номер, присваиваемый организации при её регистрации, и он всегда неизменен) 
    'shortName', # сокращенное наименование организации 
    'regionCode', # код региона организации
    'regionName', # название региона организации
    'dateReg', # дата регистрации организаций - указывается только для организаций, зарегистрированных до 2002 года
    'dateOgrn', # дата присвоения ОГРН - начиная с 2002 года
    'dateLiquid', #  дата ликвидации юрлица
    'originDate', # дата происхождения
    'egrulStatus', # статус организации на основании данных ЕГРЮЛ. Варианты: Действует, Ликвидирована
    'opf', # сведения об организационно-правовой форме (ОПФ) организации на основании данных ЕГРЮЛ    
    'mainOkved', # сведения об основном ОКВЭД
    'addOkved', # дополнительный ОКВЭД    
    'incomeDetail', # детализация сведений о доходах
    'incomeTotal', # общая сумма доходов из известных источников - контрактов, договоров, президентских грантов, федеральных субсидий    
    'hasRegionalSupport', # наличие сведений о том, что организация была получателем региональной поддержки в качестве СО НКО 
                            # (Социально Ориентированная Некоммерческая Организация)   
    'minjustForm', # форма НКО, согласно системе Минюста РФ - УНРО    
    'minjustStatus', # статус НКО в системе Минюста РФ - УНРО. Варианты: Исключена, Действует 
    'socialMedia' # сведения об учетных записях организации в соцсетях    
]

In [5]:
# Считываем дамп данных
data = []
for filename in files:
    with open('D:/data/openngo_2021_26_08/' + filename, 'r', encoding='utf-8') as f:
        objects = ijson.items(f, '', multiple_values=True)               
        for row in objects:        
            r = []
            for col in colunms_for_fd:
                r.append(row.get(col, 0)) # вернёт 0 в случае, если данного ключа не существует            
                data.append(r) 
df = pd.DataFrame(data, columns=colunms_for_fd)
#df = df.loc[1:1000,:]
display(df.head())

Unnamed: 0,ogrn,shortName,regionCode,regionName,dateReg,dateOgrn,dateLiquid,originDate,egrulStatus,opf,mainOkved,addOkved,incomeDetail,incomeTotal,hasRegionalSupport,minjustForm,minjustStatus,socialMedia
0,1207800141790,"""АМА""",78,Санкт-Петербург,,{'$date': '2020-10-30T00:00:00.000Z'},,{'$date': '2020-10-30T00:00:00.000Z'},Действует,"{'name': 'Ассоциации (союзы)', 'code': '20600'...",{'name': 'Деятельность профессиональных членск...,[],"{'grants': {'totalCount': 0, 'totalSum': 0}, '...",0,False,"Объединения (союз, ассоциация) юридических лиц",Зарегистрирована,"{'youtube': None, 'vk': None, 'facebook': None..."
1,1207800141790,"""АМА""",78,Санкт-Петербург,,{'$date': '2020-10-30T00:00:00.000Z'},,{'$date': '2020-10-30T00:00:00.000Z'},Действует,"{'name': 'Ассоциации (союзы)', 'code': '20600'...",{'name': 'Деятельность профессиональных членск...,[],"{'grants': {'totalCount': 0, 'totalSum': 0}, '...",0,False,"Объединения (союз, ассоциация) юридических лиц",Зарегистрирована,"{'youtube': None, 'vk': None, 'facebook': None..."
2,1207800141790,"""АМА""",78,Санкт-Петербург,,{'$date': '2020-10-30T00:00:00.000Z'},,{'$date': '2020-10-30T00:00:00.000Z'},Действует,"{'name': 'Ассоциации (союзы)', 'code': '20600'...",{'name': 'Деятельность профессиональных членск...,[],"{'grants': {'totalCount': 0, 'totalSum': 0}, '...",0,False,"Объединения (союз, ассоциация) юридических лиц",Зарегистрирована,"{'youtube': None, 'vk': None, 'facebook': None..."
3,1207800141790,"""АМА""",78,Санкт-Петербург,,{'$date': '2020-10-30T00:00:00.000Z'},,{'$date': '2020-10-30T00:00:00.000Z'},Действует,"{'name': 'Ассоциации (союзы)', 'code': '20600'...",{'name': 'Деятельность профессиональных членск...,[],"{'grants': {'totalCount': 0, 'totalSum': 0}, '...",0,False,"Объединения (союз, ассоциация) юридических лиц",Зарегистрирована,"{'youtube': None, 'vk': None, 'facebook': None..."
4,1207800141790,"""АМА""",78,Санкт-Петербург,,{'$date': '2020-10-30T00:00:00.000Z'},,{'$date': '2020-10-30T00:00:00.000Z'},Действует,"{'name': 'Ассоциации (союзы)', 'code': '20600'...",{'name': 'Деятельность профессиональных членск...,[],"{'grants': {'totalCount': 0, 'totalSum': 0}, '...",0,False,"Объединения (союз, ассоциация) юридических лиц",Зарегистрирована,"{'youtube': None, 'vk': None, 'facebook': None..."


Преобразуем некоторые столбцы, данные в которых, являются списками или словарями

In [6]:
df['dateReg'] = df['dateReg'].apply(lambda x: x if x==None else pd.to_datetime(dict(x).get('$date', 0)).date())
df['dateOgrn'] = df['dateOgrn'].apply(lambda x: x if x==None else pd.to_datetime(dict(x).get('$date', 0)).date())
df['dateLiquid'] = df['dateLiquid'].apply(lambda x: x if x==None else pd.to_datetime(dict(x).get('$date', 0)).date())
df['originDate'] = df['originDate'].apply(lambda x: x if x==None else pd.to_datetime(dict(x).get('$date', 0)).date())

df['opf_name'] = df['opf'].apply(lambda x: x if x==None else dict(x).get('name', 0))
df['opf_code'] = df['opf'].apply(lambda x: x if x==None else dict(x).get('code', 0))
df['opf_version'] = df['opf'].apply(lambda x: x if x==None else dict(x).get('version', 0))

df['mainOkved_name'] = df['mainOkved'].apply(lambda x: dict(x).get('name', 0))
df['mainOkved_code'] = df['mainOkved'].apply(lambda x: dict(x).get('code', 0))

df['sumGrants'] = df['incomeDetail'].apply(lambda x: dict(x).get('grants', 0).get('totalSum', 0))
df['sumFedSubsidies'] = df['incomeDetail'].apply(lambda x: dict(x).get('fedSubsidies', 0).get('totalSum', 0))
df['sumContracts'] = df['incomeDetail'].apply(lambda x: dict(x).get('contracts44', 0).get('totalSum', 0)+dict(x).get('contracts223', 0).get('totalSum', 0)+dict(x).get('contracts94', 0).get('totalSum', 0))

df['SM_youtube'] = df['socialMedia'].apply(lambda x: dict(x).get('youtube', 0))
df['SM_vk'] = df['socialMedia'].apply(lambda x: dict(x).get('vk', 0))
df['SM_facebook'] = df['socialMedia'].apply(lambda x: dict(x).get('facebook', 0))
df['SM_twitter'] = df['socialMedia'].apply(lambda x: dict(x).get('twitter', 0))
df['SM_instagram'] = df['socialMedia'].apply(lambda x: dict(x).get('instagram', 0))
df['SM_ok'] = df['socialMedia'].apply(lambda x: dict(x).get('ok', 0))

In [7]:
def funcAddOkved_name(arg):
    '''принимает на вход список arg переменной длины (его элементы - словари), 
       возвращает строку содержащую наименование дополнительных ОКВЭД, разделенных ;'''
    out = str('')
    if str(arg)=='[]':
        out = 'undefined'
    else:
        for item in arg:                  
            if out == str(''): 
                out = item.get('name', 0)
            else:
                out += ';' + item.get('name', 0)
    return out

def funcAddOkved_code(arg):
    '''принимает на вход список arg переменной длины (его элементы - словари),
       возвращает строку содержащую коды дополнительных ОКВЭД, разделенных ;'''
    out = str('')
    if str(arg)=='[]':
        out = 'undefined'
    else:
        for item in arg:                  
            if out == str(''): 
                out = item.get('code', 0)
            else:
                out += ';' + item.get('code', 0)
    return out

df['addOkved_name'] = df['addOkved'].apply(funcAddOkved_name)
df['addOkved_code'] = df['addOkved'].apply(funcAddOkved_code)

# Удаляем столбцы, из которых были сформированы новые признаки
df = df.drop(['opf', 'incomeDetail', 'socialMedia', 'mainOkved', 'addOkved'], axis=1)

Удалим дублирующиеся записи

In [8]:
print('Размерность датафрейма до удаления дубликатов: ', df.shape)
df=df.drop_duplicates()
print('Размерность датафрейма после удаления дубликатов: ', df.shape)

Размерность датафрейма до удаления дубликатов:  (1800000, 29)
Размерность датафрейма после удаления дубликатов:  (100000, 29)


Сохраним датафрейм в файл csv, это позволит нам не производить каждый раз операции по считыванию данных из файлов и преобразования столбцов, которые
занимают много времени. В случае необходимости, датафрейм для дальнейшей работы можно считывать напрямую из файла my_df.csv

In [9]:
df.to_csv('my_df.csv', index=False)
df = pd.read_csv('my_df.csv')
display(df.head())

Unnamed: 0,ogrn,shortName,regionCode,regionName,dateReg,dateOgrn,dateLiquid,originDate,egrulStatus,incomeTotal,...,sumFedSubsidies,sumContracts,SM_youtube,SM_vk,SM_facebook,SM_twitter,SM_instagram,SM_ok,addOkved_name,addOkved_code
0,1207800141790,"""АМА""",78,Санкт-Петербург,,2020-10-30,,2020-10-30,Действует,0.0,...,0.0,0.0,,,,,,,undefined,undefined
1,1207700349152,"ФОНД ""УНИВЕРСАЛИСТ М""",77,Москва,,2020-09-23,,2020-09-23,Действует,0.0,...,0.0,0.0,,,,,,,Издание книг;Издание газет;Виды издательской д...,58.11;58.13;58.19;59.20.1
2,1207800011430,,78,Санкт-Петербург,,2020-02-03,,2020-02-03,Действует,0.0,...,0.0,0.0,,,,,,,undefined,undefined
3,1207700348976,"ТСН ""ЛУГИНИНО ПАРК""",77,Москва,,2020-09-23,,2020-09-23,Действует,0.0,...,0.0,0.0,,,,,,,Аренда и управление собственным или арендованн...,68.20;68.10
4,1207800081500,"АНО ""ЦЕНТР ""ПЕТЕРБУРГФОРУМ""",78,Санкт-Петербург,,2020-07-08,,2020-07-08,Действует,0.0,...,0.0,0.0,,,,,,,Исследование конъюнктуры рынка и изучение обще...,73.20;58.11.1;93.29.9;85.41.9;88.99;70.21


### Дополнительно, можно собрать данные, актуальные на настоящий момент времени с помощью публичного API портала "Открытые НКО" (https://openngopublicapi.p.infoculture.ru/v1/org/)

In [19]:
from bs4 import BeautifulSoup
import requests
from pprint import pprint 

In [15]:
url = 'https://openngopublicapi.p.infoculture.ru/v1/org/' # Определяем адрес страницы

In [20]:
ogrn = []
shortName = []
regionCode, regionName = [], []
dateReg, dateOgrn, dateLiquid, originDate = [], [], [], []
egrulStatus = []
incomeTotal = []
hasRegionalSupport = []
minjustForm, minjustStatus = [], []
opf_name, opf_code, opf_version = [], [], []
mainOkved_name, mainOkved_code = [], []
sumGrants, sumFedSubsidies, sumContracts = [], [], []
addOkved_name, addOkved_code = [], []

df = pd.DataFrame()

i = 1
while True:
    try:
        response = requests.get(url, params = {'page': i}).json() 
        
        for j in range(response['count']):
            ogrn.append(response['items'][j]['ogrn'])
            shortName.append(response['items'][j]['shortName'])
            regionCode.append(response['items'][j]['regionCode'])
            regionName.append(response['items'][j]['regionName'])
            dateReg.append(response['items'][j]['dateReg'])
            dateOgrn.append(response['items'][j]['dateOgrn'])
            dateLiquid.append(response['items'][j]['dateLiquid'])
            originDate.append(response['items'][j]['originDate'])
            egrulStatus.append(response['items'][j]['egrulStatus'])
            incomeTotal.append(response['items'][j]['incomeTotal'])
            hasRegionalSupport.append(response['items'][j]['hasRegionalSupport'])
            minjustForm.append(response['items'][j]['minjustForm'])
            minjustStatus.append(response['items'][j]['minjustStatus'])
            opf_name.append(response['items'][j]['opf']['name'])
            opf_code.append(response['items'][j]['opf']['code'])
            opf_version.append(response['items'][j]['opf']['version'])
            mainOkved_name.append(response['items'][j]['mainOkved']['name'])
            mainOkved_code.append(response['items'][j]['mainOkved']['code'])
            sumGrants.append(response['items'][j]['incomeDetail'])
            sumFedSubsidies.append(response['items'][j]['incomeDetail'])
            sumContracts.append(response['items'][j]['incomeDetail'])
                
        i += 1
    except Exception as e:
        print(e)
        break

In [21]:
data = {'ogrn': ogrn, 'shortName': shortName, 'regionCode': regionCode, 'regionName': regionName, 'dateReg': dateReg, 'dateOgrn': dateOgrn, 'dateLiquid': dateLiquid,
            'originDate': originDate, 'egrulStatus': egrulStatus, 'incomeTotal': incomeTotal, 'hasRegionalSupport': hasRegionalSupport, 'minjustForm': minjustForm,
            'minjustStatus': minjustStatus, 'opf_name': opf_name, 'opf_code': opf_code, 'opf_version': opf_version, 'mainOkved_name': mainOkved_name, 'mainOkved_code': mainOkved_code,
            'sumGrants': sumGrants, 'sumFedSubsidies': sumFedSubsidies, 'sumContracts': sumContracts}
df = pd.DataFrame(data)

display(df.head(10))

Unnamed: 0,ogrn,shortName,regionCode,regionName,dateReg,dateOgrn,dateLiquid,originDate,egrulStatus,incomeTotal,...,minjustForm,minjustStatus,opf_name,opf_code,opf_version,mainOkved_name,mainOkved_code,sumGrants,sumFedSubsidies,sumContracts
0,1074700001166,,47,Ленинградская область,,2007-04-19T00:00:00,,2007-04-19T00:00:00,Действующая,0.0,...,"Садоводческое, огородническое, дачное некоммер...",Исключенные,Товарищества собственников недвижимости,20700,okopf,Деятельность прочих общественных и некоммерчес...,94.9,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
1,1067325003987,"ГСК ""АЛГОРИТМ.М""",73,Ульяновская область,,2006-02-04T00:00:00,2018-09-13T00:00:00,2006-02-04T00:00:00,Ликвидирована,0.0,...,,,Гаражные и гаражно-строительные кооперативы,20101,okopf,Управление эксплуатацией нежилого фонда за воз...,68.32.2,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
2,1072536000382,,25,Приморский край,1992-05-05T00:00:00,2007-01-11T00:00:00,2007-01-11T00:00:00,1992-05-05T00:00:00,Ликвидирована,0.0,...,,,Общества взаимного страхования,20108,okopf,,,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
3,1027739388588,,77,Москва,1998-01-21T00:00:00,2002-10-16T00:00:00,,1998-01-21T00:00:00,Действующая,14800000.0,...,Автономная некоммерческая организация,Зарегистрированные,Автономные некоммерческие организации,71400,okopf,Консультирование по вопросам коммерческой деят...,70.22,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
4,1070400000571,,22,Алтайский край,,2007-11-07T00:00:00,,2007-11-07T00:00:00,Действующая,0.0,...,Ассоциация (союз),Исключенные,Ассоциации (союзы),20600,okopf,Научные исследования и разработки в области ес...,72.19,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
5,1072400001244,,24,Красноярский край,,2007-02-14T00:00:00,2022-10-28T00:00:00,2007-02-14T00:00:00,Ликвидирована,0.0,...,Общественная организация,Исключенные,Общественные организации,20200,okopf,Деятельность прочих общественных организаций и...,94.99,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
6,1025400002693,,54,Новосибирская область,2002-02-21T00:00:00,2002-11-22T00:00:00,,2002-02-21T00:00:00,Действующая,0.0,...,Общественная организация,Зарегистрированные,Общественные организации,20200,okopf,"Деятельность прочих общественных организаций, ...",94.99,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
7,1027700362250,,77,Москва,1997-12-25T00:00:00,2002-10-29T00:00:00,,1997-12-25T00:00:00,Действующая,0.0,...,,,Гаражные и гаражно-строительные кооперативы,20101,okopf,Деятельность стоянок для транспортных средств,52.21.24,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
8,1021000535434,,10,Республика Карелия,1976-05-31T00:00:00,2002-12-05T00:00:00,,1976-05-31T00:00:00,Действующая,0.0,...,,,Гаражные и гаражно-строительные кооперативы,20101,okopf,,,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
9,1020202869488,,2,Республика Башкортостан,2001-04-05T00:00:00,2002-12-18T00:00:00,,2001-04-05T00:00:00,Действующая,0.0,...,Учреждение,Зарегистрированные,Частные учреждения,75500,okopf,Образование дополнительное детей и взрослых,85.41,"{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '...","{'grants': {'totalSum': 0, 'totalCount': 0}, '..."
