# Данные

В исследовании используются реестр договоров (соглашений) о предоставлении субсидий (грантов) и получателей субсидий (грантов).

Данные взяты с сайта https://data-new.mos.ru/.

Описание данных с портала открытых данных Правительства Москвы:

"Набор данных позволяет получить подробную информацию о предоставленных субсидиях (грантах) организациям промышленности, науки и инновационной инфраструктуры города, и обеспечивает прозрачность процесса предоставления государственной поддержки.

Субсидии (гранты) выдаются на определенные цели и способствуют сохранению текущих и развитию новых производств на столичных предприятиях, а также позволяют ускорить процесс развития инновационной и научной инфраструктуры.

Департамент предпринимательства и инновационного развития города Москвы, а также Департамент инвестиционной и промышленной политики города Москвы предоставляют организациям промышленности, науки и инновационной инфраструктуры следующие субсидии (гранты) из бюджета города Москвы:

- Субсидии управляющим компаниям технопарков и (или) индустриальных (промышленных) парков, а также организациям, реализующим инвестиционные приоритетные проекты города Москвы по созданию технопарков и (или) индустриальных промышленных парков, в целях возмещения части затрат по уплате процентов по кредитам, полученным в кредитных организациях, на создание и (или) развитие имущественного комплекса технопарка и (или) индустриального (промышленного) парка;

- Субсидии организациям, осуществляющим деятельность в сфере обрабатывающих производств на территории города Москвы, на возмещение части затрат на приобретение отдельных видов оборудования;

- Субсидии организациям, осуществляющим деятельность в сфере обрабатывающих производств на территории города Москвы, в целях возмещения части затрат на уплату лизинговых платежей по договорам финансовой аренды (лизинга);

- Субсидии организациям, осуществляющим деятельность в сфере промышленности, на возмещение части затрат по подключению (технологическому присоединению) объектов капитального строительства к системам инженерно-технического обеспечения или увеличению их технологических мощностей;  

- Субсидии субъектам малого и среднего предпринимательства, осуществляющим деятельность в сфере поддержки инновационной деятельности на территории города Москвы, в целях финансового обеспечения (возмещения) затрат, связанных с оснащением и функционированием центров молодежного инновационного творчества, проектирования, прототипирования и производства;

- Субсидии из бюджета города Москвы организациям, осуществляющим деятельность в инновационной сфере на территории города Москвы, в целях возмещения части затрат, связанных с организацией или расширением производства продукции на основе внедрения и промышленного освоения результатов научно-технической деятельности;

- Субсидии организациям, образующим в городе Москве инновационную инфраструктуру, в целях возмещения части затрат, связанных с созданием, развитием и (или) модернизацией их материально-технической базы;

- Субсидии из бюджета города Москвы субъектам малого и среднего предпринимательства, являющимся резидентами технопарков, индустриальных (промышленных) парков или территории особой экономической зоны технико-внедренческого типа города Москвы, в целях возмещения части затрат на уплату процентов по кредитам, полученным в кредитных организациях на поддержку и развитие деятельности субъектов малого и среднего предпринимательства;

- Субсидии из бюджета города Москвы субъектам малого и среднего предпринимательства, являющимся резидентами технопарков, индустриальных (промышленных) парков или территории особой экономической зоны технико-внедренческого типа города Москвы, в целях возмещения части затрат на приобретение оборудования;

- Субсидии из бюджета города Москвы субъектам малого и среднего предпринимательства, являющимся резидентами технопарков, индустриальных (промышленных) парков или территории особой экономической зоны технико-внедренческого типа города Москвы, в целях возмещения части затрат на уплату лизинговых платежей по договорам финансовой аренды (лизинга);

- Субсидии из бюджета города Москвы субъектам малого и среднего предпринимательства в целях возмещения части затрат, связанных с участием в конгрессно-выставочных мероприятиях;

- Иные субсидии (гранты) в соответствии с законодательными актами Правительства Москвы."

# Какие данные представлены?

- Номер договора (соглашения)
- Дата договора (соглашения)
- Наименование проекта, на реализацию которого направлена субсидия (грант)
- Получатель субсидии (гранта)
- Нормативный документ-основание для предоставления субсидии (гранта)
- Начало действия договора (соглашения) субсидии (гранта)
- Конец действия договора (соглашения) субсидии (гранта)
- Сумма субсидии (гранта) по договору (соглашению) (руб.)
- global_id - уникальный идентификатор

# Исследуемые вопросы

1. У каких получателей субсидий наибольшее количество грантов? Какая средняя сумма грантов для получателей?

2. На какие проекты было выделено наибольшее количество грантов? Каковы среднее и медиана грантов?

3. Провести исследование распределений размеров грантов для различных проектов. Распределения похожи или различаются?

# 1. Предобработка данных

In [1]:
# Загрузка нужных библиотек
import numpy as np
import pandas as pd
import re

import statsmodels.api as sm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from scipy.stats import shapiro
import scipy.stats as stats

from plotly.subplots import make_subplots
import plotly.graph_objects as go

In [2]:
# Загрузка данных
df = pd.read_excel('data/grants.xlsx')
print(df.shape)
df.head()

(9956, 9)


Unnamed: 0,Номер договора (соглашения),Дата договора (соглашения),"Наименование проекта, на реализацию которого направлена субсидия (грант)",Получатель субсидии (гранта),Нормативный документ-основание для предоставления субсидии (гранта),Начало действия договора (соглашения) субсидии (гранта),Конец действия договора (соглашения) субсидии (гранта),Сумма субсидии (гранта) по договору (соглашению) (руб.),global_id
0,8/3-2ано-18,01.02.2018,"Финансовое обеспечение деятельности, включая и...",Автономная некоммерческая организация «Московс...,BaseDocument:Закон города Москвы №47 от 29.11....,01.02.2018,30.04.2019,493087400.0,859838603
1,8/3-3тех-18,01.02.2018,Проведение мероприятий по развитию конгрессно-...,"АНО Центр содействия развитию науки, промышлен...",BaseDocument:Закон города Москвы № 47 от 29.11...,01.02.2018,31.03.2019,1142289000.0,859912894
2,8/3-11ф-18,15.03.2018,"Субсидия на финансовое обеспечение расходов, с...",Некоммерческая организация Фонд развития Центр...,BaseDocument:Закон города Москвы № 47 от 29.11...,15.03.2018,31.03.2019,60000000.0,859994234
3,8/3-126ин-15,18.12.2015,"Оснащение ЦМИТ «Цифровой дом», специализирующе...",Общество с ограниченной ответственностью «Меди...,BaseDocument:№ 646-ПП от 13.11.2012\n\n,18.12.2015,18.12.2018,5624718.0,861525641
4,8/3-157кп-15,18.12.2015,Техническое перевооружение АО «МПО им. И.Румян...,Акционерное общество «Машиностроительное произ...,BaseDocument:№ 152-ПП от 20.04.2012\n\n,18.12.2015,30.05.2018,29247940.0,861525767


Проверим, каждая ли запись уникальна?

Это так, потому что число уникальных записей в global_id равно числу строк в датафрейме.

In [3]:
df['global_id'].nunique() == df.shape[0]

True

Посмотрим на типы переменных и на пропущенные значения в данных.

Все данные, кроме глобального индекса имеют тип object.

В столбце Нормативный документ-основание для предоставления субсидии (гранта) пропущено 1229 значений.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9956 entries, 0 to 9955
Data columns (total 9 columns):
 #   Column                                                                    Non-Null Count  Dtype  
---  ------                                                                    --------------  -----  
 0   Номер договора (соглашения)                                               9956 non-null   object 
 1   Дата договора (соглашения)                                                9956 non-null   object 
 2   Наименование проекта, на реализацию которого направлена субсидия (грант)  9956 non-null   object 
 3   Получатель субсидии (гранта)                                              9956 non-null   object 
 4   Нормативный документ-основание для предоставления субсидии (гранта)       8727 non-null   object 
 5   Начало действия договора (соглашения) субсидии (гранта)                   9956 non-null   object 
 6   Конец действия договора (соглашения) субсидии (гранта)           

In [5]:
df.isnull().sum()

Номер договора (соглашения)                                                    0
Дата договора (соглашения)                                                     0
Наименование проекта, на реализацию которого направлена субсидия (грант)       0
Получатель субсидии (гранта)                                                   0
Нормативный документ-основание для предоставления субсидии (гранта)         1229
Начало действия договора (соглашения) субсидии (гранта)                        0
Конец действия договора (соглашения) субсидии (гранта)                         0
Сумма субсидии (гранта) по договору (соглашению) (руб.)                        0
global_id                                                                      0
dtype: int64

Посмотрим, в каких проектах и для каких получателей чаще всего был пропущен нормативный документ.

In [6]:
df_no_doc = df[df['Нормативный документ-основание для предоставления субсидии (гранта)'].isnull()]
df_no_doc

Unnamed: 0,Номер договора (соглашения),Дата договора (соглашения),"Наименование проекта, на реализацию которого направлена субсидия (грант)",Получатель субсидии (гранта),Нормативный документ-основание для предоставления субсидии (гранта),Начало действия договора (соглашения) субсидии (гранта),Конец действия договора (соглашения) субсидии (гранта),Сумма субсидии (гранта) по договору (соглашению) (руб.),global_id
7152,9/2-381мп-22,04.03.2022,Предоставление субсидии субъектам малого и сре...,ООО «БАР МЕНЕДЖМЕНТС»,,04.03.2022,25.08.2022,1000000.0,2381699046
7153,9/2-382мп-22,04.03.2022,Предоставление субсидии субъектам малого и сре...,ООО «К.С. ИНТЕРПРАЙЗ»,,04.03.2022,25.08.2022,1000000.0,2381699112
7154,9/2-383мп-22,04.03.2022,Предоставление субсидии субъектам малого и сре...,ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ«АССА»,,04.03.2022,25.08.2022,1000000.0,2381699167
7155,9/2-384мп-22,04.03.2022,Предоставление субсидии субъектам малого и сре...,ИП ЯШИН ВИТАЛИЙ АНАТОЛЬЕВИЧ,,04.03.2022,25.08.2022,170797.8,2381699200
7156,9/2-385ко-22,04.03.2022,Предоставление субсидии в целях возмещения час...,ИП ЗЕЙНАЛОВА НАРМИНА ЗАУР КЫЗЫ,,04.03.2022,25.08.2022,1000000.0,2381699294
...,...,...,...,...,...,...,...,...,...
8409,9/2-870нд-22,08.04.2022,Предоставление субсидии в целях реализации мер...,ПАО РОСБАНК,,08.04.2022,01.04.2024,100000000.0,2383810126
8411,9/2-873нд-22,11.04.2022,Предоставление субсидии в целях реализации мер...,ПАО «АК БАРС» БАНК»,,11.04.2022,01.04.2024,80000000.0,2383810862
8412,9/2-929факт-22,14.04.2022,Предоставление субсидии в целях реализации мер...,ООО «МСП Факторинг»,,14.04.2022,01.05.2024,300000000.0,2383811082
8413,9/2-930факт-22,14.04.2022,Предоставление субсидии в целях реализации мер...,ООО «Открытие Факторинг»,,14.04.2022,01.05.2024,250000000.0,2383811369


In [7]:
df_no_doc.groupby('Наименование проекта, на реализацию которого направлена субсидия (грант)')['global_id'] \
         .agg('count') \
         .sort_values(ascending=False).head(10)

Наименование проекта, на реализацию которого направлена субсидия (грант)
Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг                                                                                                                                  295
Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (компенсация оплаты услуг сервисов по доставке продуктов питания)    232
Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (участие в конгрессно-выставочных мероприятиях)                      116
Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров

In [8]:
df_no_doc.groupby('Получатель субсидии (гранта)')['global_id'] \
         .agg('count') \
         .sort_values(ascending=False).head(10)

Получатель субсидии (гранта)
ООО «АЛЬЯНС»                         4
ООО «ПРОГРЕСС»                       4
ООО «НТЦ «БАКОР»                     3
ТАГИНА ЕКАТЕРИНА ЮРЬЕВНА             3
ИП САКАДАНОВА АЛИНА ЭДУАРДОВНА       3
ООО «ВООВО-2»                        2
ООО «КОЛОБОК РУС»                    2
ООО «АНТЭЙ»                          2
ООО «МАСТЕР»                         2
ИП КОЛОДЯЖНЫЙ ВЛАДИМИР ГЕОРГИЕВИЧ    2
Name: global_id, dtype: int64

Удалим ненужные столбцы и переименуем нужные для исследования.

In [9]:
df = df.drop(columns=['Номер договора (соглашения)', 
                      'Нормативный документ-основание для предоставления субсидии (гранта)',
                      'Начало действия договора (соглашения) субсидии (гранта)',
                      'Конец действия договора (соглашения) субсидии (гранта)'])

df = df.rename(columns={'Дата договора (соглашения)': 'contract_date',
                        'Наименование проекта, на реализацию которого направлена субсидия (грант)': 'project_name',
                        'Получатель субсидии (гранта)': 'grant_recipient',
                        'Сумма субсидии (гранта) по договору (соглашению) (руб.)': 'amount'})

Изменим тип данных с датами.

In [10]:
df['contract_date'] = pd.to_datetime(df['contract_date'], format='%d.%m.%Y')

Посмотрим, за какой период времени представлены данные.

In [21]:
print(f'Данные представлены с {df.contract_date.min().strftime("%d.%m.%Y")} по {df.contract_date.max().strftime("%d.%m.%Y")}.')

Данные представлены с 24.12.2012 по 28.02.2023.


Посмотрим, в какие дни заключалось наибольшее число договоров.

In [27]:
contract_count_by_day = df.groupby('contract_date')['project_name'].agg('count').reset_index()
contract_count_by_day = contract_count_by_day.rename(columns={'project_name': 'contract_count'})
contract_count_by_day

Unnamed: 0,contract_date,contract_count
0,2012-12-24,1
1,2015-12-11,2
2,2015-12-15,2
3,2015-12-16,1
4,2015-12-17,1
...,...,...
613,2023-01-26,2
614,2023-02-07,3
615,2023-02-08,1
616,2023-02-10,1


In [29]:
import plotly.express as px

fig = px.line(contract_count_by_day, x='contract_date', y='contract_count',
              labels={
                     'contract_date': 'Дата',
                     'contract_count': 'Число контрактов'
                     },
              title='Число заключенных контрактов в каждый из дней')
fig.show()

C 2020 года число контрактов увеличивается. Максимум достигается в декабре 2022 года.

In [32]:
contract_count_by_day.sort_values(by='contract_count', ascending=False).head(5)

Unnamed: 0,contract_date,contract_count
604,2022-12-26,234
243,2020-12-24,122
237,2020-12-16,116
423,2021-12-17,108
425,2021-12-21,106


26 декабря 2022 года было заключено 234 контракта.

# 2. Исследование данных

## 2.1. У каких получателей субсидий наибольшее количество грантов? Какая средняя сумма грантов для получателей?

Сделаем группировку по получателям субсидий, посчитаем число субсидий и среднее значение субсидий.

Затем отсортируем данные по количеству субсидий и посмотрим на первые 20 записей.

In [33]:
df.groupby('grant_recipient')['amount'].agg(['count','mean']).sort_values(by='count', ascending=False).head(20).reset_index()

Unnamed: 0,grant_recipient,count,mean
0,Фонд «Московский инновационный кластер»,12,540986800.0
1,ООО «МОНЕТНЫЙ ДВОР УНИВЕРС»,11,2095552.0
2,ООО «ЛЕД-ЭФФЕКТ»,10,3687806.0
3,ООО «АЛЬЯНС»,10,1234313.0
4,Казенное предприятие города Москвы «Корпорация...,10,81766100.0
5,ООО «ПРОДМИР»,9,2666667.0
6,ООО «НТЦ «БАКОР»,9,3321716.0
7,ООО «КАПУЧИНО»,9,1277778.0
8,АНО «Развитие человеческого капитала»,9,744651900.0
9,ООО «ПРИМА»,8,693333.8


Какова общая сумма субсидий для 5 наиболее крупных получателей? И на реализацию каких проектов были направлены субсидии?

In [34]:
top_grant_recipients = ['Фонд «Московский инновационный кластер»', 'ООО «МОНЕТНЫЙ ДВОР УНИВЕРС»', 'ООО «ЛЕД-ЭФФЕКТ»', 'ООО «АЛЬЯНС»', 'Казенное предприятие города Москвы «Корпорация развития Зеленограда»']

df[df['grant_recipient'].isin(top_grant_recipients)].sort_values(by='grant_recipient')

Unnamed: 0,contract_date,project_name,grant_recipient,amount,global_id
28,2015-12-17,Реализация мероприятий по созданию и обеспечен...,Казенное предприятие города Москвы «Корпорация...,45000000.0,861543470
3111,2021-01-25,Предоставление субсидии на обеспечение деятель...,Казенное предприятие города Москвы «Корпорация...,36996740.0,1110995970
321,2019-02-13,Развитие инновационного территориального класт...,Казенное предприятие города Москвы «Корпорация...,230352100.0,913199666
711,2020-02-18,Финансовое обеспечение затрат на развитие инно...,Казенное предприятие города Москвы «Корпорация...,91271000.0,1034749832
238,2018-07-17,Субсидия на развитие инновационного территориа...,Казенное предприятие города Москвы «Корпорация...,185627200.0,912955384
177,2018-07-17,Развитие Троицкого инновационного территориаль...,Казенное предприятие города Москвы «Корпорация...,14647050.0,889195953
239,2018-07-17,Развитие Троицкого инновационного территориаль...,Казенное предприятие города Москвы «Корпорация...,14647050.0,912955385
163,2015-12-11,"Реализация мероприятий, предусмотренных компле...",Казенное предприятие города Москвы «Корпорация...,66200300.0,862700087
39,2015-12-11,"Реализация мероприятий, предусмотренных компле...",Казенное предприятие города Москвы «Корпорация...,73800000.0,861543852
176,2018-07-17,Субсидия на развитие инновационного территориа...,Казенное предприятие города Москвы «Корпорация...,59119500.0,889195810


Общие суммы субсидий для получателй грантов.

In [35]:
df[df['grant_recipient'].isin(top_grant_recipients)].groupby('grant_recipient')['amount'].agg('sum').sort_values(ascending=False)

grant_recipient
Фонд «Московский инновационный кластер»                                 6.491842e+09
Казенное предприятие города Москвы «Корпорация развития Зеленограда»    8.176610e+08
ООО «ЛЕД-ЭФФЕКТ»                                                        3.687806e+07
ООО «МОНЕТНЫЙ ДВОР УНИВЕРС»                                             2.305107e+07
ООО «АЛЬЯНС»                                                            1.234313e+07
Name: amount, dtype: float64

На какие проекты получил субсидии фонд «Московский инновационный кластер».

In [36]:
list(df[df['grant_recipient'] == 'Фонд «Московский инновационный кластер»']['project_name'])

['Имущественный взнос города Москвы (в виде денежных средств).',
 'Обеспечение деятельности Фонда «Московский инновационный кластер»',
 'Субсидия на обеспечение деятельности указанной организации в целях функционирования и развития инновационного кластера на территории города Москвы.',
 'Предоставление гранта на реализацию мероприятий, связанных с предоставлением финансовой поддержки реализации комплексных инновационных проектов участниками инновационного кластера на территории города Москвы.',
 'Предоставление субсидии на обеспечение деятельности указанной организации в целях функционирования и развития инновационного кластера на территории города Москвы.',
 'Грант на реализзацию комплексных инновационных проектов участниками инновационного кластера на территории города Москвы',
 'предоставление субсидии на обеспечение деятельности Фонда МИК в целях функционирования и развития инновационного кластера на территории города Москвы',
 'Предоставление гранта на реализацию мероприятий, напр

На какие проекты получил субсидии ООО «МОНЕТНЫЙ ДВОР УНИВЕРС».

In [37]:
list(df[df['grant_recipient'] == 'ООО «МОНЕТНЫЙ ДВОР УНИВЕРС»']['project_name'])

['предоставление целевых бюджетных средств в форме субсидии для возмещения части затрат на уплату процентов по кредитам, полученным в кредитных организациях на поддержку и развитие деятельности субъектов малого и среднего предпринимательства',
 'предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием (торговые площадки)',
 'предоставление целевых бюджетных средств в форме субсидии в целях возмещения части затрат на уплату лизинговых платежей по договорам финансовой аренды (лизинга)',
 'Предоставление субсидии для возмещения части затрат на уплату процентов по кредитам, полученным в кредитных организациях на поддержку и развитие деятельности субъектов малого и среднего предпринимательства',
 'Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением

На какие проекты получил субсидии ООО «ЛЕД-ЭФФЕКТ».

In [38]:
list(df[df['grant_recipient'] == 'ООО «ЛЕД-ЭФФЕКТ»']['project_name'])

['Возмещение части затрат ООО «ЛЕД-ЭФФЕКТ» на уплату лизинговых платежей по договору финансовой аренды (лизинга)',
 'Возмещение части затрат на приобретение оборудования ООО «ЛЕД-ЭФФЕКТ»',
 'Возмещение части затрат ООО «ЛЕД-ЭФФЕКТ» на уплату процентов по кредитному договору.',
 'Возмещение части затрат ООО «ЛЕД-ЭФФЕКТ» на приобретение оборудования.',
 'Предоставление субсидии в целях возмещения части фактически понесенных и документально подтвержденных затрат Получателя, связанных с созданием новых продуктов',
 'предоставление целевых бюджетных средств в форме субсидии для возмещения части затрат на уплату процентов по кредитам, полученным в кредитных организациях на поддержку и развитие деятельности субъектов малого и среднего предпринимательства',
 'Предоставление гранта на поддержку деятельности получателя в сфере обрабатывающих и высокотехнологичных отраслей экономики на финансовое возмещение затрат на уплату процентов по кредитному договору',
 'Предоставление гранта на поддержку д

На какие проекты получил субсидии ООО «АЛЬЯНС».

In [39]:
list(df[df['grant_recipient'] == 'ООО «АЛЬЯНС»']['project_name'])

['предоставление субсидии в целях возмещения части фактически произведенных и документально подтвержденных затрат Получателя на выплату вознаграждений по договору коммерческой концессии, на приобретение оборудования',
 'Предоставление субсидии в целях возмещения части фактически произведенных и документально подтвержденных затрат Получателя на выплату вознаграждений по договору коммерческой концессии (роялти)',
 'Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг',
 'Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг',
 'Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг',
 'Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением раб

На какие проекты получило субсидии Казенное предприятие города Москвы «Корпорация развития Зеленограда».

In [40]:
list(df[df['grant_recipient'] == 'Казенное предприятие города Москвы «Корпорация развития Зеленограда»']['project_name'])

['Реализация мероприятий по созданию и обеспечению деятельности Центра прототипирования Зеленограда',
 'Реализация мероприятий, предусмотренных комплексным инвестиционным проектом по развитию инновационного территориального кластера «Зеленоград»',
 'Реализация мероприятий, предусмотренных комплексным инвестиционным проектом по развитию инновационного территориального кластера «Зеленоград»',
 'Субсидия на развитие инновационного территориального кластера «Зеленоград»',
 'Развитие Троицкого инновационного территориального кластера «Новые материалы, лазерные и радиационные технологии», в том числе на обеспечение деятельности специализированной организации, осуществляющей методическое, организационное, экспертно-аналитическое и информационное сопровождение развития Кластера',
 'Субсидия на развитие инновационного территориального кластера «Зеленоград»',
 'Развитие Троицкого инновационного территориального кластера «Новые материалы, лазерные и радиационные технологии», в том числе на обеспе

## 2.2. На какие проекты было выделено наибольшее количество грантов? Каковы среднее и медиана грантов?

Сделаем группировку по проектам, посчитаем число субсидий, среднее значение и медиану субсидий.

Затем отсортируем данные по количеству субсидий и посмотрим на первые 20 записей.

In [41]:
df.groupby('project_name')['amount'].agg(['count','mean','median']).sort_values(by='count', ascending=False).head(20)

Unnamed: 0_level_0,count,mean,median
project_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг,876,820997.1,814033.705
"Предоставление гранта в целях поддержки субъектов предпринимательской деятельности, осуществляющих деятельность в сфере быстрого питания, в целях открытия на территории города Москвы места предоставления услуг быстрого питания",564,2134752.0,2000000.0
"Предоставление субсидии на возмещение части затрат, связанных с получением обучающимися среднего профессионального образования и дополнительного профессионального образования",467,341247.0,114000.0
Предоставление гранта на поддержку деятельности получателя в сфере обрабатывающих и высокотехнологичных отраслей экономики на финансовое возмещение затрат по приобретению оборудования,421,2414785.0,677033.51
"Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (компенсация оплаты услуг сервисов по доставке продуктов питания)",406,404257.6,392675.38
"предоставление субсидии в целях возмещения части фактически произведенных и документально подтвержденных затрат Получателя на выплату вознаграждений по договору коммерческой концессии, на приобретение оборудования",395,841051.9,1000000.0
Предоставление субсидии в целях возмещения части фактически произведенных и документально подтвержденных затрат Получателя на выплату вознаграждений по договору коммерческой концессии (роялти),379,900420.7,1000000.0
"Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (реклама)",294,441942.5,475159.295
"предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием (доставка)",265,375368.4,331727.0
"Предоставление гранта в целях стимулирования развития деятельности субъектов малого и среднего предпринимательства, осуществляющих реализацию товаров за пределы территории Российской Федерации, экспорт результатов интеллектуальной деятельности и (или) услуг",259,2833751.0,1761556.69


## 2.3. Провести исследование распределений размеров грантов для различных проектов. Распределения похожи или различаются?

### 2.3.1. Подготовка данных для исследования

Для исследования будем использовать 10 проектов с наибольшим количеством грантов.

In [42]:
columns_to_use = df.groupby('project_name')['amount'] \
                   .agg(['count','mean','median']) \
                   .sort_values(by='count', ascending=False).head(10).index

columns_to_use = list(columns_to_use)
columns_to_use

['Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг',
 'Предоставление гранта в целях поддержки субъектов предпринимательской деятельности, осуществляющих деятельность в сфере быстрого питания, в целях открытия на территории города Москвы места предоставления услуг быстрого питания',
 'Предоставление субсидии на возмещение части затрат, связанных с получением обучающимися среднего профессионального образования и дополнительного профессионального образования',
 'Предоставление гранта на поддержку деятельности получателя в сфере обрабатывающих и высокотехнологичных отраслей экономики на финансовое возмещение затрат по приобретению оборудования',
 'Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (компенсация оплаты услуг сервисов по доставке продуктов питания)',
 '

Запишем нужные данные в отдельный датафрейм.

В датафрейме для исследования будет использовано 4326 записей.

In [43]:
df_to_test = df[df['project_name'].isin(columns_to_use)][['project_name', 'amount']]

print(df_to_test.shape)
df_to_test

(4326, 2)


Unnamed: 0,project_name,amount
849,Предоставление гранта в целях стимулирования р...,343788.50
850,Предоставление гранта в целях стимулирования р...,2345248.52
851,Предоставление гранта в целях стимулирования р...,4153202.00
853,Предоставление гранта в целях стимулирования р...,6726513.50
1357,Предоставление гранта в целях стимулирования р...,9446941.00
...,...,...
9929,Предоставление субсидии на возмещение части за...,114000.00
9930,Предоставление субсидии на возмещение части за...,38000.00
9931,Предоставление субсидии на возмещение части за...,46800.00
9932,Предоставление субсидии на возмещение части за...,110200.00


Проекты имеют длинные и неудобные названия, поэтому сделаем их короче, сохранив при этом суть.

In [44]:
df_to_test['project_name'] = df_to_test['project_name'].replace(
    {'Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг': 'Возмещение оплаты комм. услуг',
     'Предоставление гранта в целях поддержки субъектов предпринимательской деятельности, осуществляющих деятельность в сфере быстрого питания, в целях открытия на территории города Москвы места предоставления услуг быстрого питания': 'Гранты в сфере быстрого питания',
     'Предоставление субсидии на возмещение части затрат, связанных с получением обучающимися среднего профессионального образования и дополнительного профессионального образования': 'Частичная оплата образования',
     'Предоставление гранта на поддержку деятельности получателя в сфере обрабатывающих и высокотехнологичных отраслей экономики на финансовое возмещение затрат по приобретению оборудования': 'Приобретение оборудования в высокотехнологических отраслях',
     'Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (компенсация оплаты услуг сервисов по доставке продуктов питания)': 'Возмещение оплаты услуг сервисов по доставке продуктов',
     'предоставление субсидии в целях возмещения части фактически произведенных и документально подтвержденных затрат Получателя на выплату вознаграждений по договору коммерческой концессии, на приобретение оборудования': 'Приобретение оборудования',
     'Предоставление субсидии в целях возмещения части фактически произведенных и документально подтвержденных затрат Получателя на выплату вознаграждений по договору коммерческой концессии (роялти)': 'Возмещение оплаты роялти',
     'Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (реклама)': 'Возмещение оплаты рекламы',
     'предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием (доставка)': 'Возмещение оплаты доставки',
     'Предоставление гранта в целях стимулирования развития деятельности субъектов малого и среднего предпринимательства, осуществляющих реализацию товаров за пределы территории Российской Федерации, экспорт результатов интеллектуальной деятельности и (или) услуг': 'Гранты для производства товаров на экспорт'}
     )

Посмотрим на распределения грантов по исследуемым проектам.

In [46]:
projects = list(df_to_test['project_name'].unique())

fig = make_subplots(rows=5,
                    cols=2,
                    shared_yaxes=True,
                    subplot_titles=projects)

row=1
col=1

for project in projects:
    fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == project]['amount'], name=project), row, col)

    if col % 2 == 0:
        row+=1
        col=0

    col+=1

fig.update_layout(title='Распределения размеров грантов по проектам',
                  height=1500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

In [47]:
fig = make_subplots(rows=5,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=projects)

row=1
col=1

for project in projects:
    fig.add_trace(go.Scatter(y=df_to_test[df_to_test['project_name'] == project]['amount'], name=project), row, col)

    if col % 2 == 0:
        row+=1
        col=0

    col+=1

fig.update_layout(title='Распределения размеров грантов по проектам',
                  height=1500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

### 2.3.2. Проверка гипотезы о нормальности распределения данных

По виду гистограмм можно заметить, что распределение у данных не нормальное. На графиках scatter plot видно, что в данных есть выбросы.

Проверим, нормально ли распределены данные, используем тест Шапиро-Уилка.

Нулевая гипотеза для теста Шапиро-Уилка H0: случайная величина распределена НОРМАЛЬНО.

Альтернативная гипотеза H1: случайная величина распределена НЕ НОРМАЛЬНО.

In [48]:
for project in projects:
    print(project)

    amount = df_to_test[df_to_test['project_name'] == project]['amount']
    shapiro_p_val = shapiro(amount)[1]

    if shapiro_p_val < 0.05:
        print('Распределение не нормальное')
    else:
        print('Распределение нормальное')

    print(f'p-value - {shapiro(amount)[1]}')

    print('#################################################', '\n')

Гранты для производства товаров на экспорт
Распределение не нормальное
p-value - 3.9826754643513255e-17
################################################# 

Приобретение оборудования
Распределение не нормальное
p-value - 3.654332667981204e-24
################################################# 

Возмещение оплаты доставки
Распределение не нормальное
p-value - 2.353148329404392e-13
################################################# 

Возмещение оплаты услуг сервисов по доставке продуктов
Распределение не нормальное
p-value - 1.3778021554134436e-17
################################################# 

Частичная оплата образования
Распределение не нормальное
p-value - 3.882095888692736e-38
################################################# 

Возмещение оплаты роялти
Распределение не нормальное
p-value - 2.3257112010748106e-23
################################################# 

Возмещение оплаты рекламы
Распределение не нормальное
p-value - 4.882099384626774e-16
##################################

### 2.3.3. Проверка гипотезы о нормальности распределения данных после логарифмирования

Тест Шапиро-Уилка показывает маленькие значения p-value, это говорит о том, что данные распределены не нормально.

Для большей достоверности при проверке гипотез о различиях в размерах грантов будет лучше, если данные будут иметь нормальное распределение.

Попробуем прологарифмировать данные, а затем посмотрим на получающиеся распределения.

In [49]:
projects = list(df_to_test['project_name'].unique())

fig = make_subplots(rows=5,
                    cols=2,
                    shared_yaxes=True,
                    subplot_titles=projects)

row=1
col=1

for project in projects:
    fig.append_trace(go.Histogram(x=np.log1p(df_to_test[df_to_test['project_name'] == project]['amount']), name=project), row, col)

    if col % 2 == 0:
        row+=1
        col=0

    col+=1

fig.update_layout(title='Распределения размеров грантов по проектам (после логарифмирования)',
                  height=1500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

Посмотрим на результаты теста Шапиро-Уилка для логарифмированных данных.

In [50]:
for project in projects:
    print(project)

    amount = np.log1p(df_to_test[df_to_test['project_name'] == project]['amount'])
    shapiro_p_val = shapiro(amount)[1]

    if shapiro_p_val < 0.05:
        print('Распределение не нормальное')
    else:
        print('Распределение нормальное')

    print(f'p-value - {shapiro(amount)[1]}')

    print('#################################################', '\n')

Гранты для производства товаров на экспорт
Распределение не нормальное
p-value - 0.0003170721174683422
################################################# 

Приобретение оборудования
Распределение не нормальное
p-value - 5.418228151764248e-34
################################################# 

Возмещение оплаты доставки
Распределение не нормальное
p-value - 3.3607054974598176e-15
################################################# 

Возмещение оплаты услуг сервисов по доставке продуктов
Распределение не нормальное
p-value - 2.237245417474969e-19
################################################# 

Частичная оплата образования
Распределение не нормальное
p-value - 2.0038038783809498e-08
################################################# 

Возмещение оплаты роялти
Распределение не нормальное
p-value - 3.0717425206117033e-25
################################################# 

Возмещение оплаты рекламы
Распределение не нормальное
p-value - 3.4384000718299317e-19
#################################

### 2.3.4. Поиск и удаление выбросов

Получить нормально распределенные данные не удалось, мы также получаем низкий уровень p-value.

Посмотрим на то, как будет выглядеть распределение данных, если найти и исключить выбросы.

Для определения выбросов будем использовать фильтр Хэмпеля. Данный фильтр будет считать выбросами все значения, у которых разница с медианой больше, чем три медианных абсолютных отклонения.

In [51]:
def hampel(vals_orig):
    '''
    В этой функции реализован фильтр Хэмпеля.
    На вход принимаются числовые значения (грантов).
    Функция возвращает проиндексированные результаты теста (True - выброс, False - нормальное значение).
    '''
    vals = vals_orig.copy()    
    difference = np.abs(vals.median()-vals)
    median_abs_deviation = difference.median()
    threshold = 3 * median_abs_deviation
    outlier_idx = difference > threshold
    return outlier_idx

Отсортируем данные по названиям проектов. После чего передадим функции hampel поочередно значения грантов для каждого проекта. Затем результаты соберем в датафрейм hampel_test_result. В этом датафрейме в колонке is_outlier будут содержаться результаты теста для каждого значения в исходном датафрейме.

In [52]:
df_to_test = df_to_test.sort_values(by='project_name').reset_index(drop=True)
df_to_test

Unnamed: 0,project_name,amount
0,Возмещение оплаты доставки,80331.20
1,Возмещение оплаты доставки,531950.75
2,Возмещение оплаты доставки,8263.60
3,Возмещение оплаты доставки,205706.90
4,Возмещение оплаты доставки,51702.20
...,...,...
4321,Частичная оплата образования,69350.00
4322,Частичная оплата образования,270750.00
4323,Частичная оплата образования,21375.00
4324,Частичная оплата образования,150000.00


In [53]:
projects = list(df_to_test['project_name'].unique())

hampel_test_result = pd.DataFrame(columns=['project_name', 'is_outlier']) # создаем пустой датафрейм

for project in projects:
    hampel_res = hampel(df_to_test[df_to_test['project_name'] == project]['amount']) # получаем результаты теста

    project_df = pd.DataFrame({'project_name': project, 'is_outlier': hampel_res}) # записываем проект и результаты теста в отдельный датафрейм

    hampel_test_result = pd.concat([hampel_test_result, project_df], ignore_index=True) # добавляем результаты по проекту в общий датафрейм

hampel_test_result

Unnamed: 0,project_name,is_outlier
0,Возмещение оплаты доставки,False
1,Возмещение оплаты доставки,False
2,Возмещение оплаты доставки,False
3,Возмещение оплаты доставки,False
4,Возмещение оплаты доставки,False
...,...,...
4321,Частичная оплата образования,False
4322,Частичная оплата образования,False
4323,Частичная оплата образования,False
4324,Частичная оплата образования,False


Все ли значения были протестированы?

In [54]:
df_to_test.shape[0] == hampel_test_result.shape[0]

True

Добавим колонку is_outlier в исследуемый датафрейм.

In [55]:
df_to_test['is_outlier'] = hampel_test_result['is_outlier']
df_to_test

Unnamed: 0,project_name,amount,is_outlier
0,Возмещение оплаты доставки,80331.20,False
1,Возмещение оплаты доставки,531950.75,False
2,Возмещение оплаты доставки,8263.60,False
3,Возмещение оплаты доставки,205706.90,False
4,Возмещение оплаты доставки,51702.20,False
...,...,...,...
4321,Частичная оплата образования,69350.00,False
4322,Частичная оплата образования,270750.00,False
4323,Частичная оплата образования,21375.00,False
4324,Частичная оплата образования,150000.00,False


Запишем в отдельный датафрейм данные без выбросов.

In [56]:
df_no_outliers = df_to_test[df_to_test['is_outlier'] == False]
df_no_outliers

Unnamed: 0,project_name,amount,is_outlier
0,Возмещение оплаты доставки,80331.20,False
1,Возмещение оплаты доставки,531950.75,False
2,Возмещение оплаты доставки,8263.60,False
3,Возмещение оплаты доставки,205706.90,False
4,Возмещение оплаты доставки,51702.20,False
...,...,...,...
4321,Частичная оплата образования,69350.00,False
4322,Частичная оплата образования,270750.00,False
4323,Частичная оплата образования,21375.00,False
4324,Частичная оплата образования,150000.00,False


Посмотрим, какой процент от всех данных был исключен.

In [57]:
print(f'Из выборки было исключено {100 - round((df_no_outliers.shape[0] / df_to_test.shape[0]) * 100)}% данных.')

Из выборки было исключено 20% данных.


Какой процент данных был исключен по каждому проекту?

In [58]:
df_before = df_to_test.groupby('project_name')['amount'].agg('count').reset_index()
df_before = df_before.rename(columns={'amount': 'count_before'})
df_before

Unnamed: 0,project_name,count_before
0,Возмещение оплаты доставки,265
1,Возмещение оплаты комм. услуг,876
2,Возмещение оплаты рекламы,294
3,Возмещение оплаты роялти,379
4,Возмещение оплаты услуг сервисов по доставке п...,406
5,Гранты в сфере быстрого питания,564
6,Гранты для производства товаров на экспорт,259
7,Приобретение оборудования,395
8,Приобретение оборудования в высокотехнологичес...,421
9,Частичная оплата образования,467


In [59]:
df_after = df_no_outliers.groupby('project_name')['amount'].agg('count').reset_index()
df_after = df_after.rename(columns={'amount': 'count_after'})
df_after

Unnamed: 0,project_name,count_after
0,Возмещение оплаты доставки,265
1,Возмещение оплаты комм. услуг,695
2,Возмещение оплаты рекламы,294
3,Возмещение оплаты роялти,197
4,Возмещение оплаты услуг сервисов по доставке п...,406
5,Гранты в сфере быстрого питания,490
6,Гранты для производства товаров на экспорт,209
7,Приобретение оборудования,220
8,Приобретение оборудования в высокотехнологичес...,322
9,Частичная оплата образования,382


In [60]:
full_count = df_before.merge(df_after)
full_count['removed_percentage'] = 100 - round((full_count['count_after'] / full_count['count_before']) * 100)
full_count[['project_name', 'removed_percentage']]

Unnamed: 0,project_name,removed_percentage
0,Возмещение оплаты доставки,0.0
1,Возмещение оплаты комм. услуг,21.0
2,Возмещение оплаты рекламы,0.0
3,Возмещение оплаты роялти,48.0
4,Возмещение оплаты услуг сервисов по доставке п...,0.0
5,Гранты в сфере быстрого питания,13.0
6,Гранты для производства товаров на экспорт,19.0
7,Приобретение оборудования,44.0
8,Приобретение оборудования в высокотехнологичес...,24.0
9,Частичная оплата образования,18.0


Наибольший процент данных был исключен из проекта "Возмещение оплаты роялти" (48%), при этом есть проекты, в которых тест Хэмпеля не обнаружил выбросов.

Посмотрим на распределение данных без выбросов.

In [61]:
projects = list(df_no_outliers['project_name'].unique())

fig = make_subplots(rows=5,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=projects)

row=1
col=1

for project in projects:
    fig.append_trace(go.Histogram(x=df_no_outliers[df_no_outliers['project_name'] == project]['amount'], name=project), row, col)

    if col % 2 == 0:
        row+=1
        col=0

    col+=1

fig.update_layout(title='Распределения размеров грантов по проектам (после удаления выбросов)',
                  height=1500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

### 2.3.5. Применение критерия Манна-Уитни

На графиках видно, что есть проекты со схожими распределениями. Применим к таким проектам критерий Манна-Уитни.

Нулевая гипотеза H0: Средние равны

Альтернативная гипотеза H1: Средние не равны

#### 2.3.5.1. Проект 1 - Возмещение оплаты доставки; Проект 2 - Возмещение оплаты рекламы

Проекты имеют очень похожее распределение, выбросов в данных обнаружено не было.

Оба рспределения бимодальны, при этом численно моды отличаются.

Получен p-value - 0.002684934023946172, значит различия между группами статистически значимы.

In [63]:
fig = make_subplots(rows=1,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=['Возмещение оплаты доставки', 'Возмещение оплаты рекламы'])

fig.append_trace(go.Histogram(x=df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты доставки']['amount'],
                              name='Возмещение оплаты доставки'), 
                              1, 1)

fig.append_trace(go.Histogram(x=df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты рекламы']['amount'],
                              name='Возмещение оплаты рекламы'),
                              1, 2)

fig.update_layout(title='Распределения грантов по проектам (после удаления выбросов)',
                  height=500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

In [64]:
test_result = stats.mannwhitneyu(df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты доставки']['amount'], 
                                 df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты рекламы']['amount'])[1]

test_result

0.002684934023946172

#### 2.3.5.2. Проект 1 - Возмещение оплаты роялти; Проект 2 - Приобретение оборудования

Распределения практически идентичны, но при этом для Проекта 1 48% данных были определены как выбросы и удалены, а для Проекта 2 процент удаленных данных составил 44%.

Получен выскоий уровень p-value, что говорит о равенстве средних, но слишком большой процент данных был удален.

In [65]:
projects = list(df_no_outliers['project_name'].unique())

fig = make_subplots(rows=1,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=['Возмещение оплаты роялти', 'Приобретение оборудования'])

fig.append_trace(go.Histogram(x=df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты роялти']['amount'],
                              name='Возмещение оплаты роялти'), 
                              1, 1)

fig.append_trace(go.Histogram(x=df_no_outliers[df_no_outliers['project_name'] == 'Приобретение оборудования']['amount'],
                              name='Приобретение оборудования'),
                              1, 2)

fig.update_layout(title='Распределения грантов по проектам (после удаления выбросов)',
                  height=500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

In [66]:
test_result = stats.mannwhitneyu(df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты роялти']['amount'], 
                                 df_no_outliers[df_no_outliers['project_name'] == 'Приобретение оборудования']['amount'])[1]

test_result

1.0

Применим критерий Манна-Уитни на данных с выбросами. Данные с выбросами также имеют схожее унимодальное распределение.

Получен высокий уровен p-value - 0.22711295743276472, значит нет оснований отвергнуть нулевую гипотезу и в данном случае средние двух групп не различаются.

In [67]:
fig = make_subplots(rows=1,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=['Возмещение оплаты роялти', 'Приобретение оборудования'])

fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == 'Возмещение оплаты роялти']['amount'],
                              name='Возмещение оплаты роялти'), 
                              1, 1)

fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == 'Приобретение оборудования']['amount'],
                              name='Приобретение оборудования'),
                              1, 2)

fig.update_layout(title='Распределения грантов по проектам (с выбросами)',
                  height=500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

In [68]:
test_result = stats.mannwhitneyu(df_to_test[df_to_test['project_name'] == 'Возмещение оплаты роялти']['amount'], 
                                 df_to_test[df_to_test['project_name'] == 'Приобретение оборудования']['amount'])[1]

test_result

0.22711295743276472

#### 2.3.5.3. Проект 1 - Возмещение оплаты доставки; Проект 2 - Возмещение оплаты услуг сервисов по доставке продуктов

Оба проекта связаны с доставкой. Ни в одном из данных проектов не было обнаружено выбросов.

Высокий уровень p-value не позволяет отклонить нулевую гипотезу о равенстве средних.

In [69]:
fig = make_subplots(rows=1,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=['Возмещение оплаты доставки', 'Возмещение оплаты услуг сервисов по доставке продуктов'])

fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == 'Возмещение оплаты доставки']['amount'],
                              name='Возмещение оплаты доставки'), 
                              1, 1)

fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == 'Возмещение оплаты услуг сервисов по доставке продуктов']['amount'],
                              name='Возмещение оплаты услуг сервисов по доставке продуктов'),
                              1, 2)

fig.update_layout(title='Распределения грантов по проектам (после удаления выбросов)',
                  height=500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

In [70]:
test_result = stats.mannwhitneyu(df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты доставки']['amount'], 
                                 df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты услуг сервисов по доставке продуктов']['amount'])[1]

test_result

0.13276689865666597

#### 2.3.5.4. Проект 1 - Возмещение оплаты рекламы; Проект 2 - Возмещение оплаты услуг сервисов по доставке продуктов

Ни в одном из данных проектов не было обнаружено выбросов.

Уровень p-value больше 0.05 не позволяет отклонить нулевую гипотезу о равенстве средних.

In [71]:
fig = make_subplots(rows=1,
                    cols=2,
                    shared_yaxes=False,
                    subplot_titles=['Возмещение оплаты рекламы', 'Возмещение оплаты услуг сервисов по доставке продуктов'])

fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == 'Возмещение оплаты рекламы']['amount'],
                              name='Возмещение оплаты рекламы'), 
                              1, 1)

fig.append_trace(go.Histogram(x=df_to_test[df_to_test['project_name'] == 'Возмещение оплаты услуг сервисов по доставке продуктов']['amount'],
                              name='Возмещение оплаты услуг сервисов по доставке продуктов'),
                              1, 2)

fig.update_layout(title='Распределения грантов по проектам (после удаления выбросов)',
                  height=500,
                  coloraxis=dict(colorscale='Bluered_r'),
                  showlegend=False)
fig.show()

In [72]:
test_result = stats.mannwhitneyu(df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты рекламы']['amount'], 
                                 df_no_outliers[df_no_outliers['project_name'] == 'Возмещение оплаты услуг сервисов по доставке продуктов']['amount'])[1]

test_result

0.07063644258912083

### 2.3.6. Применение критерия Тьюки

Попарно сравним все группы, используя критерий Тьюки.

Нулевая гипотеза H0: Средние двух групп равны.

Альтернативная гипотеза H1: Средние двух групп отличаются.

Проведем тесты для данных с выбросами и без выбросов. Посмотрим на пары, для которых нулевая гипотеза не была отклонена.

In [81]:
# Тест для данных с выбросами
a = 0.05

tukey = pairwise_tukeyhsd(endog=df_to_test['amount'],
                          groups=df_to_test['project_name'],
                          alpha=a)

df_tukey = pd.DataFrame(data=tukey._results_table.data[1:], columns = tukey._results_table.data[0])

df_tukey

Unnamed: 0,group1,group2,meandiff,p-adj,lower,upper,reject
0,Возмещение оплаты доставки,Возмещение оплаты комм. услуг,445628.7,0.0186,39555.09,851702.3,True
1,Возмещение оплаты доставки,Возмещение оплаты рекламы,66574.14,1.0,-424047.0,557195.2,False
2,Возмещение оплаты доставки,Возмещение оплаты роялти,525052.3,0.0127,61245.34,988859.4,True
3,Возмещение оплаты доставки,Возмещение оплаты услуг сервисов по доставке п...,28889.22,1.0,-428527.7,486306.1,False
4,Возмещение оплаты доставки,Гранты в сфере быстрого питания,1759383.0,0.0,1328012.0,2190755.0,True
5,Возмещение оплаты доставки,Гранты для производства товаров на экспорт,2458382.0,0.0,1952290.0,2964475.0,True
6,Возмещение оплаты доставки,Приобретение оборудования,465683.5,0.0443,5758.074,925608.9,True
7,Возмещение оплаты доставки,Приобретение оборудования в высокотехнологичес...,2039416.0,0.0,1585229.0,2493604.0,True
8,Возмещение оплаты доставки,Частичная оплата образования,-34121.4,1.0,-479583.8,411341.0,False
9,Возмещение оплаты комм. услуг,Возмещение оплаты рекламы,-379054.6,0.0656,-769449.4,11340.34,False


In [82]:
tukey_ouliers = df_tukey[df_tukey['reject'] == False][['group1', 'group2', 'p-adj']]
print(tukey_ouliers.shape)
tukey_ouliers

(13, 3)


Unnamed: 0,group1,group2,p-adj
1,Возмещение оплаты доставки,Возмещение оплаты рекламы,1.0
3,Возмещение оплаты доставки,Возмещение оплаты услуг сервисов по доставке п...,1.0
8,Возмещение оплаты доставки,Частичная оплата образования,1.0
9,Возмещение оплаты комм. услуг,Возмещение оплаты рекламы,0.0656
10,Возмещение оплаты комм. услуг,Возмещение оплаты роялти,0.9995
14,Возмещение оплаты комм. услуг,Приобретение оборудования,1.0
18,Возмещение оплаты рекламы,Возмещение оплаты услуг сервисов по доставке п...,1.0
21,Возмещение оплаты рекламы,Приобретение оборудования,0.1262
23,Возмещение оплаты рекламы,Частичная оплата образования,0.9993
27,Возмещение оплаты роялти,Приобретение оборудования,1.0


In [83]:
# Тест для данных без выбросов
a = 0.05

tukey = pairwise_tukeyhsd(endog=df_no_outliers['amount'],
                          groups=df_no_outliers['project_name'],
                          alpha=a)

df_tukey = pd.DataFrame(data=tukey._results_table.data[1:], columns = tukey._results_table.data[0])

df_tukey

Unnamed: 0,group1,group2,meandiff,p-adj,lower,upper,reject
0,Возмещение оплаты доставки,Возмещение оплаты комм. услуг,424593.2,0.0,323146.9,526039.6,True
1,Возмещение оплаты доставки,Возмещение оплаты рекламы,66574.14,0.7538,-52447.42,185595.7,False
2,Возмещение оплаты доставки,Возмещение оплаты роялти,624631.6,0.0,492446.9,756816.3,True
3,Возмещение оплаты доставки,Возмещение оплаты услуг сервисов по доставке п...,28889.22,0.9982,-82077.21,139855.7,False
4,Возмещение оплаты доставки,Гранты в сфере быстрого питания,1328713.0,0.0,1221569.0,1435857.0,True
5,Возмещение оплаты доставки,Гранты для производства товаров на экспорт,1292457.0,0.0,1162467.0,1422447.0,True
6,Возмещение оплаты доставки,Приобретение оборудования,624631.6,0.0,496471.5,752791.7,True
7,Возмещение оплаты доставки,Приобретение оборудования в высокотехнологичес...,268478.8,0.0,151936.3,385021.4,True
8,Возмещение оплаты доставки,Частичная оплата образования,-271007.4,0.0,-383342.1,-158672.7,True
9,Возмещение оплаты комм. услуг,Возмещение оплаты рекламы,-358019.1,0.0,-455776.2,-260262.0,True


In [84]:
tukey_no_ouliers = df_tukey[df_tukey['reject'] == False][['group1', 'group2', 'p-adj']]
print(tukey_no_ouliers.shape)
tukey_no_ouliers

(5, 3)


Unnamed: 0,group1,group2,p-adj
1,Возмещение оплаты доставки,Возмещение оплаты рекламы,0.7538
3,Возмещение оплаты доставки,Возмещение оплаты услуг сервисов по доставке п...,0.9982
18,Возмещение оплаты рекламы,Возмещение оплаты услуг сервисов по доставке п...,0.9839
27,Возмещение оплаты роялти,Приобретение оборудования,1.0
35,Гранты в сфере быстрого питания,Гранты для производства товаров на экспорт,0.9929


In [86]:
tukey_ouliers

Unnamed: 0,group1,group2,p-adj
1,Возмещение оплаты доставки,Возмещение оплаты рекламы,1.0
3,Возмещение оплаты доставки,Возмещение оплаты услуг сервисов по доставке п...,1.0
8,Возмещение оплаты доставки,Частичная оплата образования,1.0
9,Возмещение оплаты комм. услуг,Возмещение оплаты рекламы,0.0656
10,Возмещение оплаты комм. услуг,Возмещение оплаты роялти,0.9995
14,Возмещение оплаты комм. услуг,Приобретение оборудования,1.0
18,Возмещение оплаты рекламы,Возмещение оплаты услуг сервисов по доставке п...,1.0
21,Возмещение оплаты рекламы,Приобретение оборудования,0.1262
23,Возмещение оплаты рекламы,Частичная оплата образования,0.9993
27,Возмещение оплаты роялти,Приобретение оборудования,1.0


# Выводы

1. У каких получателей субсидий наибольшее количество грантов? Какая средняя сумма грантов для получателей?

 - Фонд «Московский инновационный кластер» (12 грантов), средняя сумма грантов 540 млн. рублей.

 - ООО «МОНЕТНЫЙ ДВОР УНИВЕРС» (11 грантов), средняя сумма грантов 2 млн. рублей.

 - ООО «ЛЕД-ЭФФЕКТ» (10 грантов), средняя сумма грантов 3,7 млн. рублей.

 - ООО «АЛЬЯНС» (10 грантов), средняя сумма грантов 1,2 млн. рублей.

 - Казенное предприятие города Москвы «Корпорация развития Зеленограда» (10 грантов), средняя сумма грантов 82 млн. рублей.

2. На какие проекты было выделено наибольшее количество грантов? Каковы среднее и медиана грантов?

 - Предоставление субсидии субъектам малого и среднего предпринимательства в целях возмещения части затрат на оплату коммунальных услуг (876 грантов), средняя сумма грантов - 820 тыс. рублей, медиана - 814 тыс. рублей.

 - Предоставление гранта в целях поддержки субъектов предпринимательской деятельности, осуществляющих деятельность в сфере быстрого питания, в целях открытия на территории города Москвы места предоставления услуг быстрого питания (564 гранта), средняя сумма грантов - 2,13 млн. рублей, медиана - 2 млн. рублей.
 
 - Предоставление субсидии на возмещение части затрат, связанных с получением обучающимися среднего профессионального образования и дополнительного профессионального образования (467 грантов), средняя сумма грантов - 340 тыс. рублей, медиана - 114 тыс. рублей.

 - Предоставление гранта на поддержку деятельности получателя в сфере обрабатывающих и высокотехнологичных отраслей экономики на финансовое возмещение затрат по приобретению оборудования (421 грант), средняя сумма грантов - 2,4 млн. рублей, медиана - 677 тыс. рублей.
 
 - Предоставление субсидии в целях возмещения части документально подтвержденных затрат Получателя, связанных с продвижением товаров собственного производства, выполнением работ и оказанием услуг (компенсация оплаты услуг сервисов по доставке продуктов питания) (406 грантов), средняя сумма грантов - 400 тыс. рублей, 392 тыс. рублей.

3. Провести исследование распределений размеров грантов для различных проектов. Распределения похожи или различаются?

Данные распределены не нормально, на это указывает вид полученных гистограм и результаты теста Шапиро-Уилка. После логарифмирования и удаления выбросов добиться нормального распределения не удалось.

    3.1. Результаты применения критерия Манна-Уитни:

 - Разница между средними грантов на ВОЗМЕЩЕНИЕ ОПЛАТЫ ДОСТАВКИ и ВОЗМЕЩЕНИЕ ОПЛАТЫ РЕКЛАМЫ статистически значима.

Средний размер грантов на возмещение оплаты доставки - 375 тыс. рублей.

Средний размер грантов на возмещение оплаты рекламы - 441 тыс. рублей.

 - Разница между средними грантов на ВОЗМЕЩЕНИЕ ОПЛАТЫ РОЯЛТИ и ПРИОБРЕТЕНИЕ ОБОРУДОВАНИЯ статистически не значима. Средние двух групп не различаются.

Средний размер грантов на возмещение оплаты роялти - 900 тыс. рублей.

Средний размер грантов на приобретение оборудования - 840 тыс. рублей.

 - Разница между средними грантов на ВОЗМЕЩЕНИЕ ОПЛАТЫ ДОСТАВКИ и ВОЗМЕЩЕНИЕ ОПЛАТЫ УСЛУГ СЕРВИСОВ ПО ДОСТАВКЕ ПРОДУКТОВ статистически не значима. Средние двух групп не различаются.

Средний размер грантов на возмещение оплаты доставки - 375 тыс. рублей.

Средний размер грантов на возмещение оплаты услуг сервисов по доставке продуктов - 400 тыс. рублей.

 - Разница между средними грантов на ВОЗМЕЩЕНИЕ ОПЛАТЫ РЕКЛАМЫ и ВОЗМЕЩЕНИЕ ОПЛАТЫ УСЛУГ СЕРВИСОВ ПО ДОСТАВКЕ ПРОДУКТОВ статистически не значима. Средние двух групп не различаются.

Средний размер грантов на возмещение оплаты рекламы - 441 тыс. рублей.

Средний размер грантов на возмещение оплаты услуг сервисов по доставке продуктов - 400 тыс. рублей.

    3.2. Результаты попарного сравнения с применением критерия Тьюки:

Для данных с выбросами в результате теста нулевая гипотеза не была отклонена в 13 случаях.

Для данных без выбросов в результате теста нулевая гипотеза не была отклонена в 5 случаях.

Для четырех пар нулевая гипотеза не была отклонена как в случае данных с выбросами, так и в случае данных без выбросов:

 - Возмещение оплаты доставки - Возмещение оплаты рекламы

 - Возмещение оплаты доставки - Возмещение оплаты услуг сервисов по доставке продуктов

 - Возмещение оплаты рекламы - Возмещение оплаты услуг сервисов по доставке продуктов

 - Возмещение оплаты роялти - Приобретение оборудования

Замечание. При проверке данных с удаленными выбросами не была отклонена нулевая гипотеза для пары ГРАНТЫ В СФЕРЕ БЫСТРОГО ПИТАНИЯ - ГРАНТЫ ДЛЯ ПРОИЗВОДСТВА ТОВАРОВ НА ЭКСПОРТ. Но в случае данных с выбросами нулевая гипотеза для данной пары была отклонена. При этом и в случае ГРАНТОВ В СФЕРЕ БЫСТРОГО ПИТАНИЯ, и в случае ГРАНТОВ ДЛЯ ПРОИЗВОДСТВА ТОВАРОВ НА ЭКСПОРТ нулевые гипотезы для данных с выбросами не были отклонены, когда данные группы сравнивались с группой ПРИОБРЕТЕНИЕ ОБОРУДОВАНИЯ В ВЫСОКОТЕХНОЛОГИЧЕСКИХ ОТРАСЛЯХ.

Были получены три пары групп, для которых при применении критерия Манна-Уитни и применения критерия Тьюки (данные и с выбросами и без выбросов) не были найдены статистически значимые различия между группами:

 - Возмещение оплаты роялти - Приобретение оборудования

 - Возмещение оплаты доставки - Возмещение оплаты услуг сервисов по доставке продуктов

 - Возмещение оплаты рекламы - Возмещение оплаты услуг сервисов по доставке продуктов