# Описание данных

**registry** (*реестр*) – таблица фактов оказания медицинской помощи (МП)

	`recid` – уникальный идентификатор строки в таблице
        
	`year` – год, в котором МП была подана в оплату
    
	`date_1` – дата начала оказания МП
    
	`date_2` – дата окончания оказания МП
    
	`mo` – код медицинской организации, оказавшей МП (code из таблицы Организация)
    
	`uls_ok` – условия оказания МП (fcode из таблицы Условие оказания)
    
	`id` – номер, уникально определяющий физическое лицо, которому оказана МП
    
	`sum` – сумма, предъявленная к оплате за оказанную МП
    
	Первичный ключ таблицы (recid)

**organization** (*организация*) – таблица медицинских организаций (МО)

	`code` – уникальный код МО
    
    `name` – наименование МО
    
	`date_1` – дата начала действия записи по МО
    
	`date_2` – дата окончания действия записи по МО
    
	`terr` – территориальная принадлежность МО (code из таблицы Территория)
    
	Первичный ключ таблицы (code, date_1)

**condition**(*условие оказания*) – таблица условий оказания МП

	`code` – уникальный код условия оказания МП
    
	`name` – наименование условия оказания МП
    
	`fcode` – федеральный уникальный код условия оказания МП
    
	Первичный ключ таблицы (code)

**territory**(*территория*) – таблица территориальной принадлежности МО

	`code` – уникальный код территории
    
	`name` – наименование территории
    
	Первичный ключ таблицы (code)


# Загрузка данных

In [1]:
# подключим необходимые для работы библиотеки
import pandas as pd
import pandasql as ps

In [2]:
registry = pd.read_excel('C:\\Users\\User\\Downloads\\Таблицы.xlsx', sheet_name='Реестр') 
registry.head()

Unnamed: 0,recid,year,date_1,date_2,mo,usl_ok,id,sum
0,156485653,2022,2022-01-01,2022-01-05,407,4.0,4451412,31373.16
1,156485655,2022,2021-12-29,2022-01-24,407,2.0,5020123,40169.64
2,156485657,2021,2021-12-30,2022-01-05,407,2.0,4451412,27198.64
3,156485659,2022,2022-01-03,2022-01-14,545,2.0,10707233,19611.2
4,156485661,2022,2022-01-06,2022-01-10,384,3.0,10138522,43639.68


In [3]:
organization = pd.read_excel('C:\\Users\\User\\Downloads\\Таблицы.xlsx', sheet_name='Организация') 
organization

Unnamed: 0,code,name,date_1,date_2,terr
0,407,ЦРБ 1,2019-01-01,2020-11-30 00:00:00,1500
1,407,ЦРБ 1,2021-01-01,2021-12-31 00:00:00,1500
2,407,ОЦРБ №1,2022-01-01,2999-12-31 00:00:00,1500
3,545,ДГБ 7,2022-01-01,2022-05-12 00:00:00,1500
4,545,ДГБ 7,2022-05-13,2999-12-31 00:00:00,1501
5,384,ОДКБ 3,2019-01-01,2021-12-31 00:00:00,1501
6,384,ОДКБ №3,2022-01-01,2022-03-02 00:00:00,1501
7,384,ОДКБ 3,2022-03-15,2022-08-31 00:00:00,1501
8,384,ОДКБ №3,2022-09-01,2999-12-31 00:00:00,1500
9,430,ГУЗ 18,2021-08-17,2022-02-23 00:00:00,1503


In [4]:
condition = pd.read_excel('C:\\Users\\User\\Downloads\\Таблицы.xlsx', sheet_name='Условие оказания') 
display(condition.head())

Unnamed: 0,code,name,fcode
0,1,КСС,1
1,2,АПП,3
2,3,СЗП,2
3,4,СМП,4


In [5]:
territory = pd.read_excel('C:\\Users\\User\\Downloads\\Таблицы.xlsx', sheet_name='Территория') 
territory.head()

Unnamed: 0,code,name
0,1500,Екатеринбург
1,1501,Верхняя Пышма
2,1502,Среднеуральск
3,1503,Полевской


# Предобработка данных

In [6]:
registry.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   recid   2000 non-null   int64         
 1   year    2000 non-null   int64         
 2   date_1  2000 non-null   datetime64[ns]
 3   date_2  2000 non-null   datetime64[ns]
 4   mo      2000 non-null   int64         
 5   usl_ok  1978 non-null   float64       
 6   id      2000 non-null   int64         
 7   sum     2000 non-null   float64       
dtypes: datetime64[ns](2), float64(2), int64(4)
memory usage: 125.1 KB


<b>Вывод:</b> 
В столбце `условия оказания МП` отсутствуют значения у 22 фактов оказания МП
</div>

In [7]:
display(registry['usl_ok'].unique())
registry['usl_ok'].value_counts()

array([4. , 2. , 3. , 1. , 4.1, nan])

3.0    534
4.0    501
2.0    489
1.0    446
4.1      8
Name: usl_ok, dtype: int64

<b>Вывод:</b> 
В столбце `условия оказания МП` присутствует 8 ошибочных значений 4.1. Вероятно, ошибка могла возникнуть на этапе внесения данных в таблицу  
</div>

In [8]:
# сделаем замену неверных значений
registry.loc[registry['usl_ok'] == 4.1,'usl_ok']=4
registry['usl_ok'].value_counts()

3.0    534
4.0    509
2.0    489
1.0    446
Name: usl_ok, dtype: int64

In [9]:
# узнаем количество явных дубликатов
registry.duplicated().sum()

0

In [10]:
# изучим строки таблицы с отсутствующими значениями столбца `usl_ok`
n_a = registry.loc[registry['usl_ok'].isna()]
display(n_a)
# узнаем какие МО чаще забывали заполнить столбец `usl_ok`
n_a['mo'].value_counts()

Unnamed: 0,recid,year,date_1,date_2,mo,usl_ok,id,sum
25,156485703,2022,2022-01-19,2022-02-12,407,,11275944,41688.08
163,156485979,2022,2022-07-14,2022-07-22,384,,9001100,27712.72
218,156486089,2022,2022-08-08,2022-08-22,476,,6157545,40017.32
266,156486185,2022,2022-11-01,2022-11-09,453,,10138522,39798.36
341,156486335,2022,2022-01-06,2022-02-05,568,,10707233,20986.84
416,156486485,2022,2022-04-05,2022-04-23,522,,7863678,46410.0
533,156486719,2022,2022-07-23,2022-08-18,361,,8432389,16974.16
623,156486899,2022,2022-10-09,2022-10-31,361,,7294967,37889.6
692,156487037,2022,2022-12-21,2021-01-02,430,,9001100,32296.6
794,156487241,2022,2021-03-22,2021-04-05,361,,13550788,14318.08


568    4
361    4
384    2
476    2
430    2
545    2
499    2
407    1
453    1
522    1
338    1
Name: mo, dtype: int64

<div class="alert alert-block alert-info">
<b>Вывод по разделу:</b> 

В результате предобработки данных было установлено:
    
    - 22 пропущенных значения в столбце `условия оказания МП` 
    - 8 неверно заполненных ячеек в столбце `условия оказания МП` (4.1 вместо 4)
    
Пропуски было принято решение оставить, так как их удаление приведет к потере данных. Неверно заполненные значения были обработаны (замена)  
</div>

# Выгрузка данных из БД (SQL запросы)

**1.	Выбрать количество фактов оказания, количество уникальных физических лиц и сумму к оплате по МП, оказанной в 2022 году (по дате окончания) в разрезе МО и условия оказания. Наименование МО необходимо выбрать актуальным на текущий момент.**

In [11]:
sql_query = '''
            WITH
            a AS (SELECT mo,
                         usl_ok,
                         COUNT(recid) as факт_МП,
                         COUNT(DISTINCT id) as уник_физ_лица,
                         SUM(sum) as сумма_оплаты 
                  FROM registry
                  WHERE strftime('%Y', date_2)='2022'
                  GROUP BY mo,
                           usl_ok),
            b AS (SELECT code,
                         name                         
                  FROM organization
                  WHERE strftime('%Y', date_2)='2999')
            SELECT b.name AS МО,
                   c.name AS условия_оказания_МП,
                   a.факт_МП,
                   a.уник_физ_лица,
                   a.сумма_оплаты
            FROM a LEFT OUTER JOIN b ON a.mo = b.code
            LEFT OUTER JOIN condition AS c ON a.usl_ok = c.code;
'''
p = ps.sqldf(sql_query)
p

Unnamed: 0,МО,условия_оказания_МП,факт_МП,уник_физ_лица,сумма_оплаты
0,ГБ №17,,1,1,40007.8
1,ГБ №17,КСС,37,17,826278.88
2,ГБ №17,АПП,31,18,693470.12
3,ГБ №17,СЗП,51,19,1213923.76
4,ГБ №17,СМП,32,16,582152.76
5,МУЗ №15,,3,3,96513.76
6,МУЗ №15,КСС,28,17,674215.92
7,МУЗ №15,АПП,35,18,906561.04
8,МУЗ №15,СЗП,27,16,515636.52
9,МУЗ №15,СМП,40,20,978970.16


<div class="alert alert-block alert-info">
<b>Вывод:</b> 

Благодаря тому, что осутствующие данные в столбце условия оказания МП не были удалены, можно оценить в каком объеме МО оказала МП, в том числе и те, у которых отсутствует значение условия оказания МП. Также стоит отметить, что фактически оказанная МП в некоторых случаях в 2 и более раз превышает число уникальных физических лиц. Данный факт говорит о том, что одно физическое лицо могло получить несколько раз МП за 2022 год.  
</div>

**2.	Выбрать количество фактов оказания, количество уникальных физических лиц по МП, предъявленной к оплате  в 2022 году (по году предъявления) в разрезе территорий и условия оказания. Территорию оказания необходимо выбирать на момент окончания оказания МП.**

In [12]:
sql_query = '''
                SELECT t.name AS территория,
                       c.name AS условия_оказания_МП,
                       COUNT(r.recid) AS кол_во_факт_МП,
                       COUNT(DISTINCT r.id) AS кол_во_уник_физ_лиц
                       
                FROM registry AS r
                LEFT OUTER JOIN organization AS o ON r.mo = o.code
                LEFT OUTER JOIN territory AS t ON o.terr = t.code
                LEFT OUTER JOIN condition AS c ON r.usl_ok = c.code
                WHERE year='2022'
                  AND r.date_2 BETWEEN o.date_1 AND o.date_2
                GROUP BY территория,
                         условия_оказания_МП;
                '''
p = ps.sqldf(sql_query)
p

Unnamed: 0,территория,условия_оказания_МП,кол_во_факт_МП,кол_во_уник_физ_лиц
0,Верхняя Пышма,,8,7
1,Верхняя Пышма,АПП,110,21
2,Верхняя Пышма,КСС,89,20
3,Верхняя Пышма,СЗП,114,20
4,Верхняя Пышма,СМП,134,21
5,Екатеринбург,,5,5
6,Екатеринбург,АПП,132,21
7,Екатеринбург,КСС,125,21
8,Екатеринбург,СЗП,154,21
9,Екатеринбург,СМП,139,21


<div class="alert alert-block alert-info">
<b>Вывод:</b> 

Выборка в разрезе территорий еще больше свидетельствует об аномальном распределении количества фактически оказанной МП на количество уникальных пользователей.  
</div>

**3.	Модифицировать условия выборки 1 или 2, оставив МО, которые предъявили к оплате сумму не менее 3 000 000.**

In [13]:
sql_query = '''
            WITH
            a AS (SELECT mo,
                         usl_ok,
                         recid,
                         id,
                         sum 
                  FROM registry
                  WHERE strftime('%Y', date_2)='2022'),
            b AS (SELECT code,
                         name                         
                  FROM organization
                  WHERE strftime('%Y', date_2)='2999')
            SELECT b.name AS МО,
                   COUNT(a.recid) as факт_МП,
                   COUNT(DISTINCT a.id) as уник_физ_лица,
                   SUM(a.sum) as сумма_оплаты
            FROM a LEFT OUTER JOIN b ON a.mo = b.code
            LEFT OUTER JOIN condition AS c ON a.usl_ok = c.code
            GROUP BY МО
            HAVING сумма_оплаты >= 3000000;
'''
p = ps.sqldf(sql_query)
p

Unnamed: 0,МО,факт_МП,уник_физ_лица,сумма_оплаты
0,ГБ №17,152,21,3355833.32
1,МУЗ №15,133,21,3171897.4
2,ОДГБ 3,128,21,3200690.64
3,ОЦРБ №1,132,21,3027117.24


<div class="alert alert-block alert-info">
<b>Вывод:</b> 
Выборка свидетельствует о том, что в данных, скорее всего, неверные сведения. Так например,  МО оказали помощь в размере больше 3млн незначительному количеству физических лиц.  
</div>

**4.	Для каждого условия оказания МП  выбрать количество физических лиц, которым МП была оказана первой в 2022 году (по дате окончания)**

In [14]:
sql_query = '''
           SELECT con.name,
                  COUNT(con.id)
           FROM (SELECT r.id,
                        c.name,
                        r.date_2
                 FROM registry AS r
                 LEFT OUTER JOIN condition AS c ON r.usl_ok = c.code
                 WHERE strftime('%Y', date_2)='2022'
                 GROUP BY r.id
                 HAVING MIN(date_2)) AS con
           GROUP BY con.name;
        
'''
p = ps.sqldf(sql_query)
p

Unnamed: 0,name,COUNT(con.id)
0,АПП,5
1,КСС,7
2,СЗП,4
3,СМП,5


<div class="alert alert-block alert-info">
<b>Вывод:</b> 
Согласно данной выборке КСС чаще других видов МП становится первичным условием оказания помощи.     
</div>

## Анализ аномальных значений

In [15]:
sql_query = '''
           SELECT  id,
                   COUNT(recid)
           FROM registry
           GROUP BY id
           ORDER BY COUNT(recid) DESC;
          
        
'''
p = ps.sqldf(sql_query)
p

Unnamed: 0,id,COUNT(recid)
0,12413366,110
1,5020123,110
2,12982077,108
3,6157545,107
4,5588834,104
5,2745279,102
6,3313990,101
7,8432389,100
8,9569811,99
9,7294967,98


In [16]:
sql_query = '''
           SELECT COUNT(DISTINCT id)
           FROM registry;
          
        
'''
p = ps.sqldf(sql_query)
p

Unnamed: 0,COUNT(DISTINCT id)
0,21


In [17]:
sql_query = '''
           SELECT  r.id,
                   c.name,
                   COUNT(r.recid)
           FROM registry AS r
           LEFT OUTER JOIN condition AS c ON r.usl_ok = c.code
           GROUP BY r.id,
                    c.name
           ORDER BY COUNT(r.recid) DESC
           LIMIT 20;
          
        
'''
p = ps.sqldf(sql_query)
p

Unnamed: 0,id,name,COUNT(r.recid)
0,5020123,АПП,34
1,3313990,СМП,33
2,9569811,СЗП,33
3,5588834,АПП,31
4,6157545,АПП,31
5,11275944,СЗП,30
6,12413366,КСС,30
7,12982077,АПП,30
8,12982077,СЗП,30
9,2745279,КСС,29


<div class="alert alert-block alert-info">
<b>Вывод:</b> 
Согласно выборкам в реестре оказания МП всего 21 физическое лицо, на которых приходится аномально большое число обращений за МП как в целом, так и в разрезе по условию оказанию МП.       
</div>

<div class="alert alert-block alert-info">
<b>Общий вывод:</b> 

В результате предобработки данных были заменены ошибочные значения столбца "условия оказания МП", отсутствующие значения не были заполнены или удалены ввиду возможного искажения результатов исследования. 

В результате анализа выборок были обнаружены аномалии в данных. Так например, было выявлено, что  2000 фактов обращений за МП распределены среди 21 физ. лица. Таким образом, 1 физ лицо многократно обращалось за МП в различные МО, и получало МП в разных условиях оказания МП. Скорее всего, данный факт свидетельствует о сбое при внесении/выгрузки данных. Поскольку сложно определить, где уникальные пользователи, а где дубликаты/ошибки, то обработать данные значения не предоставляется возможным.

Также было отмечено, что если во втором запросе сначала посчитать количество уникальных пользователей в разрезе МО и условию оказания МП, а потом просуммировать результат при группировке по территории, то количество уникальных физ лиц значительно больше. В выполненном запросе получилось отразить, сколько уникальных физ лиц на территории получили МП. Вероятно, условие можно дополнить тем, что требуется посчитать количество уникальных физ лиц на территории, получивших в отдельно взятой МО и условию оказанию. Таким образом, физ лицо может быть учтено как уникальное, при обращении в разные МО и получавшее МП при разных условиях.  
  
</div>