### Imports

In [1]:
import numpy as np
import pandas as pd

### Reading data
##### We can join it by region name. (Note that it has NaNs)

In [2]:
data_path = "../data/lab_1/"
docs_path = ["doc_1.xlsx", "doc_2.xlsx"]

In [3]:
df_1 = pd.read_excel(data_path + docs_path[0], skiprows=1,
                     names=["region", "2016", "2017"], index_col=0)
df_2 = pd.read_excel(data_path + docs_path[1], skiprows=1,
                     names=["region", "2015", "2018"], index_col=0)
data = df_1.join(df_2, how="outer")
data

Unnamed: 0_level_0,2016,2017,2015,2018
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,486.0,662.0,316.0,873.0
Амурская область,278.0,289.0,127.0,331.0
Архангельская область,430.0,452.0,93.0,479.0
Архангельская область (без АО),389.0,422.0,83.0,
Архангельская область (кроме Ненецкого автономного округа),,,,447.0
...,...,...,...,...
Чукотский автономный округ,45.0,44.0,8.0,44.0
Южный федеральный округ (с 2010 года),,,1303.0,
Южный федеральный округ (с 29.07.2016),3839.0,6240.0,,6252.0
Ямало-Ненецкий автономный округ (Тюменская область),349.0,352.0,100.0,366.0


### Removing federal districts and sorting columns by year

In [4]:
data = data.loc[~(data.index.str.contains("федеральный округ", case=False, regex=False)) &
                ~(data.index.str.contains("федерация", case=False, regex=False)),
                ["2015", "2016", "2017", "2018"]].copy()
data

Unnamed: 0_level_0,2015,2016,2017,2018
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,316.0,486.0,662.0,873.0
Амурская область,127.0,278.0,289.0,331.0
Архангельская область,93.0,430.0,452.0,479.0
Архангельская область (без АО),83.0,389.0,422.0,
Архангельская область (кроме Ненецкого автономного округа),,,,447.0
...,...,...,...,...
Чеченская Республика*,157.0,160.0,285.0,533.0
Чувашская Республика - Чувашия,133.0,292.0,362.0,402.0
Чукотский автономный округ,8.0,45.0,44.0,44.0
Ямало-Ненецкий автономный округ (Тюменская область),100.0,349.0,352.0,366.0


### Adding statistics

In [5]:
data["mean"] = data.mean(axis=1)
data["max_year"] = data.idxmax(axis=1)
data

Unnamed: 0_level_0,2015,2016,2017,2018,mean,max_year
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,316.0,486.0,662.0,873.0,584.25,2018
Амурская область,127.0,278.0,289.0,331.0,256.25,2018
Архангельская область,93.0,430.0,452.0,479.0,363.50,2018
Архангельская область (без АО),83.0,389.0,422.0,,298.00,2017
Архангельская область (кроме Ненецкого автономного округа),,,,447.0,447.00,2018
...,...,...,...,...,...,...
Чеченская Республика*,157.0,160.0,285.0,533.0,283.75,2018
Чувашская Республика - Чувашия,133.0,292.0,362.0,402.0,297.25,2018
Чукотский автономный округ,8.0,45.0,44.0,44.0,35.25,2016
Ямало-Ненецкий автономный округ (Тюменская область),100.0,349.0,352.0,366.0,291.75,2018


### Count of maximums for each year

In [6]:
max_subjects = data.groupby(["max_year"]).size()
max_subjects

max_year
2016     5
2017    30
2018    54
dtype: int64

### Final output

In [7]:
data.sort_values(by="mean").to_dict(orient="index")

{'Ненецкий автономный округ (Архангельская область)': {'2015': 10.0,
  '2016': 41.0,
  '2017': 30.0,
  '2018': 32.0,
  'mean': 28.25,
  'max_year': '2016'},
 'Чукотский автономный округ': {'2015': 8.0,
  '2016': 45.0,
  '2017': 44.0,
  '2018': 44.0,
  'mean': 35.25,
  'max_year': '2016'},
 'Город федерального значения Севастополь': {'2015': 20.0,
  '2016': 66.0,
  '2017': 79.0,
  '2018': 46.0,
  'mean': 52.75,
  'max_year': '2017'},
 'Республика Адыгея (Адыгея)': {'2015': 59.0,
  '2016': 49.0,
  '2017': 61.0,
  '2018': 44.0,
  'mean': 53.25,
  'max_year': '2017'},
 'Республика Калмыкия': {'2015': 38.0,
  '2016': 42.0,
  '2017': 48.0,
  '2018': 108.0,
  'mean': 59.0,
  'max_year': '2018'},
 'Еврейская автономная область': {'2015': 22.0,
  '2016': 75.0,
  '2017': 84.0,
  '2018': 89.0,
  'mean': 67.5,
  'max_year': '2018'},
 'Магаданская область': {'2015': 39.0,
  '2016': 77.0,
  '2017': 86.0,
  '2018': 81.0,
  'mean': 70.75,
  'max_year': '2017'},
 'Республика Ингушетия*': {'2015': 15.0,