In [1]:
import pandas as pd
import numpy as np
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows as df_to_row

In [2]:
from szp_funcs import get_fio, create_full_res, print_df, load_groups, gku_inn, path_to_docs, to_double, path_to_data, szp, sum_fot_jobs, sum_fot

In [4]:
def create_res(months):
    res = 0
    for i in range(len(months)):
        if i == 0:
            res = load_data(months[i])
        else:
            res = pd.merge(res, load_data(months[i]), how='outer', on=['inn', 'snils'])
    return res

In [3]:
def load_data(file):
    df = pd.read_excel(path_to_data + file + '.xlsx')
    df.stv = df.apply(lambda row: to_double(row, 'stv'), axis=1)
    sample = df[(df.type == 'Основное место работы') | (df.type == 'Внутреннее совместительство')]
    sums = sample.iloc[:, [0,1,2,3]].groupby(['inn', 'snils']).sum().reset_index().groupby('snils').max().reset_index()
    sums = pd.merge(sums, sample[sample.type == 'Основное место работы'], how='left', on=['inn', 'snils'])
    sums = sums[(sums.stv >= 1.0) & (sums.status == 'Работа') & (sums.day == 1) & (sums.status_pref == 'Работа')]
    sums = sums[['inn', 'snils', 'sum_x', 'stv', 'job']].drop_duplicates(['inn', 'snils', 'sum_x'])
    sums = sums.rename(columns = {'inn_y': 'inn', 'sum_x': 'sum_' + file, 'job':'job_' + file, 'stv': 'stv_' + file})
    return sums

In [22]:
inn_of_int = 7734248978
months = ['jan', 'feb', 'mar']

7730026170 - school 67

7733857776 - school 2097

7726287412 - school 657

7734248978 - school 1210

In [21]:
res = create_res(months)

In [26]:
res[res.inn == inn_of_int].sort_values(['szp'], ascending=True).head(19)

Unnamed: 0,inn,snils,sum_jan,stv_jan,job_jan,sum_feb,stv_feb,job_feb,sum_mar,stv_mar,job_mar,szp
86839,7734248978,140-320-369 99,76656.25,1.0,Педагог дополнительного образования,11388.22,1.0,Педагог дополнительного образования,9675.06,1.0,Педагог дополнительного образования,32573.176667
95549,7734248978,154-453-345 59,40000.0,1.0,Воспитатель,40000.0,1.0,Воспитатель,40000.0,1.0,Воспитатель,40000.0
138051,7734248978,046-477-298 92,,,,,,,40000.0,1.0,Воспитатель,40000.0
18637,7734248978,018-565-242 59,46574.22,1.0,Педагог дополнительного образования,40302.64,1.0,Педагог дополнительного образования,37518.75,1.0,Педагог дополнительного образования,41465.203333
114413,7734248978,022-391-155 14,,,,48171.0,1.0,Воспитатель,45003.0,1.0,Воспитатель,46587.0
145395,7734248978,131-554-636 40,,,,,,,50383.63,1.0,Педагог дополнительного образования,50383.63
122989,7734248978,129-340-614 49,,,,56227.0,1.0,Воспитатель,51307.0,1.0,Воспитатель,53767.0
122226,7734248978,124-085-530 33,,,,54512.06,1.0,Секретарь учебной части,54500.0,1.0,Секретарь учебной части,54506.03
113149,7734248978,017-187-128 45,,,,54227.48,1.0,Воспитатель,55643.48,1.0,Воспитатель,54935.48
105996,7734248978,181-863-449 98,55000.0,1.0,Педагог-психолог,,,,,,,55000.0


In [41]:
res[res.snils == '075-652-204 69']

Unnamed: 0,inn,snils,sum_jan,stv_jan,job_jan,sum_feb,stv_feb,job_feb,sum_mar,stv_mar,job_mar,szp
58767,7730026170,075-652-204 69,34355.43,1.0,Учитель,,,,,,,34355.43


In [42]:
res[res.snils == '140-946-421 55']

Unnamed: 0,inn,snils,sum_jan,stv_jan,job_jan,sum_feb,stv_feb,job_feb,sum_mar,stv_mar,job_mar,szp
87276,7730026170,140-946-421 55,53155.09,1.0,Учитель,,,,,,,53155.09


In [24]:
res['szp'] = res.apply(lambda row: szp(row, months), axis=1)

In [43]:
cut_off = res[['inn', 'snils', 'szp']].groupby('inn').count().rename(columns={'snils': 'cnt'})
cut_off.cnt = np.ceil(cut_off.cnt / 10)
cut_off = cut_off.to_dict()['cnt']
cut_off

{5003021368: 91.0,
 5003021495: 98.0,
 5003021640: 69.0,
 5003096290: 52.0,
 5030032182: 26.0,
 5030032376: 52.0,
 5051005503: 33.0,
 5051005623: 20.0,
 5051005670: 88.0,
 5074019220: 30.0,
 5074019252: 40.0,
 5074045703: 54.0,
 7701032028: 4.0,
 7701050524: 15.0,
 7701113894: 5.0,
 7701293580: 10.0,
 7701375995: 6.0,
 7701377657: 21.0,
 7701384943: 5.0,
 7701406844: 7.0,
 7701905508: 27.0,
 7702058364: 16.0,
 7702061938: 4.0,
 7702764296: 16.0,
 7702797527: 27.0,
 7702833359: 29.0,
 7703021039: 7.0,
 7703112310: 9.0,
 7703261626: 15.0,
 7703363890: 23.0,
 7703379868: 3.0,
 7703611221: 18.0,
 7703738796: 21.0,
 7703742922: 37.0,
 7703776689: 10.0,
 7703808740: 12.0,
 7704040242: 13.0,
 7704118121: 6.0,
 7704118139: 12.0,
 7704178709: 18.0,
 7704191153: 9.0,
 7704222919: 17.0,
 7704222926: 41.0,
 7704231631: 32.0,
 7704234760: 23.0,
 7704271031: 1.0,
 7704853583: 19.0,
 7705020295: 16.0,
 7705041520: 4.0,
 7705052410: 7.0,
 7705399348: 33.0,
 7705480398: 29.0,
 7705513678: 28.0,
 770551

In [93]:
res[res.inn == inn_of_int][['inn', 'snils', 'szp']].groupby('inn').count().rename(columns={'snils': 'cnt'})

Unnamed: 0_level_0,cnt,szp
inn,Unnamed: 1_level_1,Unnamed: 2_level_1
7733857776,393,393


In [99]:
cut_off[inn_of_int]

18.0

In [46]:
ppl = res[['inn', 'szp', 'snils']].dropna().sort_values('szp').groupby('inn')
keys = ppl.groups.keys()
val_1_7 = pd.DataFrame({'inn': [], 'val': []})

In [80]:
ppl.get_group(inn_of_int)

Unnamed: 0,inn,szp,snils
149858,7733857776,33129.600000,171-321-362 26
135026,7733857776,34739.200000,023-743-832 42
56995,7733857776,40824.000000,072-579-280 92
110088,7733857776,43860.750000,202-993-114 51
137301,7733857776,45824.000000,038-745-648 95
...,...,...,...
55764,7733857776,367532.000000,070-296-987 86
89240,7733857776,369544.666667,143-482-585 69
50746,7733857776,369544.666667,060-823-149 37
8033,7733857776,370705.100000,006-504-008 96


In [16]:
fio = get_fio()

In [62]:
ungrouped_ppl = pd.DataFrame({'inn': [], 'snils': [], 'szp': []})

In [63]:
for key in keys:
    ungrouped_ppl = pd.concat([ungrouped_ppl, ppl.get_group(key)[['inn', 'snils', 'szp']]])

In [67]:
ungrouped_ppl

Unnamed: 0,inn,snils,szp
118522,5.003021e+09,065-107-311 28,21566.76
126472,5.003021e+09,157-113-833 53,23419.93
121306,5.003021e+09,115-609-273 46,25150.86
99628,5.003021e+09,164-008-934 53,45556.36
111766,5.003021e+09,004-721-809 16,51513.16
...,...,...,...
99253,9.718071e+09,163-098-582 87,484642.00
90056,9.718071e+09,145-075-584 65,484642.00
138207,9.718071e+09,047-832-306 66,494642.00
150158,9.718071e+09,174-487-457 12,527029.00


In [69]:
ungrouped_ppl = pd.merge(ungrouped_ppl, fio, how='left', on='snils').drop_duplicates(['inn', 'snils'])

In [97]:
ungrouped_ppl[ungrouped_ppl.inn == '140-946-421 55']

Unnamed: 0,inn,snils,szp,fio,cut


In [73]:
ungrouped_ppl['cut'] = ungrouped_ppl.apply(lambda row: cut_off[row['inn']], axis=1)

In [75]:
print_df(ungrouped_ppl[['inn', 'cut', 'snils', 'fio', 'szp']], 'redezil ppl')

In [48]:
for key in keys:
    top = ppl.get_group(key).tail(int(cut_off[key]))['szp'].mean()
    bot = ppl.get_group(key).head(int(cut_off[key]))['szp'].mean()
    t_df = pd.DataFrame({'inn': [key], 'val': [top / bot]})
    val_1_7 = pd.concat([val_1_7, t_df])

In [100]:
ppl.get_group(inn_of_int).tail(int(cut_off[inn_of_int]))['szp'].mean()

238627.38490740737

In [95]:
ppl.get_group(inn_of_int).head(int(cut_off[inn_of_int]))['szp'].mean()

53616.19354166667

In [20]:
print_df(ppl.get_group(inn_of_int), 'redezil 67')

In [96]:
val_1_7[val_1_7.inn == inn_of_int]

Unnamed: 0,inn,val
0,7733858000.0,3.7558


In [25]:
print_df(val_1_7, 'redezil all')

In [6]:
fot_res = create_full_res(months)

In [7]:
t = fot_res.copy()

In [7]:
job_of_int = ['Педагог дополнительного образования']

In [9]:
fot_res['fot'] = fot_res.apply(lambda row: sum_fot_jobs(row, months, job_of_int), axis=1)

In [15]:
print_df(fot_res[fot_res.job_mar == job_of_int[0]][['snils', 'fot']], 'snils_for_fot')

In [8]:
fot_res = fot_res[fot_res.inn == inn_of_int]

In [9]:
ped, isp, aup = load_groups('input')

In [10]:
fot_res['fot_isp'] = fot_res.apply(lambda row: sum_fot_jobs(row, months, isp), axis=1)

In [11]:
fot_res['fot_all'] = fot_res.apply(lambda row: sum_fot(row, months), axis=1)

In [29]:
fot_res[fot_res.fot_isp > 0][['fot_isp']].describe()

Unnamed: 0,fot_isp
count,133369.0
mean,277190.0
std,114644.3
min,8.06
25%,190987.0
50%,266696.5
75%,354804.4
max,1234783.0


In [12]:
float(fot_res[fot_res.fot_isp > 0][['fot_isp']].sum())

32035225.490000002

In [34]:
fot_res[fot_res.fot_all > 0][['fot_all']].describe()

Unnamed: 0,fot_all
count,171661.0
mean,287499.6
std,148935.4
min,8.06
25%,190606.2
50%,267011.7
75%,358923.6
max,3974492.0


In [13]:
float(fot_res[fot_res.fot_all > 0][['fot_all']].sum())

41297294.09

In [14]:
fot_res

Unnamed: 0,inn,snils,sum_jan,stv_jan,job_jan,status_jan,sum_feb,stv_feb,job_feb,status_feb,sum_mar,stv_mar,job_mar,status_mar,fot_isp,fot_all
1108,7726287412,001-271-619 87,69425.56,1.000000,Техник,Работа,69425.56,1.000000,Техник,Работа,69425.56,1.000000,Техник,Работа,0.00,208276.68
1253,7726287412,001-286-620 04,129990.49,1.000000,Учитель,Работа,133468.30,1.000000,Учитель,Работа,130496.83,1.000000,Учитель,Работа,393955.62,393955.62
5287,7726287412,001-876-545 41,46910.56,0.666667,Педагог дополнительного образования,Работа,24773.68,0.666667,Педагог дополнительного образования,Работа,39497.44,0.666667,Педагог дополнительного образования,Работа,111181.68,111181.68
5369,7726287412,001-893-389 45,108192.40,1.000000,Специалист по охране труда,Работа,121192.40,1.000000,Специалист по охране труда,Работа,111567.40,1.000000,Специалист по охране труда,Работа,0.00,340952.20
6344,7726287412,002-094-804 02,41884.75,0.800000,Педагог дополнительного образования,Работа,45267.15,0.800000,Педагог дополнительного образования,Работа,55759.12,0.800000,Педагог дополнительного образования,Работа,142911.02,142911.02
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
163053,7726287412,183-662-512 86,39114.81,1.000000,Воспитатель,Работа,59399.95,1.000000,Воспитатель,Болезнь,73596.38,1.000000,Воспитатель,Работа,172111.14,172111.14
167974,7726287412,194-881-893 44,23454.64,0.500000,Тьютор,Работа,34143.79,0.500000,Тьютор,Отпуск учебный оплачиваемый,,,,,57598.43,57598.43
173264,7726287412,169-396-127 19,,,,,96618.27,1.000000,Учитель,Работа,95634.06,1.000000,Учитель,Работа,192252.33,192252.33
173787,7726287412,188-550-821 11,,,,,31578.95,,,,40000.00,0.500000,Специалист по связям с общественностью,Работа,0.00,71578.95


In [18]:
len(fot_res.snils.unique())

161

In [20]:
print_df(pd.merge(fot_res, fio, how='left', on='snils').drop_duplicates('snils'), "Фот 657")

In [26]:
fot_res[fot_res.fot > 0][['fot']].describe()

Unnamed: 0,fot
count,5872.0
mean,206610.418745
std,117013.623541
min,8.06
25%,124883.66
50%,193334.755
75%,272884.9825
max,929016.0
