In [1]:
import pandas as pd
import numpy as np

import scipy.stats as st

import matplotlib.pyplot as plt
import seaborn as sns

import plotly.express as px
import plotly.graph_objects as go

import os

sns.set()

from plotly.offline import init_notebook_mode, iplot

init_notebook_mode(connected=True)
%matplotlib inline

In [2]:
import ipywidgets as widgets
from ipywidgets import interact, HBox, Label

In [3]:
df = pd.read_csv('../Данные/out_w_date_an_orig.csv', parse_dates=True)
df['add_time'] = pd.to_datetime(df['add_time'], format='%Y-%m-%d')

In [4]:
df.head()

Unnamed: 0,abiturient_id,status,add_time,id,name,true,ex,point,eduform_id,fintype_id
0,202100008,1,2021-04-09,11,Машиностроение,1,"Математика,Физика,Русский язык",745572,2,2
1,202100009,1,2021-04-22,3,Программная инженерия,1,"Математика,Информатика и ИКТ,Русский язык",988859,2,2
2,202100622,1,2021-06-24,33,Проектирование авиационных и ракетных двигателей,0,"Математика,Физика,Русский язык",725176,1,1
3,202100622,1,2021-06-24,18,Ракетные комплексы и космонавтика,0,"Математика,Физика,Русский язык",725176,1,1
4,202100622,1,2021-06-24,32,"Проектирование, производство и эксплуатация ра...",0,"Математика,Физика,Русский язык",725176,1,1


In [5]:
df.dtypes

abiturient_id             int64
status                    int64
add_time         datetime64[ns]
id                        int64
name                     object
true                      int64
ex                       object
point                    object
eduform_id                int64
fintype_id                int64
dtype: object

In [6]:
df['point_mean'] = df['point'].apply(lambda x: sum(map(int, x.split(',')))/len(x.split(',')))
df['point_sum'] = df['point'].apply(lambda x: sum(map(int, x.split(','))))
df = df[df['point_mean'] > 0]

In [7]:
df.head()

Unnamed: 0,abiturient_id,status,add_time,id,name,true,ex,point,eduform_id,fintype_id,point_mean,point_sum
0,202100008,1,2021-04-09,11,Машиностроение,1,"Математика,Физика,Русский язык",745572,2,2,67.0,201
1,202100009,1,2021-04-22,3,Программная инженерия,1,"Математика,Информатика и ИКТ,Русский язык",988859,2,2,81.666667,245
2,202100622,1,2021-06-24,33,Проектирование авиационных и ракетных двигателей,0,"Математика,Физика,Русский язык",725176,1,1,66.333333,199
3,202100622,1,2021-06-24,18,Ракетные комплексы и космонавтика,0,"Математика,Физика,Русский язык",725176,1,1,66.333333,199
4,202100622,1,2021-06-24,32,"Проектирование, производство и эксплуатация ра...",0,"Математика,Физика,Русский язык",725176,1,1,66.333333,199


In [8]:
df['ex'].unique()

array(['Математика,Физика,Русский язык',
       'Математика,Информатика и ИКТ,Русский язык',
       'Математика,Обществознание,Русский язык',
       'Математика,Биология,Русский язык',
       'Иностранный язык,Обществознание,Русский язык',
       'Иностранный язык,Математика,Русский язык',
       'Русский язык,Обществознание,Иностранный язык'], dtype=object)

In [9]:
gdf_mean = df.groupby(['name']).agg({'point_mean': ['mean', 'count'],
                                     'true': [lambda x: np.bincount(x)[1]],
                                     'status': [lambda x: np.bincount(x)[1]]
                                    }).transpose()

In [10]:
gdf_mean.head()

Unnamed: 0,name,Баллистика и гидроаэродинамика,Боеприпасы и взрыватели,Двигатели летательных аппаратов,Интегрированные системы летательных аппаратов,Информатика и вычислительная техника,Информационные системы и технологии,Конструкторско-технологическое обеспечение машиностроительных производств,Лазерная техника и лазерные технологии,Машиностроение,Менеджмент,...,"Стрелково-пушечное, артиллерийское и ракетное оружие",Теплоэнергетика и теплотехника,Технологические машины и оборудование,Техносферная безопасность,Управление в технических системах,Управление персоналом,Фотоника и оптоинформатика,Фундаментальная и прикладная лингвистика,Экономика,Энергетическое машиностроение
point_mean,mean,64.057143,62.903509,67.333333,73.53493,72.331393,72.075055,63.353047,68.419048,64.991546,63.084541,...,64.140741,67.76,61.979622,64.527778,67.821839,63.115385,74.591522,68.654762,61.132812,66.015504
point_mean,count,245.0,342.0,275.0,167.0,859.0,906.0,186.0,210.0,276.0,138.0,...,315.0,200.0,229.0,60.0,174.0,104.0,173.0,56.0,128.0,172.0
true,<lambda>,24.0,99.0,29.0,33.0,99.0,109.0,33.0,40.0,60.0,52.0,...,36.0,18.0,20.0,6.0,18.0,25.0,21.0,37.0,51.0,19.0
status,<lambda>,152.0,218.0,186.0,89.0,461.0,495.0,112.0,160.0,191.0,114.0,...,197.0,130.0,134.0,40.0,115.0,90.0,90.0,46.0,102.0,107.0


In [11]:
def spec_summary(x):
    '''
    Общая инфа по специальностям
    '''
    bal = gdf_mean[x][0] # Средний балл
    count = int(gdf_mean[x][1]) # Число заявлений
    count_true = int(gdf_mean[x][2]) # Число поступивших
    count_status = int(gdf_mean[x][3]) # Число поданных согласий
    res_str = f'''
    Cредний бал: {bal:5.1f}
    Число заявлений: {count}
    Число поступивших: {count_true}
    Число поданных согласий: {count_status}
    Отношение числа поступивших к общему числу заявлений: {count_true/count:5.3f}
    Отношение числа подавших согласие к общему числу заявлений: {count_status/count:5.3f}
    '''
    print(res_str)

dropdown_spec = widgets.Dropdown(
    options=gdf_mean.columns,
)

interact(spec_summary, x=dropdown_spec);

interactive(children=(Dropdown(description='x', options=('Баллистика и гидроаэродинамика', 'Боеприпасы и взрыв…

In [12]:
def spec_hist(x, y, z):
    spec_df = df[df['name'] == x]
    color_dict = ['true', 'status']
    bal_type = ['point_mean', 'point_sum']
    fig = px.histogram(data_frame=spec_df, x=bal_type[z], color=color_dict[y], marginal='box', opacity=0.85)
    iplot(fig)

dropdown_spec = widgets.Dropdown(
    options=df['name'].unique(),
)

hbpx_spec = HBox([
    Label('Специальность/Направление подготовки'),
    dropdown_spec
])

dropdown_status_or_true = widgets.Dropdown(
    options=list(zip(['Поступившие/Не поступившие', 'Есть согласие/Нет согласия'], (0, 1))),
)

hbpx_status_or_true = HBox([
    Label('Поступившие/Не поступившие или Есть согласие/Нет согласия'),
    dropdown_status_or_true
])

dropdown_mean_or_sum = widgets.Dropdown(
    options=list(zip(['Средний', 'Сумма баллов'], (0, 1))),
)

hbpx_mean_or_sum = HBox([
    Label('Средний бал/Сумма баллов'),
    dropdown_mean_or_sum
])

hbox = widgets.VBox([hbpx_spec, hbpx_status_or_true, hbpx_mean_or_sum])
out = widgets.interactive_output(spec_hist, {'x': dropdown_spec, 'y': dropdown_status_or_true, 'z': dropdown_mean_or_sum})

display(hbox, out)

VBox(children=(HBox(children=(Label(value='Специальность/Направление подготовки'), Dropdown(options=('Машиност…

Output()

In [13]:
def get_date(x, y):
    start = pd.to_datetime(x)
    end = pd.to_datetime(y)
    tmp_df = df.loc[(df['add_time']>=start) & (df['add_time']<=end)]
    
    gdf_day = tmp_df.groupby(['add_time'], as_index=False).agg({'abiturient_id': 'count'})
    
    fig = px.area(x=gdf_day['add_time'], y=gdf_day['abiturient_id'])
    fig.update_xaxes(title_text='Дата')
    fig.update_yaxes(title_text='Число заявлений')
    
    fig.update_layout(xaxis=dict(rangeslider=dict(visible=True), type="date"))
    iplot(fig)

dp1 = widgets.DatePicker(
    description='Начало',
    disabled=False,
    value=df['add_time'].min()
)
dp2 = widgets.DatePicker(
    description='Конец',
    disabled=False,
    value=df['add_time'].max()
)

hbdp = widgets.VBox([dp1, dp2])
interact(get_date, x=dp1, y=dp2);

interactive(children=(DatePicker(value=Timestamp('2021-03-17 00:00:00'), description='Начало'), DatePicker(val…


Comparison of Timestamp with datetime.date is deprecated in order to match the standard library behavior. In a future version these will be considered non-comparable. Use 'ts == pd.Timestamp(date)' or 'ts.date() == date' instead.



In [14]:
def spec_bal_line(x, y):
    spec_df = df[df['name'] == x]
    
    bins = np.arange(30, 105, 5)
    ylabel = [
        'Отношение числа поступивших к числу непоступивших',
        'Отношение числа с согласием к числу без согласия'
    ]
    enrolled_or_agreed = ['true', 'status'][y]
    print(pd.value_counts(spec_df[enrolled_or_agreed]))
    
    hist_0 = np.histogram(spec_df[spec_df[enrolled_or_agreed] == 0]['point_mean'], bins=bins)[0]
    hist_1 = np.histogram(spec_df[spec_df[enrolled_or_agreed] == 1]['point_mean'], bins=bins)[0]
    
    hist_res = np.zeros(hist_0.shape[0])
    
    an_bins = np.arange(32.5, 100, 5)
    
    for i in range(hist_res.shape[0]):
        if hist_0[i] != 0:
            hist_res[i] = hist_1[i]/hist_0[i]
    
    fig = px.line(x=an_bins, y=hist_res, markers=True)
    fig.update_layout(
        xaxis = dict(
            title='Баллы',
            tickmode = 'linear',
            tick0 = 30,
            dtick = 5
        ),
        yaxis = dict(title=ylabel[y])
    )
    iplot(fig)

vbox = widgets.VBox([hbpx_spec, hbpx_status_or_true])

out = widgets.interactive_output(spec_bal_line, {'x': dropdown_spec, 'y': dropdown_status_or_true})
display(vbox, out);

VBox(children=(HBox(children=(Label(value='Специальность/Направление подготовки'), Dropdown(options=('Машиност…

Output()