In [16]:
import pandas as pd
import numpy as np

import scipy.stats as st

import matplotlib.pyplot as plt
import seaborn as sns

import plotly.express as px
import plotly.graph_objects as go
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)

import os

sns.set()

%matplotlib inline

In [17]:
import ipywidgets as widgets
from ipywidgets import interact, HBox, VBox, Label

In [18]:
df = pd.read_csv('../Данные/out_w_date_an_orig.csv')

In [19]:
df.head()

Unnamed: 0,abiturient_id,status,add_time,id,name,true,ex,point,eduform_id,fintype_id
0,202100008,1,2021-04-09,11,Машиностроение,1,"Математика,Физика,Русский язык",745572,2,2
1,202100009,1,2021-04-22,3,Программная инженерия,1,"Математика,Информатика и ИКТ,Русский язык",988859,2,2
2,202100622,1,2021-06-24,33,Проектирование авиационных и ракетных двигателей,0,"Математика,Физика,Русский язык",725176,1,1
3,202100622,1,2021-06-24,18,Ракетные комплексы и космонавтика,0,"Математика,Физика,Русский язык",725176,1,1
4,202100622,1,2021-06-24,32,"Проектирование, производство и эксплуатация ра...",0,"Математика,Физика,Русский язык",725176,1,1


In [20]:
df['point_mean'] = df['point'].apply(lambda x: sum(map(int, x.split(',')))/len(x.split(',')))
df = df[df['point_mean'] > 0]

In [21]:
df.head()

Unnamed: 0,abiturient_id,status,add_time,id,name,true,ex,point,eduform_id,fintype_id,point_mean
0,202100008,1,2021-04-09,11,Машиностроение,1,"Математика,Физика,Русский язык",745572,2,2,67.0
1,202100009,1,2021-04-22,3,Программная инженерия,1,"Математика,Информатика и ИКТ,Русский язык",988859,2,2,81.666667
2,202100622,1,2021-06-24,33,Проектирование авиационных и ракетных двигателей,0,"Математика,Физика,Русский язык",725176,1,1,66.333333
3,202100622,1,2021-06-24,18,Ракетные комплексы и космонавтика,0,"Математика,Физика,Русский язык",725176,1,1,66.333333
4,202100622,1,2021-06-24,32,"Проектирование, производство и эксплуатация ра...",0,"Математика,Физика,Русский язык",725176,1,1,66.333333


In [22]:
df['ex'].unique()

array(['Математика,Физика,Русский язык',
       'Математика,Информатика и ИКТ,Русский язык',
       'Математика,Обществознание,Русский язык',
       'Математика,Биология,Русский язык',
       'Иностранный язык,Обществознание,Русский язык',
       'Иностранный язык,Математика,Русский язык',
       'Русский язык,Обществознание,Иностранный язык'], dtype=object)

In [23]:
pd.value_counts(df[df['name']=='Экономика']['status'])

1    102
0     26
Name: status, dtype: int64

In [24]:
gdf_mean = df.groupby(['name']).agg({'point_mean': ['mean', 'count'],
                                     'true': [lambda x: np.bincount(x)[1]],
                                     'status': [lambda x: np.bincount(x)[1]]
                                    }).transpose()

In [25]:
gdf_mean.head()

Unnamed: 0,name,Баллистика и гидроаэродинамика,Боеприпасы и взрыватели,Двигатели летательных аппаратов,Интегрированные системы летательных аппаратов,Информатика и вычислительная техника,Информационные системы и технологии,Конструкторско-технологическое обеспечение машиностроительных производств,Лазерная техника и лазерные технологии,Машиностроение,Менеджмент,...,"Стрелково-пушечное, артиллерийское и ракетное оружие",Теплоэнергетика и теплотехника,Технологические машины и оборудование,Техносферная безопасность,Управление в технических системах,Управление персоналом,Фотоника и оптоинформатика,Фундаментальная и прикладная лингвистика,Экономика,Энергетическое машиностроение
point_mean,mean,64.057143,62.903509,67.333333,73.53493,72.331393,72.075055,63.353047,68.419048,64.991546,63.084541,...,64.140741,67.76,61.979622,64.527778,67.821839,63.115385,74.591522,68.654762,61.132813,66.015504
point_mean,count,245.0,342.0,275.0,167.0,859.0,906.0,186.0,210.0,276.0,138.0,...,315.0,200.0,229.0,60.0,174.0,104.0,173.0,56.0,128.0,172.0
true,<lambda>,24.0,99.0,29.0,33.0,99.0,109.0,33.0,40.0,60.0,52.0,...,36.0,18.0,20.0,6.0,18.0,25.0,21.0,37.0,51.0,19.0
status,<lambda>,152.0,218.0,186.0,89.0,461.0,495.0,112.0,160.0,191.0,114.0,...,197.0,130.0,134.0,40.0,115.0,90.0,90.0,46.0,102.0,107.0


In [26]:
def spec_summary(x):
    '''
    Общая инфа по специальностям
    '''
    bal = gdf_mean[x][0] # Средний балл
    count = int(gdf_mean[x][1]) # Число заявлений
    count_true = int(gdf_mean[x][2]) # Число поступивших
    count_status = int(gdf_mean[x][3]) # Число поданных согласий
    res_str = f'''
    Cредний бал: {bal:5.1f}
    Число заявлений: {count}
    Число поступивших: {count_true}
    Число поданных согласий: {count_status}
    Отношение числа поступивших к общему числу заявлений: {count_true/count:5.3f}
    Отношение числа подавших согласие к общему числу заявлений: {count_status/count:5.3f}
    '''
    print(res_str)

dropdown_spec = widgets.Dropdown(
    options=gdf_mean.columns,
)

interact(spec_summary, x=dropdown_spec);

interactive(children=(Dropdown(description='x', options=('Баллистика и гидроаэродинамика', 'Боеприпасы и взрыв…

In [27]:
def spec_hist(x, y):
    
    spec_df = df[df['name'] == x]
    
    color_dict = ['true', 'status']
    
        
    fst_group = spec_df[spec_df[color_dict[y]] == 0]
    sec_group = spec_df[spec_df[color_dict[y]] == 1]

    # Проверка стат гипотез

    # Проверка на нормальность

    p_vals = np.array([
        st.normaltest(fst_group['point_mean'])[1],
        st.normaltest(sec_group['point_mean'])[1]
    ])
    print('Проверка на нормальность')
    print(f'P-value для группы 0: {p_vals[0]:5.4f}')
    print(f'P-value для группы 1: {p_vals[1]:5.4f}')

    if np.all(p_vals > 0.05):
        print('Обе выборки нормальны. t-тест Стьюдента')
        print(st.ttest_ind(fst_group['point_mean'], sec_group['point_mean']))
    else:
        print('Выборки ненормальны. U-критерий Мана-Уитни')
        print(st.mannwhitneyu(fst_group['point_mean'], sec_group['point_mean']))


    fig = px.histogram(data_frame=spec_df, x='point_mean', color=color_dict[y], marginal='box')
    fig.show()
    
dropdown_spec = widgets.Dropdown(
    options=df['name'].unique(),
)

dropdown_obj_pack = widgets.Dropdown(
    options = df['ex'].unique()
)

dropdown_status_or_true = widgets.Dropdown(
    options=list(zip(['Поступившие/Не поступившие', 'Есть согласие/Нет согласия'], (0, 1))),
)

interact(spec_hist, x=dropdown_spec, y=dropdown_status_or_true);

interactive(children=(Dropdown(description='x', options=('Машиностроение', 'Программная инженерия', 'Проектиро…

In [28]:
def obj_pack_hist(obj_pack, y):
    
    obj_pack_df = df[df['ex'] == obj_pack]
    
    color_dict = ['true', 'status']
    
    fig = px.histogram(data_frame=obj_pack_df, x='point_mean', color=color_dict[y], marginal='box')
    fig.show()
    
interact(obj_pack_hist, obj_pack=dropdown_obj_pack, y=dropdown_status_or_true);

interactive(children=(Dropdown(description='obj_pack', options=('Математика,Физика,Русский язык', 'Математика,…

In [30]:
def spec_bal_line(x, y):
    spec_df = df[df['name'] == x]
    
    bins = np.arange(30, 105, 5)
    ylabel = [
        'Отношение числа поступивших к числу непоступивших',
        'Отношение числа с согласием к числу без согласия'
    ]
    enrolled_or_agreed = ['true', 'status'][y]
    print(pd.value_counts(spec_df[enrolled_or_agreed]))
    
    hist_0 = np.histogram(spec_df[spec_df[enrolled_or_agreed] == 0]['point_mean'], bins=bins)[0]
    hist_1 = np.histogram(spec_df[spec_df[enrolled_or_agreed] == 1]['point_mean'], bins=bins)[0]
    
    hist_res = np.zeros(hist_0.shape[0])
    
    an_bins = np.arange(32.5, 100, 5)
    
    for i in range(hist_res.shape[0]):
        if hist_0[i] != 0:
            hist_res[i] = hist_1[i]/hist_0[i]
    
    fig = px.line(x=an_bins, y=hist_res, markers=True)
    fig.update_layout(
        xaxis = dict(
            title='Баллы',
            tickmode = 'linear',
            tick0 = 30,
            dtick = 5
        ),
        yaxis = dict(title=ylabel[y])
    )
    fig.show()

hbpx_spec = HBox([
    Label('Специальность/Направление подготовки'),
    dropdown_spec
])

hbpx_status_or_true = HBox([
    Label('Поступившие/Не поступившие или Есть согласие/Нет согласия'),
    dropdown_status_or_true
])
    
vbox = widgets.VBox([hbpx_spec, hbpx_status_or_true])

out = widgets.interactive_output(spec_bal_line, {'x': dropdown_spec, 'y': dropdown_status_or_true})
display(vbox, out);

VBox(children=(HBox(children=(Label(value='Специальность/Направление подготовки'), Dropdown(description='x', o…

Output()