In [34]:
from itertools import combinations

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
import swifter


# Подготовка датасета для загрузки в сеть

In [18]:
base_df = pd.read_csv('data/clean_frame.csv', index_col='ind')
base_df.columns

Index(['ID', 'Код_группы', 'Год_Поступления', 'Год_Окончания_УЗ', 'Пособие',
       'Общежитие', 'Наличие_Матери', 'Наличие_Отца', 'Опекунство', 'Село',
       'Иностранец', 'КодФакультета', 'СрБаллАттестата', 'Статус', 'male',
       'female', 'sex_summ', 'birth_year_int', 'basis', 'language', 'country',
       'region', 'city', 'parents_country'],
      dtype='object')

### Проверка и удаление отрицательных значений

In [19]:
base_df.isna().any().all()

False

In [20]:
base_df = base_df.fillna(0)

In [21]:
def get_accuracy(frame_to_train):
    train, test = train_test_split(frame_to_train, test_size=0.20)
    
    train_input = train.drop('Статус', axis=1)    
    train_output = train['Статус']

    test_input = test.drop('Статус', axis=1)
    test_output = test['Статус']

    clf = RandomForestClassifier(random_state=0)
    clf.fit(train_input, train_output)
    pred = clf.predict(test_input)
    return f1_score(test_output, pred, average='macro', zero_division = 0)

In [22]:
all_columns_list = base_df.columns.to_list()
all_columns_list.remove('ID')
all_columns_list.remove('Статус')
all_columns_list

['Код_группы',
 'Год_Поступления',
 'Год_Окончания_УЗ',
 'Пособие',
 'Общежитие',
 'Наличие_Матери',
 'Наличие_Отца',
 'Опекунство',
 'Село',
 'Иностранец',
 'КодФакультета',
 'СрБаллАттестата',
 'male',
 'female',
 'sex_summ',
 'birth_year_int',
 'basis',
 'language',
 'country',
 'region',
 'city',
 'parents_country']

In [23]:
elements_num = len(all_columns_list)
elements_num

22

In [24]:
all_combinations = []
list_sizes = 0
for i in range(2, elements_num+1):
    curent_list = list(combinations(all_columns_list, i))
    list_sizes += len(curent_list)
    all_combinations = all_combinations + curent_list
len(all_combinations)

4194281

In [25]:
all_combinations

[('Код_группы', 'Год_Поступления'),
 ('Код_группы', 'Год_Окончания_УЗ'),
 ('Код_группы', 'Пособие'),
 ('Код_группы', 'Общежитие'),
 ('Код_группы', 'Наличие_Матери'),
 ('Код_группы', 'Наличие_Отца'),
 ('Код_группы', 'Опекунство'),
 ('Код_группы', 'Село'),
 ('Код_группы', 'Иностранец'),
 ('Код_группы', 'КодФакультета'),
 ('Код_группы', 'СрБаллАттестата'),
 ('Код_группы', 'male'),
 ('Код_группы', 'female'),
 ('Код_группы', 'sex_summ'),
 ('Код_группы', 'birth_year_int'),
 ('Код_группы', 'basis'),
 ('Код_группы', 'language'),
 ('Код_группы', 'country'),
 ('Код_группы', 'region'),
 ('Код_группы', 'city'),
 ('Код_группы', 'parents_country'),
 ('Год_Поступления', 'Год_Окончания_УЗ'),
 ('Год_Поступления', 'Пособие'),
 ('Год_Поступления', 'Общежитие'),
 ('Год_Поступления', 'Наличие_Матери'),
 ('Год_Поступления', 'Наличие_Отца'),
 ('Год_Поступления', 'Опекунство'),
 ('Год_Поступления', 'Село'),
 ('Год_Поступления', 'Иностранец'),
 ('Год_Поступления', 'КодФакультета'),
 ('Год_Поступления', 'СрБалл

In [69]:
combinations_frame = pd.DataFrame(all_combinations, columns=range(elements_num))
combinations_frame


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,12,13,14,15,16,17,18,19,20,21
0,Код_группы,Год_Поступления,,,,,,,,,...,,,,,,,,,,
1,Код_группы,Год_Окончания_УЗ,,,,,,,,,...,,,,,,,,,,
2,Код_группы,Пособие,,,,,,,,,...,,,,,,,,,,
3,Код_группы,Общежитие,,,,,,,,,...,,,,,,,,,,
4,Код_группы,Наличие_Матери,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4194276,Код_группы,Год_Поступления,Год_Окончания_УЗ,Общежитие,Наличие_Матери,Наличие_Отца,Опекунство,Село,Иностранец,КодФакультета,...,female,sex_summ,birth_year_int,basis,language,country,region,city,parents_country,
4194277,Код_группы,Год_Поступления,Пособие,Общежитие,Наличие_Матери,Наличие_Отца,Опекунство,Село,Иностранец,КодФакультета,...,female,sex_summ,birth_year_int,basis,language,country,region,city,parents_country,
4194278,Код_группы,Год_Окончания_УЗ,Пособие,Общежитие,Наличие_Матери,Наличие_Отца,Опекунство,Село,Иностранец,КодФакультета,...,female,sex_summ,birth_year_int,basis,language,country,region,city,parents_country,
4194279,Год_Поступления,Год_Окончания_УЗ,Пособие,Общежитие,Наличие_Матери,Наличие_Отца,Опекунство,Село,Иностранец,КодФакультета,...,female,sex_summ,birth_year_int,basis,language,country,region,city,parents_country,


In [27]:
def itter_from_frame(row):
    frame_columns = row.dropna().to_list() + ['Статус']
    frame_to_train = base_df.loc[:, frame_columns]
    return get_accuracy(frame_to_train)

In [70]:
start, stop = 0, 10
combinations_frame.loc[start:stop, 'accuracy'] = combinations_frame.iloc[start:stop, :].apply(itter_from_frame, axis=1)

In [71]:
start, stop = 10, 20
combinations_frame.loc[start:stop, 'accuracy'] = combinations_frame.iloc[start:stop, :].apply(itter_from_frame, axis=1)

In [72]:
combinations_frame.head(30)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,accuracy
0,Код_группы,Год_Поступления,,,,,,,,,...,,,,,,,,,,0.750878
1,Код_группы,Год_Окончания_УЗ,,,,,,,,,...,,,,,,,,,,0.694745
2,Код_группы,Пособие,,,,,,,,,...,,,,,,,,,,0.739164
3,Код_группы,Общежитие,,,,,,,,,...,,,,,,,,,,0.745243
4,Код_группы,Наличие_Матери,,,,,,,,,...,,,,,,,,,,0.739272
5,Код_группы,Наличие_Отца,,,,,,,,,...,,,,,,,,,,0.757009
6,Код_группы,Опекунство,,,,,,,,,...,,,,,,,,,,0.757561
7,Код_группы,Село,,,,,,,,,...,,,,,,,,,,0.721365
8,Код_группы,Иностранец,,,,,,,,,...,,,,,,,,,,0.748784
9,Код_группы,КодФакультета,,,,,,,,,...,,,,,,,,,,0.750283


In [None]:
accuracy = {}
for num, columns in enumerate(all_combinations[:100]):
    frame_columns = list(columns)
    frame_columns.append('Статус')
    frame_to_train = base_df.loc[:, frame_columns]
    accuracy[num] = get_accuracy(frame_to_train)
    print(num)
accuracy


In [None]:
accuracy

In [None]:
max_index = max(accuracy, key=accuracy.get)
print(max_index, all_combinations[max_index], accuracy[max_index])