In [166]:
import pandas as pd
import numpy as np
import glob
import re
from fcmeans import FCM
import pickle

In [167]:
def read_excel(path) -> pd.DataFrame:
    df = pd.read_excel(path, header=8)
    df['STT'] = df['Mã sinh viên'] + '_' + df['Họ đệm'] + ' ' + df['Tên'] + '_' + df['Lớp học']
    df = df.iloc[1:-2, :-6]
    df.drop(df.columns[[1, 2, 3, 4]], axis=1, inplace=True)
    df.columns = [col.lower() for col in df.columns]
    df = df.set_index('stt')
    df['label'] = path.split('/')[-1].split('.')[0].split('_')[-1].lower()
    return df

In [169]:
cnpm_9 = read_excel('../data/9_CNPM.xls')
httt_9 = read_excel('../data/9_HTTT.xls')
khptdl_9 = read_excel('../data/9_KHPTDL.xls')
mmt_9 = read_excel('../data/9_MMT.xls')

cnpm_10 = read_excel('../data/10_CNPM.xls')
httt_10 = read_excel('../data/10_HTTT.xls')
khptdl_10 = read_excel('../data/10_KHPTDL.xls')
mmt_10 = read_excel('../data/10_MMT.xls')

In [170]:
khptdl_subj = ['nhập môn lập trình', 'toán rời rạc', 'khai thác dữ liệu', 'cơ sở dữ liệu']
httt_subj = ['cơ sở dữ liệu', 'hệ quản trị cơ sở dữ liệu', 'nhập môn lập trình', 'cấu trúc dữ liệu và giải thuật']
cnpm_subj = ['nhập môn lập trình', 'lập trình hướng đối tượng', 'cơ sở dữ liệu']
mmt_subj = ['kiến trúc máy tính', 'mạng máy tính', 'nhập môn lập trình', 'hệ điều hành']

In [171]:
set_subjects = ["nhập môn lập trình",
                "toán rời rạc",
                "khai thác dữ liệu",
                "cơ sở dữ liệu",
                "hệ quản trị cơ sở dữ liệu",
                "cấu trúc dữ liệu và giải thuật",
                "lập trình hướng đối tượng",
                "kiến trúc máy tính",
                "mạng máy tính",
                "hệ điều hành",
                "label"]

In [172]:
df = pd.concat([cnpm_10, httt_10, khptdl_10, mmt_10,
                cnpm_9, httt_9, khptdl_9, mmt_9], axis=0)
df = df.fillna(df.mean(numeric_only=True))
df = df[set_subjects].sample(frac=1.)
df

Unnamed: 0_level_0,nhập môn lập trình,toán rời rạc,khai thác dữ liệu,cơ sở dữ liệu,hệ quản trị cơ sở dữ liệu,cấu trúc dữ liệu và giải thuật,lập trình hướng đối tượng,kiến trúc máy tính,mạng máy tính,hệ điều hành,label
stt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2001181302_Phạm Tuấn Tài_09DHTH7,6.7,2.600000,6.936061,5.800000,4.80000,4.664078,6.200000,4.922977,6.800000,4.776944,mmt
2001180495_Nguyễn Mạnh Hùng_09DHTH2,6.3,0.000000,6.936061,0.000000,5.53309,0.000000,0.000000,4.922977,0.000000,0.000000,cnpm
2001190669_Phan Minh Mẫn_10DHTH8,3.5,3.000000,6.936061,5.443562,0.00000,0.000000,4.920024,5.300000,5.655526,5.600000,mmt
2001190479_Trịnh Vinh Dự_10DHTH4,1.0,3.611125,7.200000,5.400000,5.80000,2.200000,4.920024,6.700000,4.400000,6.100000,httt
2001190863_Nguyễn Xuân Tình_10DHTH7,3.6,4.200000,6.800000,5.443562,4.00000,3.200000,4.920024,4.922977,6.900000,5.800000,khptdl
...,...,...,...,...,...,...,...,...,...,...,...
2001181310_Lê Tân_09DHTH3,0.0,3.611125,6.936061,5.443562,5.53309,4.664078,4.920024,4.922977,5.655526,4.776944,cnpm
2001190674_Giang Quốc Minh_10DHTH2,5.8,3.611125,8.100000,5.443562,7.70000,6.000000,4.920024,0.000000,7.000000,5.800000,cnpm
2001191032_Đinh Thành Long_10DHTH3,4.7,3.611125,8.100000,5.800000,8.40000,7.100000,6.700000,4.922977,6.200000,6.800000,cnpm
2001180274_Trần Đình Văn_09DHTH4,4.9,5.100000,6.936061,7.500000,7.30000,7.600000,6.100000,4.922977,7.200000,7.300000,cnpm


In [173]:
rs = 50

In [174]:
def get_model(set_subjects, label):

    X = df[set_subjects].values
    y = df[set_subjects + ['label']]['label'].values

    model = FCM(n_clusters=2, random_state=rs)
    model.fit(X)

    y_pred = model.predict(X)
    y = np.where(y == label, 1, 0)

    acc = (y_pred == y).sum() / y.shape[0]
    
    with open(f'../models/{label}.model', 'wb') as f:
        pickle.dump(model, f, protocol=pickle.HIGHEST_PROTOCOL)
    return 'Accuracy: {:.2f}%.'.format(acc * 100)

In [175]:
get_model(khptdl_subj, 'khptdl')

'Accuracy: 40.81%.'

In [176]:
get_model(httt_subj, 'httt')

'Accuracy: 47.37%.'

In [177]:
get_model(cnpm_subj, 'cnpm')

'Accuracy: 66.67%.'

In [178]:
get_model(mmt_subj, 'mmt')

'Accuracy: 34.14%.'