Import required packages

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics.pairwise import linear_kernel
from copy import deepcopy
from scipy.spatial.distance import pdist, squareform
from scipy.sparse import csr_matrix
from sklearn.neighbors import NearestNeighbors
from fuzzywuzzy import process
from sklearn.metrics import mean_squared_error, mean_absolute_error

Read the file

In [2]:
file = pd.read_excel('shortcourses2566.xlsx')

Count the number of courses

In [3]:
course_counts = pd.DataFrame(file)['หลักสูตรอบรมระยะสั้น'].value_counts()
courses = pd.Series(course_counts.index)
courses = courses.sort_values().set_axis(range(0,len(courses)))

Create Series of users

In [4]:
s_name = file.loc[:, 'ชื่อ-นามสกุล (อังกฤษ)']
Users = pd.Series(s_name, name='User')
Users

0             PORPHAING JANTIP
1         THANAKORN DARASRISAK
2             KARNJANA EAMTANG
3             KARNJANA EAMTANG
4       THITIMUN VORATHONGCHAI
                 ...          
6122         KITTINON SANTASUP
6123      WITTAWAT SERMSRIPONG
6124               NON NAKKARA
6125         PHATTHARAPHON LIN
6126      THANAPAT SEEMAKAJOHN
Name: User, Length: 6127, dtype: object

Create Series of emails

In [5]:
s_email = file.loc[:, 'อีเมล'].fillna("")
Emails = pd.Series(s_email ,name='Email')
Emails

0            tanghaoren17@gamil.com
1               tuakung21@gmail.com
2            karnjana.aon@gmail.com
3            karnjana.aon@gmail.com
4          thitimun.rama1@gmail.com
                   ...             
6122           kittinon_s@cmu.ac.th
6123        wittawat_serm@cmu.ac.th
6124          non_nakkara@cmu.ac.th
6125    phattharaphon_lin@cmu.ac.th
6126         thanapat_see@cmu.ac.th
Name: Email, Length: 6127, dtype: object

Provide a score to each user based on their email domain

In [6]:
email_score = []
for data in Emails:
    if data != '':
        if data.split('@')[1] == 'cmu.ac.th':
            email_score.append(2)
        else:
            email_score.append(1)
    else:
        email_score.append(0)
email_score = pd.Series(email_score, name='Score Email')

email_score

0       1
1       1
2       1
3       1
4       1
       ..
6122    2
6123    2
6124    2
6125    2
6126    2
Name: Score Email, Length: 6127, dtype: int64

Email Score Statistic

In [7]:
zero_score_count = email_score.where(email_score == 0).count()
one_score_count = email_score.where(email_score == 1).count()
two_score_count = email_score.where(email_score == 2).count()

print("Number of students who filled cmu email:", two_score_count)
print("Number of students who filled other email:", one_score_count)
print("Number of students who did not fill email:", zero_score_count)

Number of students who filled cmu email: 1268
Number of students who filled other email: 4853
Number of students who did not fill email: 6


Create function to calculate age-education score

In [8]:
def getAgeEducationScore(age, limit_age):
    if age <= limit_age:
        score = 0
    elif age <= limit_age + 2:
        score = 1
    else:
        score = 2
    return score

Create set of the educational range

In [9]:
set_nan = {'อื่นๆ (-)', np.nan}
set_primaryschool = {'ประถมศึกษา', 'อื่นๆ (ป.4)', 'อื่นๆ (ป.7)', 'อื่นๆ (ป7)'}
set_middleschool = {'มัธยมศึกษาตอนต้น', 'Secondary school', 'อื่นๆ (มศ.3)'}
set_highschool = {'มัธยมศึกษาตอนปลาย', 'High school', 'Vocational', 'การศึกษานอกระบบ', 
                  'ประกาศนียบัตรวิชาชีพ (ปวช.)', 'อื่นๆ (ม.ปลาย จบหลักสูตรEMR เป็นจนท.ปฏิบัติการ)',
                  'อื่นๆ (กำลังศึกษาชั้นมัธยมศึกษาตอนปลาย)', 'อื่นๆ (กำลังศึกษาชั้นมัธยมศึกษาปีที่6)', 
                  'อื่นๆ (มศ.5)'}
set_bachelor = {'ปริญญาตรี', 'Bachelor degree', 'Diploma', 'High Vocational', 
                'ประกาศนียบัตรวิชาชีพชั้นสูง (ปวส.)', 'อื่นๆ (กำลังศึกษาในระดับปริญญาตรี)', 
                'อื่นๆ (กำลังศึกษาปริญญาตรี สาขารังสีเทคนิค)', 'อื่นๆ (ปริญญาแพทยศาสตร์บัณฑิต)', 
                'อื่นๆ (นักศึกษาแพทย์ปี 5)', 'อื่นๆ (นักศึกษาแพทย์ มช ปี4 ศูนย์เชียงราย)', 
                'อื่นๆ (แพทยศาสตร์บัณฑิต)', 'อื่นๆ (แพทย์)', 'อื่นๆ (ประกาศณียบัตรผู้ช่วยพยาบาล)', 
                'อนุปริญญา', 'อื่นๆ (ป.ตรี)', 'อื่นๆ (ผู้ช่วยพยาบาล)'}
set_masterdocter = {'ปริญญาโท', 'ปริญญาเอก', "Master's degree", 'Other (OBGYN specalist lavel 1)', 
                    'Other (Residency)', 'Ph.D.', 'อื่นๆ (Internal Medicine)', 
                    'อื่นๆ (เฉพาะทาง)', 'อื่นๆ (วุฒิบัตร)', 'อื่นๆ (วว.ออร์โธปิดิกส์)', 
                    'อื่นๆ (วุฒิบัตรแสดงความรู้ความชำนาญในการประกอบวิชาชีพเภสัชกรรม สาขาเภสัชบำบัด)', 
                    'อื่นๆ (วุฒิบัตรผู้เชี่ยวชาญสาขาทันตกรรมทั่วไป)', 'อื่นๆ (วุฒิบัตรศัลยศาสตร์และแม็กซิลโลเฟเชียล)'}

list_degree = ((set_nan, 0), (set_primaryschool, 16), (set_middleschool, 19), 
               (set_highschool, 22), (set_bachelor,26), (set_masterdocter,40))

Create Series of Age-Education

In [10]:
ages = file.loc[:, 'อายุ']
educations = file.loc[:, 'วุฒิการศึกษา']
age_education_scores = []

for i,x in enumerate(educations):
    for y in list_degree:
        if x in y[0]:
            age_education_scores.append(getAgeEducationScore(ages[i], y[1]))
            
age_education_scores = pd.Series(age_education_scores, name='Age Education Score')

Age-Education Score Statistic

In [11]:
zero_score_count = age_education_scores.where(age_education_scores == 0).count()
one_score_count = age_education_scores.where(age_education_scores == 1).count()
two_score_count = age_education_scores.where(age_education_scores == 2).count()

print("Number of students who are currently in the educational system:", zero_score_count)
print("Number of students who were recently graduated:", one_score_count)
print("Number of students who are not in the educational system:", two_score_count)

Number of students who are currently in the educational system: 4229
Number of students who were recently graduated: 487
Number of students who are not in the educational system: 1411


Create Series of status

In [12]:
status = file.loc[:, 'สถานะ'].fillna("")
status = pd.Series(status ,name='Status')
status

0       ชำระเงิน
1       ชำระเงิน
2       ชำระเงิน
3       ชำระเงิน
4       ชำระเงิน
          ...   
6122    ชำระเงิน
6123    ชำระเงิน
6124    ชำระเงิน
6125    ชำระเงิน
6126    ชำระเงิน
Name: Status, Length: 6127, dtype: object

Provide a score to each user based on their purchase status

In [13]:
status_score = []
for x in status:
    if x == 'ชำระเงิน':
        status_score.append(2)
    if x == 'ไม่ผ่านการอนุมัติ':
        status_score.append(1)
    if x == 'ค้างชำระ':
        status_score.append(0)
status_score = pd.Series(status_score)

Purchase Status Score Statistics

In [14]:
zero_score_count = status_score.where(status_score == 0).count()
one_score_count = status_score.where(status_score == 1).count()
two_score_count = status_score.where(status_score == 2).count()

print("Number of students who are in arrears:", zero_score_count)
print("Number of students whose payment was not approved:", one_score_count)
print("Number of students with payment approval:", two_score_count)

Number of students who are in arrears: 531
Number of students whose payment was not approved: 124
Number of students with payment approval: 5472


Create Series of address

In [15]:
address = file.loc[:, 'ที่อยู่'].fillna("")
address = pd.Series(address ,name='Status')
address

0                                                        
1       125/27 ซ.3 ถ.ราษฎรยินดี ต.หน้าเมือง อ.เมือง จ....
2                                                        
3                                                        
4                                                        
                              ...                        
6122                                                     
6123                                                     
6124                                                     
6125                                                     
6126                                                     
Name: Status, Length: 6127, dtype: object

Provide a score to each user based on whether they provide address information or not

In [16]:
address_score = [ 0 if x == '' else 1 for x in address]
address_score = pd.Series(address_score)

Address Score Statistic

In [17]:
zero_score_count = address_score.where(address_score == 0).count()
one_score_count = address_score.where(address_score == 1).count()

print("Number of students who did not fill address:", zero_score_count)
print("Number of students who filled address:", one_score_count)

Number of students who did not fill address: 4005
Number of students who filled address: 2122


Create Series of data

In [18]:
enrollment = file.loc[:, 'วันที่สมัครอบรม'].fillna("")
enrollment = pd.Series(enrollment ,name='Date')
enrollment = enrollment.str.slice(start=-8, stop=-6)

Provide a score to each user based on their enrollment time

In [19]:
enrollment_set = {'08','09','10','15'}
enrollment_score = [ 1 if x in enrollment_set else 0 for x in enrollment]
enrollment_score = pd.Series(enrollment_score)

Create DataFrame by merging these 4 Series and calculate impressive level

In [49]:
user = file.loc[:, 'ชื่อ-นามสกุล (อังกฤษ)']
course = file.loc[:, 'หลักสูตรอบรมระยะสั้น']
d = {
    'User': user,
    'Course': course,
    'Email Score': email_score,
    'Age Education Score': age_education_scores,
    'Enrollment': enrollment_score,
    'Payment Score': status_score,
    'Address Score': address_score,
    'Score': 1 + email_score*0.75 + status_score*1 + address_score*0.25 + age_education_scores*0.25 + enrollment_score*0.5 
}
df = pd.DataFrame(d)
pd.set_option('display.max_rows', df.shape[0]+1)
df

Unnamed: 0,User,Course,Email Score,Age Education Score,Enrollment,Payment Score,Address Score,Score
0,PORPHAING JANTIP,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,1,0,1,2,0,4.25
1,THANAKORN DARASRISAK,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,1,1,1,2,1,4.75
2,KARNJANA EAMTANG,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,1,2,0,2,0,4.25
3,KARNJANA EAMTANG,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,1,2,0,2,0,4.25
4,THITIMUN VORATHONGCHAI,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,1,2,0,2,0,4.25
5,PEERACHET POOSUNTISOMPUN,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,1,0,0,2,0,3.75
6,WARACHAN CHAIKANTA,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,1,2,1,2,0,4.75
7,WARACHAN CHAIKANTA,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,1,2,1,2,0,4.75
8,WARIT DENSRISEREEKUL,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,1,2,0,2,1,4.5
9,NARINTIPP SHUSANG,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,1,2,0,2,0,4.25


Create user-course table

In [50]:
# all user, course, score have the same length
data = {
    'User': df['User'],
    'Course': df['Course'],
    'Score': df['Score'],
}

predata = pd.DataFrame(data)
predata

Unnamed: 0,User,Course,Score
0,PORPHAING JANTIP,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,4.25
1,THANAKORN DARASRISAK,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,4.75
2,KARNJANA EAMTANG,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,4.25
3,KARNJANA EAMTANG,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,4.25
4,THITIMUN VORATHONGCHAI,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,4.25
5,PEERACHET POOSUNTISOMPUN,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,3.75
6,WARACHAN CHAIKANTA,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,4.75
7,WARACHAN CHAIKANTA,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,4.75
8,WARIT DENSRISEREEKUL,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,4.5
9,NARINTIPP SHUSANG,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,4.25


Calculate sparsity and csr matrix

In [51]:
# Pivot table by rotating course
data = pd.pivot_table(predata, values='Score', index='Course', columns='User').fillna(0)
data

User,AAIYANA MUSTAFA,ABDULFATTAH SENG,ABIGAIL LINE,ABRAM THANAWONG,ACHIRA TEAWSIRISUP,ACHIRAWIT AKSORNDIT,ACHIRAWIT PHUJOMCHAE,ACHIRAYA INNA,ACHIRAYA NUISEE,ACHIRAYA SUKPAISARN,...,YYY TTTT,ZABIDIN SENSANA,ZAR CHI LIN -,ZAYNUB NAEEM,ZE NYOI,ZHANGJINSHUO DONG,ZHENGHAO LIU,ZHENYI JIN,ZIWEN YONG,ZOE BESTMANNSMITH
Course,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Cancer Epidemiology and Prevention,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Coaching Skill : Crafting a New You สำหรับนักศึกษา มหาวิทยาลัยเชียงใหม่,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Coaching Skill : Crafting a New You สำหรับบุคลากร มหาวิทยาลัยเชียงใหม่,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Development Studies & Social Research Specialization 2023,0.0,0.0,0.0,0.0,0.0,0.0,2.75,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,4.25,0.0,0.0,0.0,0.0,0.0
Digital Transformation: e-Document,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Environmental Economics (USAC programs) - Fall Semester 2023,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย สำหรับนักเรียนระดับชั้นมัธยมศึกษาปีที่ 4 ปี 2566,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย สำหรับนักเรียนระดับชั้นมัธยมศึกษาปีที่ 5 ปี 2566,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Global Citizenship – โรงเรียนสันป่าตองวิทยาคม 2566,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Global Citizenship – โรงเรียนแม่ริมวิทยาคม 2566,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [52]:
# Item-User Rated Matrix
data_mtx = csr_matrix(data.values)

Euclidean Distance & Cosine Similarity

In [53]:
model_knn = NearestNeighbors(metric='cosine', algorithm='brute').fit(data_mtx)
model_knn

In [55]:
def recommender_knn(course_name, n_recommendations):
    idx = process.extractOne(course_name, courses)[2]
    print('Selected movie:', courses[idx], 'Index:', idx)
    distances, indices = model_knn.kneighbors(data_mtx[idx], n_neighbors=n_recommendations+1, return_distance=True)
    recommendations = [courses[i].where(i!=idx) for i in indices]
    recommended_courses = recommendations[0][1:]
    course_distances = distances[0][1:]
    d = {
        'Course': recommended_courses,
        'Cosine Distance': course_distances
    }
    results = pd.DataFrame(data=d)
    return results

In [56]:
recommender_knn('หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (Basic Principle of Diagnostic Radiology Imaging Instruments)', 167)

Selected movie: หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (Basic Principle of Diagnostic Radiology Imaging Instruments) Index: 131


Unnamed: 0,Course,Cosine Distance
152,เตรียมความพร้อมทางรังสีวิทยาสำหรับบุคลากรทางกา...,0.675067
42,การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnosti...,0.722855
43,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,0.755242
163,เวชศาสตร์ครอบครัวขั้นสูง,0.940557
85,ความรู้พื้นฐานในการทำวิจัยเพื่อพัฒนางาน (Resea...,0.973442
110,รังสีวิทยาวินิจฉัย,0.975044
105,บทนำสู่รังสีเทคนิค (Introduction to Radiologic...,0.975584
59,การเขียนโครงการและกระบวนการใช้จ่ายเงินในกิจกรร...,0.976519
136,หลักสูตรอบรมเข้มข้นระยะสั้นแพทย์-วิศวกรรมและวิ...,0.977016
117,วิทยาศาสตร์การแพทย์คลินิก สาขาวิชาเวชศาสตร์ฉุก...,0.978279


Predata for hybrid recommendation

In [57]:
def recommender_knn_all_courses(course_name):
    model_knn.fit(data_mtx)
    idx = process.extractOne(course_name, courses)[2]
    # print('Selected movie:', courses[idx], 'Index:', idx)
    distances, indices = model_knn.kneighbors(data_mtx[idx], n_neighbors=len(courses))
    recommendations = [courses[i].where(i!=idx) for i in indices]
    recommended_courses = recommendations[0][1:]
    scores = 1 - distances
    course_distances = scores[0][1:]
    d = {
        'Course': recommended_courses,
        'Score': course_distances
    }
    results = pd.DataFrame(data=d)
    results = results.sort_index().rename_axis('Index')
    return results

In [58]:
recommender_knn_all_courses('หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (Basic Principle of Diagnostic Radiology Imaging Instruments)')

Unnamed: 0_level_0,Course,Score
Index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Cancer Epidemiology and Prevention,0.0
1,Coaching Skill : Crafting a New You สำหรับนักศ...,0.0
2,Coaching Skill : Crafting a New You สำหรับบุคล...,0.0
3,Development Studies & Social Research Speciali...,0.013102
4,Digital Transformation: e-Document,0.0
5,Environmental Economics (USAC programs) - Fall...,0.0
6,Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย ส...,0.0
7,Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย ส...,0.007954
8,Global Citizenship – โรงเรียนสันป่าตองวิทยาคม ...,0.0
9,Global Citizenship – โรงเรียนแม่ริมวิทยาคม 2566,0.0


In [59]:
def get_score_of_selected_courses(course_names):
    # Take index of the selected courses
    idx = [ process.extractOne(course_name, courses)[2] for course_name in course_names ]
    
    # take the selected course
    course_scores = []
    for course in courses:
        if course not in course_names:
            course_scores.append(recommender_knn_all_courses(course).iloc[idx])
            
    course_score_dict = {}
    for i,name in enumerate(course_names):
        course_score_dict[name] = []
        for score in course_scores:
            course_score_dict[name].append(score['Score'].iloc[i])
           
    course_score_df = pd.DataFrame(course_score_dict, index=range(0,len(course_scores)))
    
    return course_score_df.max()

In [60]:
def recommender_knn_by_user(user_name, n_recommendations):
    df = {
        'User': pd.Series(file['ชื่อ-นามสกุล (อังกฤษ)']),
        'Course': pd.Series(file['หลักสูตรอบรมระยะสั้น'])
    }
    
    user_course = pd.DataFrame(df)
    selected_user_name = user_course.loc[user_course['User'] == user_name]
    selected_courses = selected_user_name['Course']
    
    recommended_courses = [ recommender_knn_all_courses(x) for x in selected_courses]
    
    # pre dataframe
    df = pd.DataFrame({
        'Course': [],
        'Score': []
    }).rename_axis('Index')
    
    for x in recommended_courses:
        df = df._append(x)
    df =  df.sort_values('Score', ascending=False).drop_duplicates('Course')
    return df.head(n_recommendations)

Items show permanence whereas, people change with time
Items are fewer in numbers to deal with. Which leads to smaller similarity matrix. Amazon and Netflix use it!
Better for New users:
— Him selecting just one item will let us provide recommendations
— But for user based, new user has to wait until next build of similarity matrix (which is the only computational part of the framework)

In [61]:
recommender_knn_by_user('THANAKORN DARASRISAK', 10)

Unnamed: 0_level_0,Course,Score
Index,Unnamed: 1_level_1,Unnamed: 2_level_1
43,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,0.752832
131,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,0.277145
110,รังสีวิทยาวินิจฉัย,0.225533
152,เตรียมความพร้อมทางรังสีวิทยาสำหรับบุคลากรทางกา...,0.174601
124,สารสนเทศทางสาธารณสุข 2566 (Public Health Infor...,0.07127
41,การวิจัยแบบผสมผสานทางสุขภาพ (Mixed Methods Res...,0.031794
117,วิทยาศาสตร์การแพทย์คลินิก สาขาวิชาเวชศาสตร์ฉุก...,0.023493
136,หลักสูตรอบรมเข้มข้นระยะสั้นแพทย์-วิศวกรรมและวิ...,0.021809
98,ทักษะความเป็นนักดนตรี,0.01679
123,สอบคัดเลือกเพื่อเข้าอบรมหลักสูตรอบรมเข้มข้นระย...,0.014994


Training and Testing

In [62]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor

Predata of training

In [63]:
# Take 2 columns from Table
course_score = df[['Course', 'Score']]

# Sort the course
course = df['Course'].sort_values().unique()

# Calculate the mean of each course
course_mean = course_score.groupby('Course')
course_mean = course_mean.mean().loc[:, 'Score']

# Take 2 columns from Table
course_user = df[['Course', 'User']]

# Count the number of users who enrolled each course 
course_count = course_user.value_counts('Course')
course_count = course_count.sort_index()

# Take feature columns from Table
course_feature = df[['Course', 'Email Score', 'Age Education Score', 'Enrollment', 'Payment Score', 'Address Score']]
agg_functions = {
    'Email Score': 'mean',
    'Age Education Score': 'mean',
    'Enrollment': 'mean',
    'Payment Score': 'mean',
    'Address Score': 'mean',
}
course_feature = course_feature.groupby('Course').aggregate(agg_functions)
course_feature

Unnamed: 0_level_0,Email Score,Age Education Score,Enrollment,Payment Score,Address Score
Course,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Cancer Epidemiology and Prevention,1.0,1.5,0.5,2.0,0.0
Coaching Skill : Crafting a New You สำหรับนักศึกษา มหาวิทยาลัยเชียงใหม่,1.714286,0.285714,0.107143,2.0,1.0
Coaching Skill : Crafting a New You สำหรับบุคลากร มหาวิทยาลัยเชียงใหม่,1.692308,1.410256,0.307692,1.589744,0.923077
Development Studies & Social Research Specialization 2023,1.028571,0.914286,0.2,1.628571,0.2
Digital Transformation: e-Document,1.863636,1.818182,0.681818,2.0,0.272727
Environmental Economics (USAC programs) - Fall Semester 2023,1.0,0.0,0.0,2.0,0.0
Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย สำหรับนักเรียนระดับชั้นมัธยมศึกษาปีที่ 4 ปี 2566,1.0,0.0,0.588235,2.0,0.235294
Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย สำหรับนักเรียนระดับชั้นมัธยมศึกษาปีที่ 5 ปี 2566,1.0,0.0,0.684211,2.0,0.210526
Global Citizenship – โรงเรียนสันป่าตองวิทยาคม 2566,1.0,0.0,0.5,0.0,0.025
Global Citizenship – โรงเรียนแม่ริมวิทยาคม 2566,1.0,0.0,0.428571,0.0,0.0


Create the train dataframe

In [64]:
course_feature['Count'] = course_count
course_feature['Score'] = course_mean
train_df = pd.DataFrame(course_feature)
train_df.head(10)

Unnamed: 0_level_0,Email Score,Age Education Score,Enrollment,Payment Score,Address Score,Count,Score
Course,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Cancer Epidemiology and Prevention,1.0,1.5,0.5,2.0,0.0,2,4.375
Coaching Skill : Crafting a New You สำหรับนักศึกษา มหาวิทยาลัยเชียงใหม่,1.714286,0.285714,0.107143,2.0,1.0,28,4.660714
Coaching Skill : Crafting a New You สำหรับบุคลากร มหาวิทยาลัยเชียงใหม่,1.692308,1.410256,0.307692,1.589744,0.923077,39,4.596154
Development Studies & Social Research Specialization 2023,1.028571,0.914286,0.2,1.628571,0.2,35,3.778571
Digital Transformation: e-Document,1.863636,1.818182,0.681818,2.0,0.272727,22,5.261364
Environmental Economics (USAC programs) - Fall Semester 2023,1.0,0.0,0.0,2.0,0.0,4,3.75
Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย สำหรับนักเรียนระดับชั้นมัธยมศึกษาปีที่ 4 ปี 2566,1.0,0.0,0.588235,2.0,0.235294,17,4.102941
Global Citizenship – โรงเรียนมงฟอร์ตวิทยาลัย สำหรับนักเรียนระดับชั้นมัธยมศึกษาปีที่ 5 ปี 2566,1.0,0.0,0.684211,2.0,0.210526,19,4.144737
Global Citizenship – โรงเรียนสันป่าตองวิทยาคม 2566,1.0,0.0,0.5,0.0,0.025,40,2.00625
Global Citizenship – โรงเรียนแม่ริมวิทยาคม 2566,1.0,0.0,0.428571,0.0,0.0,7,1.964286


Split the train and the test

In [35]:
# Get X and y features variables
X = train_df[['Email Score', 'Age Education Score', 'Enrollment', 'Payment Score', 'Address Score', 'Count']]
y = train_df['Score']

# Use the train test split function
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=10, test_size=0.25
)

In [36]:
regressor = KNeighborsRegressor(n_neighbors=3)
regressor.fit(X_train, y_train)
predictions = regressor.predict(X_test)
y_train

Course
การฝึกอบรมเนื้อหาดิจิทัล (Digital Content) ประจำปี 2566                                          0.213592
การวิเคราะห์ผลตอบแทนทางสังคมในงานด้านสุขภาพ (Social Return on Investment (SROI) in Health)       0.362500
วิธีวิทยาการวิจัยทางการศึกษา (Research Methodology in Education) 2566                            0.204762
คลินิกผ่าตัดเล็กในช่องปาก (Minor Oral Surgery Clinic)                                            0.333333
หลักสูตรย่อยที่ 2 การดูแลสุขภาพทั่วไปในสัตว์เลี้ยง (General Health Care of Pet Animal) รุ่น 2    0.266667
                                                                                                   ...   
วิทยาศาสตร์การแพทย์คลินิก สาขาวิชากุมารเวชศาสตร์                                                 0.281481
การเขียนโครงการและกระบวนการใช้จ่ายเงินในกิจกรรมนักศึกษา รุ่นที่ 5                                0.276190
Modern Chinese History (USAC program) – Spring semester 2023                                     0.266667
สิทธิและหน้าที่ของผู้แทนนักศึกษามหาวิทย

In [37]:
print("Mean Squared Error:", mean_squared_error(predictions,y_test))
print("Mean Absolute Error:", mean_absolute_error(predictions,y_test))

Mean Squared Error: 0.004050789561947059
Mean Absolute Error: 0.04802461505919834
