Import required packages

In [2]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import linear_kernel
from copy import deepcopy
from scipy.spatial.distance import pdist, squareform
import matplotlib.pyplot as plt
from scipy.sparse import csr_matrix
from sklearn.neighbors import NearestNeighbors
from fuzzywuzzy import process
import math

Read the file

In [3]:
file = pd.read_excel('shortcourses2566.xlsx')

Count the number of courses

In [4]:
course_counts = pd.DataFrame(file)['หลักสูตรอบรมระยะสั้น'].value_counts()

Create Series of users

In [5]:
s_name = file.loc[:, 'ชื่อ-นามสกุล (อังกฤษ)']
Users = pd.Series(s_name, name='Users')
Users

0             PORPHAING JANTIP
1         THANAKORN DARASRISAK
2             KARNJANA EAMTANG
3             KARNJANA EAMTANG
4       THITIMUN VORATHONGCHAI
                 ...          
6122         KITTINON SANTASUP
6123      WITTAWAT SERMSRIPONG
6124               NON NAKKARA
6125         PHATTHARAPHON LIN
6126      THANAPAT SEEMAKAJOHN
Name: Users, Length: 6127, dtype: object

Create Series of emails

In [6]:
s_email = file.loc[:, 'อีเมล'].fillna("")
Emails = pd.Series(s_email ,name='Emails')
Emails

0            tanghaoren17@gamil.com
1               tuakung21@gmail.com
2            karnjana.aon@gmail.com
3            karnjana.aon@gmail.com
4          thitimun.rama1@gmail.com
                   ...             
6122           kittinon_s@cmu.ac.th
6123        wittawat_serm@cmu.ac.th
6124          non_nakkara@cmu.ac.th
6125    phattharaphon_lin@cmu.ac.th
6126         thanapat_see@cmu.ac.th
Name: Emails, Length: 6127, dtype: object

Provide a score to each user based on their email domain

In [7]:
email_score = []
for data in Emails:
    if data != '':
        if data.split('@')[1] == 'cmu.ac.th':
            email_score.append(2)
        else:
            email_score.append(1)
    else:
        email_score.append(0)
email_score = pd.Series(email_score, name='Score Emails')

email_score

0       1
1       1
2       1
3       1
4       1
       ..
6122    2
6123    2
6124    2
6125    2
6126    2
Name: Score Emails, Length: 6127, dtype: int64

Email Score Statistic

In [8]:
zero_score_count = email_score.where(email_score == 0).count()
one_score_count = email_score.where(email_score == 1).count()
two_score_count = email_score.where(email_score == 2).count()

print("Number of students who fill cmu email:", two_score_count)
print("Number of students who fill other email:", one_score_count)
print("Number of students who do not fill email:", zero_score_count)

Number of students who fill cmu email: 1268
Number of students who fill other email: 4853
Number of students who do not fill email: 6


Create function to calculate age-education score

In [9]:
def getAgeEducationScore(age, limit_age):
    if age <= limit_age:
        score = 1
    elif limit_age == 0:
        score = 0
    else:
        score = 3
    return score

Create set of the educational range

In [10]:
set_nan = {'อื่นๆ (-)', np.nan}
set_primaryschool = {'ประถมศึกษา', 'อื่นๆ (ป.4)', 'อื่นๆ (ป.7)', 'อื่นๆ (ป7)'}
set_middleschool = {'มัธยมศึกษาตอนต้น', 'Secondary school', 'อื่นๆ (มศ.3)'}
set_highschool = {'มัธยมศึกษาตอนปลาย', 'High school', 'Vocational', 'การศึกษานอกระบบ', 
                  'ประกาศนียบัตรวิชาชีพ (ปวช.)', 'อื่นๆ (ม.ปลาย จบหลักสูตรEMR เป็นจนท.ปฏิบัติการ)',
                  'อื่นๆ (กำลังศึกษาชั้นมัธยมศึกษาตอนปลาย)', 'อื่นๆ (กำลังศึกษาชั้นมัธยมศึกษาปีที่6)', 
                  'อื่นๆ (มศ.5)'}
set_bachelor = {'ปริญญาตรี', 'Bachelor degree', 'Diploma', 'High Vocational', 
                'ประกาศนียบัตรวิชาชีพชั้นสูง (ปวส.)', 'อื่นๆ (กำลังศึกษาในระดับปริญญาตรี)', 
                'อื่นๆ (กำลังศึกษาปริญญาตรี สาขารังสีเทคนิค)', 'อื่นๆ (ปริญญาแพทยศาสตร์บัณฑิต)', 
                'อื่นๆ (นักศึกษาแพทย์ปี 5)', 'อื่นๆ (นักศึกษาแพทย์ มช ปี4 ศูนย์เชียงราย)', 
                'อื่นๆ (แพทยศาสตร์บัณฑิต)', 'อื่นๆ (แพทย์)', 'อื่นๆ (ประกาศณียบัตรผู้ช่วยพยาบาล)', 
                'อนุปริญญา', 'อื่นๆ (ป.ตรี)', 'อื่นๆ (ผู้ช่วยพยาบาล)'}
set_masterdocter = {'ปริญญาโท', 'ปริญญาเอก', "Master's degree", 'Other (OBGYN specalist lavel 1)', 
                    'Other (Residency)', 'Ph.D.', 'อื่นๆ (Internal Medicine)', 
                    'อื่นๆ (เฉพาะทาง)', 'อื่นๆ (วุฒิบัตร)', 'อื่นๆ (วว.ออร์โธปิดิกส์)', 
                    'อื่นๆ (วุฒิบัตรแสดงความรู้ความชำนาญในการประกอบวิชาชีพเภสัชกรรม สาขาเภสัชบำบัด)', 
                    'อื่นๆ (วุฒิบัตรผู้เชี่ยวชาญสาขาทันตกรรมทั่วไป)', 'อื่นๆ (วุฒิบัตรศัลยศาสตร์และแม็กซิลโลเฟเชียล)'}

list_degree = ((set_nan, 0), (set_primaryschool, 16), (set_middleschool, 19), 
               (set_highschool, 22), (set_bachelor,26), (set_masterdocter,40))

Create Series of Age-Education

In [11]:
ages = file.loc[:, 'อายุ']
educations = file.loc[:, 'วุฒิการศึกษา']
age_education_scores = []

for i,x in enumerate(educations):
    for y in list_degree:
        if x in y[0]:
            age_education_scores.append(getAgeEducationScore(ages[i], y[1]))
            
age_education_scores = pd.Series(age_education_scores, name='Age Education Score')

Age-Education Score Statistic

In [12]:
zero_score_count = age_education_scores.where(age_education_scores == 0).count()
one_score_count = age_education_scores.where(age_education_scores == 1).count()
three_score_count = age_education_scores.where(age_education_scores == 3).count()

print("Number of students who do not specify education:", zero_score_count)
print("Number of students who do not specify education:", one_score_count)
print("Number of students who do not specify education:", three_score_count)

Number of students who do not specify education: 123
Number of students who do not specify education: 4229
Number of students who do not specify education: 1775


Create Series of status

In [13]:
status = file.loc[:, 'สถานะ'].fillna("")
status = pd.Series(status ,name='status')
status

0       ชำระเงิน
1       ชำระเงิน
2       ชำระเงิน
3       ชำระเงิน
4       ชำระเงิน
          ...   
6122    ชำระเงิน
6123    ชำระเงิน
6124    ชำระเงิน
6125    ชำระเงิน
6126    ชำระเงิน
Name: status, Length: 6127, dtype: object

Provide a score to each user based on their purchase status

In [14]:
status_score = []
for x in status:
    if x == 'ชำระเงิน':
        status_score.append(8)
    if x == 'ไม่ผ่านการอนุมัติ':
        status_score.append(7)
    if x == 'ค้างชำระ':
        status_score.append(5)
status_score = pd.Series(status_score)

Purchase Status Score Statistics

In [15]:
five_score_count = status_score.where(status_score == 5).count()
seven_score_count = status_score.where(status_score == 7).count()
eight_score_count = status_score.where(status_score == 8).count()

print("Number of students who are in arrears:", five_score_count)
print("Number of students whose payment was not approved:", seven_score_count)
print("Number of students with payment approval:", eight_score_count)

Number of students who are in arrears: 531
Number of students whose payment was not approved: 124
Number of students with payment approval: 5472


Create Series of address

In [16]:
address = file.loc[:, 'ที่อยู่'].fillna("")
address = pd.Series(address ,name='status')
address

0                                                        
1       125/27 ซ.3 ถ.ราษฎรยินดี ต.หน้าเมือง อ.เมือง จ....
2                                                        
3                                                        
4                                                        
                              ...                        
6122                                                     
6123                                                     
6124                                                     
6125                                                     
6126                                                     
Name: status, Length: 6127, dtype: object

Provide a score to each user based on whether they provide address information or not

In [17]:
address_score = [ 1 if x == '' else 2 for x in address]
address_score = pd.Series(address_score)

Address Score Statistic

In [18]:
three_score_count = address_score.where(address_score == 1).count()
four_score_count = address_score.where(address_score == 2).count()

print("Number of students who did not fill address:", three_score_count)
print("Number of students who filled address:", four_score_count)

Number of students who did not fill address: 4005
Number of students who filled address: 2122


Convert list to pandas series

In [19]:
email_score = pd.Series(email_score)
age_education_scores = pd.Series(age_education_scores)
status_score = pd.Series(status_score)
address_score = pd.Series(address_score)

Create DataFrame by merging these 4 Series and calculate impressive level

In [20]:
d = {
    'Email Score': email_score,
    'Age Education Score': age_education_scores,
    'Payment Score': status_score,
    'Address Score': address_score,
    'Point': email_score + status_score + address_score + age_education_scores,
    'Impressive Level': ( email_score + status_score + address_score + age_education_scores ) / 17
}
df = pd.DataFrame(d)
df

Unnamed: 0,Email Score,Age Education Score,Payment Score,Address Score,Point,Impressive Level
0,1,1,8,1,11,0.647059
1,1,3,8,2,14,0.823529
2,1,3,8,1,13,0.764706
3,1,3,8,1,13,0.764706
4,1,3,8,1,13,0.764706
...,...,...,...,...,...,...
6122,2,1,8,1,12,0.705882
6123,2,3,8,1,14,0.823529
6124,2,1,8,1,12,0.705882
6125,2,1,8,1,12,0.705882


Create user-course table

In [25]:
user = file.loc[:, 'ชื่อ-นามสกุล (อังกฤษ)']
course = file.loc[:, 'หลักสูตรอบรมระยะสั้น']
score = df['Impressive Level']
# all user, course, score have the same length
data = {
    'user': user,
    'course': course,
    'score': score,
}

predata = pd.DataFrame(data)

Calculate sparsity and csr matrix

In [30]:
data = predata.pivot_table(index='course', columns='user', values='score').fillna(0)
data_mtx = csr_matrix(data)
courses = pd.Series(data.index)
courses

0                     Cancer Epidemiology and Prevention
1      Coaching Skill : Crafting a New You สำหรับนักศ...
2      Coaching Skill : Crafting a New You สำหรับบุคล...
3      Development Studies & Social Research Speciali...
4                     Digital Transformation: e-Document
                             ...                        
163                             เวชศาสตร์ครอบครัวขั้นสูง
164    เวชศาสตร์ฟื้นฟูสำหรับแพทย์ฝึกอบรมเวชศาสตร์ฟื้น...
165    แปลงจุดแข็ง เป็นคุณค่า สร้างชีวิตสู่ความสุข  (...
166    แปลงจุดแข็ง เป็นคุณค่า สร้างชีวิตสู่ความสุข (S...
167    “ฟูมฟักทักษะสำคัญในชีวิตและการทำงาน Skills4Lif...
Name: course, Length: 168, dtype: object

Euclidean Distance & Cosine Similarity

In [23]:
model_knn = NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=int(np.around(math.sqrt(len(courses))))).fit(data_mtx)
model_knn

In [31]:
def recommender_knn(course_name, n_recommendations):
    model_knn.fit(data_mtx)
    idx = process.extractOne(course_name, courses)[2]
    print('Selected movie:', courses[idx], 'Index:', idx)
    print('Searching for recommendations...')
    distances, indices = model_knn.kneighbors(data_mtx[idx], n_neighbors=n_recommendations+1)
    recommendations = [courses[i].where(i!=idx) for i in indices]
    recommended_courses = recommendations[0][1:]
    course_distances = distances[0][1:]
    d = {
        'recommended_courses': recommended_courses,
        'course_distances': course_distances
    }
    results = pd.DataFrame(data=d)
    return results

In [33]:
recommender_knn('การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnostic Radiology of Traumatic Emergency)', 10)

Selected movie: การวินิจฉัยภาวะฉุกเฉินจากอุบัติเหตุ (Diagnostic Radiology of Traumatic Emergency) Index: 42
Searching for recommendations...


Unnamed: 0,recommended_courses,course_distances
43,การวินิจฉัยภาวะฉุกเฉินที่ไม่ได้เกิดจากอุบัติเห...,0.245415
131,หลักการและพื้นฐานของเครื่องมือทางรังสีวิทยา (B...,0.720149
110,รังสีวิทยาวินิจฉัย,0.771847
152,เตรียมความพร้อมทางรังสีวิทยาสำหรับบุคลากรทางกา...,0.819078
124,สารสนเทศทางสาธารณสุข 2566 (Public Health Infor...,0.931377
41,การวิจัยแบบผสมผสานทางสุขภาพ (Mixed Methods Res...,0.96754
117,วิทยาศาสตร์การแพทย์คลินิก สาขาวิชาเวชศาสตร์ฉุก...,0.973811
98,ทักษะความเป็นนักดนตรี,0.979891
136,หลักสูตรอบรมเข้มข้นระยะสั้นแพทย์-วิศวกรรมและวิ...,0.980135
3,Development Studies & Social Research Speciali...,0.982165
