## Import

In [1]:
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MultiLabelBinarizer
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
import gensim
assert gensim.models.word2vec.FAST_VERSION > -1
from gensim.models import Word2Vec
import datetime
import requests
import re
from bs4 import BeautifulSoup

## Data 준비하기

In [2]:
## < Data 준비하기 >
# 데이터 읽기
df_scholarship = pd.read_csv('dataset/scholarship_process.csv') # 장학금 데이터
# df_contest = pd.read_csv('contest.csv') # 공모전 데이터

# 인코딩
id_to_name = pd.Series(df_scholarship.scholarship_name.values, index = df_scholarship.idx.values)
name_to_id = pd.Series(df_scholarship.idx.values, index = df_scholarship.scholarship_name).to_dict()

df_scholarship.head(5)

Unnamed: 0.1,Unnamed: 0,idx,scholarship_name,foundation,scholarship_type,근로장학,기숙사/주거지원,기타장학,대출지원,연수/연구장학,...,대학원생,전문대생,중학생,청년,초등학생,선발 인원(명),선발인원규모,장학혜택(만원),장학혜택규모,memo
0,0,2000,2020년 포스코비전장학,포스코청암재단,장학금,0,0,0,0,0,...,0,0,0,0,0,99,대,1440,대,어려운 환경에서 올바른 품성을 가지고 학업에 정진하는 청소년들을 지원하고자 제철소 ...
1,2,2002,서원대 총동문회 장학 (2019년),서원대학교 총동문회,장학금,0,0,0,0,0,...,0,0,0,0,0,9,소,100,소,서원대학교 총동문회에서 총동문회비를 납부한 서원대 재학생을 지원하는 장학입니다.
2,3,2003,예술인 전세자금대출 (2019년),한국예술인복지재단,대출지원,0,0,0,1,0,...,0,0,0,0,0,0,인원미정,0,금액미정,한국예술인복지재단이 진행하는 예술인생활안정자금(융자) 전세자금대출 사업입니다.
3,4,2004,KRX DREAM 대학생 장학 (2020년),KRX 국민행복재단,장학금,0,0,0,0,0,...,0,1,0,0,0,40,중,600,대,KRX 국민행복재단에서 서울 및 부산 소재 대학에 재학 중인 학생을 지원하는 장학입니다.
4,10,2010,국가근로장학 (2020년 1학기),한국장학재단,근로장학,1,0,0,0,0,...,0,1,0,0,0,0,인원미정,0,금액미정,한국장학재단에서 시행하는 안정적인 학업여건 조성과 취업역량 제고를 위한 장학금입니다.


## 필요 없는 column 제거

In [3]:
df_scholarship = df_scholarship.drop(['Unnamed: 0', 'scholarship_type', 'target', '선발 인원(명)', '장학혜택(만원)', 'memo'], axis=1)
df_scholarship.head(5)

Unnamed: 0,idx,scholarship_name,foundation,근로장학,기숙사/주거지원,기타장학,대출지원,연수/연구장학,장학금,취업연계/산학장학,고등학생,기타/일반,대학생,대학원생,전문대생,중학생,청년,초등학생,선발인원규모,장학혜택규모
0,2000,2020년 포스코비전장학,포스코청암재단,0,0,0,0,0,1,0,1,1,1,0,0,0,0,0,대,대
1,2002,서원대 총동문회 장학 (2019년),서원대학교 총동문회,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,소,소
2,2003,예술인 전세자금대출 (2019년),한국예술인복지재단,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,인원미정,금액미정
3,2004,KRX DREAM 대학생 장학 (2020년),KRX 국민행복재단,0,0,0,0,0,1,0,0,0,1,0,1,0,0,0,중,대
4,2010,국가근로장학 (2020년 1학기),한국장학재단,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,인원미정,금액미정


## train, test set 만들기

In [4]:
# < train set, test set 만들기 >
df_scholarship_train, df_scholarship_test = train_test_split(df_scholarship, random_state = 15688, test_size=0.30)

## 장학금 타입, 지원 대상, 선발인원규모, 장학혜택규모가 같은 장학금끼리 묶기

In [5]:
# 비교할 때 제외할 열들의 이름 리스트
def data_splitter(df):
    exclude_cols = ['idx', 'scholarship_name', 'foundation']

    grouped_cols = [col for col in df_scholarship.columns if col not in exclude_cols]  # 제외할 열을 제외한 열들의 리스트

    df_grouped = df_scholarship.groupby(grouped_cols).apply(lambda x: x.idx.tolist())
    
    # 결과값을 str 타입으로 저장한 이중 배열
    array_of_groups = df_grouped.apply(lambda x: [str(val) for val in x]).tolist()
    return array_of_groups

In [6]:
pd.options.mode.chained_assignment = None
scholarship_ls = data_splitter(df_scholarship_train)

## 데이터 랜덤으로 섞고, 유효한 데이터 골라내기

In [7]:
for scholarships in scholarship_ls:
    random.shuffle(scholarships)

In [8]:
filtered_array = [group for group in scholarship_ls if len(group) > 1]

In [9]:
len(filtered_array)

403

## Model 생성 및 학습

In [10]:
# 모델 생성
model = Word2Vec(
    sentences=filtered_array,  # 전처리된 리스트를 파라미터로 사용
    vector_size=100,  # hidden layer 사이즈
    window=5,  # 주변 단어 창 크기
    min_count=1,  # 최소 등장 횟수
    workers=4,  # 사용할 CPU 스레드 수
    sg=1,  # Skip-gram 모델 사용
    hs=0,  # Negative sampling 사용
    negative=5,  # Negative sampling에서 사용할 negative 단어의 개수
    epochs=5  # 훈련 에포크 수
)

# 모델 저장
# model.save('item2vec_20230516')


# < 모델 불러오기 >
# warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

# model = Word2Vec.load('item2vec_20230407')

## 추천

In [11]:
def recommender(positive_list=None, negative_list=None, topn=20):
    recommend_scholarship_ls = []
    
    for scholarshipId, prob in model.wv.most_similar_cosmul(positive=positive_list, negative=negative_list, topn=topn):
        recommend_scholarship_ls.append(scholarshipId)
    return recommend_scholarship_ls

In [12]:
# recommender
reco = [2016] # 검색하고 싶은 idx
reco_str = [str(num) for num in reco]
recommandations = recommender(positive_list=reco_str, topn=5)
reco_int = [int(value) for value in recommandations] # str -> int
print(reco_int)

[4351, 5414, 5049, 4410, 5686]


In [13]:
# 입력 데이터
filtered_scholarship_names = df_scholarship.loc[df_scholarship['idx'].isin(reco), 'scholarship_name'].tolist()
print(filtered_scholarship_names)

['경희대 이수병 장학 (2020년)']


In [14]:
# 출력 데이터
filtered_scholarship_names = df_scholarship.loc[df_scholarship['idx'].isin(reco_int), 'scholarship_name'].tolist()
print(filtered_scholarship_names)

['독일어학연수 섬머코스장학', '신한장학재단 일반장학 (2022년)', '일주학술재단 해외박사 장학 (2022년)', '경기도 광주시 예술인 재난지원금 (2차)', '성균관대 63장학금']
