## **데이터 셋**

* 데이터 전처리
(소득분위, 학년, 수료학기, ....) 추가

In [None]:
# 해당 데이터 + 필터링 특징

# 장학금 설명
scholarship_descriptions = [
    "데이터 과학 기술 혁신 창의력, 데이터 분석 및 프로그래밍 경험 우대",
    "사회 공헌 봉사 리더십, 봉사활동 및 사회적 책임 프로젝트 경험자",
    "국제 문화 교류 글로벌, 해외 경험 및 여러 문화를 이해할 수 있는 역량",
    "예술 창작 디자인, 예술 작품 전시 경험 및 창의적 작업 포트폴리오"
]

# 사용자 프로필
user_profiles = [
    "영어영문학과, TOEFL 점수 우수, 여러 국가 여행 경험, 국제 문화 교류에 관심 많음",
    "컴퓨터 과학 전공, 데이터 분석 대회 수상 경력, 여러 프로그래밍 언어 능숙",
    "미술학과 전공, 다수의 예술 작품 전시회 참여, 창의적 작업에 대한 열정",
    "도예과 전공, 다수의 도자기 제작 대회 수상 경력, 다수의 포트폴리오 보유"
]

# **코드**

In [None]:
from transformers import BertModel, BertTokenizer
import torch
from sklearn.metrics.pairwise import cosine_similarity

# BERT 모델과 토크나이저 초기화
model_name = "klue/bert-base"  # klue/bert-base 사용
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# 텍스트를 BERT 임베딩으로 변환하는 함수
def text_to_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)  # 문장의 평균 임베딩 반환

# 장학금 설명과 사용자 프로필의 유사도 계산
def recommend_scholarship(scholarship_descriptions, user_profiles):
    scholarship_embeddings = [text_to_embedding(desc) for desc in scholarship_descriptions]

    recommendations = []
    for profile in user_profiles:
        profile_embedding = text_to_embedding(profile)
        similarities = [cosine_similarity(profile_embedding.detach().numpy(), sch_emb.detach().numpy())[0][0] for sch_emb in scholarship_embeddings]

        # 가장 유사도가 높은 장학금 인덱스 찾기
        recommended_scholarship_idx = similarities.index(max(similarities))
        recommendations.append((profile, scholarship_descriptions[recommended_scholarship_idx], max(similarities)))

    return recommendations

recommendations = recommend_scholarship(scholarship_descriptions, user_profiles)

for profile, recommendation, similarity in recommendations:
    print(f"프로필: {profile}\n추천 장학금: {recommendation}\n유사도: {similarity:.4f}\n")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/289 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/495k [00:00<?, ?B/s]



config.json:   0%|          | 0.00/425 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/445M [00:00<?, ?B/s]

프로필: 영어영문학과, TOEFL 점수 우수, 여러 국가 여행 경험, 국제 문화 교류에 관심 많음
추천 장학금: 국제 문화 교류 글로벌, 해외 경험 및 여러 문화를 이해할 수 있는 역량
유사도: 0.7412

프로필: 컴퓨터 과학 전공, 데이터 분석 대회 수상 경력, 여러 프로그래밍 언어 능숙
추천 장학금: 데이터 과학 기술 혁신 창의력, 데이터 분석 및 프로그래밍 경험 우대
유사도: 0.7834

프로필: 미술학과 전공, 다수의 예술 작품 전시회 참여, 창의적 작업에 대한 열정
추천 장학금: 예술 창작 디자인, 예술 작품 전시 경험 및 창의적 작업 포트폴리오
유사도: 0.7553

프로필: 도예과 전공, 다수의 도자기 제작 대회 수상 경력, 다수의 포트폴리오 보유
추천 장학금: 예술 창작 디자인, 예술 작품 전시 경험 및 창의적 작업 포트폴리오
유사도: 0.6330

