In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
os.chdir('/content/drive/MyDrive/응용통계학과 공모전')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import torch
import pickle
from tqdm import tqdm
from sklearn.cluster import KMeans
from transformers import AutoTokenizer, AutoModel
import ast

# 요약

## 1. 사용자 문장과 기술스택 입력받음

### 1. 사용자 문장 분석

- 1-1. 사용자 문장별로 군집을 할당
- 1-2. 사용자 문장들의 군집 비율을 계산, 이를 바탕으로 사용자의 직무 비율 계산
- 1-3. 사용자의 문장과 할당된 군집의 키워드를 비교하여 리스트로 추출
- 1-4. 추출된 키워드들을 하나로 모은 뒤, 사용자의 문장에 있는 단어와 겹치는 단어가 아직 남아있다면 리스트에서 삭제
- 1-5. 역량 제안

### 2. 사용자 기술스택 분석

- 2-1. 사용자가 알고자 하는 기술스택 그래프 선택
- 2-2. 사용자의 기술스택과 인접한 노드들의 기술스택 제시

### 3. 사용자 맞춤 채용공고 제안
- 3-1. 사용자 문장의 군집 분포를 계산
- 3-2. 채용공고 문장의 군집 분포를 계산
- 3-3. 사용자 문장의 군집 분포(1by4 vector)와 채용공고 군집분포 사이의 코사인 유사도 계산
- 3-4. 유사도가 가장 높은 채용공고를 제시


In [3]:
import numpy as np
import networkx as nx
import operator

from glob import glob

#직무별 기술스택 그래프 불러오기
# for g in glob('./*.gml'):
#     print(g.split('/')[-1].replace('_gpt.gml',''))
#     globals()[g.split('/')[-1].replace('_gpt.gml','')] = nx.read_gml(g)

# #직무별 기술스택 그래프 불러오기
ML_graph = nx.read_gml("ML_graph_gpt.gml")
DE_graph = nx.read_gml("DE_graph_gpt.gml")
DSC_graph = nx.read_gml("DSC_graph_gpt.gml")
BD_graph = nx.read_gml("BD_graph_gpt.gml")
BI_graph = nx.read_gml("BI_graph_gpt.gml")
DBA_graph = nx.read_gml("DBA_graph_gpt.gml")

def get_neighbors(target, graph):
  try:
    connected_nodes = list(graph.neighbors(target))
  except:
    connected_nodes = []

  # 연결된 노드 중에서 가중치가 높은 상위 4개 노드 출력
  if connected_nodes:
      weights = [(node, graph[target][node]['weight']) for node in connected_nodes]
      sorted_weights = sorted(weights, key=operator.itemgetter(1), reverse=True)
      return sorted_weights[:4]
  else:
      print(f"No nodes connected to '{target}'.")
      return -1

#만약 사용자 input이 graph내에 하나도 없을 경우 weight가 높은 순으로 node를 반환
def get_sorted_nodes(graph):

  edge_weights = nx.get_edge_attributes(graph, 'weight')

  # 가중치가 높은 순으로 노드 정렬
  sorted_nodes = sorted(edge_weights, key=edge_weights.get, reverse=True)

  return sorted_nodes[:10]

## 사용자 input예시

In [4]:
input1 = "kaggle 데이터 분석 프로젝트 경험이 다수 있어요."
input2 = "sql을 활용한 시각화 대시보드 구축 경험이 있어요."
input3 = "자연어와 같은 비정형 데이터 처리에 능숙합니다."
input4 = "고객 결제 패턴 분석을 통한 뉴스 추천 프로젝트 경험이 있어요."
skill_set = "python, sql, pytorch"
input_list = [input1, input2, input3, input4]

### 군집 할당

In [12]:
# 모델 로드
loaded_AutoModel = AutoModel.from_pretrained('./model/AutoModel_final')
loaded_AutoTokenizer = AutoTokenizer.from_pretrained('./model/AutoTokenizer_final')
loaded_kmeans = torch.load('./model/kmeans_final')

In [13]:
# Input_prediction함수
def predict_clusters(new_data, loaded_AutoModel, loaded_AutoTokenizer, loaded_kmeans):
    # Input 문장을 토큰화하고 BERT 임베딩
    tokenized_new_data = [loaded_AutoTokenizer(sentence, return_tensors='pt', padding=True, truncation=True) for sentence in new_data]
    encoded_new_data = [loaded_AutoModel(**tokens).last_hidden_state.mean(dim=1).detach().numpy() for tokens in tokenized_new_data]

    # float32로 형변환
    encoded_new_data = [embedding.astype('float32') for embedding in encoded_new_data]
    loaded_kmeans.cluster_centers_ = loaded_kmeans.cluster_centers_.astype('float32')

    # 각 새로운 문장에 대해 클러스터를 예측
    new_data_clusters = loaded_kmeans.predict(np.vstack(encoded_new_data))

    return new_data_clusters

In [14]:
# Input prediction
new_data_clusters = predict_clusters(input_list, loaded_AutoModel, loaded_AutoTokenizer, loaded_kmeans)

for sentence, cluster in zip(input_list, new_data_clusters):
    print(f"Sentence: {sentence} Predicted Cluster: {cluster}")

Sentence: kaggle 데이터 분석 프로젝트 경험이 다수 있어요. Predicted Cluster: 2
Sentence: sql을 활용한 시각화 대시보드 구축 경험이 있어요. Predicted Cluster: 2
Sentence: 자연어와 같은 비정형 데이터 처리에 능숙합니다. Predicted Cluster: 3
Sentence: 고객 결제 패턴 분석을 통한 뉴스 추천 프로젝트 경험이 있어요. Predicted Cluster: 3


### 군집별 직무비율 계산

In [15]:
import pandas as pd

def get_cluster_job_ratios(new_data_clusters):
    # CSV 파일 경로

    cluster_job_ratios = {}
    # df = pd.read_csv('data/final_job_to_sents_vector_kmeans.csv')
    df = pd.read_csv('./data/final_sentence_df.csv')

    cluster_job_ratios = {}
    for cluster in new_data_clusters:
        cluster = int(cluster)  # 클러스터 레이블을 int로 변환
        #직무별 개수가 다르므로, 이를 고려하여 cluster내 직무별 size 조절
        weighted_df = df[df['kmeans_label'] == cluster].groupby('직무').size() / df.groupby('직무').size()
        weighted_cluster_sum = weighted_df.sum()
        #조절한 뒤, cluster개 직무 비율 계산(합이 1이 되도록)
        job_ratios = weighted_df / weighted_cluster_sum
        #job_ratios = df[df['kmeans_label'] == cluster].groupby('직무').size() / len(df[df['kmeans_label'] == cluster])
        # job_ratios = df[df.kmeans_label == cluster].groupby('직무').size() / len(df[df.kmeans_label == cluster])
        cluster_job_ratios[cluster] = job_ratios.to_dict()

    # 전체 평균 직무 비율 계산
    overall_ratios = pd.concat([pd.Series(v) for v in cluster_job_ratios.values()], axis=1).mean(axis=1).to_dict()

    return {'cluster_data': cluster_job_ratios, 'overall_ratios': overall_ratios}

In [16]:
#내 문장을 활용한 직무 ratio
ratios = get_cluster_job_ratios(new_data_clusters)
ratios

{'cluster_data': {2: {'BI 엔지니어': 0.1721313630719024,
   'DBA': 0.19507647161693778,
   '데이터 사이언티스트': 0.1309664987728331,
   '데이터 엔지니어': 0.17801835681523437,
   '머신러닝 엔지니어': 0.15973431494014081,
   '빅데이터 엔지니어': 0.16407299478295156},
  3: {'BI 엔지니어': 0.1429751793066069,
   'DBA': 0.1410609769976876,
   '데이터 사이언티스트': 0.19090664914964037,
   '데이터 엔지니어': 0.1810418958113202,
   '머신러닝 엔지니어': 0.16692870210058333,
   '빅데이터 엔지니어': 0.1770865966341615}},
 'overall_ratios': {'BI 엔지니어': 0.15755327118925466,
  'DBA': 0.16806872430731268,
  '데이터 사이언티스트': 0.16093657396123673,
  '데이터 엔지니어': 0.1795301263132773,
  '머신러닝 엔지니어': 0.16333150852036207,
  '빅데이터 엔지니어': 0.17057979570855653}}

### 사용자 input 문장의 단어 추출

In [37]:
#!pip install soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m416.8/416.8 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [38]:
#input_list 데이터프레임 변경
df_sentence = pd.DataFrame({"sentence":input_list})

#soynlp 학습용 데이터
df = pd.read_csv("./data/final_sentence_df.csv")
df['sentence'] = df['sentence'].str.lower()

In [39]:
#불용어 처리

#불용어 사전 불러오기
with open('/content/drive/MyDrive/응용통계학과 공모전/data/korean_stopwords_응통.txt','r',encoding='utf-8-sig') as f:
    stopwords_list=[]
    example =f.readlines()
    for line in example:
        stopwords_list.append(line.strip())

#추가하고 싶은 불용어가 있다면 다음과 같이 넣어서 사용
add = ['근무조건','고용형태','근무장소','급여조건','합류','서류','전형','인터뷰','합격','유의사항','공고','모집','채용','정규직','면접','전형','근무시','출근']

#불용어 사전 정의
stop = add+stopwords_list

In [40]:
# WordExtractor의 parameter
# def __init__(max_left_length=10,
#            max_right_length=6,
#            min_frequency=5,
#            verbose_points=100000,
#            min_cohesion_forward=0.1,
#            min_cohesion_backward=0.0,
#            max_droprate_cohesion=0.95,
#            max_droprate_leftside_frequency=0.95,
#            min_left_branching_entropy=0.0,
#            min_right_branching_entropy=0.0,
#            min_left_accessor_variety=0,
#            min_right_accessor_variety=0,
#            remove_subwords=True)


# 형태소에 해당하는 단어를 분리하는 학습 수행
from soynlp.word import WordExtractor

# 다른 파라미터는 그냥 두고, min_frequency만 1로 설정.
word_extractor = WordExtractor(min_frequency=1)

# 단어 토큰화를 위해 df['combined'] 학습
word_extractor.train(df['sentence'].astype(str))

# cohesion, branching entropy, accessor variety score 계산
# cohension : 조건부확률을 통해 한글자씩 예측. cohension 값이 높은 위치가 하나의 단어를 이루고 있을 가능성이 큼.
# branching entropy : 확률분포의 엔트로피를 통  해서 계산
# accessor variety : 확률분포 없이, 다음 글자로 등장할 수 있는 경우의 수 계산
word_score = word_extractor.extract()

training was done. used memory 1.659 Gb
all cohesion probabilities was computed. # words = 43162
all branching entropies was computed # words = 35537
all accessor variety was computed # words = 35537


In [41]:
# soynlp의 토큰화 방식.

# L-토큰화
# 한국어의 경우 공백(띄어쓰기)으로 분리된 하나의 문자열은 ‘L 토큰 + R 토큰; 구조인 경우가 많음
# 왼쪽에 오는 L 토큰은 체언(명사, 대명사)이나 동사, 형용사 등이고 오른쪽에 오는 R 토큰은 조사, 동사, 형용사 등이다.
# 여러가지 길이의 L 토큰의 점수를 비교하여 가장 점수가 높 L단어를 찾는 방법
from soynlp.tokenizer import LTokenizer

# 최대점수토큰화
# 띄어쓰기가 되어 있지 않는 긴 문자열에서 가능한 모든 종류의 부분문자열을 만들어서 가장 점수가 높은 것을 하나의 토큰으로
# 우리는 띄어쓰기가 되어있는 텍스트니까 사용하지 않을 예정
from soynlp.tokenizer import MaxScoreTokenizer

# 규칙기반토큰화
# 우리가 사용하기에 적절치않음.
from soynlp.tokenizer import RegexTokenizer

In [42]:
from soynlp.noun import LRNounExtractor

# 명사 추출을 위해 df_sentence2['sentence'] 학습
noun_extractor = LRNounExtractor()
nouns = noun_extractor.train_extract(df['sentence'].astype(str))

[Noun Extractor] used default noun predictor; Sejong corpus predictor
[Noun Extractor] used noun_predictor_sejong
[Noun Extractor] All 2398 r features was loaded
[Noun Extractor] scanning was done (L,R) has (5215, 3106) tokens
[Noun Extractor] building L-R graph was done
[Noun Extractor] 872 nouns are extracted


In [43]:
# 명사추출기의 score와 cohesion score를 함께 이용해서 토큰화 하기

cohesion_score = {word:score.cohesion_forward for word, score in word_score.items()}
noun_scores = {noun:score.score for noun, score in nouns.items()}

combined_scores = {noun:score + cohesion_score.get(noun, 0)
    for noun, score in noun_scores.items()}

combined_scores.update(
    {subword:cohesion for subword, cohesion in cohesion_score.items()
    if not (subword in combined_scores)}
)

LTokenizer = LTokenizer(scores=combined_scores)

In [44]:
# 토큰화 한뒤, 토큰마다 명사 판별 진행하여 명사 추출하기. nouns 컬럼에 결과 저장.

train_list=list(df_sentence.sentence)
num_result = []
for i in range(len(train_list)):
    num = []
    tok = LTokenizer.tokenize(str(train_list[i]))
    for j in tok:
        if noun_extractor.is_noun(j) and j not in stop:
            num.append(j)
    num_result.append(num)

df_sentence['nouns'] = num_result
df_sentence.head()

Unnamed: 0,sentence,nouns
0,kaggle 데이터 분석 프로젝트 경험이 다수 있어요.,"[kaggle, 데이터, 분석, 프로젝트, 다수]"
1,sql을 활용한 시각화 대시보드 구축 경험이 있어요.,"[sql, 시각화, 대시보드, 구축]"
2,자연어와 같은 비정형 데이터 처리에 능숙합니다.,"[자연어, 데이터, 처리, 능숙]"
3,고객 결제 패턴 분석을 통한 뉴스 추천 프로젝트 경험이 있어요.,"[고객, 패턴, 분석, 프로젝트]"


In [55]:
df_copy.iloc[3, 1] = ['고객','패턴','분석','추천','프로젝트']
df_copy

Unnamed: 0,sentence,nouns
0,kaggle 데이터 분석 프로젝트 경험이 다수 있어요.,"[kaggle, 데이터, 분석, 프로젝트, 다수]"
1,sql을 활용한 시각화 대시보드 구축 경험이 있어요.,"[sql, 시각화, 대시보드, 구축]"
2,자연어와 같은 비정형 데이터 처리에 능숙합니다.,"[자연어, 데이터, 처리, 능숙]"
3,고객 결제 패턴 분석을 통한 뉴스 추천 프로젝트 경험이 있어요.,"[고객, 패턴, 분석, 추천, 프로젝트]"


### 문장별 noun 이용해서 군집별 키워드 가져오기

In [45]:
# keyword_0 = pd.read_csv("./data/cluster0.csv", header=0)
# keyword_1 = pd.read_csv("./data/cluster1.csv", header=0)
# keyword_2 = pd.read_csv("./data/cluster2.csv", header=0)
# keyword_3 = pd.read_csv("./data/cluster3.csv", header=0)
keyword = pd.read_csv("./data/keyword_df.csv", header=0)
keyword

Unnamed: 0,Cluster0,Cluster1,Cluster2,cluster3
0,분석,시스템,python,기술
1,통계,관리,sql,업무
2,research,연구,pytorch,해결
3,빅데이터,알고리즘,언어,검색엔진
4,ml,query,aws,프로젝트
5,logic,llm,server,빅데이터
6,mlops,트렌드,java,아이디어
7,논문,기계학습,docker,극대화
8,tensorflow,mlops,텍스트,ml
9,lab,sdk,정형화,llm


In [46]:
gpt_input = []
for nouns, cluster in zip(df_sentence['nouns'], new_data_clusters):
    #군집의 키워드를 사용자 키워드와 비교하여 추출해옴
    keys_list = [str(item) for item in keyword.iloc[:, cluster].tolist() if item not in nouns]
    gpt_input.extend(keys_list)

#최종 추출된 키워드를 사용자 키워드와 한번 더 비교함(다른 군집에서도 사용자 키워드가 중복된 경우가 있을 수 있음)
user_keywords = list(set([word for sublist in df_sentence['nouns'].tolist() for word in sublist]))
gpt_input_list = [item for item in gpt_input if item not in user_keywords and item != 'nan']
gpt_input_list

['python',
 'pytorch',
 '언어',
 'aws',
 'server',
 'java',
 'docker',
 '텍스트',
 '정형화',
 'gpu',
 'pipeline',
 'sdk',
 'tensorflow',
 'engine',
 'framework',
 'sre',
 'dbms',
 'github',
 'finetuning',
 '디바이스',
 'python',
 'pytorch',
 '언어',
 'aws',
 'server',
 'java',
 'docker',
 '텍스트',
 '정형화',
 'gpu',
 'pipeline',
 'sdk',
 'tensorflow',
 'engine',
 'framework',
 'sre',
 'dbms',
 'github',
 'finetuning',
 '디바이스',
 '기술',
 '업무',
 '해결',
 '검색엔진',
 '빅데이터',
 '아이디어',
 '극대화',
 'ml',
 'llm',
 'finetuning',
 'dl',
 'slack',
 'dropout',
 'function',
 '최적화',
 '시뮬레이션',
 '성능',
 'lab',
 'sre',
 '기술',
 '업무',
 '해결',
 '검색엔진',
 '빅데이터',
 '아이디어',
 '극대화',
 'ml',
 'llm',
 'finetuning',
 'dl',
 'slack',
 'dropout',
 'function',
 '최적화',
 '시뮬레이션',
 '성능',
 'lab',
 'sre']

# gpt모델 활용하여 문장생성

In [47]:
gpt_input = ",".join(list(set(gpt_input_list)))
gpt_input

'dl,finetuning,빅데이터,검색엔진,lab,engine,function,dbms,slack,tensorflow,github,시뮬레이션,기술,aws,성능,ml,sdk,언어,정형화,pipeline,극대화,java,server,pytorch,텍스트,docker,아이디어,dropout,디바이스,python,해결,framework,llm,sre,업무,최적화,gpu'

In [None]:
#!pip install openai

Collecting openai
  Downloading openai-1.3.7-py3-none-any.whl (221 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m221.4/221.4 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.25.2-py3-none-any.whl (74 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.2-py3-none-any.whl (76 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: h11, httpcore, httpx, openai
[31mERROR: pip's dependency resolver does not

In [51]:
import openai

# OpenAI API 키 설정 (자신의 API 키로 대체해야 함)
api_key = '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'
openai.api_key = api_key

# GPT-3 API 호출 함수
def generate_cluster_keyword(skill):
    response = openai.chat.completions.create(
        model="gpt-3.5-turbo",
        messages= [
            {"role": "system", "content": "당신은 입력된 단어를 이용해서, 사용자에게 관련된 역량을 길러보라고 알려주는 machine입니다."},
            {"role": "system", "content": "단어에 대한 설명은 생략하고, 짧은 문장들로만 답변을 제시하세요."},
            {"role": "system", "content": "예를들어, git이라는 단어를 이용해서 -> Git을 사용하여 버전 관리 및 협업을 경험해보세요. 와 같은 문장이 제시되어야 합니다."},
            {"role": "system", "content": "입력받은 단어가 최대한 들어가도록 문장들을 구성하세요."},
            {"role": "system", "content": "llm은 large language model를 의미합니다."},
            {"role": "system", "content": "만약 React와 같이 기술스택과 관련한 단어를 입력받았다면, 당신의 답변은 'React 프레임워크 기술을 쌓아보세요.'와 같은 문장이어야 합니다."},
            {"role": "system", "content": "학위와 관련된 단어를 입력받았다면, 당신의 답변은 '전문적인 지식이 요구되는 분야이니, 석사 이상의 학위 취득을 추천드립니다.'와 같은 문장이어야 합니다. "},
            {"role": "system", "content": "경험 혹은 역량과 관련된 단어라면, 관련된 경험을 쌓아보라는 문장을 제시해야 합니다."},
            {"role": "system", "content": "위에서 요구한 문장외에는 답변하지 마세요."},
            {"role": "system", "content": "한글로 답변하세요."},
            {"role": "user", "content" : skill}
        ],
        temperature=0.5
    )
    return response.choices[0].message.content

### 역량 답변

In [52]:
#gpt 답변
generated_sentence = generate_cluster_keyword(gpt_input)

# 문장을 점(.)으로 나누기
sentences = generated_sentence.split('.')

# 공백을 제거하고 문장을 다시 조립
output = "\n".join(sentence.strip() + '.' for sentence in sentences if sentence)

print(output)

다음은 입력받은 단어들을 활용하여 제시할 수 있는 문장들입니다:

- Deep Learning 모델을 Fine-tuning하여 성능을 향상시켜보세요.
- 빅데이터를 활용하여 데이터 분석 및 예측 모델을 구축해보세요.
- 검색엔진의 작동 원리와 최적화 방법을 공부해보세요.
- Lab 환경에서 다양한 실험을 진행하여 역량을 키워보세요.
- Engine의 동작 원리를 이해하고, Function들을 최적화해보세요.
- DBMS를 사용하여 데이터를 효율적으로 관리해보세요.
- Slack을 활용하여 팀 협업과 커뮤니케이션을 원활하게 해보세요.
- TensorFlow나 PyTorch와 같은 ML 프레임워크를 사용하여 모델을 구현해보세요.
- GitHub을 통해 버전 관리와 협업을 경험해보세요.
- 시뮬레이션을 통해 다양한 상황에서의 결과를 예측해보세요.
- 다양한 기술들을 익히고, 실제 프로젝트에 적용해보세요.
- AWS를 활용하여 클라우드 환경에서의 업무를 경험해보세요.
- 성능을 극대화하기 위해 최적화 기법을 적용해보세요.
- ML 모델을 개발하기 위해 SDK를 사용해보세요.
- 다양한 언어를 학습하여 다양한 프로젝트에 적용해보세요.
- 데이터를 정형화하여 분석하고, 의사결정에 활용해보세요.
- Pipeline을 구축하여 자동화된 작업 흐름을 경험해보세요.
- Java를 사용하여 서버 개발을 해보세요.
- PyTorch를 사용하여 텍스트 분석 모델을 구축해보세요.
- Docker를 사용하여 애플리케이션을 컨테이너화해보세요.
- 아이디어를 창출하고 실제로 구현해보세요.
- Dropout을 사용하여 모델의 일반화 성능을 향상시켜보세요.
- 다양한 디바이스에서 모델을 구동시켜보세요.
- Python을 사용하여 문제를 해결해보세요.
- 다양한 프레임워크를 활용하여 프로젝트를 구현해보세요.
- Large Language Model을 학습시켜 다양한 자연어 처리 작업을 수행해보세요.
- SRE 역할을 경험하여 시스템의 안정성과 신뢰성을 높여보세요.
- 업무를 수행하면서 다양한 기

### 기술스택 답변

In [7]:
# GPT-3 API 호출 함수
def generate_skillset(skill):
    response = openai.chat.completions.create(
        model="gpt-3.5-turbo",
        messages= [
            {"role": "system", "content": "당신은 입력된 단어를 이용해서, 사용자에게 관련된 역량을 길러보라고 알려주는 machine입니다."},
            {"role": "system", "content": "단어에 대한 설명은 생략하고, 짧은 문장으로만 답변을 제시하세요."},
            {"role": "system", "content": "입력받은 단어가 최대한 들어가도록 문장을 구성하세요."},
            {"role": "system", "content": "만약 React와 같이 기술스택과 관련한 단어를 입력받았다면, 당신의 답변은 'React 프레임워크 기술을 쌓아보세요.'와 같은 문장이어야 합니다."},
            {"role": "system", "content": "학위와 관련된 단어를 입력받았다면, 당신의 답변은 '전문적인 지식이 요구되는 분야이니, 석사 이상의 학위 취득을 추천드립니다.'와 같은 문장이어야 합니다. "},
            {"role": "system", "content": "경험 혹은 역량과 관련된 단어라면, 관련된 경험을 쌓아보라는 문장을 제시해야 합니다."},
            {"role": "system", "content": "한글로 답변하세요."},
            {"role": "user", "content" : skill}
        ],
        temperature=0.5
    )
    return response.choices[0].message.content

In [19]:
#상위 1, 2위 계산
sorted_ratios = sorted(ratios['overall_ratios'].items(), key=lambda x: x[1], reverse=True)
sorted_ratios[:2]

[('데이터 엔지니어', 0.1795301263132773), ('빅데이터 엔지니어', 0.17057979570855653)]

In [20]:
ratios['overall_ratios']

{'BI 엔지니어': 0.15755327118925466,
 'DBA': 0.16806872430731268,
 '데이터 사이언티스트': 0.16093657396123673,
 '데이터 엔지니어': 0.1795301263132773,
 '머신러닝 엔지니어': 0.16333150852036207,
 '빅데이터 엔지니어': 0.17057979570855653}

In [21]:
selected_job = []
#1위의 직무명
selected_job.append(sorted_ratios[0][0])
#2위의 직무명
selected_job.append(sorted_ratios[1][0])

In [22]:
selected_job

['데이터 엔지니어', '빅데이터 엔지니어']

In [23]:
graph_list = []
for graph in selected_job:
  if graph == 'DBA':
    graph_list.append(DBA_graph)
  elif graph == '머신러닝 엔지니어':
    graph_list.append(ML_graph)
  elif graph == '데이터 사이언티스트':
    graph_list.append(DSC_graph)
  elif graph == 'BI 엔지니어':
    graph_list.append(BI_graph)
  elif graph == '데이터 엔지니어':
    graph_list.append(DE_graph)
  else:
    graph_list.append(BD_graph)

In [25]:
pip install openai

Collecting openai
  Downloading openai-1.3.7-py3-none-any.whl (221 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m221.4/221.4 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.25.2-py3-none-any.whl (74 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.2-py3-none-any.whl (76 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: h11, httpcore, httpx, openai
[31mERROR: pip's dependency resolver does not

In [35]:
import openai
#전역변수
GRAPH1 = graph_list[0]
GRAPH2 = graph_list[1]

#주변 노드가 담길 list
neighbor_list = []
extracted_nodes = []

#input의 주변 노드를 구함
for skill in skill_set.split(','):
  tmp = get_neighbors(skill.strip(), GRAPH1)
  if tmp != -1:
    neighbor_list.append(tmp)

#주변 노드를 담는 리스트가 비어있지 않으면
if neighbor_list:
  # gpt 모델에 전달할 기술스택 리스트를 뽑는 과정
  for i in range(len(neighbor_list)):
    for j in range(4):
      extracted_nodes.append(neighbor_list[i][j][0])


#사용자의 스킬이 그래프 내에 존재하지 않아서 주변 노드 리스트가 비어있는 경우
else:
  rank = get_sorted_nodes(GRAPH1)

  for i in range(len(rank)):
    extracted_nodes.append(rank[i][0])
    extracted_nodes.append(rank[i][1])

# extracted_nodes에서 사용자에게 인풋으로 받은 기술스택은 추천하지 않도록 제거
skill_set_list = [value.strip() for value in skill_set.split(',')]
extracted_nodes = [value for value in extracted_nodes if value not in skill_set_list]
print(skill_set_list)
print(extracted_nodes)

gpt_input = ",".join(list(set(extracted_nodes)))
print(gpt_input)
#gpt 답변
generated_sentence = generate_skillset(gpt_input)

# 문장을 점(.)으로 나누기
sentences = generated_sentence.split('.')

# 공백을 제거하고 문장을 다시 조립
output = "\n".join(sentence.strip() + '.' for sentence in sentences if sentence)

print(output)

['python', 'sql', 'pytorch']
['aws', 'mysql', 'docker', 'aws', 'java', 'linux', 'tensorflow', 'git', 'docker']
git,linux,java,tensorflow,mysql,docker,aws
Git을 활용하여 협업 능력을 키워보세요.
Linux 환경에서의 개발 경험을 쌓아보세요.
Java 언어로 다양한 프로젝트를 진행해보세요.
TensorFlow를 활용하여 인공지능 역량을 키워보세요.
MySQL을 다뤄보며 데이터베이스 관련 역량을 키워보세요.
Docker를 사용하여 애플리케이션 배포 및 관리 능력을 키워보세요.
AWS를 활용하여 클라우드 컴퓨팅 역량을 키워보세요.


In [34]:
job = ['git','java','javascript','tensorflow','aws']
job

['git', 'java', 'javascript', 'tensorflow', 'aws']

In [36]:
#input의 주변 노드를 구함
for skill in skill_set.split(','):
  tmp = get_neighbors(skill.strip(), GRAPH2)
  if tmp != -1:
    neighbor_list.append(tmp)

#주변 노드를 담는 리스트가 비어있지 않으면
if neighbor_list:
  # gpt 모델에 전달할 기술스택 리스트를 뽑는 과정
  for i in range(len(neighbor_list)):
    for j in range(4):
      extracted_nodes.append(neighbor_list[i][j][0])


#사용자의 스킬이 그래프 내에 존재하지 않아서 주변 노드 리스트가 비어있는 경우
else:
  rank = get_sorted_nodes(GRAPH2)

  for i in range(len(rank)):
    extracted_nodes.append(rank[i][0])
    extracted_nodes.append(rank[i][1])

# extracted_nodes에서 사용자에게 인풋으로 받은 기술스택은 추천하지 않도록 제거
skill_set_list = [value.strip() for value in skill_set.split(',')]
extracted_nodes = [value for value in extracted_nodes if value not in skill_set_list]
print(skill_set_list)
print(extracted_nodes)

gpt_input = ",".join(list(set(extracted_nodes)))
print(gpt_input)
#gpt 답변
generated_sentence = generate_skillset(gpt_input)

# 문장을 점(.)으로 나누기
sentences = generated_sentence.split('.')

# 공백을 제거하고 문장을 다시 조립
output = "\n".join(sentence.strip() + '.' for sentence in sentences if sentence)

print(output)

['python', 'sql', 'pytorch']
['aws', 'mysql', 'docker', 'aws', 'java', 'linux', 'tensorflow', 'git', 'docker', 'aws', 'mysql', 'docker', 'aws', 'java', 'linux', 'tensorflow', 'git', 'docker', 'aws', 'mysql', 'docker', 'aws', 'java', 'linux', 'tensorflow', 'git', 'docker']
git,linux,java,tensorflow,mysql,docker,aws
Git을 사용하여 협업 및 버전 관리 능력을 향상시켜보세요.
Linux 환경에서의 개발 경험을 쌓아보세요.
Java 언어를 익혀 다양한 애플리케이션을 개발해보세요.
TensorFlow를 활용하여 머신러닝 및 딥러닝 역량을 키워보세요.
MySQL 데이터베이스를 다루는 능력을 향상시켜보세요.
Docker를 활용하여 애플리케이션을 컨테이너화해보세요.
AWS 클라우드 서비스를 이용하여 인프라 구축 및 관리 능력을 향상시켜보세요.


# 사용자 맞춤 채용공고

- 채용공고별 군집의 분포를 count하여 저장해야 함

- **사용자의 문장또한 군집 분포를 count하여야 함**

- 사용자의 군집 분포 count vector, 채용공고들의 count vector를 각각 비교하여 가장 거리가 짧은(유클라디안) 채용공고의 내용들을 표시

### 사용자 군집 분포 계산

In [None]:
new_data_clusters

array([3, 0, 2, 3], dtype=int32)

In [None]:
import numpy as np

# 각 군집 count 초기화
user_clusters_count = [0,0,0,0]

# 각 군집의 등장 횟수 계산
for cluster in new_data_clusters:
    user_clusters_count[cluster] += 1

#등장 횟수를 비율로 변환
total_count = np.sum(user_clusters_count)
user_clusters_ratio = user_clusters_count / total_count

print(user_clusters_count)
print(user_clusters_ratio)

[1, 0, 1, 2]
[0.25 0.   0.25 0.5 ]


### 채용공고 군집 분포와 비교

In [None]:
gonggo = pd.read_csv('./data/Gonggo.csv')
gonggo

Unnamed: 0,공고명,직무,유사 직무,업종,회사명,주요업무,자격요건,우대사항,label_ratios
0,"AI, ML Engineer 박사급",머신러닝 엔지니어,"데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",플리토,기존 플리토 번역기에 신규 언어쌍 추가 및 플리토 번역기 성능 고도화를 담당합니다 ...,"AI , ML 등 관련 분야에서 박사 학위를 받았거나 받을 예정인 분 ML 프레...",모델을 직접 만들었거나 공개된 모델을 finetuning해서 성능을 향상시킨 경험이...,"[0.1, 0.1, 0.4, 0.4]"
1,AI 컴파일러 개발자 (1년 이상),머신러닝 엔지니어,머신러닝 엔지니어,"IT, 컨텐츠",티에스엔랩,MLIR 기반의 AI 컴파일러 관련 프로젝트에 참여합니다,웬만한 중견기업 못지 않은 복지 정책을 지원 임직원 연차 구분 없이 20일 휴가 ...,,"[0.6363636363636364, 0.09090909090909091, 0.09..."
2,LLM 연구원 (자연어 처리),머신러닝 엔지니어,머신러닝 엔지니어,"IT, 컨텐츠",딥노이드(Deepnoid),LLM 모델 연구 및 고도화LLM 연구의 서비스화를 위한 개발 지원,"경력 3년 이상 또는 관련 학과 석사 학위 소지자PyTorch, Tensorflo...","인공지능 관련 대회해커톤, 캐글, 그랜드챌린지 등의 출전 경험 및 입상Multi...","[0.16666666666666666, 0.16666666666666666, 0.2..."
3,AI R&D 팀장,머신러닝 엔지니어,머신러닝 엔지니어,"IT, 컨텐츠",딥노이드(Deepnoid),sLLM 모델 연구개발 및 서비스 고도화 sLLM 기반의 서비스 모델 개발 및 튜닝...,AI 관련학과 박사학위 소지자 또는 이에 준하는 경력 보유자LLM 관련 최신 논문 ...,"AI 관련 Top tier 학회NeurIPS, CVPR, AAAI 등 논문 게재...","[0.2727272727272727, 0.2727272727272727, 0.181..."
4,소프트웨어 엔지니어,머신러닝 엔지니어,"웹 개발자,머신러닝 엔지니어,소프트웨어 엔지니어","IT, 컨텐츠","스타인펠드(Steinfeld,Inc.)",AI 개발보철물 자동 디자인을 위한 AI 모델 개발보철물 자동 디자인 서비스 운영환...,python 또는 TypeScript 로 개발 경험 있으신분 Open mind 를 ...,성장하는 스타트업에 관심 있으신 분,"[0.18181818181818182, 0.36363636363636365, 0.1..."
...,...,...,...,...,...,...,...,...,...
1111,[100억↑투자] DBA / DA,DBA,"데이터 엔지니어,데이터 사이언티스트","IT, 컨텐츠",스마트스코어,"골프장 ERP DBA , DA 서비스 및 솔루션 분석, DB 설계, 쿼리작성 ...","MySql 특히, AWS aurora 설치, 구성, 운영 경력자 대형 서비스 전체...","PHP, JAVA 개발 경험 ERP 설계 경험","[0.45454545454545453, 0.36363636363636365, 0.1..."
1112,"데이터베이스 복제 솔루션 개발(C/C++, Linux/Unix)",DBA,C++ 개발자,"IT, 컨텐츠",아크데이타,데이터베이스 변경 로그 추출 데이터 저장 및 추출 데이터베이스,"신입 or 경력 C , C",데이터베이스에 대한 전반적인 이해도가 높으신 분 데이터베이스 기반 프로그래밍 경험이...,"[0.25, 0.125, 0.25, 0.375]"
1113,[핀트] DBA,DBA,"데이터 엔지니어,보안 엔지니어",금융,디셈버앤컴퍼니(핀트),OnPremise 기반 환경의 데이터베이스를 구축하고 운영합니다 클라우드 기반 환경...,"3년 이상의 DBA 경험이MySQL, PostgreSQL, Maria DB 있는...","증권, 카드, 뱅킹 관련 핀테크 산업군의 경험이 있는 분 자동화 작업 및 배치 ...","[0.08333333333333333, 0.08333333333333333, 0.2..."
1114,DBA,DBA,"서버 개발자,소프트웨어 엔지니어",금융,핀다(FINDA),핀다 DBA는 아키텍처를 구성하고 Database를 안정적으로 운영합니다 데이터베이...,"MYSQL DB 운영 경험이 3년 이상 있는 분 DB 보안, 백업에 대한 이해도가...","서비스 DB 설계 및 구축 경험 있는 분 플랫폼 DB 운영, 아카이브 서비스 경험...","[0.0, 0.23529411764705882, 0.17647058823529413..."


In [None]:
#중복값이 존재 -> 다 보여주자
gonggo['label_ratios'].value_counts()

[0.4166666666666667, 0.16666666666666666, 0.08333333333333333, 0.3333333333333333]      9
[0.3333333333333333, 0.4444444444444444, 0.1111111111111111, 0.1111111111111111]        7
[0.1, 0.1, 0.4, 0.4]                                                                    6
[0.08333333333333333, 0.8333333333333334, 0.08333333333333333, 0.0]                     6
[0.23076923076923078, 0.5384615384615384, 0.15384615384615385, 0.07692307692307693]     6
                                                                                       ..
[0.25, 0.0, 0.125, 0.625]                                                               1
[0.3076923076923077, 0.0, 0.3076923076923077, 0.38461538461538464]                      1
[0.5294117647058824, 0.29411764705882354, 0.11764705882352941, 0.058823529411764705]    1
[0.25, 0.0, 0.25, 0.5]                                                                  1
[0.0, 0.23529411764705882, 0.17647058823529413, 0.5882352941176471]                     1
Name: labe

In [None]:
# 문자열을 리스트로 변환, 안하면 코사인 유사도 계산 안됨
gonggo['label_ratios'] = gonggo['label_ratios'].apply(ast.literal_eval)

1. 모든 공고를 다 보여주자
-> 근데 중복값을 보니 다 같은 회사의 공고라 내용이 동일

In [None]:
from sklearn.metrics.pairwise import cosine_similarity


# 사용자 문장과 가장 유사도가 높은 채용공고를 탐색
# 코사인 유사도 계산
#gonggo['cosine_similarity'] = gonggo['label_ratios'].apply(lambda x: cosine_similarity([user_clusters_ratio], [x])[0][0])
gonggo['cosine_similarity'] = gonggo['label_ratios'].apply(lambda x: cosine_similarity([[0.416, 0.166, 0.083,0.333]], [x])[0][0])

m = max(gonggo['cosine_similarity'])
similar_index = [index for index, val in enumerate(gonggo['cosine_similarity']) if val == m]

# 가장 유사한 벡터(들)의 인덱스
similar_index

[88, 130, 139, 182, 256, 789, 833, 955, 994]

In [None]:
gonggo.loc[similar_index]

Unnamed: 0,공고명,직무,유사 직무,업종,회사명,주요업무,자격요건,우대사항,label_ratios,cosine_similarity
88,[신입] VISION AI 연구/개발 분야 (팀원),머신러닝 엔지니어,머신러닝 엔지니어,"IT, 컨텐츠",피노키오랩,"VISION 딥러닝, 머신러닝 솔루션 연구 및 개발 이미지 분류 및 예측을 위한 ...",전공 공학계열 컴퓨터공학 또는 수학 전공 등 우대 학력 대학교 관련 학부 졸업 또는...,컴퓨터 비전 관련 학회에 제1저자 혹은 교신저자로 논문 게재 문제를 찾고 해결하는...,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
130,VISION AI 연구/개발 분야 (팀원),머신러닝 엔지니어,머신러닝 엔지니어,"IT, 컨텐츠",피노키오랩,"VISION 딥러닝, 머신러닝 솔루션 연구 및 개발 이미지 분류 및 예측을 위한 ...",전공 공학계열 컴퓨터공학 또는 수학 전공 등 우대 학력 대학교 관련 학부 졸업 또는...,컴퓨터 비전 관련 학회에 제1저자 혹은 교신저자로 논문 게재 문제를 찾고 해결하는...,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
139,VISION AI 연구/개발 분야 (팀장),머신러닝 엔지니어,머신러닝 엔지니어,"IT, 컨텐츠",피노키오랩,"VISION 딥러닝, 머신러닝 솔루션 연구 및 개발 이미지 분류 및 예측을 위한 ...",전공 공학계열 컴퓨터공학 또는 수학 전공 등 학력 대학원 석사 우대팀장 경력 VI...,컴퓨터 비전 관련 학회에 제1저자 혹은 교신저자로 논문 게재 문제를 찾고 해결하는...,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
182,NLP 엔지니어 병역특례 전문연구요원,머신러닝 엔지니어,"데이터 사이언티스트,빅데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",튜닙,"대화 모델링, 엔지니어링 데이터 수집, 정제, 엔지니어링 대화 윤리 모듈 개발 ...",전문연구요원 공고입니다 한국어 또는 영어 둘 중 하나는 능숙하신 분 PyTorch...,관련 학과 전공자 해당 직무 근무 경험자,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
256,NLP 엔지니어,머신러닝 엔지니어,"데이터 사이언티스트,빅데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",튜닙,"대화 모델링, 엔지니어링 데이터 수집, 정제, 엔지니어링 대화 윤리 모듈 개발 ...","한국어 또는 영어 둘 중 하나는 능숙하신 분 PyTorch, TensorFlow...",관련 학과 전공자 해당 직무 근무 경험자 전문연구요원 가능,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
789,NLP 엔지니어 병역특례 전문연구요원,데이터 사이언티스트,"데이터 사이언티스트,빅데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",튜닙,"대화 모델링, 엔지니어링 데이터 수집, 정제, 엔지니어링 대화 윤리 모듈 개발 ...",전문연구요원 공고입니다 한국어 또는 영어 둘 중 하나는 능숙하신 분 PyTorch...,관련 학과 전공자 해당 직무 근무 경험자,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
833,NLP 엔지니어,데이터 사이언티스트,"데이터 사이언티스트,빅데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",튜닙,"대화 모델링, 엔지니어링 데이터 수집, 정제, 엔지니어링 대화 윤리 모듈 개발 ...","한국어 또는 영어 둘 중 하나는 능숙하신 분 PyTorch, TensorFlow...",관련 학과 전공자 해당 직무 근무 경험자 전문연구요원 가능,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
955,NLP 엔지니어 병역특례 전문연구요원,빅데이터 엔지니어,"데이터 사이언티스트,빅데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",튜닙,"대화 모델링, 엔지니어링 데이터 수집, 정제, 엔지니어링 대화 윤리 모듈 개발 ...",전문연구요원 공고입니다 한국어 또는 영어 둘 중 하나는 능숙하신 분 PyTorch...,관련 학과 전공자 해당 직무 근무 경험자,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0
994,NLP 엔지니어,빅데이터 엔지니어,"데이터 사이언티스트,빅데이터 엔지니어,머신러닝 엔지니어","IT, 컨텐츠",튜닙,"대화 모델링, 엔지니어링 데이터 수집, 정제, 엔지니어링 대화 윤리 모듈 개발 ...","한국어 또는 영어 둘 중 하나는 능숙하신 분 PyTorch, TensorFlow...",관련 학과 전공자 해당 직무 근무 경험자 전문연구요원 가능,"[0.4166666666666667, 0.16666666666666666, 0.08...",1.0


2. 그냥 중복 겹쳐도 하나만 보여주자. 그래야 unique한 공고일듯

In [None]:
# 코사인 유사도 계산
gonggo['cosine_similarity'] = gonggo['label_ratios'].apply(lambda x: cosine_similarity([user_clusters_ratio], [x])[0][0])

# 가장 유사한 벡터의 행들을 저장
similar_index = gonggo['cosine_similarity'].idxmax()
similar_index

296

In [None]:
gonggo.loc[[similar_index]]

Unnamed: 0,공고명,직무,유사 직무,업종,회사명,주요업무,자격요건,우대사항,label_ratios,cosine_similarity
296,신호처리/알고리즘 PART,머신러닝 엔지니어,"파이썬 개발자,C++ 개발자,머신러닝 엔지니어","IT, 컨텐츠",아이시냅스,"Matlab, Python 외 관련 S, W 기반 신호처리 알고리즘 개발 전형절차...",Git 등을 이용한 협업에 익숙하신 분 커뮤니케이션에 능숙하신 분,C 언어 가능자 우대,"[0.25, 0.0, 0.25, 0.5]",1.0
