In [24]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from konlpy.tag import Mecab
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Mecab을 이용해 일반명사 추출
def extract_nouns(text):
    mecab = Mecab()
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# tf-idf을 계산하여 상위 20개의 키워드 추출
def extract_keywords(text):
    nouns = extract_nouns(text) # 텍스트 명사 추출
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform([nouns])    # 명사 기반 TF-IDF 행렬 생성
    feature_names = vectorizer.get_feature_names_out()  # 행렬에서 키워드 목록 가져오기
    tfidf_scores = tfidf_matrix.toarray().flatten().tolist()    # 행렬 1차원 리스트로 변환
    top_indices = sorted(range(len(tfidf_scores)), key=lambda i: tfidf_scores[i], reverse=True)[:20]    # 상위 20개 키워드 인덱스 구하기
    top_keywords = [feature_names[i] for i in top_indices]  # for 문 돌면서 키워드 추출
    return top_keywords

# input 자기소개서와 job_keywords.csv파일의 키워드 추출을 내용을 유사도 검사
def cosin_similarity(user_keywords, job_keywords_df):
    vectorizer = TfidfVectorizer()
    job_keywords_matrix = vectorizer.fit_transform(job_keywords_df['keywords'])     # 직무 키워드 기반 TF-IDF 행렬 생성
    
    user_keywords_str = ', '.join(user_keywords)    # input데이터 키워드 콤마구분
    user_keywords_matrix = vectorizer.transform([user_keywords_str])    # input데이터 키워드 기반 TF-IDF 행렬 생성
    
    similarity_scores = cosine_similarity(user_keywords_matrix, job_keywords_matrix)    # 행렬간 코사인 유사도 계산
    
    # 결과 값이 가장 높은 데이터
    highest_score_index = np.argmax(similarity_scores)
    most_similar_keywords = job_keywords_df.iloc[highest_score_index]   # 가장 높은 점수 데이터프레임 행 가져옴
    
    return most_similar_keywords

if __name__ == "__main__":
    user_input = input("자기소개서 내용을 입력하세요: ")
    user_keywords = extract_keywords(user_input)
    
    job_keywords_df = pd.read_csv('csv/job_keywords.csv')
    most_similar_keywords = cosin_similarity(user_keywords, job_keywords_df)

    print("가장 유사한 직무와 키워드:")
    print(most_similar_keywords.drop(labels=['keywords','자소서갯수']))


TypeError: Series.rename() got an unexpected keyword argument 'columns'

In [22]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from konlpy.tag import Mecab
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Mecab을 이용해 일반명사 추출
def extract_nouns(text):
    mecab = Mecab()
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# tf-idf을 계산하여 상위 20개의 키워드 추출
def extract_keywords(text):
    nouns = extract_nouns(text) # 텍스트 명사 추출
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform([nouns])    # 명사 기반 TF-IDF 행렬 생성
    feature_names = vectorizer.get_feature_names_out()  # 행렬에서 키워드 목록 가져오기
    tfidf_scores = tfidf_matrix.toarray().flatten().tolist()    # 행렬 1차원 리스트로 변환
    top_indices = sorted(range(len(tfidf_scores)), key=lambda i: tfidf_scores[i], reverse=True)[:20]    # 상위 20개 키워드 인덱스 구하기
    top_keywords = [feature_names[i] for i in top_indices]  # for 문 돌면서 키워드 추출
    return top_keywords

# input 자기소개서와 job_keywords.csv파일의 키워드 추출을 내용을 유사도 검사
def compare_similarity(user_keywords, job_keywords_df):
    vectorizer = TfidfVectorizer()
    job_keywords_matrix = vectorizer.fit_transform(job_keywords_df['keywords'])     # 직무 키워드 기반 TF-IDF 행렬 생성
    
    user_keywords_str = ', '.join(user_keywords)    # input데이터 키워드 콤마구분
    user_keywords_matrix = vectorizer.transform([user_keywords_str])    # input데이터 키워드 기반 TF-IDF 행렬 생성
    
    similarity_scores = cosine_similarity(user_keywords_matrix, job_keywords_matrix)    # 행렬간 코사인 유사도 계산
    
    # 결과 값이 가장 높은 데이터
    highest_score_index = np.argmax(similarity_scores)
    most_similar_keywords = job_keywords_df.iloc[highest_score_index]   # 가장 높은 점수 데이터프레임 행 가져옴
    
    return most_similar_keywords

if __name__ == "__main__":
    user_input = input("자기소개서 내용을 입력하세요: ")
    user_keywords = extract_keywords(user_input)
    
    job_keywords_df = pd.read_csv('csv/company_keywords.csv')
    most_similar_keywords = compare_similarity(user_keywords, job_keywords_df)
    
    print("가장 유사한 기업와 키워드:")
    print(most_similar_keywords.drop(labels=['자소서갯수']))


가장 유사한 기업와 키워드:
company                 중소기업은행
keywords    은행, 금융, 고객, 기업, 생각
Name: 439, dtype: object
