주요 어휘 추출 전처리 후 페이지 추천 기능 적용

1. 전처리 코드 완성(디버깅 포함, 워드클라우드 생성)

※ 라이브러리 및 프레임워크 필요시 설치

!pip install konlpy

!pip install JPype1

!pip install wordcloud matplotlib

!pip install --upgrade pip

!pip install --upgrade Pillow

In [None]:
import pandas as pd
import requests
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Okt
import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
# 데이터 로드
df = pd.read_csv("data/wanted_crawling_all_data.csv", index_col=None, 
                 parse_dates=['Title', 'URL'], encoding='cp949')

In [None]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

In [None]:
# 형태소 분석기 초기화
okt = Okt()

In [None]:
# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환 (영어에 유용)
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 명사와 함께 영어 단어도 추출하기 위해 영어 필터링 추가
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)  # 영어 단어 추출
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

In [None]:
# TF-IDF 기반 중요 단어 추출 함수
def get_important_words(column_text, n=50):
    vectorizer = TfidfVectorizer(max_features=n, max_df=0.85, min_df=1) 
    X = vectorizer.fit_transform(column_text)
    if X.shape[0] == 0:  # 문서가 없는 경우
        return []
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = X.toarray().sum(axis=0)
    word_score_pairs = sorted(zip(feature_names, tfidf_scores), key=lambda x: x[1], reverse=True)
    return word_score_pairs

In [None]:
# 각 열에 대해 전처리 및 TF-IDF 기반 중요 단어 추출 (URL 칼럼 제외)
important_words_dict = {}

In [None]:
for column in df.columns:
    # 해당 칼럼은 처리하지 않음
    if column in ['Title', 'Company', 'Career', 'Deadline', 'Location', 'Duty', 'URL']:
        continue
    if df[column].dtype == 'object':  # 문자열 데이터에 대해서만 처리
        # 전처리 및 명사 추출
        df[column] = df[column].apply(preprocess_text)
        column_text = df[column].dropna().tolist()  # NaN 값 제거 및 리스트로 변환
        
        # 텍스트 샘플 출력 (디버깅용)
        print(f"Column: {column}")
        print("Sample Texts:")
        print(column_text[:5])  # 상위 5개 텍스트 샘플 출력
        
        if len(column_text) > 0:  # 데이터가 있는 경우에만 처리
            # TF-IDF 기반 중요 단어 추출
            important_words = get_important_words(column_text, n=50)
            if important_words:  # 중요 단어가 추출된 경우에만 처리
                important_words_dict[column] = important_words

In [None]:
# 각 칼럼별 중요 단어를 CSV 파일로 저장
for column, words in important_words_dict.items():
    df_words = pd.DataFrame(words, columns=['Word', 'Score'])
    df_words.to_csv(f'{column}_important_words.csv', index=False, encoding='utf-8-sig')

In [None]:
# 전처리된 텍스트 확인 (디버깅용)
for column in df.columns:
    if column in important_words_dict:
        print(f"Column: {column}")
        print(df[column].head())

In [None]:
# 전처리된 데이터프레임 저장
df.to_csv('preprocessed_data_all.csv', index=False, encoding='utf-8-sig')

In [None]:
# 워드클라우드 생성 및 저장 함수
def create_wordcloud(words, column_name):
    word_freq = dict(words)  # 중요 단어와 점수를 딕셔너리 형태로 변환
    wordcloud = WordCloud(font_path='C:/Windows/Fonts/malgun.ttf',  # 한글 폰트 경로
                          width=800, height=400, 
                          background_color='white').generate_from_frequencies(word_freq)
    
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title(f'Word Cloud for {column_name}')
    plt.savefig(f'{column_name}_wordcloud.png', format='png')
    plt.show()

# 각 칼럼별 워드클라우드 생성 및 저장
for column, words in important_words_dict.items():
    create_wordcloud(words, column)

2. 데이터 전처리 후 추천기능 적용(통합검색 추천)

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re

In [None]:
# 데이터 로드
df = pd.read_csv("data/wanted_crawling_all_data.csv", index_col=None, encoding='cp949')

In [None]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환 (영어에 유용)
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 명사와 함께 영어 단어도 추출하기 위해 영어 필터링 추가
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)  # 영어 단어 추출
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

In [None]:
# 형태소 분석기 초기화
from konlpy.tag import Okt
okt = Okt()

In [None]:
# 사용자의 조건을 입력받아 유사한 채용 공고 추천하는 함수
def recommend_jobs(user_query, df, okt, top_n=5):
    # NaN 값을 빈 문자열로 대체
    df.fillna('', inplace=True)
    # 여러 칼럼을 전처리 (Title, Company, 주요 업무, 기술 스택 등 필요한 칼럼 추가)
    df['preprocessed_title'] = df['Title']
    df['preprocessed_company'] = df['Company']
    df['preprocessed_career'] = df['Career']
    df['preprocessed_work'] = df['Work'].apply(lambda x: preprocess_text(x, okt))
    df['preprocessed_qualification'] = df['Qualification'].apply(lambda x: preprocess_text(x, okt))
    df['preprocessed_addition'] = df['Addition'].apply(lambda x: preprocess_text(x, okt))
    df['preprocessed_welfare'] = df['Welfare'].apply(lambda x: preprocess_text(x, okt))
    df['preprocessed_skill'] = df['Skill']
    df['preprocessed_tag'] = df['Tag']
    df['preprocessed_deadline'] = df['Deadline']
    df['preprocessed_location'] = df['Location']
    df['preprocessed_duty'] = df['Duty']
    
    # 사용자가 입력한 질의를 전처리
    query_preprocessed = preprocess_text(user_query, okt)

    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()

    # 여러 칼럼을 하나의 텍스트로 결합 (공백을 추가하여 결합)
    df['combined_text'] = df['preprocessed_title'] + ' ' + df['preprocessed_company'] + ' ' + df['preprocessed_career'] + ' ' + df['preprocessed_work'] + ' ' + df['preprocessed_qualification'] + ' ' + df['preprocessed_addition'] + ' ' + df['preprocessed_welfare'] + ' ' + df['preprocessed_skill'] + ' ' + df['preprocessed_tag'] + ' ' + df['preprocessed_deadline'] + ' ' + df['preprocessed_location'] + ' ' + df['preprocessed_duty']
    combined_matrix = vectorizer.fit_transform(df['combined_text'])
    
    # 사용자의 질의를 벡터화
    query_vector = vectorizer.transform([query_preprocessed])

    # 코사인 유사도 계산
    similarity_scores = cosine_similarity(query_vector, combined_matrix).flatten()

    # 유사도 순으로 상위 N개의 인덱스 추출
    top_indices = similarity_scores.argsort()[-top_n:][::-1]

    # 상위 N개의 회사, 제목, URL을 추천
    recommendations = df[['Title', 'Company', 'URL']].iloc[top_indices]
    return recommendations

In [None]:
# 사용자가 선택한 조건
user_query = "서울에 있는 신입 뽑는 IT 기업 추천해줘"

# 채용 공고 추천
recommended_jobs = recommend_jobs(user_query, df, okt, top_n=5)

In [None]:
# 추천 결과 출력
print(recommended_jobs)

3. 문답 형식에 따른 채용공고 추천 코드(조건에 따른 검색 추천)

 1) 구글 맵스를 활용한 근무지 위치 정확한 주소로 변경(주소 전처리)

In [None]:
#!pip install googlemaps

In [None]:
import googlemaps

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm

In [None]:
# 데이터 로드
df = pd.read_csv("data/wanted_crawling_all_data.csv", index_col=None, encoding='cp949')

In [None]:
gmaps_key = 'AIzaSyBWUgRUl_18YTfLl4hXjNPfNBYRh-HwF40'
gmaps = googlemaps.Client(key = gmaps_key)

In [None]:
def fetch_location(location):
    tmp = gmaps.geocode(location, language='ko')
    if tmp:
        return tmp[0].get('formatted_address')
    return location

# tqdm으로 진행 상황 표시
with ThreadPoolExecutor(max_workers=10) as executor:
    # tqdm을 사용하여 진행 상황 표시
    df['Location'] = list(tqdm(executor.map(fetch_location, df['Location']), total=len(df['Location'])))

In [None]:
df['Location']

# 'Location' 칼럼 정확한 주소로 변경
for i in range(len(df['Location'])):
    location = df['Location'][i]
    
    # Google Maps 주소 변환
    tmp = gmaps.geocode(location, language='ko')
    
    #'formatted_address'로 Location 값 업데이트
    if tmp:  # tmp 리스트가 존재할 시
        df['Location'][i] = tmp[0].get('formatted_address')

# 결과 확인
print(df['Location'])

In [None]:
# 전처리된 데이터프레임 저장
df.to_csv('preprocessed_locationdata_all.csv', index=False, encoding='cp949')

2) 조건에 따른 검색기능(주소 전처리 후 조건 검색 기능 추가)

In [None]:
# 데이터 로드
df = pd.read_csv("data/preprocessed_locationdata_all.csv", index_col=None, encoding='cp949')

In [None]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 영어 단어 추출
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

In [None]:
# 형태소 분석기 초기화
from konlpy.tag import Okt
okt = Okt()

In [None]:
# 사용자 검색어 입력
def ask_question(question):
    response = input(question + " ")
    return response

# 조건에 따른 필터링
def filter_jobs_by_criteria(df, location=None, duty=None, career=None):
    filtered_df = df.copy()
    
    # 조건에 따라 데이터 필터링
    if location and not pd.isna(location):
        filtered_df = filtered_df[filtered_df['Location'].str.strip().str.contains(location.strip(), case=False, na=False)]
    if duty and not pd.isna(duty):
        filtered_df = filtered_df[filtered_df['Duty'].str.strip().str.contains(duty.strip(), case=False, na=False)]
    if career and not pd.isna(career):
        filtered_df = filtered_df[filtered_df['Career'].str.strip().str.contains(career.strip(), case=False, na=False)]
    
    return filtered_df

# 유사 채용 공고 추천 함수 (문답에 따른 범위 좁히기)
def recommend_interactively(df, okt):
    # 사용자의 선택 조건을 순차적으로 입력
    location = ask_question("선호하는 지역을 말씀해주세요:")
    duty = ask_question("선호하는 직무를 말씀해주세요:")
    career = ask_question("경력에 대한 조건을 말씀해주세요:")

    # 필터링된 데이터프레임
    filtered_df = filter_jobs_by_criteria(df, location, duty, career)
    
    if filtered_df.empty:
        print("해당 조건에 맞는 채용 공고가 없습니다.")
        return
    
    # 전처리 (필요한 칼럼에 대한 전처리 수행)
    filtered_df['preprocessed_work'] = filtered_df['Work'].apply(lambda x: preprocess_text(x, okt))
    filtered_df['preprocessed_qualification'] = filtered_df['Qualification'].apply(lambda x: preprocess_text(x, okt))
    filtered_df['preprocessed_addition'] = filtered_df['Addition'].apply(lambda x: preprocess_text(x, okt))
    filtered_df['preprocessed_welfare'] = filtered_df['Welfare'].apply(lambda x: preprocess_text(x, okt))

    # 사용자 질의를 입력받고 전처리
    user_query = ask_question("검색하려는 키워드를 입력해주세요:")
    query_preprocessed = preprocess_text(user_query, okt)

    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()

    # 여러 칼럼을 결합하여 벡터화
    filtered_df['combined_text'] = (
        filtered_df['Title'].fillna('') + ' ' +
        filtered_df['Company'].fillna('') + ' ' +
        filtered_df['preprocessed_work'].fillna('') + ' ' +
        filtered_df['preprocessed_qualification'].fillna('') + ' ' +
        filtered_df['preprocessed_addition'].fillna('') + ' ' +
        filtered_df['preprocessed_welfare'].fillna('') + ' ' +
        filtered_df['Skill'].fillna('') + ' ' +
        filtered_df['Tag'].fillna('') + ' ' +
        filtered_df['Deadline'].fillna('') + ' ' +
        filtered_df['Location'].fillna('') + ' ' +
        filtered_df['Duty'].fillna('')
    )

    # TfidfVectorizer를 적용
    combined_matrix = vectorizer.fit_transform(filtered_df['combined_text'])

    # 사용자 질의를 벡터화
    query_vector = vectorizer.transform([query_preprocessed])

    # 코사인 유사도 계산
    similarity_scores = cosine_similarity(query_vector, combined_matrix).flatten()

    # 유사도 순으로 상위 5개의 인덱스 추출
    top_indices = similarity_scores.argsort()[-5:][::-1]

    # 상위 5개의 회사, 제목, URL을 추천
    recommendations = filtered_df[['Title', 'Company', 'URL']].iloc[top_indices]
    
    print("추천 결과:")
    print(recommendations)

In [None]:
# 채용 공고 추천 시스템 실행
recommend_interactively(df, okt)

3) 조건에 따른 채용공고 추천(오타 가능) - 정확도 떨어짐(폐기)

!pip install fuzzywuzzy[speedup]

In [None]:
import pandas as pd
import re
from konlpy.tag import Okt
from fuzzywuzzy import process, fuzz
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
# 데이터 로드
df = pd.read_csv("data/preprocessed_locationdata_all.csv", index_col=None, encoding='cp949')

In [None]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

In [None]:
# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 영어 단어 추출
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

# 유사한 텍스트 찾기 함수 (fuzzy 매칭)
def fuzzy_match(input_text, choices, threshold=70):
    if not input_text or pd.isna(input_text):
        return None
    # 입력 텍스트와 choices 리스트에서 가장 유사한 텍스트 추출
    best_match = process.extractOne(input_text.strip(), choices, score_cutoff=threshold)
    if best_match:
        return best_match[0]  # best_match는 (matched_text, score)의 튜플로 반환됨
    return None

# 조건에 따른 필터링 (fuzzy 매칭 적용)
def filter_jobs_by_criteria(df, location=None, duty=None, career=None):
    filtered_df = df.copy()
    
    # Location에 따른 fuzzy 필터링
    if location and not pd.isna(location):
        location_choices = filtered_df['Location'].dropna().unique().tolist()
        matched_location = fuzzy_match(location, location_choices)
        if matched_location:
            filtered_df = filtered_df[filtered_df['Location'].str.contains(matched_location, case=False, na=False)]

    # Duty에 따른 fuzzy 필터링
    if duty and not pd.isna(duty):
        duty_choices = filtered_df['Duty'].dropna().unique().tolist()
        matched_duty = fuzzy_match(duty, duty_choices)
        if matched_duty:
            filtered_df = filtered_df[filtered_df['Duty'].str.contains(matched_duty, case=False, na=False)]

    # Career에 따른 fuzzy 필터링
    if career and not pd.isna(career):
        career_choices = filtered_df['Career'].dropna().unique().tolist()
        matched_career = fuzzy_match(career, career_choices)
        if matched_career:
            filtered_df = filtered_df[filtered_df['Career'].str.contains(matched_career, case=False, na=False)]
    
    return filtered_df

In [None]:
# 사용자 검색어 입력
def ask_question(question):
    response = input(question + " ")
    return response

# 유사 채용 공고 추천 함수 (문답에 따른 범위 좁히기)
def recommend_interactively(df, okt):
    # 사용자의 선택 조건을 순차적으로 입력
    location = ask_question("선호하는 지역을 말씀해주세요:")
    duty = ask_question("선호하는 직무를 말씀해주세요:")
    career = ask_question("경력에 대한 조건을 말씀해주세요:")

    # 필터링된 데이터프레임
    filtered_df = filter_jobs_by_criteria(df, location, duty, career)
    
    if filtered_df.empty:
        print("해당 조건에 맞는 채용 공고가 없습니다.")
        return
    
    # 전처리 (필요한 칼럼에 대한 전처리 수행)
    filtered_df['preprocessed_work'] = filtered_df['Work'].apply(lambda x: preprocess_text(x, okt))
    filtered_df['preprocessed_qualification'] = filtered_df['Qualification'].apply(lambda x: preprocess_text(x, okt))
    filtered_df['preprocessed_addition'] = filtered_df['Addition'].apply(lambda x: preprocess_text(x, okt))
    filtered_df['preprocessed_welfare'] = filtered_df['Welfare'].apply(lambda x: preprocess_text(x, okt))

    # 사용자 질의를 입력받고 전처리 없이 저장
    user_query = ask_question("검색하려는 키워드를 입력해주세요:")
    
    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()

    # 여러 칼럼을 결합하여 벡터화
    filtered_df['combined_text'] = (
        filtered_df['Title'].fillna('') + ' ' +
        filtered_df['Company'].fillna('') + ' ' +
        filtered_df['preprocessed_work'].fillna('') + ' ' +
        filtered_df['preprocessed_qualification'].fillna('') + ' ' +
        filtered_df['preprocessed_addition'].fillna('') + ' ' +
        filtered_df['preprocessed_welfare'].fillna('') + ' ' +
        filtered_df['Skill'].fillna('') + ' ' +
        filtered_df['Tag'].fillna('') + ' ' +
        filtered_df['Deadline'].fillna('') + ' ' +
        filtered_df['Location'].fillna('') + ' ' +
        filtered_df['Duty'].fillna('')
    )

    # TfidfVectorizer를 적용
    combined_matrix = vectorizer.fit_transform(filtered_df['combined_text'])

    # 사용자 질의를 벡터화
    query_vector = vectorizer.transform([user_query])  # 전처리 없이 사용자 질의 사용

    # 코사인 유사도 계산
    similarity_scores = cosine_similarity(query_vector, combined_matrix).flatten()

    # 유사도 순으로 상위 10개의 인덱스 추출
    top_indices = similarity_scores.argsort()[-10:][::-1]

    # 상위 10개의 회사, 제목, URL을 추천
    recommendations = filtered_df[['Title', 'Company', 'URL', 'combined_text']].iloc[top_indices]

    # fuzzy matching을 사용하여 유사한 키워드를 찾기
    fuzzy_recommendations = []
    for idx in top_indices:
        row = recommendations.iloc[top_indices.tolist().index(idx)]  # 수정된 부분
        score = fuzz.partial_ratio(user_query, row['combined_text'])  # 전처리 없이 사용자 질의 사용
        combined_score = (similarity_scores[idx] + score) / 2  # 코사인 유사도와 fuzzy 점수 결합
        fuzzy_recommendations.append((row['Title'], row['Company'], row['URL'], combined_score))

    # 유사도 점수를 기준으로 상위 5개 추출
    fuzzy_recommendations = sorted(fuzzy_recommendations, key=lambda x: x[3], reverse=True)[:5]

    # 추천 결과 출력
    print("추천 결과:")
    for title, company, url, score in fuzzy_recommendations:
        print(f"회사: {company}, 제목: {title}, URL: {url}, 유사도: {score}")

In [None]:
# 채용 공고 추천 시스템 실행
recommend_interactively(df, Okt())

 4. 전처리 과정 분리 후 조건에 따른 검색(241001 화요일)

1) 전처리

In [1]:
import pandas as pd
import requests
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from konlpy.tag import Okt
import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm

In [2]:
# 데이터 로드
df = pd.read_csv("data/preprocessed_locationdata_all.csv", index_col=None, encoding='cp949')

In [3]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

In [4]:
# 형태소 분석기 초기화
okt = Okt()

In [5]:
# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환 (영어에 유용)
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 명사와 함께 영어 단어도 추출하기 위해 영어 필터링 추가
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)  # 영어 단어 추출
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

In [6]:
# TF-IDF 기반 중요 단어 추출 함수
def get_important_words(column_text, n=50):
    vectorizer = TfidfVectorizer(max_features=n, max_df=0.85, min_df=1) 
    X = vectorizer.fit_transform(column_text)
    if X.shape[0] == 0:  # 문서가 없는 경우
        return []
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = X.toarray().sum(axis=0)
    word_score_pairs = sorted(zip(feature_names, tfidf_scores), key=lambda x: x[1], reverse=True)
    return word_score_pairs

In [7]:
# 각 열에 대해 전처리 및 TF-IDF 기반 중요 단어 추출 (URL 칼럼 제외)
important_words_dict = {}

In [9]:
for column in df.columns:
    # 해당 칼럼은 처리하지 않음
    if column in ['Title', 'Company', 'Career', 'Deadline', 'Location', 'Duty', 'URL']:
        continue
    if df[column].dtype == 'object':  # 문자열 데이터에 대해서만 처리
        # 전처리 및 명사 추출
        df[column] = df[column].apply(lambda x: preprocess_text(x, okt))
        column_text = df[column].dropna().tolist()  # NaN 값 제거 및 리스트로 변환
        
        # 텍스트 샘플 출력 (디버깅용)
        print(f"Column: {column}")
        print("Sample Texts:")
        print(column_text[:5])  # 상위 5개 텍스트 샘플 출력
        
        if len(column_text) > 0:  # 데이터가 있는 경우에만 처리
            # TF-IDF 기반 중요 단어 추출
            important_words = get_important_words(column_text, n=50)
            if important_words:  # 중요 단어가 추출된 경우에만 처리
                important_words_dict[column] = important_words

Column: Work
Sample Texts:
['주요 책임 글로벌 유저 대상 게임 플랫폼 개발 플랫폼 서비스 운영 지속 개선 게임 서비스 백오피스 기능 개발 도화주 환경 프로젝트 일정 집중 기간 존재 web', '합류 토스 레이스 오프라인 결제 시장 디지털 혁신 만들기 위해 매장 운영 문제 해결 레이스 초창 멤버 로서 오프라인 결제 시장 마주 도전 문제 처음 고민 개발 사장 대시보드 홈페이지 웹사이트 토스 결제 단말기 서비스 웹뷰 모든 플랫폼 기술 이용 사용자 향상 위해 토스 공통 라이브러리 제작 기여 windowsmacosandroidios tds', '프레임워크 개발 유지 보수 자사 솔루션 백오피스 비롯 마이크로 사이트 개발 유지 보수 활용 데이터 바인 렌더링 설계 구현 vuejs ui', '모바일 게임 마피아 서버 개발자 채팅 모바일 온라인 게임 서버 개발', '제휴 파트너 효과 테크 서비스 개발 성장 중인 트래블 월렛 차세대 외환 결제 백오피스 개발 퍼블릭 웹서비스 개발 운영 백오피스 사내 운영 개발 운영 travelwallet enterprise inapp webview']
Column: Qualification
Sample Texts:
['필수 자격 요건 학력 전공 무관 개발 보유 유저 서비스 개발 보유 이해 지식 보유 라이브러리 프레임워크 활용 개발 관심 선호 자격 요건 개발 언어 로서 이해 언어 강화 위해 노력 환경 모바일 웹뷰 보유 기술 이해 렌더링 개발 배포 스크립트 작성 구축 운용 지식 협업 실무 보유 디자인 시스템 실무 보유 웹사이트 성능 최적화 분필 효과 커뮤니케이션 여러 유관 부서 외부 관계자 협업 협력 사고 통합 관점 목표 의식 주도 추진 문제 파악 분석 적극 선제 문제해결 책임감 결과물 품질 완성 기준 typescript html css nextjs react svelte vuejs javascript webview cef isr cicd monorepo figma', '분과 프레임워크 사용 개발 주도 문제 발견 분석 해결 이용

In [10]:
# 각 칼럼별 중요 단어를 CSV 파일로 저장
for column, words in important_words_dict.items():
    df_words = pd.DataFrame(words, columns=['Word', 'Score'])
    df_words.to_csv(f'{column}_important_words.csv', index=False, encoding='utf-8-sig')

In [11]:
# 전처리된 텍스트 확인 (디버깅용)
for column in df.columns:
    if column in important_words_dict:
        print(f"Column: {column}")
        print(df[column].head())

Column: Work
0    주요 책임 글로벌 유저 대상 게임 플랫폼 개발 플랫폼 서비스 운영 지속 개선 게임 ...
1    합류 토스 레이스 오프라인 결제 시장 디지털 혁신 만들기 위해 매장 운영 문제 해결...
2    프레임워크 개발 유지 보수 자사 솔루션 백오피스 비롯 마이크로 사이트 개발 유지 보...
3                모바일 게임 마피아 서버 개발자 채팅 모바일 온라인 게임 서버 개발
4    제휴 파트너 효과 테크 서비스 개발 성장 중인 트래블 월렛 차세대 외환 결제 백오피...
Name: Work, dtype: object
Column: Qualification
0    필수 자격 요건 학력 전공 무관 개발 보유 유저 서비스 개발 보유 이해 지식 보유 ...
1    분과 프레임워크 사용 개발 주도 문제 발견 분석 해결 이용 정적 타입 분석 reac...
2    이해 프론트엔드 프레임워크 이해 개발 의사소통 협업 javascripttypescr...
3    자료구조 알고리즘 운영체제 네트워크 컴퓨터 학적 지식 언어 지식 설계 개발 포트폴리...
4    관련 개발 실력 보유 활용 어플리케이션 평소 사용 사용 커뮤니케이션 react ty...
Name: Qualification, dtype: object
Column: Addition
0    조직 문화 자율 출퇴근 무제한 연차 휴가 스스로 관리 의견 교환 상호 신뢰 근거 수...
1    이력서 작성 추천 플랫폼 관련 공통 서비스 공통 라이브러리 구현 운영 해당 진행 이...
2    이해 관심 사용 성능 최적화 관심 이해 테스트 자동화 단위 테스트 라이브러리 모듈 ...
3    게임 웹앱 온라인 서비스 백엔드 개발 용량 부하 시스템 설계 운영 리눅스 운영 서버...
4    배포 클라우드 배포 환경 이해 프론트엔드 개발 방법 이해 개발 디자인 시스템 재사용...
Name: Addition, dtype: object
Column: Welfare
0               

In [12]:
# 전처리된 데이터프레임 저장
df.to_csv('data/preprocessed_data_all.csv', index=False, encoding='utf-8-sig')

2) 조건에 따른 검색

In [14]:
# 데이터 로드
df = pd.read_csv("data/preprocessed_data_all.csv", index_col=None, encoding='utf-8-sig')

In [16]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

In [17]:
# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 영어 단어 추출
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

In [18]:
# 형태소 분석기 초기화
from konlpy.tag import Okt
okt = Okt()

In [19]:
# 사용자 검색어 입력
def ask_question(question):
    response = input(question + " ")
    return response

# 조건에 따른 필터링
def filter_jobs_by_criteria(df, location=None, duty=None, career=None):
    filtered_df = df.copy()
    
    # 조건에 따라 데이터 필터링
    if location and not pd.isna(location):
        filtered_df = filtered_df[filtered_df['Location'].str.strip().str.contains(location.strip(), case=False, na=False)]
    if duty and not pd.isna(duty):
        filtered_df = filtered_df[filtered_df['Duty'].str.strip().str.contains(duty.strip(), case=False, na=False)]
    if career and not pd.isna(career):
        filtered_df = filtered_df[filtered_df['Career'].str.strip().str.contains(career.strip(), case=False, na=False)]
    
    return filtered_df

# 유사 채용 공고 추천 함수 (문답에 따른 범위 좁히기)
def recommend_interactively(df, okt):
    # 사용자의 선택 조건을 순차적으로 입력
    location = ask_question("선호하는 지역을 말씀해주세요:")
    duty = ask_question("선호하는 직무를 말씀해주세요:")
    career = ask_question("경력에 대한 조건을 말씀해주세요:")

    # 필터링된 데이터프레임
    filtered_df = filter_jobs_by_criteria(df, location, duty, career)
    
    if filtered_df.empty:
        print("해당 조건에 맞는 채용 공고가 없습니다.")
        return

    # 사용자 질의를 입력받고 전처리
    user_query = ask_question("검색하려는 키워드를 입력해주세요:")
    query_preprocessed = preprocess_text(user_query, okt)

    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()

    # 여러 칼럼을 결합하여 벡터화
    filtered_df['combined_text'] = (
        filtered_df['Title'].fillna('') + ' ' +
        filtered_df['Company'].fillna('') + ' ' +
        filtered_df['Work'].fillna('') + ' ' +
        filtered_df['Qualification'].fillna('') + ' ' +
        filtered_df['Addition'].fillna('') + ' ' +
        filtered_df['Welfare'].fillna('') + ' ' +
        filtered_df['Skill'].fillna('') + ' ' +
        filtered_df['Tag'].fillna('') + ' ' +
        filtered_df['Deadline'].fillna('') + ' ' +
        filtered_df['Location'].fillna('') + ' ' +
        filtered_df['Duty'].fillna('')
    )

    # TfidfVectorizer를 적용
    combined_matrix = vectorizer.fit_transform(filtered_df['combined_text'])

    # 사용자 질의를 벡터화
    query_vector = vectorizer.transform([query_preprocessed])

    # 코사인 유사도 계산
    similarity_scores = cosine_similarity(query_vector, combined_matrix).flatten()

    # 유사도 순으로 상위 5개의 인덱스 추출
    top_indices = similarity_scores.argsort()[-5:][::-1]

    # 상위 5개의 회사, 제목, URL을 추천
    recommendations = filtered_df[['Title', 'Company', 'URL']].iloc[top_indices]
    
    print("추천 결과:")
    print(recommendations)

In [20]:
# 채용 공고 추천 시스템 실행
recommend_interactively(df, okt)

선호하는 지역을 말씀해주세요: 서울
선호하는 직무를 말씀해주세요: 개발
경력에 대한 조건을 말씀해주세요: 신입
검색하려는 키워드를 입력해주세요: 데이터 분석
추천 결과:
                         Title        Company  \
1198                   데이터 분석가           플래티어   
374          Data Engineer(신입)     뤼이드(Riiid)   
995                   데이터 엔지니어          하이퍼리즘   
133                 데이터 사이언티스트           교보문고   
871   Marketing Data Scientist  에이비일팔공(AB180)   

                                     URL  
1198  https://www.wanted.co.kr/wd/177463  
374   https://www.wanted.co.kr/wd/232700  
995   https://www.wanted.co.kr/wd/229693  
133    https://www.wanted.co.kr/wd/84866  
871   https://www.wanted.co.kr/wd/236505  
