주요 어휘 추출 및 주소 일괄 변경 전처리 후 페이지 추천 기능 적용

※ 라이브러리 및 프레임워크 필요시 설치(한국어 형태소 분석기)

# !pip install konlpy

# !pip install JPype1

In [2]:
# 구글 맵스를 활용한 근무지 위치 정확한 주소로 변경(주소 전처리) - 구글맵스 키 필요
# !pip install googlemaps
import googlemaps

In [3]:
import pandas as pd
import requests
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from konlpy.tag import Okt
import re
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm

 1) 전처리(주소 일괄 변경, 문장 명사화)

In [4]:
# 데이터 로드
df = pd.read_csv("data/wanted_crawling_all_data.csv", index_col=None, encoding='cp949')

In [5]:
gmaps_key = 'AIzaSyBWUgRUl_18YTfLl4hXjNPfNBYRh-HwF40'
gmaps = googlemaps.Client(key = gmaps_key)

In [6]:
def fetch_location(location):
    tmp = gmaps.geocode(location, language='ko')
    if tmp:
        return tmp[0].get('formatted_address')
    return location

# tqdm으로 진행 상황 표시
with ThreadPoolExecutor(max_workers=10) as executor:
    # tqdm을 사용하여 진행 상황 표시
    df['Location'] = list(tqdm(executor.map(fetch_location, df['Location']), total=len(df['Location'])))

100%|██████████████████████████████████████████████████████████████████████████████| 9734/9734 [03:11<00:00, 50.70it/s]


In [7]:
df['Location']

0                            대한민국 서울특별시 강남구 테헤란로108길 42
1                           대한민국 서울특별시 강남구 테헤란로 131 17층
2                              대한민국 서울특별시 영등포구 여의대로 108
3                                대한민국 서울특별시 마포구 도화동 565
4       11층, 스파크플러스 선릉2호점, 418 테헤란로 대치4동 강남구 서울특별시 대한민국
                             ...                       
9729                           대한민국 경기도 하남시 미사강변한강로 177
9730                       대한민국 서울특별시 강남구 영동대로76길 10 5층
9731             대한민국 서울특별시 강남구 역삼로17길 51 중경미드타운센터 5-6층
9732                             대한민국 서울특별시 종로구 새문안로 92
9733                                       대한민국 경기도 의왕시
Name: Location, Length: 9734, dtype: object

In [8]:
# 불용어 리스트를 파일에서 읽어오기
with open('stopwords-ko.txt', 'r', encoding='utf-8') as file:
    stopwords = file.read().splitlines()

In [9]:
# 형태소 분석기 초기화
okt = Okt()

In [10]:
# 전처리 함수 정의 (명사 추출 및 불용어 제거, 영어 포함)
def preprocess_text(text, okt):
    if isinstance(text, str):
        text = text.lower()  # 소문자로 변환 (영어에 유용)
        text = re.sub(r'\d+', '', text)  # 숫자 제거
        text = re.sub(r'[^\w\s]', '', text)  # 특수 문자 제거
        # 명사 추출
        nouns = okt.nouns(text)
        # 명사와 함께 영어 단어도 추출하기 위해 영어 필터링 추가
        english_words = re.findall(r'\b[a-zA-Z]+\b', text)  # 영어 단어 추출
        # 불용어 제거 및 단어 필터링
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1]
        filtered_english = [word for word in english_words if word not in stopwords]
        # 한국어 명사와 영어 단어를 결합하여 반환
        return ' '.join(filtered_nouns + filtered_english)
    return ''

In [11]:
# TF-IDF 기반 중요 단어 추출 함수
def get_important_words(column_text, n=50):
    vectorizer = TfidfVectorizer(max_features=n, max_df=0.85, min_df=1) 
    X = vectorizer.fit_transform(column_text)
    if X.shape[0] == 0:  # 문서가 없는 경우
        return []
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = X.toarray().sum(axis=0)
    word_score_pairs = sorted(zip(feature_names, tfidf_scores), key=lambda x: x[1], reverse=True)
    return word_score_pairs

In [12]:
# 각 열에 대해 전처리 및 TF-IDF 기반 중요 단어 추출 (URL 칼럼 제외)
important_words_dict = {}

In [13]:
for column in df.columns:
    # 해당 칼럼은 처리하지 않음
    if column in ['Title', 'Company', 'Career', 'Deadline', 'Location', 'Duty', 'URL']:
        continue
    if df[column].dtype == 'object':  # 문자열 데이터에 대해서만 처리
        # 전처리 및 명사 추출
        df[column] = df[column].apply(lambda x: preprocess_text(x, okt))
        column_text = df[column].dropna().tolist()  # NaN 값 제거 및 리스트로 변환
        
        # 텍스트 샘플 출력 (디버깅용)
        print(f"Column: {column}")
        print("Sample Texts:")
        print(column_text[:5])  # 상위 5개 텍스트 샘플 출력
        
        if len(column_text) > 0:  # 데이터가 있는 경우에만 처리
            # TF-IDF 기반 중요 단어 추출
            important_words = get_important_words(column_text, n=50)
            if important_words:  # 중요 단어가 추출된 경우에만 처리
                important_words_dict[column] = important_words

Column: Work
Sample Texts:
['주요 책임 글로벌 유저 대상 게임 플랫폼 개발 플랫폼 서비스 운영 지속 개선 게임 서비스 백오피스 기능 개발 도화주 환경 프로젝트 일정 집중 기간 존재 web', '합류 토스 레이스 오프라인 결제 시장 디지털 혁신 만들기 위해 매장 운영 문제 해결 레이스 초창 멤버 로서 오프라인 결제 시장 마주 도전 문제 처음 고민 개발 사장 대시보드 홈페이지 웹사이트 토스 결제 단말기 서비스 웹뷰 모든 플랫폼 기술 이용 사용자 향상 위해 토스 공통 라이브러리 제작 기여 windowsmacosandroidios tds', '프레임워크 개발 유지 보수 자사 솔루션 백오피스 비롯 마이크로 사이트 개발 유지 보수 활용 데이터 바인 렌더링 설계 구현 vuejs ui', '모바일 게임 마피아 서버 개발자 채팅 모바일 온라인 게임 서버 개발', '제휴 파트너 효과 테크 서비스 개발 성장 중인 트래블 월렛 차세대 외환 결제 백오피스 개발 퍼블릭 웹서비스 개발 운영 백오피스 사내 운영 개발 운영 travelwallet enterprise inapp webview']
Column: Qualification
Sample Texts:
['필수 자격 요건 학력 전공 무관 개발 보유 유저 서비스 개발 보유 이해 지식 보유 라이브러리 프레임워크 활용 개발 관심 선호 자격 요건 개발 언어 로서 이해 언어 강화 위해 노력 환경 모바일 웹뷰 보유 기술 이해 렌더링 개발 배포 스크립트 작성 구축 운용 지식 협업 실무 보유 디자인 시스템 실무 보유 웹사이트 성능 최적화 분필 효과 커뮤니케이션 여러 유관 부서 외부 관계자 협업 협력 사고 통합 관점 목표 의식 주도 추진 문제 파악 분석 적극 선제 문제해결 책임감 결과물 품질 완성 기준 typescript html css nextjs react svelte vuejs javascript webview cef isr cicd monorepo figma', '분과 프레임워크 사용 개발 주도 문제 발견 분석 해결 이용

# 각 칼럼별 중요 단어를 CSV 파일로 저장
for column, words in important_words_dict.items():
    df_words = pd.DataFrame(words, columns=['Word', 'Score'])
    df_words.to_csv(f'{column}_important_words.csv', index=False, encoding='utf-8-sig')

In [14]:
# 전처리된 텍스트 확인 (디버깅용)
for column in df.columns:
    if column in important_words_dict:
        print(f"Column: {column}")
        print(df[column].head())

Column: Work
0    주요 책임 글로벌 유저 대상 게임 플랫폼 개발 플랫폼 서비스 운영 지속 개선 게임 ...
1    합류 토스 레이스 오프라인 결제 시장 디지털 혁신 만들기 위해 매장 운영 문제 해결...
2    프레임워크 개발 유지 보수 자사 솔루션 백오피스 비롯 마이크로 사이트 개발 유지 보...
3                모바일 게임 마피아 서버 개발자 채팅 모바일 온라인 게임 서버 개발
4    제휴 파트너 효과 테크 서비스 개발 성장 중인 트래블 월렛 차세대 외환 결제 백오피...
Name: Work, dtype: object
Column: Qualification
0    필수 자격 요건 학력 전공 무관 개발 보유 유저 서비스 개발 보유 이해 지식 보유 ...
1    분과 프레임워크 사용 개발 주도 문제 발견 분석 해결 이용 정적 타입 분석 reac...
2    이해 프론트엔드 프레임워크 이해 개발 의사소통 협업 javascripttypescr...
3    자료구조 알고리즘 운영체제 네트워크 컴퓨터 학적 지식 언어 지식 설계 개발 포트폴리...
4    관련 개발 실력 보유 활용 어플리케이션 평소 사용 사용 커뮤니케이션 react ty...
Name: Qualification, dtype: object
Column: Addition
0    조직 문화 자율 출퇴근 무제한 연차 휴가 스스로 관리 의견 교환 상호 신뢰 근거 수...
1    이력서 작성 추천 플랫폼 관련 공통 서비스 공통 라이브러리 구현 운영 해당 진행 이...
2    이해 관심 사용 성능 최적화 관심 이해 테스트 자동화 단위 테스트 라이브러리 모듈 ...
3    게임 웹앱 온라인 서비스 백엔드 개발 용량 부하 시스템 설계 운영 리눅스 운영 서버...
4    배포 클라우드 배포 환경 이해 프론트엔드 개발 방법 이해 개발 디자인 시스템 재사용...
Name: Addition, dtype: object
Column: Welfare
0               

In [15]:
# 전처리된 데이터프레임 저장
df.to_csv('data/preprocessed_data_all.csv', index=False, encoding='utf-8-sig')

2) 조건에 따른 검색 기능

In [16]:
# 데이터 로드
df = pd.read_csv("data/preprocessed_data_all.csv", index_col=None, encoding='utf-8-sig')

In [17]:
# 형태소 분석기 초기화
from konlpy.tag import Okt
okt = Okt()

In [18]:
# 사용자 검색어 입력
def ask_question(question):
    response = input(question + " ")
    return response

# 조건에 따른 필터링
def filter_jobs_by_criteria(df, location=None, duty=None, career=None):
    filtered_df = df.copy()
    
    # 조건에 따라 데이터 필터링
    if location and not pd.isna(location):
        filtered_df = filtered_df[filtered_df['Location'].str.strip().str.contains(location.strip(), case=False, na=False)]
    if duty and not pd.isna(duty):
        filtered_df = filtered_df[filtered_df['Duty'].str.strip().str.contains(duty.strip(), case=False, na=False)]
    if career and not pd.isna(career):
        filtered_df = filtered_df[filtered_df['Career'].str.strip().str.contains(career.strip(), case=False, na=False)]
    
    return filtered_df

# 유사 채용 공고 추천 함수 (문답에 따른 범위 좁히기)
def recommend_interactively(df, okt):
    # 사용자의 선택 조건을 순차적으로 입력
    location = ask_question("선호하는 지역을 말씀해주세요:")
    duty = ask_question("선호하는 직무를 말씀해주세요:")
    career = ask_question("경력에 대한 조건을 말씀해주세요:")

    # 필터링된 데이터프레임
    filtered_df = filter_jobs_by_criteria(df, location, duty, career)
    
    if filtered_df.empty:
        print("해당 조건에 맞는 채용 공고가 없습니다.")
        return

    # 사용자 질의를 입력받고 전처리
    user_query = ask_question("검색하려는 키워드를 입력해주세요:")
    query_preprocessed = preprocess_text(user_query, okt)

    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()

    # 여러 칼럼을 결합하여 벡터화
    filtered_df['combined_text'] = (
        filtered_df['Title'].fillna('') + ' ' +
        filtered_df['Company'].fillna('') + ' ' +
        filtered_df['Work'].fillna('') + ' ' +
        filtered_df['Qualification'].fillna('') + ' ' +
        filtered_df['Addition'].fillna('') + ' ' +
        filtered_df['Welfare'].fillna('') + ' ' +
        filtered_df['Skill'].fillna('') + ' ' +
        filtered_df['Tag'].fillna('') + ' ' +
        filtered_df['Deadline'].fillna('') + ' ' +
        filtered_df['Location'].fillna('') + ' ' +
        filtered_df['Duty'].fillna('')
    )

    # TfidfVectorizer를 적용
    combined_matrix = vectorizer.fit_transform(filtered_df['combined_text'])

    # 사용자 질의를 벡터화
    query_vector = vectorizer.transform([query_preprocessed])

    # 코사인 유사도 계산
    similarity_scores = cosine_similarity(query_vector, combined_matrix).flatten()

    # 유사도 순으로 상위 5개의 인덱스 추출
    top_indices = similarity_scores.argsort()[-5:][::-1]

    # 상위 5개의 회사, 제목, URL을 추천
    recommendations = filtered_df[['Title', 'Company', 'URL']].iloc[top_indices]
    
    print("추천 결과:")
    print(recommendations)

In [19]:
# 채용 공고 추천 시스템 실행
recommend_interactively(df, okt)

선호하는 지역을 말씀해주세요: 서울
선호하는 직무를 말씀해주세요: 개발
경력에 대한 조건을 말씀해주세요: 신입
검색하려는 키워드를 입력해주세요: 데이터 분석
추천 결과:
                         Title        Company  \
1198                   데이터 분석가           플래티어   
374          Data Engineer(신입)     뤼이드(Riiid)   
995                   데이터 엔지니어          하이퍼리즘   
133                 데이터 사이언티스트           교보문고   
871   Marketing Data Scientist  에이비일팔공(AB180)   

                                     URL  
1198  https://www.wanted.co.kr/wd/177463  
374   https://www.wanted.co.kr/wd/232700  
995   https://www.wanted.co.kr/wd/229693  
133    https://www.wanted.co.kr/wd/84866  
871   https://www.wanted.co.kr/wd/236505  
