# import library

In [1]:
import os
import re
import csv
from tqdm import tqdm

from konlpy.tag import Komoran

import pandas as pd
import ast

# skills 추출 후 중복 제거하고 skills_set list 생성

In [5]:
def get_skills_set():
    skills_list = []
    skills_filter = []

    with open("data/combined_crawling_data.csv", encoding="utf-8") as f:
        reader = csv.reader(f)

        for row in reader:
            # row 리스트의 10번째 값을 가져와 string 을 '' 안의 단어들로 나눠서 리스트로 만들기
            skills = re.findall(r"'(.*?)'", row[10])
            skills_upper = [word.upper() for word in skills]

            # 나누어진 리스트를 추가
            skills_list += skills_upper

        skills_set = set(skills_list)

    return skills_set

In [6]:
skills_set = get_skills_set()
print(len(skills_set))
print(skills_set)

659
{'리팩토링', '소켓', 'SOC', '분석 능력', '자동차', 'SSL', '신호 처리', 'VR', 'REDUX', 'FLOW', '인공 지능', 'MICROSOFT SERVER', 'TCP', 'BLOCKCHAIN', '회로', '윈도우 프로그래밍', '3D 그래픽', '서버 아키텍처', 'CMS', 'PHPUNIT', 'GPS', 'IOS 디자인', 'CRM', '통계 모델링', '애자일 프로젝트 관리', 'PCB 레이아웃 설계', '공차 분석', '보안 감사', 'GCC', '임베디드 소프트웨어', 'RHEL', '프로세스 개선', 'VISUAL STUDIO CODE', '웹 디자인', '시스템 관리', '레이더', '강의', 'AIX', '의료 영상', '모바일 장치', 'SPSS', 'RTL 검증', 'GIMP', 'MICROCHIP PIC', 'SAP 구현', '네트워크 보안', 'SKETCH', '하드웨어 테스트', '마이크로프로세서', 'NGINX', 'SSIS', 'PYTHON', 'WINDOWS 원격 데스크톱', 'JPA', 'ADOBE ILLUSTRATOR', 'MIMO', 'ORACLE DATABASE', 'FPGA 프로토 타이핑', 'WINDOWS 서비스', '로봇', '네트워크 관리', 'SASS', '윈도우 모바일', 'XAMARIN', 'RESTFUL WEBSERVICES', 'PKI', 'SAP ERP', 'SWIFT', '기술 개발', 'AUTOCAD', 'PHP', 'IOS', '컴퓨터 공학', 'SHELL', 'WINDOWS EMBEDDED', '데이터 분석', '테스트 실행', 'REDIS', 'SAP MM', 'COCOA TOUCH', 'ASIC', 'GOOGLE APPS', 'PACS', '라이브러리 관리', '위성 통신', 'METAL', 'C / C++', 'AR', 'PYTORCH', 'CONFLUENCE', 'DEBIAN', 'AJAX', 'CCNA', 'ENCASE', 'BGP', '자연 언어 처

# 리스트를 딕셔너리로 변환 함수

In [7]:
def list_to_dict(lst):
    toDict = dict()

    for item in lst:
        toDict[item.upper()] = 0

    return toDict

# 딕셔너리를 CSV 파일로 저장하는 함수

In [15]:
def save_csv_file(dict, title):
    with open(title, "w", newline="") as file:
        writer = csv.writer(file)
        
        writer.writerow(["Key", "Kalue"])
        
        for k, v in dict.items():
            writer.writerow([k, v])
            
    print("Dictionary keys and values saved to CSV file successfully.")

# 각 채용 링크의 qualification 속 skills_set 정리하기

In [42]:
def get_qualification_skill_list():
    com_set = get_skills_set()
    com_list = list(com_set)
    com_dict = list_to_dict(com_list)
    
    skill_dict = com_dict.copy()
    freq_dict = dict()
    
    with open("data/combined_crawling_data.csv", "r", encoding="utf-8") as f:
        reader = csv.reader(f)
        data = list(reader)
        count = 1
        
        for row in tqdm(data[1:]):
            id = row[0]
            
            # qualifications = 7, preferred = 8, skills = 10
            quali_data = row[7].upper()
            
            # 확인해야하는 qualification data
            phrases = com_list
            
            # remove symbols
            sentence = re.sub(r'[^\w\s]', '', quali_data)
            
            # re.escape 로 특수문자를 벗어나고, | 로 단어 연결
            pattern = r'\b(' + '|'.join(map(re.escape, phrases)) + r')\b'
            
            # 한글 정렬 후 나누기
            komoran = Komoran()
            sentence = komoran.morphs(sentence)
            
            # 한글 정렬 후 나누고 다시 문장으로 합쳐주기
            sentence = " ".join(sentence)
            
            # phrases 에 있는 단어를 가져와서 sentence 속 빈도 확인하기
            matches = re.findall(pattern, sentence)
            
            if count % 500 == 0:
                print(matches)
            count += 1
            
            freq_dict[id] = list(set(matches))
            
    save_csv_file(freq_dict, "data/freq_qual_data.csv")
    return freq_dict

# 각 채용 링크의 preferred 속 skills_set 정리하기

In [22]:
def get_preferred_skill_list():
    com_set = get_skills_set()
    com_list = list(com_set)
    com_dict = list_to_dict(com_list)
    
    skill_dict = com_dict.copy()
    freq_dict = dict()
    
    with open("data/combined_crawling_data.csv", 'r', encoding="utf-8") as f:
        reader = csv.reader(f)
        data = list(reader)
        count = 1
        
        for row in tqdm(data[1:]):
            id = row[0]
            
            # qualifications = 7, preferred = 8, skills = 10
            data = row[8].upper()

            # 확인해야 하는 데이터 (list)
            phrases = com_list 

            # remove symbols
            sentence = re.sub(r'[^\w\s]', '', data)

            # re.escape으로 특수문자 벗어나고, |로 단어 연결
            pattern = r'\b(' + '|'.join(map(re.escape, phrases)) + r')\b'

            # 한글 정렬후 나누기
            komoran = Komoran()
            sentence = komoran.morphs(sentence)

            # 한글 정렬 후 나누고 다시 문장으로 합쳐주기
            sentence = " ".join(sentence)
            
            # phrases에 있는 단어 sentence속 빈도 확인하기
            matches = re.findall(pattern, sentence)
            

            if count % 500 == 0:
                print(matches)
            count += 1

            # dictionary에 하나씩 넣어주기 - set으로 중복 제거
            freq_dict[id] = list(set(matches))

    save_csv_file(freq_dict, "data/freq_pref_data.csv")
    return freq_dict

In [None]:
get_preferred_skill_list()

  1%|▉                                                                                                        | 48/5451 [01:02<1:54:52,  1.28s/it]

# 각 채용 링크의 skills 속 skills_set 정리하기

In [16]:
def get_skills_skill_list():
    freq_dict = dict()

    with open("data/combined_crawling_data.csv", 'r', encoding="utf-8") as f:
        skill_reader = csv.reader(f)
        skill = list(skill_reader)

        for row in skill[1:]:
            id = row[0]
            
            data = row[10].upper()
            
            # id = 0,  skills = 10
            freq_dict[id] = data

    print(len(freq_dict))

    save_csv_file(freq_dict, "data/freq_skill_data.csv")

In [17]:
get_skills_skill_list()

5450
Dictionary keys and values saved to CSV file successfully.


# 각 리스트에 데이터를 넣어서 리스트 = 컬럼으로 한 csv 파일 작성

In [19]:
total_dict = dict()

ids = []

with open("data/freq_skill_data.csv","r",encoding="cp949") as skill:
    skill_reader = csv.reader(skill)
    skill_rows = list(skill_reader)
    skills = []

with open("data/freq_qual_data.csv","r",encoding="cp949") as qual:
    qual_reader = csv.reader(qual)
    qual_rows = list(qual_reader)
    quals = []

with open("data/freq_pref_data.csv","r",encoding="utf-8") as pref:
    pref_reader = csv.reader(pref)
    pref_rows = list(pref_reader)
    prefs = []

    print(len(skill_rows), len(qual_rows), len(pref_rows))
    count = 0
    for row in range(1, len(skill_rows)):
        if (skill_rows[row][0] == qual_rows[row][0] == pref_rows[row][0]):
            id = skill_rows[row][0]
            skill = skill_rows[row][1]
            qual = qual_rows[row][1]
            pref = pref_rows[row][1]

            # 각 리스트에도 넣어준다.
            ids.append(id)
            skills.append(skill)
            quals.append(qual)
            prefs.append(pref)

        if row % 500 == 0:
            print(skill_rows[row][0], qual_rows[row][0], pref_rows[row][0])
            print(skill_rows[row][1], qual_rows[row][1], pref_rows[row][1])

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 70: invalid start byte

# quali, pref, skills 데이터 하나로 합치기

In [53]:
# Create the DataFrame
df = pd.DataFrame({'id': ids, 'qualification': quals, 'preferred': prefs, 'skills': skills})

# Save the DataFrame as a CSV file with column names
df.to_csv('data/qual_pref_skill_combined.csv', index=False, encoding="utf-8")