In [8]:
# 기업별 키워드 추출(10개 미만 제외)
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab

# 데이터 불러오기
# 수정가능
df = pd.read_csv('csv/jobkorea_question_labeled_mecab.csv')

counts = df['company'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['company'].isin(under10)].index)

# 기업별로 자기소개서 그룹화
# 수정가능
grouped_df = df.groupby('company')['answer'].apply(' '.join).reset_index()

# Mecab 사용하여 일반명사만 선택하는 함수 정의
mecab = Mecab()

def extract_nouns(text):
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# 일반명사만 선택
# 수정가능
grouped_df['nouns'] = grouped_df['answer'].apply(extract_nouns)

# TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(grouped_df['nouns'])

# 상위 5개의 일반명사 출력
feature_names = np.array(vectorizer.get_feature_names_out())
for idx, row in grouped_df.iterrows():
    # 수정가능
    company = row['company']
    #--------
    tfidf_scores = tfidf_matrix[idx].toarray().flatten()
    top_5_indices = np.argsort(tfidf_scores)[-5:][::-1]
    top_5_words = feature_names[top_5_indices]
    top_5_scores = tfidf_scores[top_5_indices]
    
    #수정가능
    print(f"기업이름: {company}\n중요도가 높은 키워드:")
    for word, score in zip(top_5_words, top_5_scores):
        print(f"{word} - {score:.4f}")
    print("\n")


기업이름: (재)서울디자인재단
중요도가 높은 키워드:
건축 - 0.3134
디자인 - 0.2542
업무 - 0.2397
생각 - 0.2294
캐드 - 0.2089


기업이름: (재)서울산업진흥원
중요도가 높은 키워드:
업진 - 0.4922
중소기업 - 0.4202
콘텐츠 - 0.1666
기업 - 0.1485
성장 - 0.1299


기업이름: (재)한국연구재단
중요도가 높은 키워드:
재단 - 0.4456
연구자 - 0.3397
연구 - 0.2403
고객 - 0.1928
근무자 - 0.1463


기업이름: (재)한국원자력연구원
중요도가 높은 키워드:
원자력 - 0.5777
기술 - 0.3133
원전 - 0.2839
생각 - 0.1619
원자로 - 0.1575


기업이름: (재)한국장학재단
중요도가 높은 키워드:
주점 - 0.2098
학자금 - 0.1992
장학 - 0.1810
업무 - 0.1737
지원 - 0.1624


기업이름: (주)DB하이텍
중요도가 높은 키워드:
반도체 - 0.5463
동부 - 0.3662
공정 - 0.1838
방진복 - 0.1258
경험 - 0.1113


기업이름: (주)GS ITM
중요도가 높은 키워드:
프로젝트 - 0.2004
고객 - 0.1847
매점 - 0.1723
데이터 - 0.1633
개발 - 0.1606


기업이름: (주)IBK시스템
중요도가 높은 키워드:
시스템 - 0.2375
생각 - 0.2288
프로젝트 - 0.2282
금융 - 0.2145
고객 - 0.1805


기업이름: (주)JYP엔터테인먼트
중요도가 높은 키워드:
아티스트 - 0.4480
산업 - 0.2041
업무 - 0.1606
도전 - 0.1540
미디어 - 0.1392


기업이름: (주)KB국민카드
중요도가 높은 키워드:
데이터 - 0.2535
경험 - 0.1920
개발 - 0.1725
디지털 - 0.1695
제휴 - 0.1693


기업이름: (주)KB손해사정
중요도가 높은 키워드:
손해 - 0.5815
보험 - 0.4407
사정 - 0.38

In [9]:
# 직무별 키워드 추출(10개 미만 제외)
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab

# 데이터 불러오기
# 수정가능
df = pd.read_csv('csv/jobkorea_question_labeled_mecab.csv')

counts = df['job'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['job'].isin(under10)].index)

# 기업별로 자기소개서 그룹화
# 수정가능
grouped_df = df.groupby('job')['answer'].apply(' '.join).reset_index()

# Mecab 사용하여 일반명사만 선택하는 함수 정의
mecab = Mecab()

def extract_nouns(text):
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# 일반명사만 선택
# 수정가능
grouped_df['nouns'] = grouped_df['answer'].apply(extract_nouns)

# TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(grouped_df['nouns'])

# 상위 5개의 일반명사 출력
feature_names = np.array(vectorizer.get_feature_names_out())
for idx, row in grouped_df.iterrows():
    # 수정가능
    job = row['job']
    #--------
    tfidf_scores = tfidf_matrix[idx].toarray().flatten()
    top_5_indices = np.argsort(tfidf_scores)[-5:][::-1]
    top_5_words = feature_names[top_5_indices]
    top_5_scores = tfidf_scores[top_5_indices]
    
    #수정가능
    print(f"직무이름: {job}\n중요도가 높은 키워드:")
    for word, score in zip(top_5_words, top_5_scores):
        print(f"{word} - {score:.4f}")
    print("\n")


## todolist
# 사용, 활용, 생각, 기업명 제외하기
# 데이터프레임으로 한다면 회사이름 [company][keyword] 열 2개 만들고
# [기업이름] [주택, 보금자리, 대출, 마련, 선수촌]
# for 문 돌려서 꺼내기 가능(쉽게)
# 데이터값 넣고 keyword['주택-0.47','보금자리-0.31']
# [('주택',0.47),('보금자리'-0.31)]

# 직무별 기업별 csv파일 만들어서
# 키워드를 뽑아주긴하는데 총 몇개의 자기소개서를 기반으로 뽑은것인 제공하면 좋을 것 같다.
# 자기소개서 갯수 세는거 data파일에 있음 count
# 자기소개서를 입력하면 요약해주는것
# gensim model만 만들고 input으로 하기
# 문항별로 요약하기 vs 직무별로 요약하기
# 요약 결과를 알려달라 파일로 만들어두면 될듯
# 요약도 문장갯수가 적으면 안되니 ex)3문장 문장갯수가 너무 적습니다 / 글자수 지정 500자 1000자 이렇게 몇%이상 안되면 문장이라도 평균적인 문장 길이는 70~80을 생각하고 8줄정도 생각하면 된다
# SSH 해야됨


직무이름: DBA
중요도가 높은 키워드:
주택 - 0.4263
보금자리 - 0.2884
대출 - 0.2403
마련 - 0.1838
생각 - 0.1732


직무이름: IT·기술영업
중요도가 높은 키워드:
영업 - 0.3898
고객 - 0.3559
경험 - 0.1854
생각 - 0.1760
기술 - 0.1758


직무이름: MD
중요도가 높은 키워드:
고객 - 0.3791
상품 - 0.3458
쇼핑 - 0.2137
경험 - 0.1995
생각 - 0.1956


직무이름: PD·감독
중요도가 높은 키워드:
콘텐츠 - 0.2927
생각 - 0.2887
친구 - 0.2049
사람 - 0.1781
경찰 - 0.1704


직무이름: QA
중요도가 높은 키워드:
게임 - 0.3508
프로젝트 - 0.2420
생각 - 0.2258
테스트 - 0.1981
개발 - 0.1652


직무이름: R&D·연구원
중요도가 높은 키워드:
생각 - 0.2106
연구 - 0.1941
설계 - 0.1717
산업 - 0.1686
분석 - 0.1581


직무이름: 간호사
중요도가 높은 키워드:
간호사 - 0.5221
간호 - 0.4205
환자 - 0.3565
병원 - 0.2412
생각 - 0.1819


직무이름: 건축기사
중요도가 높은 키워드:
생각 - 0.2787
건축 - 0.2706
설계 - 0.2488
경험 - 0.2280
건설 - 0.2260


직무이름: 게임개발자
중요도가 높은 키워드:
게임 - 0.6356
개발 - 0.2599
플레이 - 0.1918
유저 - 0.1425
스포츠 - 0.1188


직무이름: 경영·비즈니스기획
중요도가 높은 키워드:
생각 - 0.2601
업무 - 0.2457
경험 - 0.2227
고객 - 0.1771
기획 - 0.1642


직무이름: 고객센터관리자
중요도가 높은 키워드:
업무 - 0.3422
화물 - 0.3326
입항 - 0.2485
에이피 - 0.2179
고객 - 0.2136


직무이름: 교재개발·교수설계
중요도가 높은 키워드:
영어 - 

In [10]:
# 기업별 ,직무별 키워드 추출(10개 미만 제외)
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab

# 데이터 불러오기
# 수정가능
df = pd.read_csv('csv/jobkorea_question_labeled_mecab.csv')

counts = df['company'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['company'].isin(under10)].index)

counts = df['job'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['job'].isin(under10)].index)

# 기업별로 자기소개서 그룹화
# 수정가능
grouped_df = df.groupby('company')['answer'].apply(' '.join).reset_index()

# Mecab 사용하여 일반명사만 선택하는 함수 정의
mecab = Mecab()

def extract_nouns(text):
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# 일반명사만 선택
# 수정가능
grouped_df['nouns'] = grouped_df['answer'].apply(extract_nouns)

# TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(grouped_df['nouns'])

# 상위 5개의 일반명사 출력
feature_names = np.array(vectorizer.get_feature_names_out())
for idx, row in grouped_df.iterrows():
    # 수정가능
    company = row['company']
    #--------
    tfidf_scores = tfidf_matrix[idx].toarray().flatten()
    top_5_indices = np.argsort(tfidf_scores)[-5:][::-1]
    top_5_words = feature_names[top_5_indices]
    top_5_scores = tfidf_scores[top_5_indices]
    
    #수정가능
    print(f"기업이름: {company}\n중요도가 높은 키워드:")
    for word, score in zip(top_5_words, top_5_scores):
        print(f"{word} - {score:.4f}")
    print("\n")


기업이름: (재)서울디자인재단
중요도가 높은 키워드:
건축 - 0.3130
디자인 - 0.2544
업무 - 0.2394
생각 - 0.2290
캐드 - 0.2086


기업이름: (재)서울산업진흥원
중요도가 높은 키워드:
업진 - 0.4917
중소기업 - 0.4198
콘텐츠 - 0.1669
기업 - 0.1488
성장 - 0.1298


기업이름: (재)한국연구재단
중요도가 높은 키워드:
재단 - 0.4449
연구자 - 0.3392
연구 - 0.2413
고객 - 0.1938
근무자 - 0.1461


기업이름: (재)한국원자력연구원
중요도가 높은 키워드:
원자력 - 0.5774
기술 - 0.3131
원전 - 0.2838
생각 - 0.1618
원자로 - 0.1574


기업이름: (재)한국장학재단
중요도가 높은 키워드:
주점 - 0.2093
학자금 - 0.1988
장학 - 0.1822
업무 - 0.1733
지원 - 0.1626


기업이름: (주)DB하이텍
중요도가 높은 키워드:
반도체 - 0.5458
동부 - 0.3659
공정 - 0.1836
방진복 - 0.1257
경험 - 0.1112


기업이름: (주)GS ITM
중요도가 높은 키워드:
프로젝트 - 0.1999
고객 - 0.1855
매점 - 0.1743
데이터 - 0.1630
개발 - 0.1602


기업이름: (주)IBK시스템
중요도가 높은 키워드:
시스템 - 0.2376
생각 - 0.2285
프로젝트 - 0.2279
금융 - 0.2142
고객 - 0.1815


기업이름: (주)JYP엔터테인먼트
중요도가 높은 키워드:
아티스트 - 0.4476
산업 - 0.2039
업무 - 0.1605
도전 - 0.1539
미디어 - 0.1390


기업이름: (주)KB국민카드
중요도가 높은 키워드:
데이터 - 0.2531
경험 - 0.1918
개발 - 0.1722
디지털 - 0.1697
제휴 - 0.1691


기업이름: (주)KB손해사정
중요도가 높은 키워드:
손해 - 0.5806
보험 - 0.4416
사정 - 0.38

In [3]:
# 기업별 키워드 추출(데이터 저장용)
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab
import warnings
warnings.filterwarnings('ignore')

# 데이터 불러오기
df = pd.read_csv('csv/jobkorea_question_labeled_mecab.csv')

# 기업별로 자기소개서가 10개 미만인 경우 제외
counts = df['company'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['company'].isin(under10)].index)

# 직무별로 자기소개서가 10개 미만인 경우 제외
counts = df['job'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['job'].isin(under10)].index)

# 기업별로 자기소개서 그룹화
grouped_df = df.groupby('company')['answer'].apply(' '.join).reset_index()

# Mecab 사용하여 일반명사만 선택하는 함수 정의
mecab = Mecab()

def extract_nouns(text):
    # '사용', '활용', '생각' 제거
    text = text.replace('사용', '').replace('활용', '').replace('생각', '')
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# 일반명사만 선택
grouped_df['nouns'] = grouped_df['answer'].apply(extract_nouns)

# TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(grouped_df['nouns'])

# 저장할 데이터프레임 컬럼생성
keywords_df = pd.DataFrame(columns=['company', 'keywords','자소서갯수'])

# 상위 5개의 일반명사 출력
feature_names = vectorizer.get_feature_names_out()
for idx, row in grouped_df.iterrows():
    # company 열 값을 가져옴
    company = row['company']
    # tf-idf 점수를 1차원 배열로 만든 후 파이썬 리스트로 변환
    tfidf_scores = tfidf_matrix[idx].toarray().flatten().tolist()
    # 상위 5개 인덱스 가져오기
    top_5_indices = sorted(range(len(tfidf_scores)), key=lambda i: tfidf_scores[i], reverse=True)[:5]
    # 상위 5개 feature_names의 값 저장 후 콤마로 join
    top_5_words = [feature_names[i] for i in top_5_indices]
    top_5_keywords = ', '.join(top_5_words)

    # 새로운 DataFrame에 행 추가
    keywords_df = keywords_df.append({'company': company, 'keywords': top_5_keywords, '자소서갯수':content_counts}, ignore_index=True)


# 새로운 DataFrame을 csv 파일로 저장
keywords_df.to_csv('company_job_keywords.csv', index=False, encoding='UTF-8')


In [13]:
# 기업별 키워드 추출(10개 미만 제외)
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab

# 데이터 불러오기
df = pd.read_csv('csv/jobkorea_question_labeled_mecab.csv')

counts = df['company'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['company'].isin(under10)].index)

# 기업별로 자기소개서 그룹화
grouped_df = df.groupby('company')['answer'].apply(' '.join).reset_index()
grouped_df.count

# 기업별로 자기소개서 갯수 구하기
content_counts = df['company'].value_counts().reset_index()
content_counts.columns = ['company', '자소서갯수']

# Mecab 사용하여 일반명사만 선택하는 함수 정의
mecab = Mecab()

def extract_nouns(text):
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# 일반명사만 선택
grouped_df['nouns'] = grouped_df['answer'].apply(extract_nouns)

# TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(grouped_df['nouns'])

# 저장할 데이터프레임 컬럼생성
keywords_df = pd.DataFrame(columns=['company', 'keywords','자소서갯수'])

# 상위 5개의 일반명사 출력
feature_names = vectorizer.get_feature_names_out()
for idx, row in grouped_df.iterrows():
    # company 열 값을 가져옴
    company = row['company']
    # tf-idf 점수를 1차원 배열로 만든 후 파이썬 리스트로 변환
    tfidf_scores = tfidf_matrix[idx].toarray().flatten().tolist()
    # 상위 5개 인덱스 가져오기
    top_5_indices = sorted(range(len(tfidf_scores)), key=lambda i: tfidf_scores[i], reverse=True)[:5]
    # 상위 5개 feature_names의 값 저장 후 콤마로 join
    top_5_words = [feature_names[i] for i in top_5_indices]
    top_5_keywords = ', '.join(top_5_words)

    # 자소서 갯수 가져오기
    content_count = content_counts.loc[content_counts['company'] == company, '자소서갯수'].values[0]

    # 새로운 DataFrame에 행 추가
    keywords_df = keywords_df.append({'company': company, 'keywords': top_5_keywords, '자소서갯수':content_count}, ignore_index=True)


# 새로운 DataFrame을 csv 파일로 저장
keywords_df.to_csv('company_keywords.csv', index=False, encoding='UTF-8')


In [14]:
# 기업별 키워드 추출(10개 미만 제외)
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab

# 데이터 불러오기
df = pd.read_csv('csv/jobkorea_question_labeled_mecab.csv')

counts = df['job'].value_counts()
under10 = counts[counts<10].index
df = df.drop(df[df['job'].isin(under10)].index)

# 기업별로 자기소개서 그룹화
grouped_df = df.groupby('job')['answer'].apply(' '.join).reset_index()
grouped_df.count

# 기업별로 자기소개서 갯수 구하기
content_counts = df['job'].value_counts().reset_index()
content_counts.columns = ['job', '자소서갯수']

# Mecab 사용하여 일반명사만 선택하는 함수 정의
mecab = Mecab()

def extract_nouns(text):
    tagged = mecab.pos(text)
    return ' '.join([word for word, pos in tagged if pos == 'NNG'])

# 일반명사만 선택
grouped_df['nouns'] = grouped_df['answer'].apply(extract_nouns)

# TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(grouped_df['nouns'])

# 저장할 데이터프레임 컬럼생성
keywords_df = pd.DataFrame(columns=['job', 'keywords','자소서갯수'])

# 상위 5개의 일반명사 출력
feature_names = vectorizer.get_feature_names_out()
for idx, row in grouped_df.iterrows():
    # job 열 값을 가져옴
    job = row['job']
    # tf-idf 점수를 1차원 배열로 만든 후 파이썬 리스트로 변환
    tfidf_scores = tfidf_matrix[idx].toarray().flatten().tolist()
    # 상위 5개 인덱스 가져오기
    top_5_indices = sorted(range(len(tfidf_scores)), key=lambda i: tfidf_scores[i], reverse=True)[:5]
    # 상위 5개 feature_names의 값 저장 후 콤마로 join
    top_5_words = [feature_names[i] for i in top_5_indices]
    top_5_keywords = ', '.join(top_5_words)

    # 자소서 갯수 가져오기
    content_count = content_counts.loc[content_counts['job'] == job, '자소서갯수'].values[0]

    # 새로운 DataFrame에 행 추가
    keywords_df = keywords_df.append({'job': job, 'keywords': top_5_keywords, '자소서갯수':content_count}, ignore_index=True)


# 새로운 DataFrame을 csv 파일로 저장
keywords_df.to_csv('job_keywords.csv', index=False, encoding='UTF-8')
