In [1]:
import pandas as pd
import numpy as np
import re
from hanspell import spell_checker
from konlpy.tag import Mecab
import konlpy

In [33]:
trade_df = pd.read_excel('data/crawling/유통_무역_운송.xls')
edu_df = pd.read_excel('data/crawling/교육업.xls')
cons_df = pd.read_excel('data/crawling/건설업.xls')

In [35]:
trade_df.drop('Unnamed: 0', axis = 1, inplace = True)
edu_df.drop('Unnamed: 0', axis = 1, inplace = True)
cons_df.drop('Unnamed: 0', axis = 1, inplace = True)

In [36]:
trade_df.set_index('회사', inplace = True)
edu_df.set_index('회사', inplace = True)
cons_df.set_index('회사', inplace = True)

In [37]:
trade_df.drop_duplicates(['요약','장점','단점','경영진에게 바라는 점'], inplace = True)
edu_df.drop_duplicates(['요약','장점','단점','경영진에게 바라는 점'], inplace = True)
cons_df.drop_duplicates(['요약','장점','단점','경영진에게 바라는 점'], inplace = True)

In [46]:
cons_df.isnull().sum()

날짜             0
직무             0
요약             0
장점             0
단점             0
경영진에게 바라는 점    0
dtype: int64

In [45]:
# null값 제거
index = cons_df[cons_df['경영진에게 바라는 점'].isnull()].index
cons_df.drop(index, inplace = True)

In [47]:
# 영어와 한글만 남기는 함수 정의
def clean_text(df):
    for col in df.columns[2:]:
        df[col] = df[col].str.replace("[^가-힇]", " ")

In [48]:
# py-hanspell을 이용한 맞춤법 검사 함수 정의
def spelling(df):
    # [요약]부터 [경영진에게 바라는 점]까지
    for col in df.columns[2:]:
        for j in range(df.shape[0]):
            try:
                if len(df[col][j])>500:
                    idx=df[col][j].rfind(' ',0,500)
                    df[col][j]=spell_checker.check(df[col][j][:idx]).checked+spell_checker.check(df[col][j][idx:]).checked
                # 고칠 게 있으면 고치고 기존 데이터 대체
                else:
                    result_train = spell_checker.check(df[col][j])
                    df[col][j] = result_train.checked
            except:
                # 없으면 pass
                pass

In [51]:
clean_text(edu_df)

In [54]:
spelling(trade_df)

In [23]:
cons_df.to_excel(excel_writer = '건설업_전처리.xlsx')

In [55]:
# mecab 토큰화 및 불용어 처리
mecab = Mecab()
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

korean_stopwords_path='./stopword_수정.txt'

# 텍스트 파일 오픈
with open(korean_stopwords_path,encoding='utf-8') as f:
    stopwords=f.readlines()
stopwords=[x.strip() for x in stopwords]

In [56]:
def tokenize(df):
    for col in df.columns[2:]:
        df[col+'토큰화'] = df[col].apply(mecab.morphs)
        df[col+'토큰화'] = df[col+'토큰화'].apply(lambda x: [item for item in x if item not in stopwords])

In [61]:
tokenize(cons_df)

In [62]:
cons_df.head()

Unnamed: 0_level_0,날짜,직무,요약,장점,단점,경영진에게 바라는 점,요약토큰화,장점토큰화,단점토큰화,경영진에게 바라는 점토큰화
회사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
한국토지주택공사,2021. 03,서비스/고객지원,적당한 연봉과 자기 삶을 지킬 수 있는 균형 잡 회사,공기업의 특성상 안정적인고 업무 강도도 적당한 또한 사람들이 착함,공기업의 특성상 지방 또는 외곽 쪽에서 근무하는 경우가 많음,외근의 경우 억조 여자와 남자 모두에게 공평하면 좋겠습니다,"[적당, 연봉, 자기, 삶, 지킬, 균형, 잡, 회사]","[공기업, 특성, 상, 안정, 적, 인, 고, 업무, 강도, 적당, 사람, 착함]","[공기업, 특성, 상, 지방, 또는, 외곽, 쪽, 근무, 경우, 많, 음]","[외근, 경우, 억조, 여자, 남자, 모두, 공평, 면, 좋, 겠]"
한국토지주택공사,2021. 03,인사/총무,딱 일하려고 모인 사람들의 집단이었다,휴가에 대한 게 눈치 보지 않고 자유로워서 좋았다 카페 사내식당 등이 좋다,승진에 대한 경쟁을 하려는 게 보인다 윗사람 아랫사람 눈치 보임,터지는 문제들을 잘 해결하길 앞으로 더 반성하길,"[려고, 모인, 사람, 집단, 었, 다]","[휴가, 대한, 게, 눈치, 고, 자유, 로워서, 좋, 았, 다, 카페, 사내, 식...","[승진, 대한, 경쟁, 려는, 게, 보인다, 윗사람, 아랫사람, 눈치, 보임]","[터지, 문제, 해결, 길, 앞, 더, 반성, 길]"
한국토지주택공사,2021. 03,인사/총무,안정적인 듯 안정적이지 않은 조직 기존 대 직원들과 신입 대 직원들의...,직원들을 위한 복지제도가 잘 되어있음 토목건축 전공자들에게는 전공을 살릴 수 있는...,순환근무로 인해서 짧으면 년 길면 년 사이에 계속 부서를 옮겨야 한다 부서 이...,기본적인 마인드가 의전을 중요시 여기는 등 매우 수직적임 시각을 좀 더 다양하게 ...,"[안정, 적, 인, 듯, 안정, 적, 조직, 기존, 대, 직원, 신입, 대, 직원,...","[직원, 위한, 복지, 제도, 음, 토목건축, 전공, 전공, 살릴, 좋, 직장]","[순환, 근무, 인해서, 짧, 으면, 길, 면, 사이, 계속, 부서, 옮겨야, 한다...","[기본, 적, 인, 마인드, 의전, 중요시, 매우, 수직, 적, 임, 더, 다양, ..."
한국토지주택공사,2021. 03,경영/기획/컨설팅,정말 좋은 회사였습니다 동료들도 너무 좋고 복지도 좋았어요,연차 눈치 안 보고 쓰기 가능 분위기 자유로움 동료들 좋음,발령 날 때 전국구다 보니 가족끼리 떨어져 사는 경우가 많이 보였음,신입사원 많이 뽑아주시면 감사하겠습니다 인턴이었지만 정규직 입사 원해요,"[정말, 좋, 회사, 였, 동료, 너무, 좋, 고, 복지, 좋, 았, 어요]","[연차, 눈치, 안, 고, 쓰, 기, 가능, 분위기, 자유, 로움, 동료, 좋, 음]","[발령, 날, 전국구, 다, 니, 가족, 끼리, 떨어져, 사, 경우, 많이, 보였, 음]","[신입, 사원, 많이, 뽑, 시, 면, 감사, 겠, 인턴, 었, 정규직, 입사, 원해요]"
한국토지주택공사,2021. 03,경영/기획/컨설팅,가족 같은 분위기로 안정적으로 오래 다닐 수 있는 회사,안정적이다 돈 꼬박꼬박 준다 가족적이다 가늘고 길게 다니고 싶은 사람에게 좋다,진취적인 성향의 사람이라면 잘 맞지 않을 수 있습니다,공기업이지만 성과에 따른 차등이 있으면 좋겠습니다 의욕이 달어져요,"[가족, 분위기, 안정, 적, 오래, 다닐, 회사]","[안정, 적, 다, 돈, 꼬박꼬박, 준다, 가족, 적, 다, 가늘, 고, 길, 게,...","[진취, 적, 인, 성향, 사람, 라면, 맞]","[공기업, 성과, 따른, 차등, 으면, 좋, 겠, 욕, 달, 져요]"


In [64]:
trade_df.to_excel(excel_writer = '유통_무역_운송_토큰화.xlsx')
edu_df.to_excel(excel_writer = '교육업_토큰화.xlsx')
cons_df.to_excel(excel_writer = '건설업_토큰화.xlsx')

In [65]:
from collections import Counter

In [66]:
# 코퍼스 생성
edu_corpus = []

for col in edu_df.columns[7:]:
    for i in range(edu_df.shape[0]):
        edu_corpus.append(edu_df[col][i])

In [67]:
edu_corpus

[['대', '어려서', '분위기', '좋', '음', '상사', '젊', '어서', '소통', '그나마', '통하', '편'],
 ['어학원',
  '위',
  '자부심',
  '느낄',
  '음',
  '다양',
  '관리법',
  '콘텐츠',
  '제작',
  '능력',
  '기를',
  '음',
  '교육',
  '업계',
  '연봉',
  '괜찮',
  '편',
  '해',
  '커스',
  '라고',
  '면',
  '대',
  '다',
  '알',
  '고',
  '다',
  '욕',
  '그리',
  '먹',
  '는지',
  '모르',
  '겠',
  '회사',
  '팀',
  '빨리',
  '려면',
  '정시',
  '퇴근',
  '많이',
  '한다',
  '야근',
  '날',
  '정해져',
  '긴',
  '평일',
  '휴무',
  '대체',
  '해',
  '줘서',
  '나름',
  '합리',
  '적',
  '라',
  '느낀다',
  '마케팅',
  '전반',
  '적',
  '인',
  '배울',
  '곳',
  '팀',
  '만나',
  '면',
  '정시',
  '퇴근',
  '가능',
  '고',
  '능력',
  '인정받',
  '으면서',
  '다닐',
  '다'],
 ['역량',
  '빠른',
  '진급',
  '가능',
  '며',
  '마케팅',
  '업무',
  '빠르',
  '게',
  '체계',
  '적',
  '배울',
  '곳',
  '회',
  '대',
  '규모',
  '전',
  '직원',
  '기업',
  '행사',
  '워크숍',
  '송년회',
  '음'],
 ['역량',
  '승진',
  '빠르',
  '며',
  '다양',
  '기업',
  '문화',
  '행사',
  '다',
  '수평',
  '적',
  '인',
  '업무',
  '분위기',
  '자신',
  '아이디어',
  '눈치',
  '고',
  '제안'],
 ['젊',
  '상사',
  '수평',
  '적',
  '인',


In [79]:
# 리스트 하나로 만들기?
edu_lst = []
for i in range(len(edu_corpus)):
    for j in range(len(edu_corpus[i])):
        edu_lst.append(edu_corpus[i][j])

In [91]:
edu_lst

['대',
 '어려서',
 '분위기',
 '좋',
 '음',
 '상사',
 '젊',
 '어서',
 '소통',
 '그나마',
 '통하',
 '편',
 '어학원',
 '위',
 '자부심',
 '느낄',
 '음',
 '다양',
 '관리법',
 '콘텐츠',
 '제작',
 '능력',
 '기를',
 '음',
 '교육',
 '업계',
 '연봉',
 '괜찮',
 '편',
 '해',
 '커스',
 '라고',
 '면',
 '대',
 '다',
 '알',
 '고',
 '다',
 '욕',
 '그리',
 '먹',
 '는지',
 '모르',
 '겠',
 '회사',
 '팀',
 '빨리',
 '려면',
 '정시',
 '퇴근',
 '많이',
 '한다',
 '야근',
 '날',
 '정해져',
 '긴',
 '평일',
 '휴무',
 '대체',
 '해',
 '줘서',
 '나름',
 '합리',
 '적',
 '라',
 '느낀다',
 '마케팅',
 '전반',
 '적',
 '인',
 '배울',
 '곳',
 '팀',
 '만나',
 '면',
 '정시',
 '퇴근',
 '가능',
 '고',
 '능력',
 '인정받',
 '으면서',
 '다닐',
 '다',
 '역량',
 '빠른',
 '진급',
 '가능',
 '며',
 '마케팅',
 '업무',
 '빠르',
 '게',
 '체계',
 '적',
 '배울',
 '곳',
 '회',
 '대',
 '규모',
 '전',
 '직원',
 '기업',
 '행사',
 '워크숍',
 '송년회',
 '음',
 '역량',
 '승진',
 '빠르',
 '며',
 '다양',
 '기업',
 '문화',
 '행사',
 '다',
 '수평',
 '적',
 '인',
 '업무',
 '분위기',
 '자신',
 '아이디어',
 '눈치',
 '고',
 '제안',
 '젊',
 '상사',
 '수평',
 '적',
 '인',
 '분위기',
 '상명하복',
 '보다',
 '회의',
 '중심',
 '업무',
 '프로세스',
 '진행',
 '됨',
 '사람',
 '한테',
 '스트레스',
 '받',
 '크',
 '게',
 '다는'

In [89]:
# 빈도수 계산
count = Counter(edu_lst)
count

Counter({'대': 650,
         '어려서': 13,
         '분위기': 1733,
         '좋': 4946,
         '음': 9281,
         '상사': 333,
         '젊': 797,
         '어서': 883,
         '소통': 250,
         '그나마': 127,
         '통하': 29,
         '편': 1357,
         '어학원': 50,
         '위': 501,
         '자부심': 204,
         '느낄': 181,
         '다양': 603,
         '관리법': 2,
         '콘텐츠': 92,
         '제작': 25,
         '능력': 569,
         '기를': 25,
         '교육': 2270,
         '업계': 820,
         '연봉': 1829,
         '괜찮': 331,
         '해': 2476,
         '커스': 178,
         '라고': 683,
         '면': 3443,
         '다': 8044,
         '알': 718,
         '고': 10611,
         '욕': 91,
         '그리': 37,
         '먹': 438,
         '는지': 435,
         '모르': 488,
         '겠': 2281,
         '회사': 3257,
         '팀': 978,
         '빨리': 161,
         '려면': 114,
         '정시': 87,
         '퇴근': 808,
         '많이': 1337,
         '한다': 690,
         '야근': 1852,
         '날': 261,
         '정해져': 64,
     

In [90]:
# 가장 많이 나온 단어 50개 출력
count.most_common(50)

[('고', 10611),
 ('음', 9281),
 ('다', 8044),
 ('적', 5747),
 ('좋', 4946),
 ('많', 4913),
 ('업무', 4593),
 ('게', 4150),
 ('직원', 4145),
 ('면', 3443),
 ('함', 3353),
 ('할', 3278),
 ('회사', 3257),
 ('기', 3061),
 ('사람', 3017),
 ('인', 3002),
 ('으면', 2815),
 ('복지', 2580),
 ('시간', 2561),
 ('해', 2476),
 ('겠', 2281),
 ('교육', 2270),
 ('만', 2253),
 ('안', 2127),
 ('근무', 1920),
 ('시', 1854),
 ('야근', 1852),
 ('생각', 1839),
 ('연봉', 1829),
 ('분위기', 1733),
 ('더', 1576),
 ('너무', 1499),
 ('기업', 1490),
 ('편', 1357),
 ('많이', 1337),
 ('었', 1247),
 ('해야', 1243),
 ('필요', 1227),
 ('라', 1203),
 ('체계', 1192),
 ('높', 1188),
 ('연차', 1113),
 ('퇴사', 1061),
 ('듯', 1001),
 ('가능', 999),
 ('문화', 987),
 ('받', 986),
 ('팀', 978),
 ('출근', 978),
 ('거', 967)]

In [101]:
# 코퍼스 생성
edu_corpus2 = []

for i in range(edu_df.shape[0]):
    edu_corpus2.append(edu_df['장점토큰화'][i])

In [102]:
# 리스트 하나로 만들기?
edu_lst2 = []
for i in range(len(edu_corpus2)):
    for j in range(len(edu_corpus2[i])):
        edu_lst2.append(edu_corpus2[i][j])

In [104]:
count = Counter(edu_lst2)
count.most_common(50)

[('음', 3964),
 ('고', 3383),
 ('다', 3165),
 ('좋', 2130),
 ('적', 2006),
 ('많', 1369),
 ('게', 1323),
 ('할', 1274),
 ('회사', 1204),
 ('교육', 1147),
 ('업무', 1132),
 ('면', 1099),
 ('분위기', 1083),
 ('인', 989),
 ('기', 989),
 ('사람', 956),
 ('복지', 837),
 ('직원', 836),
 ('편', 813),
 ('함', 803),
 ('가능', 731),
 ('만', 692),
 ('자유', 684),
 ('기업', 667),
 ('해', 649),
 ('시간', 612),
 ('근무', 606),
 ('장점', 604),
 ('연차', 575),
 ('업계', 566),
 ('젊', 531),
 ('안', 527),
 ('어서', 469),
 ('높', 452),
 ('라', 450),
 ('다양', 428),
 ('많이', 420),
 ('대', 404),
 ('눈치', 396),
 ('승진', 390),
 ('연봉', 387),
 ('배울', 371),
 ('문화', 366),
 ('시', 356),
 ('점', 349),
 ('기회', 349),
 ('수평', 341),
 ('야근', 335),
 ('받', 334),
 ('체계', 333)]

In [105]:
# 코퍼스 생성
edu_corpus3 = []

for i in range(edu_df.shape[0]):
    edu_corpus3.append(edu_df['단점토큰화'][i])

In [106]:
# 리스트 하나로 만들기?
edu_lst3 = []
for i in range(len(edu_corpus3)):
    for j in range(len(edu_corpus3[i])):
        edu_lst3.append(edu_corpus3[i][j])

In [107]:
count = Counter(edu_lst3)
count.most_common(50)

[('고', 4410),
 ('음', 4318),
 ('다', 3553),
 ('많', 2966),
 ('업무', 2695),
 ('적', 2283),
 ('함', 1844),
 ('게', 1671),
 ('시간', 1607),
 ('기', 1467),
 ('야근', 1338),
 ('면', 1333),
 ('사람', 1190),
 ('안', 1165),
 ('회사', 1143),
 ('인', 1106),
 ('연봉', 1103),
 ('직원', 1094),
 ('근무', 1007),
 ('너무', 971),
 ('할', 959),
 ('해야', 915),
 ('만', 875),
 ('시', 722),
 ('복지', 699),
 ('교육', 637),
 ('주말', 611),
 ('출근', 610),
 ('생각', 560),
 ('좋', 555),
 ('퇴근', 554),
 ('많이', 552),
 ('팀', 543),
 ('퇴사', 538),
 ('높', 530),
 ('받', 518),
 ('분위기', 518),
 ('임', 497),
 ('경우', 494),
 ('편', 492),
 ('라', 480),
 ('내', 476),
 ('는데', 473),
 ('연차', 460),
 ('보다', 457),
 ('체계', 454),
 ('기업', 450),
 ('못', 445),
 ('부서', 444),
 ('됨', 443)]