In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

IMPORT DATA

In [2]:
df = pd.read_csv('bow_df.csv')
# 결측치 제거
df = df.dropna()

company_name = df.company_name
company_name.to_csv("company_name.csv")
other_var = df.drop(['company_name','adv','dadv','Unnamed: 0'],axis=1)
other_var.to_csv("other_var.csv")

불용어 처리

In [3]:
import re

def clean_str(text):
    pattern = '([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)' # E-mail제거
    text = re.sub(pattern=pattern, repl=' ', string=text)
    pattern = '(http|ftp|https)://(?:[-\w.]|(?:%[\da-fA-F]{2}))+' # URL제거
    text = re.sub(pattern=pattern, repl=' ', string=text)
    pattern = '([ㄱ-ㅎㅏ-ㅣ]+)'  # 한글 자음, 모음 제거
    text = re.sub(pattern=pattern, repl=' ', string=text)
    pattern = '<[^>]*>'         # HTML 태그 제거
    text = re.sub(pattern=pattern, repl=' ', string=text)
    pattern = '[^\w\s\n]'         # 특수기호제거
    text = re.sub(pattern=pattern, repl=' ', string=text)
    text = re.sub('[-=+,#/\?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]',' ', string=text)
    text = re.sub('\n', '.', string=text)
    return text 

In [4]:
df['adv'] = df['adv'].apply(clean_str)
df['dadv'] = df['dadv'].apply(clean_str)
df

Unnamed: 0.1,Unnamed: 0,company_name,adv,dadv,average_salary,total_sale,turn_over_rate
0,0,국민건강보험공단,휴직 종류가 다양하지 못하나 임신출산관련해서는 잘 정리된듯하다 분위기는 지사마다 ...,악성민원 진상민원을 매일 매일 마주해야한다 개편때마다 퇴사자 생기는거 보면 말다함...,6441,75400.0,0.20
1,1,근로복지공단,탄력근무 복지포인트 등 직원들의 복지 계약직도 해당 1 재택근무를 쓸 수 있다...,위탁집행형 기관 치고 급여가 적음 정규직들의 최대 불만 그래서 건보 연금 등으로 ...,5817,9406.2,0.13
2,3,농협은행,업무 강도에 비해 높은 연봉 워라밸 정년보장 젊은 분위기 등 장점이 많은 회사...,다수 보수적인 문화가 여전히 잔재하고 있음 어르신들도 많은 회사 성격좋은 윗 상급...,6182,13100.0,0.15
3,4,현대카드,일단 오피스 환경이 쾌적한것은 장점대기업만의 성과급이나 복지의 혜택등이 좋다생각보다...,꼰대문화 부서에따라 존재 굽신굽신 매일 퇴근은 정시에 포기 할일 다하면 다른업무...,8737,2300.0,0.35
4,5,중소기업은행,5일 연차 사용가능 지바지 있을 수 있지만 훌륭한 선배들이 많음 지바지 사바사지...,느린 전산 사람 상대하는 직업이다보니 사람에 대한 스트레스가 많음 서비스직이다보니...,10065,14800.0,0.16
...,...,...,...,...,...,...,...
2498,212,유끼커뮤니케이션,연차 자유롭게 사용 가능함다양한 업무를 진행해볼 수 있는 곳 퇴근 시간이 칼 같이 ...,복지 제도의 부족함 느낌타이트한 업무 데드라인이 있을 때가 많음 사무실이 비교적 좁...,4417,28.0,0.14
2499,213,투어이천,기업의 장점으로는 꼰대 문화는 거의 없고 팀바이 팀이라서 연차가 자유롭게 이용 가능...,단점은 너무나 많습니다 일단 회사인데 체계가 제대로 잡혀있지 않아서 일하기가 너무...,1314,108.9,1.36
2500,214,휴먼코아,팀보단 본인만 잘하면 별 문제없습니다 통근버스 식비 지원 쉬는시간 많습니다 연차...,단순노동이라 힘들고 체력적으로 많이 힘듭니다 화장실 가는게 쫌 눈치보일정도로 바쁘...,3062,430.1,1.00
2501,215,에이치엔씨네트워크,휴가 5개줌연차 돈으로 줌화장실 비데있음커피 차 있음일못해도 돈준다 연차 눈치안봐...,너무많아서 못쓰겠다 일하는 사람만 하고 안하는 사람은 안한다안하는 사람 루팡 개많다...,3038,336.9,0.68


정규화

In [5]:
from soynlp.normalizer import *

df['adv'] = [repeat_normalize(adv,num_repeats=2) for adv in df['adv']]
df['dadv'] = [repeat_normalize(dadv,num_repeats=2) for dadv in df['dadv']]

KOBERT

In [6]:
from tqdm import tqdm
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Mecab
from bertopic import BERTopic

In [7]:
class CustomTokenizer:
    def __init__(self, tagger):
        self.tagger = tagger
    def __call__(self, sent):
        sent = sent[:1000000]
        word_tokens = self.tagger.morphs(sent)
        result = [word for word in word_tokens if len(word) > 1]
        return result

In [9]:
vectorizer = CountVectorizer(tokenizer=CustomTokenizer, max_features=3000)

In [10]:
model = BERTopic(embedding_model="sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens", \
                 vectorizer_model=vectorizer,
                 nr_topics=50,
                 top_n_words=10,
                 calculate_probabilities=True)


In [11]:
topics, probs = model.fit_transform(df.adv)

Downloading (…)ab895/.gitattributes:   0%|          | 0.00/574 [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)f9e99ab895/README.md:   0%|          | 0.00/4.06k [00:00<?, ?B/s]

Downloading (…)e99ab895/config.json:   0%|          | 0.00/731 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/527 [00:00<?, ?B/s]

Downloading (…)99ab895/modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

OMP: Info #276: omp_set_nested routine deprecated, please use omp_set_max_active_levels instead.


TypeError: 'CustomTokenizer' object is not iterable