## 목표
- 비정형 데이터끼리 유사도를 비교하는 방법을 알아보자
- case 1 : 빈도기반의 전처리 도구와 유사도 알고리즘을 이용한 방법
- case 2 : 딥러닝기반의 모델을 활용한 유사도 비교(word2vec,k doc2vec)

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from tqdm import tqdm

#### 데이터로딩

In [3]:
data = pd.read_csv('data/dart.csv')
data.head()

Unnamed: 0,code,market,name,business
0,20,KOSPI,동화약품,II. 사업의 내용\n1. 사업의 개요\n가. 일반적인 사항\n기업회계기준서 제11...
1,40,KOSPI,KR모터스,II. 사업의 내용\n1. 사업의 개요\n가. 업계의 현황\n수출주력시장인 유럽 불...
2,50,KOSPI,경방,II. 사업의 내용\n1. 사업의 개요\n(1) 산업의 특성\n[섬유사업부문]\n면...
3,60,KOSPI,메리츠화재,"II. 사업의 내용\n1. 사업의 개요\n가. 산업의 특성, 성장성, 경기변동의 특..."
4,70,KOSPI,삼양홀딩스,"II. 사업의 내용\n1. 사업의 개요\n가. 업계의 현황\n지주회사(持株會社, H..."


In [29]:
business = data['business']
name = data['name']

In [30]:
print(business.shape, name.shape)

(2589,) (2589,)


In [31]:
# 결측치 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2589 entries, 0 to 2588
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   code      2589 non-null   object
 1   market    2589 non-null   object
 2   name      2589 non-null   object
 3   business  2295 non-null   object
dtypes: object(4)
memory usage: 81.0+ KB


In [32]:
# 결측치 확인
null_index = business[business.isnull()].index
null_index

Index([   5,    7,    9,   12,   14,   15,   18,   20,   21,   28,
       ...
       2559, 2560, 2561, 2562, 2563, 2564, 2565, 2566, 2587, 2588],
      dtype='int64', length=294)

In [33]:
# 결측치 삭제
business.drop(null_index, inplace=True)
name.drop(null_index, inplace=True)

In [34]:
print(business.shape, name.shape)

(2295,) (2295,)


#### 데이터 전처리
- 형태소 분석
- 한 글자 제거
- 정규표현식 활용(숫자, 특수기호, 문장부호 등 삭제)

In [35]:
#### 형태소 분석기
# 장점 : 다른 형태소분석기에 비해 속도가 빠르다
# 단점 : 리눅스기반의 OS에서 활용할 수 있다

In [36]:
# okt 사용하기
from konlpy.tag import Okt

In [37]:
okt = Okt() # 분석기 객체 생성
for doc in tqdm(business):
    morphs = okt.morphs(doc) # 형태소 분석실시

100%|██████████████████████████████████████████████████████████████████████████████| 2295/2295 [25:09<00:00,  1.52it/s]


In [None]:
# 문서 하나하나의 길이가 커서 okt로 처리하는데 시간이 걸린다
len(businessiness[0])

In [38]:
import pickle

In [39]:
with open('data/business_morphs.pkl', 'rb') as f:
    business_morphs = pickle.load(f)

In [42]:
business_morphs[0]

['II',
 '.',
 '사업',
 '의',
 '내용',
 '1',
 '.',
 '사업',
 '의',
 '개요',
 '가',
 '.',
 '일반',
 '적',
 '인',
 '사항',
 '기업',
 '회계',
 '기준',
 '서',
 '제',
 '1110',
 '호',
 '"',
 '연결',
 '재무제표',
 '"',
 '의',
 '의하',
 '여',
 '2018',
 '년',
 '12',
 '월',
 '17',
 '일',
 '에',
 '설립',
 '한',
 '동화',
 '크립톤',
 '기업가',
 '정신',
 '제일',
 '호',
 '창업',
 '벤처',
 '전문',
 '사모',
 '투자',
 '합자회사',
 '를',
 '종속',
 '회사',
 '에',
 '편입',
 '하',
 '였',
 '습니다',
 '.',
 '나',
 '.',
 '지배',
 '기업',
 '의',
 '현황',
 '1',
 ')',
 '산업',
 '의',
 '특성',
 '제약',
 '산업',
 '은',
 '약학',
 ',',
 '화학',
 ',',
 '생물학',
 '등',
 '여러',
 '분야',
 '의',
 '지식',
 '과',
 '기술',
 '이',
 '복합',
 '적',
 '으로',
 '필요',
 '한',
 '기술',
 '·',
 '지식',
 '집약',
 '형',
 '산업',
 '으로',
 '인간',
 '의',
 '생명',
 '과',
 '보건',
 '에',
 '직접',
 '적',
 '으로',
 '관련',
 '된',
 '제품',
 '을',
 '생산',
 '하',
 '고',
 ',',
 '개발',
 '·',
 '제조',
 '·',
 '유통',
 '·',
 '가격',
 '등',
 '을',
 '정부',
 '에서',
 '엄격',
 '하',
 '게',
 '규제',
 '하',
 '고',
 '관리',
 '하',
 '는',
 '산업',
 '적',
 '특성',
 '을',
 '가지',
 '고',
 '있',
 '습니다',
 '.',
 '또한',
 '신약',
 '개발',
 '에',
 '는',
 '막대',
 

In [51]:
# 1글자 데이터 제거 및 클렌징(숫자, 문장부호 제거) 실시
import re
p = re.compile("[0-9.,?!()@~]+")

In [52]:
business_clean = []
for doc in business_morphs:
    tmp = []
    for token in doc:
        if len(token) > 2:
            continue
        if p.match(token) :
            continue
        tmp.append(token)
    business_clean.append(tmp)

In [53]:
business_clean[0]

['II',
 '사업',
 '의',
 '내용',
 '사업',
 '의',
 '개요',
 '가',
 '일반',
 '적',
 '인',
 '사항',
 '기업',
 '회계',
 '기준',
 '서',
 '제',
 '호',
 '"',
 '연결',
 '"',
 '의',
 '의하',
 '여',
 '년',
 '월',
 '일',
 '에',
 '설립',
 '한',
 '동화',
 '정신',
 '제일',
 '호',
 '창업',
 '벤처',
 '전문',
 '사모',
 '투자',
 '를',
 '종속',
 '회사',
 '에',
 '편입',
 '하',
 '였',
 '나',
 '지배',
 '기업',
 '의',
 '현황',
 '산업',
 '의',
 '특성',
 '제약',
 '산업',
 '은',
 '약학',
 '화학',
 '등',
 '여러',
 '분야',
 '의',
 '지식',
 '과',
 '기술',
 '이',
 '복합',
 '적',
 '으로',
 '필요',
 '한',
 '기술',
 '·',
 '지식',
 '집약',
 '형',
 '산업',
 '으로',
 '인간',
 '의',
 '생명',
 '과',
 '보건',
 '에',
 '직접',
 '적',
 '으로',
 '관련',
 '된',
 '제품',
 '을',
 '생산',
 '하',
 '고',
 '개발',
 '·',
 '제조',
 '·',
 '유통',
 '·',
 '가격',
 '등',
 '을',
 '정부',
 '에서',
 '엄격',
 '하',
 '게',
 '규제',
 '하',
 '고',
 '관리',
 '하',
 '는',
 '산업',
 '적',
 '특성',
 '을',
 '가지',
 '고',
 '있',
 '또한',
 '신약',
 '개발',
 '에',
 '는',
 '막대',
 '한',
 '시간',
 '과',
 '비용',
 '이',
 '소요',
 '되',
 '며',
 '성공',
 '확률',
 '또한',
 '높',
 '지',
 '않',
 '으나',
 '신약',
 '개발',
 '에',
 '성공',
 '할',
 '경우',
 '엔',
 '부',
 '가',
 '가치',
 

#### 유사도 비교를 위해 수치데이터로 변경
- 빈도기반의 tf-idf를 이용해서 수치화

In [54]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [55]:
business_tfidf = TfidfVectorizer(min_df = 5)
business_data = [" ".join(doc) for doc in business_clean]
business_tfidf.fit(business_data)
business_vector = business_tfidf.transform(business_data)
business_vector.shape

(2295, 14560)

## case1
#### 유사도 계산하기
- 유클리디언 거리공식, 맨하튼 거리공식
- 코사인 유사도

In [56]:
# 코사인 유사도 공식
import numpy as np
from numpy import dot
from numpy.linalg import norm

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([2,0,2,2])

print('문서 1과 문서2의 유사도 :',cos_sim(doc1, doc2))
print('문서 1과 문서3의 유사도 :',cos_sim(doc1, doc3))
print('문서 2와 문서3의 유사도 :',cos_sim(doc2, doc3))

문서 1과 문서2의 유사도 : 0.6666666666666667
문서 1과 문서3의 유사도 : 0.6666666666666667
문서 2와 문서3의 유사도 : 1.0000000000000002


In [63]:
print(name[:2])

0     동화약품
1    KR모터스
Name: name, dtype: object


In [58]:
cos_sim(business_vector[0].toarray()[0],
       business_vector[1].toarray()[0])

0.2427018666779161

In [59]:
print(name[:30])

0          동화약품
1         KR모터스
2            경방
3         메리츠화재
4         삼양홀딩스
6         하이트진로
8          유한양행
10       CJ대한통운
11     하이트진로홀딩스
13           두산
16       성창기업지주
17         대림산업
19         유유제약
22        일동홀딩스
23    한국테크놀로지그룹
24        삼천당제약
25          기아차
26        대유플러스
27        노루홀딩스
29       한화손해보험
30        삼화페인트
31       롯데손해보험
32         대원강업
33       중앙에너비스
34         조선내화
35         대동공업
36         가온전선
37         삼일제약
38         흥국화재
41        CS홀딩스
Name: name, dtype: object


In [61]:
name.iloc[[5,8]]

6        하이트진로
11    하이트진로홀딩스
Name: name, dtype: object

In [62]:
cos_sim(business_vector[5].toarray()[0],
       business_vector[8].toarray()[0])

0.9792141276929426

In [64]:
# 전체데이터 유사도 구하기
from sklearn.metrics.pairwise import cosine_similarity

In [65]:
cosine_sim = cosine_similarity(business_vector, business_vector)
cosine_sim.shape

(2295, 2295)

In [69]:
cosine_sim[5]

array([0.16758042, 0.18681909, 0.20712347, ..., 0.11864448, 0.14061619,
       0.08683308])

In [85]:
sim_df = pd.DataFrame(cosine_sim[5])
sim_df['기업명'] = name.values
sim_df.sort_values(by=0, inplace=True, ascending=False)
sim_df.head()

Unnamed: 0,0,기업명
5,1.0,하이트진로
8,0.979214,하이트진로홀딩스
233,0.509183,롯데칠성
42,0.505201,보해양조
720,0.501673,무학


## case2
- 딥러닝 모델 활용 : Doc2vec
- Word2vec 이후에 후속 모델로 공개된 것 (2014년 구글 연구팀이 발표)

## Distributed Memory version of Pharagraph Vector (PV-DM)

![image.png](attachment:a7575b74-9587-4e53-8eb4-4cc2f8d6e826.png)

## Distributed Bag of Words version of Paragraph Vector (PV-DBOW)

![image.png](attachment:6d49c394-5388-4769-a81b-2bb9dd86b973.png)

#### 데이터셋 구성하기

In [86]:
from gensim.models.doc2vec import TaggedDocument # Doc2vec에 학습시키기위해 사용하는
from gensim.models import Doc2Vec # Doc2Vec 클래스

In [87]:
business_data_for_d2v = [] # doc2vec을 위한 전체데이터가 들어갈 리스트
for doc, n in zip(business_clean, name):
    obj = TaggedDocument(tags = n, words = doc) # 기업명하고 공시테스트를 하나로 묶어줌
    business_data_for_d2v.append(obj)

In [88]:
business_data_for_d2v[0]

TaggedDocument(words=['II', '사업', '의', '내용', '사업', '의', '개요', '가', '일반', '적', '인', '사항', '기업', '회계', '기준', '서', '제', '호', '"', '연결', '"', '의', '의하', '여', '년', '월', '일', '에', '설립', '한', '동화', '정신', '제일', '호', '창업', '벤처', '전문', '사모', '투자', '를', '종속', '회사', '에', '편입', '하', '였', '나', '지배', '기업', '의', '현황', '산업', '의', '특성', '제약', '산업', '은', '약학', '화학', '등', '여러', '분야', '의', '지식', '과', '기술', '이', '복합', '적', '으로', '필요', '한', '기술', '·', '지식', '집약', '형', '산업', '으로', '인간', '의', '생명', '과', '보건', '에', '직접', '적', '으로', '관련', '된', '제품', '을', '생산', '하', '고', '개발', '·', '제조', '·', '유통', '·', '가격', '등', '을', '정부', '에서', '엄격', '하', '게', '규제', '하', '고', '관리', '하', '는', '산업', '적', '특성', '을', '가지', '고', '있', '또한', '신약', '개발', '에', '는', '막대', '한', '시간', '과', '비용', '이', '소요', '되', '며', '성공', '확률', '또한', '높', '지', '않', '으나', '신약', '개발', '에', '성공', '할', '경우', '엔', '부', '가', '가치', '를', '창출', '할', '수', '있', '는', '미래', '으로', '분류', '되', '고', '있', '산업', '의', '성장', '성', '제약', '산업', '은', '고령', '화', '시대', '의', '핵심', '

#### 모델생성 및 학습

In [89]:
model = Doc2Vec(vector_size=300, # 문서를 수치화할때 사용할 숫자의 크기
               alpha = 0.025, # 학습률
               min_alpha = 0.0025, # 학습률 감소
               window=8) # 학습시 다음단어를 맞추기 위한 입력단어의 갯수

In [91]:
# 사용하는 단어사전 구축
model.build_vocab(business_data_for_d2v)

In [93]:
# 사용하는 문서의 수 확인
model.corpus_count

2295

In [104]:
model.raw_vocab

defaultdict(int, {})

In [94]:
# 학습
model.train(business_data_for_d2v, # 학습에 사용할 문서데이터 셋
           total_examples=model.corpus_count, # 전체 사용하는 문서의 수
           epochs=20) # 업데이트 수

In [102]:
# Doc2vec의 유사도계산 함수 -> tag에 넣은 문서명을 기준으로 유사도비교 실시
model.dv.most_similar("하이트진로")

KeyError: "Key '하이트진로' not present in vocabulary"

In [103]:
# 기업명 확인 후 다른 우사도 구해보기
model.dv.most_similar('카카오')

KeyError: "Key '카카오' not present in vocabulary"