# 자연어 데이터의 전처리
- NLP(Natual Language Processing)는 자연어 처리라 불리며, 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다.
- 파이썬을 지원하는 한글 자연어 처리 패키지로 유명한 KoLNPy를 활용하여 진행
- 추가로 Okt를 활용하여 형태소 분석을 진행할 것임

## 데이터 이해
### KoNLPy를 사용한 형태소 분석
- 자연어 처리 방법 중 형태소 분석(Morphological Analysis)가 있음
- 형태소 분석은 문법 규칙이나 사전 데이터에 근거해서 대화나 문장을 단어로 분할하고 각각에 품사를 부여하는 처리를 뜻함
- 형태소란 그 언어에 있어서 의미가 있는 최소 단위를 뜻함

In [4]:
f = open('./data/it-life-hack/it-life-hack-6292880.txt', encoding='utf-8')

text = f.read()
print(text)

f.close()

http://news.livedoor.com/article/detail/6292880/
2012-02-19T13 : 00 : 00 + 0900
구형 Mac에서 금단의 파워 업! 최신 PC 나 소프트웨어를 한꺼번에 체크 [IT 플래시백]
텔레비전이나 Twitter와 연계 할 수있는 PC 나 프로세서, 전환 PC 등 재미있는 PC가 속속 등장했다. 구형 Mac의 금단이라고도 할 수있는 파워 업 방법에서 NEC의 최신 PC, 화제의 ThinkPad X1 Hybrid, 새로운 보안 소프트웨어까지 한꺼번에 소개합니다.

■ 인텔 SSD 520을 Mac에 장착! 구형 Mac은 얼마나 빨라질 것인가? (위)
인텔이 최신 SSD '520 시리즈'를 출시했다. 현재 SSD 중에서도 최고의 성능을 자랑하는 이 제품을 구형 Mac의 고속화를 도모한다는 점에서 리뷰 해 보았다. 조금 색다른 리뷰가되지만, 어느 정도의 효과가 있는지, 기대가 크다.


■ http : //itlifehack.jp/archives/6716997.html
ThinkPad X1 Hybrid는 사용하는 CPU가 x86 (인텔 Core i 등)에서 ARM으로 전환가능한 하이브리드 PC, 하지만 이와 동시에 OS도 바뀐다.


■ 초기 비용, 업데이트 비용 모두 무료! 저스트시스템, 도마뱀로그가 인상적인 보안 소프트웨어
현재는 많은 사용자들이 PC에 보안 프로그램을 도입하고 있지만, 그 대부분은 매년 5,000 엔 정도 드는 업데이트 비용 과 그 절차에 대해 불만을 가지고있다. 유료 소프트웨어를 이용하는 사용자의 약 80 %는 무료 보안 소프트웨어를 알고 있음에도 불구하고, 성능면에서 뒤 떨어지는 게 아니냐는 불안에서 도입을 미루고 있는 상황이다.


■ 텔레비전의 새로운 활용 방법을 제안! NEC의 봄 신상 PC는 TV와 Twitter를 연계
NEC는 2012 년 2 월 14 일, 개인용 데스크톱 PC 인 'VALUESTAR "시리즈 3 종류 16 모델을 2 월 16 일부터 판매한다고 발표했다. 신상품은 더 

In [5]:
from konlpy.tag import Okt
okt = Okt()

for token in okt.pos(text):
    print(token)

('http://news.livedoor.com/article/detail/6292880/', 'URL')
('\n', 'Foreign')
('2012-02', 'Number')
('-', 'Punctuation')
('19', 'Number')
('T', 'Alpha')
('13', 'Number')
(':', 'Punctuation')
('00', 'Number')
(':', 'Punctuation')
('00', 'Number')
('+', 'Punctuation')
('0900', 'Number')
('\n', 'Foreign')
('구형', 'Noun')
('Mac', 'Alpha')
('에서', 'Josa')
('금단', 'Noun')
('의', 'Josa')
('파워', 'Noun')
('업', 'Noun')
('!', 'Punctuation')
('최신', 'Noun')
('PC', 'Alpha')
('나', 'Noun')
('소프트웨어', 'Noun')
('를', 'Josa')
('한꺼', 'Verb')
('번', 'Noun')
('에', 'Josa')
('체크', 'Noun')
('[', 'Punctuation')
('IT', 'Alpha')
('플래시백', 'Noun')
(']', 'Punctuation')
('\n', 'Foreign')
('텔레비전', 'Noun')
('이나', 'Josa')
('Twitter', 'Alpha')
('와', 'Verb')
('연', 'Modifier')
('계', 'Noun')
('할', 'Verb')
('수', 'Noun')
('있는', 'Adjective')
('PC', 'Alpha')
('나', 'Noun')
('프로세서', 'Noun')
(',', 'Punctuation')
('전환', 'Noun')
('PC', 'Alpha')
('등', 'Noun')
('재미있는', 'Adjective')
('PC', 'Alpha')
('가', 'Verb')
('속속', 'Adverb')
('등장', 'Noun'

- Okt를 사용하려면 자바 1.7 이상이 필요함 (https://www.oracle.com/java/technologies/oracle-java-archive-downloads.html 의 JAVA SE13 다운로드)
- 설치와 함께 환경변수(JAVA_HOME) 설정이 필요함
- 자바 설치 및 환경변수 설정 후, https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 를 통해 JPype 설치
- JPype1-1.1.2-cp38-cp38-win_amd64.whl 로 진행하였음 (매우 중요 Python 3.8의 경우 버전 매칭이 까다로움)

### 텍스트 정규화
- 앞서 추출한 형태소에서 분석에 불필요한 문자가 포함되어있는 것을 알 수 있음
- 노이즈 제거가 필요함
- 정규표현식(Regular Expression)을 사용해서 처리할 필요가 있음

In [9]:
import re

reg_text = re.sub(r'[0-9a-zA-Z]+','', text)
reg_text = re.sub(r'[:;/+\.-]', '', reg_text)

print(reg_text)


      
구형 에서 금단의 파워 업! 최신  나 소프트웨어를 한꺼번에 체크 [ 플래시백]
텔레비전이나 와 연계 할 수있는  나 프로세서, 전환  등 재미있는 가 속속 등장했다 구형 의 금단이라고도 할 수있는 파워 업 방법에서 의 최신 , 화제의   , 새로운 보안 소프트웨어까지 한꺼번에 소개합니다

■ 인텔  을 에 장착! 구형 은 얼마나 빨라질 것인가? (위)
인텔이 최신  ' 시리즈'를 출시했다 현재  중에서도 최고의 성능을 자랑하는 이 제품을 구형 의 고속화를 도모한다는 점에서 리뷰 해 보았다 조금 색다른 리뷰가되지만, 어느 정도의 효과가 있는지, 기대가 크다


■   
  는 사용하는 가  (인텔   등)에서 으로 전환가능한 하이브리드 , 하지만 이와 동시에 도 바뀐다


■ 초기 비용, 업데이트 비용 모두 무료! 저스트시스템, 도마뱀로그가 인상적인 보안 소프트웨어
현재는 많은 사용자들이 에 보안 프로그램을 도입하고 있지만, 그 대부분은 매년 , 엔 정도 드는 업데이트 비용 과 그 절차에 대해 불만을 가지고있다 유료 소프트웨어를 이용하는 사용자의 약  %는 무료 보안 소프트웨어를 알고 있음에도 불구하고, 성능면에서 뒤 떨어지는 게 아니냐는 불안에서 도입을 미루고 있는 상황이다


■ 텔레비전의 새로운 활용 방법을 제안! 의 봄 신상 는 와 를 연계
는  년  월  일, 개인용 데스크톱  인 ' "시리즈  종류  모델을  월  일부터 판매한다고 발표했다 신상품은 더 강력해진 녹화 기능 외에도  시청 · 녹화 기능에 더해서 업계 최초로 인기 를 연계한 ' 트위트 플러스'를 추가하는 등  컴퓨터 만의 기능을 탑재 스마트 폰 홈 네트워크 대응도 강화하고, "안심 간단 쾌적"한 디지털 엔터테인먼트를 제안하여, 주요 모델에 대해 다음과 같이 기능 강화를 실시했다


■ 마치 축제같은 출하식! 렛츠 노트  출하 시작
 월  일에 발매되는 '   의 출하식이  월  일 국내 제조 거점인 고베 공장에서 열렸다 동사의 컴퓨터로는 처음실시하는 출하식으로, 이 제품에

- [0-9] : 숫자 0~9 중에 한 문자와 일치
- [0-9a-z]+ : 숫자 0 ~ 9, 소문자 a ~ z 중에 한 문자 이상이 일치
- 위의 조건을 통해 숫자와 알파벳이 삭제된 것을 확인할 수 있음

### 단어를 품사로 추출
- 조사와 기호의 경우에는 그 자체로 의미가 없기에 데이터 셋에서 제거되는 경우가 있음
- 자연어 처리 데이터 셋에는 주로 명사, 동사, 형용사인 단어가 사용됨

In [10]:
from konlpy.tag import Okt
okt = Okt()

for token in okt.nouns(text):
    print(token)

구형
금단
파워
업
최신
나
소프트웨어
번
체크
플래시백
텔레비전
계
수
나
프로세서
전환
등
등장
구형
의
금단
수
파워
업
방법
의
최신
화제
보안
소프트웨어
번
소개
인텔
장착
구형
은
얼마나
것
위
인텔
최신
시리즈
를
출시
현재
중
최고
성능
자랑
이
제품
구형
의
고속
도모
점
리뷰
해
조금
리뷰
정도
효과
기대
사용
인텔
등
전환
하이브리드
이
동시
도
초기
비용
업데이트
비용
모두
무료
저스트
시스템
도마뱀
로그
인상
보안
소프트웨어
현재
사용자
보안
프로그램
도입
그
대부분
매년
정도
업데이트
비용
과
그
절차
대해
불만
유료
소프트웨어
이용
사용자
약
무료
보안
소프트웨어
알
불구
성능
면
뒤
게
불안
도입
상황
텔레비전
활용
방법
제안
의
봄
신상
를
계
년
월
일
개인
용
데스크톱
인
시리즈
종류
모델
월
일
판매
발표
상품
더
녹화
기능
외
시청
녹화
기능
업계
최초
인기
를
계
트
위트
플러스
를
추가
등
컴퓨터
기능
탑재
스마트
폰
홈
네트워크
대응
안심
간단
쾌적
디지털
엔터테인먼트
제안
주요
모델
대해
다음
기능
강화
실시
마치
축제
출하
렛츠
노트
출하
시작
월
일
발매
의
출하
식이
월
일
국내
제조
거점
고베
공장
동사
컴퓨터
처음
실시
출하
이
제품
얼마나
힘
알
수
엡손
정품
잉크
잉크
카트리지
색
세트
엡손
출판사
입
소문


- 어느 정도 명사만 추출된 것을 확인할 수 있음

## 2. 머신러닝을 위한 데이터 준비
### 전체 기사의 형태소 분석
- 전체 기사를 읽고 정규표현식을 적용한 다음 형태소 분석을 실시하고 명사인 단어를 추출하여 데이터 셋 작성

In [11]:
import os
import re
from konlpy.tag import Okt
okt = Okt()

# 기사 폴더를 지정
dirs = ['it-life-hack', 'movie-enter']

# 단어와 레이블을 보존하는 리스트를 생성
docterm = []     # 설명변수
label = []       # 목적변수
tmp1 = []
tmp2 = ''

# 각 폴더의 파일을 하나씩 읽어와서 표시
for i, d in enumerate(dirs):
    # 파일을 취득
    files = os.listdir('./data/' + d)

    # 파일을 오픈해서 내용을 취득
    for file in files:
        f = open('./data/' + d + '/' + file, 'r', encoding='utf-8')
        text = f.read()

        # 정규표현에서 불필요한 문자열을 제거해서 표시
        reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
        reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
        reg_text = re.sub(r'[\s\n]', '', reg_text)

        # 명사로 필터링된 형태소분석
        for token in okt.nouns(reg_text):
            tmp1.append(token)
            tmp2 = ' '.join(tmp1)
        # 기사별로 단어를 보존
        docterm.append(tmp2)
        tmp1 = []

        # 기사별로 레이블을 붙여서 보존
        label.append(i)
        # 파일을 클로즈
        f.close()

- enumerate()를 통해 it-life_hack, movie-enter 폴더의 이미지 데이터를 인덱스로 붙여가며 읽음
- tmp1, tmp2의 처리를 통해 기사별로 단어를 리스트 docterm에 추가
- 기사별로 인덱스를 리스트 label에 추가

In [12]:
import pandas as pd

pd.DataFrame(docterm).head()

Unnamed: 0,0
0,구형 금단 파워 업 최신 소프트웨어 번 체크 플래시백 텔레비전 이나 계 프로세서 전...
1,애플 개발자 미리보기 출시 차기 애플 년월 일 미국 캘리포니아주 쿠퍼티노 현지 시간...
2,서비스 종료 후 전자책 디지털 통 컴퓨터 엔터테인먼트 휴대 용게 임기 전달 만화 콘...
3,웹페이지 이미지 통째 비결 이득 치트 시트 회사 소개 웹페이지 이미지 블로그 페이지...
4,레노버 프로 골퍼 사이토 선수 공식 후원 계약 체결 레노보 재팬 년월 프로 골퍼 사...


- 결과를 통해 각 기사에 포함된 단어의 리스트를 확인할 수 있음
- 한 행이 하나의 기사를 의미함

In [13]:
print(docterm[0])

구형 금단 파워 업 최신 소프트웨어 번 체크 플래시백 텔레비전 이나 계 프로세서 전환 등 등장 구형 금단 파워 업 방법 최신 화제 보안 소프트웨어 번 소개 인텔 장착 구형 얼마나 것 위 인텔 최신 시리즈 를 출시 현재 최고 성능 자랑 제품 구형 고속 도모 점 리뷰 조금 리뷰 정도 효과 대가 인텔 등 전환 하이브리드 만이 동시 초기 비용 업데이트 비용 무료 저스트 시스템 도마뱀 로그 인상 보안 소프트웨어 현재 사용자 보안 프로그램 도입 대부분 매년 정도 업데이트 비용 절차 대해 불만 가지 유료 소프트웨어 이용 사용자 의약 무료 보안 소프트웨어 불구 성능 면 뒤 불안 도입 상황 텔레비전 활용 방법 제안 의봄 신상 계 년월 일 데스크톱 시리즈 종류 모델 월일 판매 고 발표 상품 더 녹화 기능 외 시청 녹화 기능 업계 최초 인기 계 트 위트 플러스 를 추가 등 컴퓨터 기능 탑재 스마트폰 홈 네트워크 대응 안심 간단 쾌적 디지털 엔터테인먼트 제안 모델 대해 다음 기능 강화 실시 마치 축제 출하 렛츠 노트 출하 월일 발매 의 출하 이월 국내 거점 고베 공장 사의 컴퓨터 처음 실시 출하 제품 얼마나 힘 엡손 정품 잉크 잉크 카트리지 색 세트 엡손 출판사 입 소문


In [14]:
print(label)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

- 0행의 단어 리스트와 라벨링 결과를 확인할 수 있음

### 단어 문서 행렬의 작성
- 형태소 분석에 의해 분할된 단어는 그 발생 횟수를 카운트해서 수치 데이터로 변환함
- 일반적으로는 문서 중 포함된 각 단어의 출현 빈도를 Table 형식으로 가시화함
- 이를 단어 문서 행렬이라고 부르며 세로 축에는 단어, 가로축에는 문서를 표시하는 행렬 형식으로 표현함

In [15]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()
docterm_cv = cv.fit_transform(np.array(docterm))
docterm_cnt = docterm_cv.toarray()

pd.DataFrame(docterm_cnt).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11125,11126,11127,11128,11129,11130,11131,11132,11133,11134
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [16]:
print(pd.DataFrame(docterm_cnt).shape)
print(cv.get_feature_names()[0:50])

(400, 11135)
['가가', '가가호호', '가각본', '가감', '가게', '가격', '가계', '가고시마', '가곡면', '가공', '가과', '가굉장', '가교', '가구', '가군', '가그에', '가극', '가극장', '가기', '가까이', '가끔', '가나', '가나가와현', '가나타', '가내', '가년', '가능', '가능성', '가다해', '가담', '가대', '가도', '가동', '가두', '가드', '가득', '가든', '가디스', '가라', '가라데', '가라오케', '가라테', '가랑이', '가량', '가렛', '가로', '가로막', '가로세로', '가로축', '가르시아']


In [17]:
wcnt = []

docterm_wcnt = np.sum(a=docterm_cnt, axis=0)
for w, cnt in zip(cv.get_feature_names(), docterm_wcnt):
    wcnt.append([w, cnt])

wcnt_df = pd.DataFrame(wcnt)
wcnt_df = wcnt_df.sort_values(1, ascending=False)
wcnt_df.head()

Unnamed: 0,0,1
6393,영화,746
4398,사람,612
4674,생각,610
7830,작품,578
2408,때문,409


- 결과를 통해 고빈도어를 확인할 수 있음

In [18]:
cv = CountVectorizer(min_df=0.01, max_df=0.5)
docterm_cv = cv.fit_transform(np.array(docterm))
dcterm_cnt = docterm_cv.toarray()

pd.DataFrame(docterm_cnt).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11125,11126,11127,11128,11129,11130,11131,11132,11133,11134
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [19]:
wcnt = []

docterm_wcnt = np.sum(a=docterm_cnt, axis=0)
for w, cnt in zip(cv.get_feature_names(), docterm_wcnt):
    wcnt.append([w, cnt])

wcnt_df = pd.DataFrame(wcnt)
wcnt_df = wcnt_df.sort_values(1, ascending=False)
wcnt_df.head()

Unnamed: 0,0,1
2408,정기,409
698,등각,369
234,공식,321
2387,절규,268
2422,정점,250


- 고빈도어와 저빈도어를 삭제하였으며, 결과를 통해 확인이 가능함
- min_df는 하한선, max_df는 상한선을 정의한 파라미터임  

### TF-IDF에 의한 가중치 설정
- 단어의 발생횟수만으로는 고효율의 특징량을 추출할 수 없음
- 따라서 단어 문서 행렬에서는 단어의 출현빈도(TF, Term Frequency)에 역문서빈도 (IDF, Inverse Document Frequency)를 곱한 TF-IDF치를 활용함
- IDF치는 log(총문서수/(특정 단어가 출현하는 문서수))+1 임
- 특정 문서에만 출현하는 단어일수록 IDF 값이 높음

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer

tv = TfidfVectorizer(min_df = 0.01, max_df = 0.5, sublinear_tf = True)
docterm_tv = tv.fit_transform(np.array(docterm))
docterm_tfidf = docterm_tv.toarray()

pd.DataFrame(docterm_tfidf).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3209,3210,3211,3212,3213,3214,3215,3216,3217,3218
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.050981,0.0,0.0,0.0,0.0,0.0,0.095754,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.090289,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [21]:
print(pd.DataFrame(docterm_tfidf).shape)
print(tv.get_feature_names()[0:50])

(400, 3219)
['가가', '가게', '가격', '가공', '가기', '가까이', '가끔', '가나', '가년', '가능', '가능성', '가담', '가도', '가득', '가라데', '가로', '가로막', '가면', '가면라이더', '가모', '가발', '가방', '가브리엘', '가사', '가상', '가속', '가수', '가슴', '가시', '가신', '가약', '가연', '가온', '가요', '가운데', '가위', '가을', '가의', '가이드', '가일', '가입', '가장', '가전', '가정', '가족', '가주', '가지', '가집', '가짜', '가차']


## 3. 딥러닝을 위한 데이터 준비
- 자연어 처리를 위한 알고리즘으로 딥러닝 알고리즘을 사용하는 편이 성능이 좋은 결과를 얻을 수 있음
- 특히, 순환 신경망(RNN, Recurrent Neural Network)을 주로 활용함
- 그 중, LSTM(Long Short-Term Memory)를 활용함
- LSTM은 입력게이트, 입력 조정 게이트, 출력 게이트, 망각 게이트, 셀 등의 요소로 구성되어있음
- LSTM의 처리는 인간이 과거에 일어난 일을 전부 기억하지 못하기에, 자신에게 중요한 일만 선택해서 기억해 놓고 나중에 기억을 꺼내 보는 것과 유사함

### 전체 기사의 띄어쓰기
- 책에 작성된 wakati라는 변수는 일본어로 띄어쓰기라는 의미로 space로 변경하였음

In [30]:
import os
import re
from konlpy.tag import Okt
okt = Okt()

dirs = ['it-life-hack', 'movie-enter']

space = []
label = []

def spacing_okt(sentence):
    tagged = okt.pos(sentence)
    corrected = ""
    for token in tagged:
        if token[1] in ('Josa', 'PreEomi', 'Eomi', 'Suffix', 'Punctuation'):
            corrected += " " + "'" + token[0] + "'" + ","
        else:
            corrected += " " + "'" + token[0] + "'" + ","
    if corrected[0] == " ":
        corrected = corrected[1:]
    return corrected

for i, d in enumerate(dirs):
    files = os.listdir('./data/' + d)

    for file in files:
        f = open('./data/' + d + '/' + file, 'r', encoding='utf-8')
        text = f.read()

        reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
        reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
        reg_text = re.sub(r'[\s\n]', '', reg_text)

        space.append(spacing_okt(reg_text))

        label.append(i)
        f.close()

In [31]:
print(len(space))
print(space[0])
print(label[0])

400
'구형', '에서', '금단', '의', '파워', '업', '!', '최신', '나', '소프트웨어', '를', '한꺼', '번', '에', '체크', '[', '플래시백', ']', '텔레비전', '이나', '와', '연', '계', '할수있는나', '프로세서', ',', '전환', '등', '재미있는가', '속속', '등장', '했다', '구형', '의', '금단', '이라고도', '할수있는', '파워', '업', '방법', '에서의', '최신', ',', '화제', '의', ',', '새로운', '보안', '소프트웨어', '까지', '한꺼', '번', '에', '소개', '합니다', '■', '인텔', '을', '에', '장착', '!', '구형', '은', '얼마나', '빨라질', '것', '인가', '?(', '위', ')', '인텔', '이', '최신', ''', '시리즈', ''', '를', '출시', '했다', '현재', '중', '에서도', '최고', '의', '성능', '을', '자랑', '하', '는', '이', '제품', '을', '구형', '의', '고속', '화', '를', '도모', '한다는', '점', '에서', '리뷰', '해보았다', '조금', '색다른', '리뷰', '가', '되지만', ',', '어느', '정도', '의', '효과', '가', '있는지', ',', '기', '대가', '크다', '■', '는사', '용하는가', '(', '인텔', '등', ')', '에서', '으로', '전환', '가능한', '하이브리드', ',', '하지', '만이', '와', '동시', '에도', '바뀐다', '■', '초기', '비용', ',', '업데이트', '비용', '모두', '무료', '!', '저스트', '시스템', ',', '도마뱀', '로그', '가', '인상', '적', '인', '보안', '소프트웨어', '현재', '는', '많은', '사용자', '들이에', '보안', '프로그램', '을', '도입', '하고',

- 전체 기사에 대한 처리를 실행하였으며, 작성한 데이터 셋의 크기와 값을 확인할 수 있음
- space의 크기는 400으로, 이는 기사 수에 해당함

### 단어의 수치화

In [33]:
import itertools
from collections import Counter
import pandas as pd

word_freq = Counter(itertools.chain(* space))

dic = []
for word_uniq in word_freq.most_common():
    dic.append(word_uniq[0])
    
print(len(dic))
print(pd.DataFrame(dic).head())

1481
   0
0  '
1  ,
2   
3  이
4  다


- 결과를 통해 dic의 크기가 1482인 것을 확인할 수 있음
- 기사는 1482개로 구성되어있다는 것을 알 수 있으며, 상위 5단어는 ', , ,공백,이,다 라는 것을 알 수 있음

In [34]:
dic_inv = {}
for i, word_uniq in enumerate(dic, start=1):
    dic_inv.update({word_uniq: i})
    
print(len(dic_inv))

1481


In [37]:
space_id = [ [ dic_inv[word] for word in spaceWord ] for spaceWord in space ]

print(len(space_id))
print(space_id[0])

400
[1, 93, 242, 1, 2, 3, 1, 7, 20, 1, 2, 3, 1, 157, 162, 1, 2, 3, 1, 8, 1, 2, 3, 1, 132, 262, 1, 2, 3, 1, 200, 1, 2, 3, 1, 65, 1, 2, 3, 1, 133, 73, 1, 2, 3, 1, 41, 1, 2, 3, 1, 70, 88, 39, 421, 26, 1, 2, 3, 1, 25, 1, 2, 3, 1, 19, 750, 1, 2, 3, 1, 176, 1, 2, 3, 1, 7, 1, 2, 3, 1, 182, 96, 1, 2, 3, 1, 173, 1, 2, 3, 1, 226, 156, 27, 338, 1, 2, 3, 1, 186, 1, 2, 3, 1, 406, 120, 80, 47, 1, 2, 3, 1, 4, 41, 1, 2, 3, 1, 66, 1, 2, 3, 1, 76, 1, 2, 3, 1, 97, 1, 2, 3, 1, 77, 36, 18, 6, 41, 1, 2, 3, 1, 88, 15, 79, 20, 1, 2, 3, 1, 2, 1, 2, 3, 1, 47, 292, 1, 2, 3, 1, 92, 1, 2, 3, 1, 118, 61, 18, 6, 14, 1, 2, 3, 1, 179, 179, 1, 2, 3, 1, 92, 52, 1, 2, 3, 1, 108, 5, 1, 2, 3, 1, 93, 242, 1, 2, 3, 1, 8, 1, 2, 3, 1, 157, 162, 1, 2, 3, 1, 4, 28, 11, 22, 1, 2, 3, 1, 77, 36, 18, 6, 1, 2, 3, 1, 132, 262, 1, 2, 3, 1, 200, 1, 2, 3, 1, 181, 244, 1, 2, 3, 1, 7, 20, 8, 1, 2, 3, 1, 133, 73, 1, 2, 3, 1, 2, 1, 2, 3, 1, 38, 44, 1, 2, 3, 1, 8, 1, 2, 3, 1, 2, 1, 2, 3, 1, 224, 15, 109, 1, 2, 3, 1, 50, 165, 1, 2, 3, 1, 70, 8

In [None]:
from keras.preprocessing import sequence
import numpy as np

space_id = sequence.pad_sequences(np.array(space_id), maxlen=3382, padding="post", truncating="post")

label = np.array(label)

print(space_id[0])

In [None]:
- 리스트 길이 정리 수행(TF, Keras 버전 매칭 때문에 실행하지 않음)

## 4. 주제 추출을 위한 데이터 준비
- 카테고리에 포함되어 있는 주제를 추출하고, 분류의 근거를 이해하는 것이 목표임
- 주제를 추출하는 방법 중 네트워크 분석(클러스트링)을 위한 전처리를 수행
- 네트워크(그래프)는 대상과 대상의 관계를 표현하는 방법 중 하나임
- 네트워크로 표현할 수 있는 것에는 SNS 친구 관계, 문서에 포함된 단어의 동시 출현 관계 등이 있음
- 단어 쌍의 발생횟수가 많을 수록 에지의 가중치는 커지게 됨
- 단어 문서 행렬로부터 단어 쌍의 유사도를 계산하고, 에지 리스트를 작성할 수 있음

### 단어 문서 행렬 작성

In [38]:
import os
import re
from konlpy.tag import Okt
okt = Okt()

dirs = ['it-life-hack', 'movie-enter']

docterm = []
label = []
tmp1 = []
tmp2 = ''

for i, d in enumerate(dirs):
    files = os.listdir('./data/' + d)
    
    for file in files:
        f = open('./data/' + d + '/' + file, 'r', encoding='utf-8')
        text = f.read()
        
        reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
        reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
        reg_text = re.sub(r'[\s\n]', '', reg_text)
        reg_text = reg_text.replace('\n','')        
        
        for token in okt.nouns(reg_text):
            tmp1.append(token)
            tmp2 = ' '.join(tmp1)
        docterm.append(tmp2)
        tmp1 = []
        
        label.append(i)
        
        f.close()

In [39]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import pandas as pd

tv = TfidfVectorizer(min_df=0.05, max_df=0.5)
docterm_tv = tv.fit_transform(np.array(docterm))
docterm_tfidf = docterm_tv.toarray()

docterm_tfidf = pd.DataFrame(docterm_tfidf)
docterm_tfidf.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,562,563,564,565,566,567,568,569,570,571
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.057486,0.0,0.0,...,0.0,0.0,0.0,0.06596,0.0,0.0,0.0,0.076403,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.035539,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.044132,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.064138,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.064138,0.0,0.0,0.0,0.112522,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [40]:
label = pd.DataFrame(label)
label = label.rename(columns={0:'label'})

docterm_df = pd.concat([docterm_tfidf, label], axis=1)
docterm_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,563,564,565,566,567,568,569,570,571,label
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.057486,0.0,0.0,...,0.0,0.0,0.06596,0.0,0.0,0.0,0.076403,0.0,0.0,0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
2,0.0,0.035539,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
3,0.0,0.0,0.064138,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.112522,0.0,0.0,0.0,0.0,0.0,0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0


- 결과를 통해 572개의 단어가 선택된 것을 확인할 수 있음
- 단어 문서 행렬과 기사 카테고리인 label 열을 결합

### 유사도 계산
- 유사도 계산은 코사인 유사도를 이용
- 두 개의 단어가 출현하는 문서가 어느 정도 유사한지를 측정하기 위해서 단어가 출현하는 문서 벡터의 각도를 계산

In [41]:
from sklearn.metrics.pairwise import cosine_similarity

docterm_0 = docterm_df[docterm_df['label'] == 0]
docterm_0 = docterm_0.drop('label', axis=1)

sim0 = cosine_similarity(docterm_0.T)
sim0_df = pd.DataFrame(sim0)

sim0_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,562,563,564,565,566,567,568,569,570,571
0,1.000000,0.141408,0.104116,0.000000,0.009311,0.000000,0.000000,0.099843,0.000000,0.008391,...,0.000000,0.000000,0.000000,0.186522,0.022011,0.0,0.035551,0.000000,0.083729,0.000000
1,0.141408,1.000000,0.062866,0.000000,0.101792,0.128885,0.061311,0.268409,0.000000,0.155917,...,0.104926,0.000000,0.000000,0.179446,0.113796,0.0,0.184275,0.106287,0.193323,0.079040
2,0.104116,0.062866,1.000000,0.049026,0.000000,0.035460,0.057350,0.076619,0.000000,0.046448,...,0.017823,0.000000,0.000000,0.112102,0.069778,0.0,0.012399,0.014712,0.000000,0.025075
3,0.000000,0.000000,0.049026,1.000000,0.082391,0.074838,0.324744,0.091507,0.000000,0.000000,...,0.147545,0.037859,0.000000,0.072470,0.043957,0.0,0.000000,0.000000,0.000000,0.000000
4,0.009311,0.101792,0.000000,0.082391,1.000000,0.064864,0.000000,0.006031,0.000000,0.009473,...,0.000000,0.131242,0.000000,0.015136,0.109526,0.0,0.042532,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
567,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,...,0.000000,0.000000,0.000000,0.000000,0.000000,0.0,0.000000,0.000000,0.000000,0.000000
568,0.035551,0.184275,0.012399,0.000000,0.042532,0.120151,0.000000,0.043602,0.000000,0.442460,...,0.000000,0.000000,0.000000,0.051116,0.037441,0.0,1.000000,0.039360,0.000000,0.000000
569,0.000000,0.106287,0.014712,0.000000,0.000000,0.230558,0.043875,0.105228,0.017947,0.014756,...,0.195485,0.043520,0.025785,0.206781,0.036000,0.0,0.039360,1.000000,0.000000,0.152729
570,0.083729,0.193323,0.000000,0.000000,0.000000,0.048021,0.000000,0.048749,0.000000,0.000000,...,0.000000,0.000000,0.000000,0.013978,0.009529,0.0,0.000000,0.000000,1.000000,0.000000


- label이 0인 문서의 유사도 계산
- 결과를 통해 단어 쌍의 코사인 유사도를 행렬 형식으로 시각화된 것을 확인할 수 있음
- 총 572개의 단어 쌍의 유사도가 계산된 것을 확인할 수 있음

### 동시 출현어 에지 리스트 작성

In [42]:
sim0_stack = sim0_df.stack()

index = pd.Series(sim0_stack.index.values)
value = pd.Series(sim0_stack.values)

print(index.head())
print(value.head())

0    (0, 0)
1    (0, 1)
2    (0, 2)
3    (0, 3)
4    (0, 4)
dtype: object
0    1.000000
1    0.141408
2    0.104116
3    0.000000
4    0.009311
dtype: float64


In [43]:
tmp3 = []
tmp4 = []
for i in range(len(index)):
    if value[i] >=0.5 and value[i] <= 0.9:
        tmp1 = str(index[i][0]) + ' ' + str(index[i][1])
        tmp2 = [int(s) for s in tmp1.split()]
        tmp3.append(tmp2)
        tmp4 = np.append(tmp4, value[i])

tmp3 = pd.DataFrame(tmp3)
tmp3 = tmp3.rename(columns={0:'node1', 1:'node2'})
tmp4 = pd.DataFrame(tmp4)
tmp4 = tmp4.rename(columns={0:'weight'})
sim0_list = pd.concat([tmp3, tmp4], axis=1)

sim0_list.head()

Unnamed: 0,node1,node2,weight
0,0,315,0.557745
1,0,415,0.806134
2,1,143,0.522477
3,1,277,0.608517
4,2,130,0.761323


- 행렬 형식을 리스트 형식으로 변환 후, 동시 출현어 에지 리스트 작성을 수행하였음

In [44]:
docterm_1 = docterm_df[docterm_df['label'] == 1]
docterm_1 = docterm_1.drop('label', axis=1)

sim1 = cosine_similarity(docterm_1.T)
sim1_df = pd.DataFrame(sim1)

sim1_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,562,563,564,565,566,567,568,569,570,571
0,1.000000,0.000000,0.148350,0.191087,0.057453,0.022960,0.000000,0.220078,0.054329,0.181650,...,0.076088,0.000000,0.000000,0.000000,0.032315,0.000000,0.015526,0.000000,0.000000,0.094428
1,0.000000,1.000000,0.000000,0.075351,0.133921,0.031064,0.000000,0.030820,0.035375,0.000000,...,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.123998,0.112525,0.043856,0.000000
2,0.148350,0.000000,1.000000,0.238951,0.000000,0.005220,0.003880,0.136265,0.042658,0.000000,...,0.000000,0.006205,0.000000,0.000000,0.007348,0.069018,0.032848,0.000000,0.007370,0.000000
3,0.191087,0.075351,0.238951,1.000000,0.171711,0.179447,0.097663,0.148041,0.096522,0.132965,...,0.099789,0.032837,0.032350,0.022189,0.114986,0.101590,0.081628,0.026389,0.140094,0.128508
4,0.057453,0.133921,0.000000,0.171711,1.000000,0.244826,0.175445,0.070080,0.121288,0.084527,...,0.354713,0.155318,0.096432,0.000000,0.091956,0.000000,0.028629,0.046902,0.151271,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
567,0.000000,0.000000,0.069018,0.101590,0.000000,0.146935,0.060094,0.163279,0.061129,0.000000,...,0.000000,0.099991,0.175140,0.068097,0.033445,1.000000,0.076181,0.019795,0.218902,0.029203
568,0.015526,0.123998,0.032848,0.081628,0.028629,0.086077,0.048455,0.042152,0.085231,0.000000,...,0.000000,0.068540,0.165084,0.116465,0.023836,0.076181,1.000000,0.000000,0.020068,0.222647
569,0.000000,0.112525,0.000000,0.026389,0.046902,0.179107,0.000000,0.080225,0.166278,0.000000,...,0.000000,0.041164,0.000000,0.312502,0.000000,0.019795,0.000000,1.000000,0.066585,0.304150
570,0.000000,0.043856,0.007370,0.140094,0.151271,0.190101,0.175752,0.063254,0.041775,0.017490,...,0.000000,0.003391,0.000000,0.000000,0.004016,0.218902,0.020068,0.066585,1.000000,0.080791


In [45]:
sim1_stack = sim1_df.stack()

index = pd.Series(sim1_stack.index.values)
value = pd.Series(sim1_stack.values)

print(index.head())
print(value.head())

0    (0, 0)
1    (0, 1)
2    (0, 2)
3    (0, 3)
4    (0, 4)
dtype: object
0    1.000000
1    0.000000
2    0.148350
3    0.191087
4    0.057453
dtype: float64


In [46]:
tmp3 = []
tmp4 = []
for i in range(len(index)):
    if value[i] >=0.5 and value[i] <= 0.9:
        tmp1 = str(index[i][0]) + ' ' + str(index[i][1])
        tmp2 = [int(s) for s in tmp1.split()]
        tmp3.append(tmp2)
        tmp4 = np.append(tmp4, value[i])

tmp3 = pd.DataFrame(tmp3)
tmp3 = tmp3.rename(columns={0:'node1', 1:'node2'})
tmp4 = pd.DataFrame(tmp4)
tmp4 = tmp4.rename(columns={0:'weight'})
sim1_list = pd.concat([tmp3, tmp4], axis=1)

sim1_list.head()

Unnamed: 0,node1,node2,weight
0,1,239,0.552359
1,2,386,0.505525
2,2,533,0.504504
3,7,168,0.548772
4,10,325,0.522079


- 작성한 데이터 셋을 사용해 NetworkX를 사용한 단어의 동시 출현 네트워크를 생성하고, 주제를 추출할 수 있음
- NetworkX는 파이썬에서 사용할 수 있는 네트워크 분석용 패키지임

### 2-gram 에지 리스트
- 단어가 어떤 순서로 출현했는지 어순을 고려할 필요가 있을 때는 N-gram을 활용
- N-gram이란 문장을 연속된 N개의 문자로 분할하는 방법임
- 인터넷 검색 시스템의 인덱스로 사용되고 있음  


#### 문장 "ㄱㄴㄷㄹㅁ"을 N개의 문자로 분할하면 다음과 같음
- 1-gram(유니그램) : ㄱ|ㄴ|ㄷ|ㄹ|ㅁ
- 2-gram(바이그램) : ㄱㄴ|ㄴㄷ|ㄷㄹ|ㄹㅁ
- 3-gram(트라이그램) : ㄱㄴㄷ|ㄴㄷㄹ|ㄷㄹㅁ  


#### 문장 "오늘은 맑음입니다."을 N개의 문자로 분할하면 다음과 같음
- 1-gram(유니그램) : 오늘|은|맑음|입니다|.
- 2-gram(바이그램) : 오늘-은|은-맑음|맑음-입니다|입니다-.
- 3-gram(트라이그램) : 오늘-은-맑음|은-맑음-입니다|맑음-입니다-.  


- 네트워크 분석에는 2-gram 모델을 이용함

In [47]:
word = ['오늘', '은', '맑음', '입니다', '.']
bigram = []

for i in range(len(word)-1):
     bigram.append([word[i], word[i+1]])

print(bigram)

[['오늘', '은'], ['은', '맑음'], ['맑음', '입니다'], ['입니다', '.']]


In [48]:
trigram = []

for i in range(len(word)-2):
    trigram.append([word[i], word[i+1], word[i+2]])

print(trigram)

[['오늘', '은', '맑음'], ['은', '맑음', '입니다'], ['맑음', '입니다', '.']]


In [49]:
import os
import re
from konlpy.tag import Okt
okt = Okt()

space = []

files = os.listdir('./data/it-life-hack/')

def spacing_okt(sentence):
    tagged = okt.pos(sentence)
    corrected = ""
    for token in tagged:
        if token[1] in ('Josa', 'PreEomi', 'Eomi', 'Suffix', 'Punctuation'):
            corrected += " " + "'" + token[0] + "'" + ","
        else:
            corrected += " " + "'" + token[0] + "'" + ","
    if corrected[0] == " ":
        corrected = corrected[1:]
    return corrected

for file in files:
    f = open('./data/it-life-hack/' + file, 'r', encoding='utf-8')
    text = f.read()
        
    reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
    reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
    reg_text = re.sub(r'[\s\n]', '', reg_text)
        
    space.append(spacing_okt(reg_text))
                
    f.close()

In [50]:
print(len(space))
print(space[0])

200
'구형', '에서', '금단', '의', '파워', '업', '!', '최신', '나', '소프트웨어', '를', '한꺼', '번', '에', '체크', '[', '플래시백', ']', '텔레비전', '이나', '와', '연', '계', '할수있는나', '프로세서', ',', '전환', '등', '재미있는가', '속속', '등장', '했다', '구형', '의', '금단', '이라고도', '할수있는', '파워', '업', '방법', '에서의', '최신', ',', '화제', '의', ',', '새로운', '보안', '소프트웨어', '까지', '한꺼', '번', '에', '소개', '합니다', '■', '인텔', '을', '에', '장착', '!', '구형', '은', '얼마나', '빨라질', '것', '인가', '?(', '위', ')', '인텔', '이', '최신', ''', '시리즈', ''', '를', '출시', '했다', '현재', '중', '에서도', '최고', '의', '성능', '을', '자랑', '하', '는', '이', '제품', '을', '구형', '의', '고속', '화', '를', '도모', '한다는', '점', '에서', '리뷰', '해보았다', '조금', '색다른', '리뷰', '가', '되지만', ',', '어느', '정도', '의', '효과', '가', '있는지', ',', '기', '대가', '크다', '■', '는사', '용하는가', '(', '인텔', '등', ')', '에서', '으로', '전환', '가능한', '하이브리드', ',', '하지', '만이', '와', '동시', '에도', '바뀐다', '■', '초기', '비용', ',', '업데이트', '비용', '모두', '무료', '!', '저스트', '시스템', ',', '도마뱀', '로그', '가', '인상', '적', '인', '보안', '소프트웨어', '현재', '는', '많은', '사용자', '들이에', '보안', '프로그램', '을', '도입', '하고',

In [51]:
import itertools
from collections import Counter
import pandas as pd

word_freq = Counter(itertools.chain(* space))

dic = []
for word_uniq in word_freq.most_common():
    dic.append(word_uniq[0])

print(len(dic))
print(pd.DataFrame(dic).head())

1142
   0
0  '
1  ,
2   
3  이
4  다


In [52]:
dic_inv = {}
for i, word_uniq in enumerate(dic, start=1):
    dic_inv.update({word_uniq: i})
    
print(len(dic_inv))

1142


In [53]:
space_id = [ [ dic_inv[word] for word in spaceWord ] for spaceWord in space ]

print(len(space_id))
print(space_id[0])

200
[1, 87, 200, 1, 2, 3, 1, 7, 22, 1, 2, 3, 1, 189, 129, 1, 2, 3, 1, 8, 1, 2, 3, 1, 104, 258, 1, 2, 3, 1, 153, 1, 2, 3, 1, 47, 1, 2, 3, 1, 117, 79, 1, 2, 3, 1, 57, 1, 2, 3, 1, 56, 63, 30, 292, 27, 1, 2, 3, 1, 21, 1, 2, 3, 1, 20, 547, 1, 2, 3, 1, 179, 1, 2, 3, 1, 7, 1, 2, 3, 1, 151, 72, 1, 2, 3, 1, 121, 1, 2, 3, 1, 145, 159, 24, 288, 1, 2, 3, 1, 160, 1, 2, 3, 1, 281, 109, 78, 39, 1, 2, 3, 1, 4, 57, 1, 2, 3, 1, 116, 1, 2, 3, 1, 144, 1, 2, 3, 1, 126, 1, 2, 3, 1, 53, 29, 17, 6, 57, 1, 2, 3, 1, 63, 16, 86, 22, 1, 2, 3, 1, 2, 1, 2, 3, 1, 39, 235, 1, 2, 3, 1, 70, 1, 2, 3, 1, 90, 97, 17, 6, 18, 1, 2, 3, 1, 146, 146, 1, 2, 3, 1, 70, 45, 1, 2, 3, 1, 136, 5, 1, 2, 3, 1, 87, 200, 1, 2, 3, 1, 8, 1, 2, 3, 1, 189, 129, 1, 2, 3, 1, 4, 35, 12, 19, 1, 2, 3, 1, 53, 29, 17, 6, 1, 2, 3, 1, 104, 258, 1, 2, 3, 1, 153, 1, 2, 3, 1, 161, 196, 1, 2, 3, 1, 7, 22, 8, 1, 2, 3, 1, 117, 79, 1, 2, 3, 1, 2, 1, 2, 3, 1, 65, 40, 1, 2, 3, 1, 8, 1, 2, 3, 1, 2, 1, 2, 3, 1, 198, 16, 103, 1, 2, 3, 1, 36, 114, 1, 2, 3, 1, 56,

In [56]:
tmp = []
bigram = []

for i in range(len(space_id)):
    row = space_id[i]
    for j in range(len(row)-1):
        tmp.append([row[j], row[j+1]])
    bigram.extend(tmp)
    tmp = []

print(bigram)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [57]:
bigram_df = pd.DataFrame(bigram)
bigram_df = bigram_df.rename(columns={0:'node1', 1:'node2'})

bigram_df['weight'] = 1
bigram_df = bigram_df.groupby(['node1', 'node2'], as_index=False).sum()

bigram_df = bigram_df[bigram_df['weight'] > 10]
bigram_df = bigram_df[bigram_df['weight'] < 500]

bigram_df.head()

Unnamed: 0,node1,node2,weight
10,1,12,460
20,1,22,323
21,1,23,247
27,1,29,196
28,1,30,75


- 결과를 통해 가중치 10이상 500미만의 단어 페어를 추출 결과를 확인할 수 있음