# 자연어 데이터 처리
- nltk 모듈
- konlpy 모듈: 한국어 처리 모듈

### 토큰화(Tokenization)
- 크롤링 등으로 얻은 데이터를 사용하고자 하는 용도에 맞게 처리하는 과정
- 토큰화(Tokenization)/정제(Cleaning)/정규화(Normalization) 진행
- 토큰화: 주어진 데이터에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 함
- 단어 토큰화의 경우 token은 단어를 의미한다고 생각하면 됨

### 한글 형태소 분석
- 형태소(morpheme): 뜻을 가진 가장 작은 말의 단위
* 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소(체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등)
* 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간 등을 말함



- 오프라인에서 사용하고자 하려면 jdk 다운 필요!

#### `konlpy` 형태소 분석

In [None]:
# 한글 폰트 설치 및 재실행 (코랩애서 사용할때마다 설치ㅠㅠ)
# 실행 후 런타임 재실행
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm~/.chache/matpiotlib -rf

In [4]:
# nltk, Konlpy 설치 (코랩애서 사용할때마다 실행ㅠㅠ)
#!pip install nltk  # 영어는 기본 설치
#!pip install Konlpy # 한국어는 기본 X

Okt 형태소 분석기 토큰화 기능
- morphs : 형태소 추출
-  pos : 품사 태깅(Part-of-speech tagging)
-  nouns : 명사 추출

In [82]:
## Konlpy을 이용한 형태소 확인 
from konlpy.tag import Okt

text = '한국어 분석을 시작합니다. 형태소별로 추출합니다.'

okt = Okt()

# 명사 추출
okt.nouns(text) 

['한국어', '분석', '시작', '형태소', '별로', '추출']

In [83]:
# 단어 분류, 형태소별로 출력 ('단어', '형태소')
okt.pos(text)

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation'),
 ('형태소', 'Noun'),
 ('별로', 'Noun'),
 ('추출', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation')]

### 파일을 가져와 처리하기
- 파일: 'it-life-hack-6292880.txt'

In [86]:
# 파일 오픈 
f = open('./it-life/it-life-hack-6292880.txt', encoding ='utf-8')

# 파일 내용 읽어오기
text = f.read()

# 데이터 내용 확인하기 
print(text)

# 파일 닫기
f.close()


http://news.livedoor.com/article/detail/6292880/
2012-02-19T13 : 00 : 00 + 0900
구형 Mac에서 금단의 파워 업! 최신 PC 나 소프트웨어를 한꺼번에 체크 [IT 플래시백]
텔레비전이나 Twitter와 연계 할 수있는 PC 나 프로세서, 전환 PC 등 재미있는 PC가 속속 등장했다. 구형 Mac의 금단이라고도 할 수있는 파워 업 방법에서 NEC의 최신 PC, 화제의 ThinkPad X1 Hybrid, 새로운 보안 소프트웨어까지 한꺼번에 소개합니다.

■ 인텔 SSD 520을 Mac에 장착! 구형 Mac은 얼마나 빨라질 것인가? (위)
인텔이 최신 SSD '520 시리즈'를 출시했다. 현재 SSD 중에서도 최고의 성능을 자랑하는 이 제품을 구형 Mac의 고속화를 도모한다는 점에서 리뷰 해 보았다. 조금 색다른 리뷰가되지만, 어느 정도의 효과가 있는지, 기대가 크다.


■ http : //itlifehack.jp/archives/6716997.html
ThinkPad X1 Hybrid는 사용하는 CPU가 x86 (인텔 Core i 등)에서 ARM으로 전환가능한 하이브리드 PC, 하지만 이와 동시에 OS도 바뀐다.


■ 초기 비용, 업데이트 비용 모두 무료! 저스트시스템, 도마뱀로그가 인상적인 보안 소프트웨어
현재는 많은 사용자들이 PC에 보안 프로그램을 도입하고 있지만, 그 대부분은 매년 5,000 엔 정도 드는 업데이트 비용 과 그 절차에 대해 불만을 가지고있다. 유료 소프트웨어를 이용하는 사용자의 약 80 %는 무료 보안 소프트웨어를 알고 있음에도 불구하고, 성능면에서 뒤 떨어지는 게 아니냐는 불안에서 도입을 미루고 있는 상황이다.


■ 텔레비전의 새로운 활용 방법을 제안! NEC의 봄 신상 PC는 TV와 Twitter를 연계
NEC는 2012 년 2 월 14 일, 개인용 데스크톱 PC 인 'VALUESTAR "시리즈 3 종류 16 모델을 2 월 16 일부터 판매한다고 발표했다. 신상품은 더 

In [87]:
from konlpy.tag import Okt

# 인스턴스 객체 생성 
okt = Okt()

# 형태소(토큰) 분석
tokens = okt.pos(text) # 리스트 형태로 잘려서 나옴 
#print(tokens) 

for token in tokens:
  print(token)

('http://news.livedoor.com/article/detail/6292880/', 'URL')
('\n', 'Foreign')
('2012-02', 'Number')
('-', 'Punctuation')
('19', 'Number')
('T', 'Alpha')
('13', 'Number')
(':', 'Punctuation')
('00', 'Number')
(':', 'Punctuation')
('00', 'Number')
('+', 'Punctuation')
('0900', 'Number')
('\n', 'Foreign')
('구형', 'Noun')
('Mac', 'Alpha')
('에서', 'Josa')
('금단', 'Noun')
('의', 'Josa')
('파워', 'Noun')
('업', 'Noun')
('!', 'Punctuation')
('최신', 'Noun')
('PC', 'Alpha')
('나', 'Noun')
('소프트웨어', 'Noun')
('를', 'Josa')
('한꺼', 'Verb')
('번', 'Noun')
('에', 'Josa')
('체크', 'Noun')
('[', 'Punctuation')
('IT', 'Alpha')
('플래시백', 'Noun')
(']', 'Punctuation')
('\n', 'Foreign')
('텔레비전', 'Noun')
('이나', 'Josa')
('Twitter', 'Alpha')
('와', 'Verb')
('연', 'Modifier')
('계', 'Noun')
('할', 'Verb')
('수', 'Noun')
('있는', 'Adjective')
('PC', 'Alpha')
('나', 'Noun')
('프로세서', 'Noun')
(',', 'Punctuation')
('전환', 'Noun')
('PC', 'Alpha')
('등', 'Noun')
('재미있는', 'Adjective')
('PC', 'Alpha')
('가', 'Verb')
('속속', 'Adverb')
('등장', 'Noun'

### 텍스트 데이터 정제 및 정규화
- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듬

1. 규칙에 기반한 표기가 다른 단어들의 통합
2. 영문인 경우 대, 소문자 통합
3. 불필요한 단어(노이즈 데이터)의 제거
 * 등장 빈도가 적은 단어
 * 길이가 짧은 단어

- 정규 표현법을 통한 노이즈 데이터 제거 

In [88]:
# 불필요한 데이터 제거 
# 노가다,, 계속 보면서 불필요한 데이터 제거
import re

# 숫자, 영문자 등 문자열 제거 
reg_text = re.sub(r'[0-9a-zA-Z ]+', '', text)
print(reg_text)
print('='*50)

# 불필요한 기호 제거 
reg_text = re.sub(r'[:;+/\.,-]', '', reg_text)
print(reg_text)

://..////
--::+
구형에서금단의파워업!최신나소프트웨어를한꺼번에체크[플래시백]
텔레비전이나와연계할수있는나프로세서,전환등재미있는가속속등장했다.구형의금단이라고도할수있는파워업방법에서의최신,화제의,새로운보안소프트웨어까지한꺼번에소개합니다.

■인텔을에장착!구형은얼마나빨라질것인가?(위)
인텔이최신'시리즈'를출시했다.현재중에서도최고의성능을자랑하는이제품을구형의고속화를도모한다는점에서리뷰해보았다.조금색다른리뷰가되지만,어느정도의효과가있는지,기대가크다.


■://.//.
는사용하는가(인텔등)에서으로전환가능한하이브리드,하지만이와동시에도바뀐다.


■초기비용,업데이트비용모두무료!저스트시스템,도마뱀로그가인상적인보안소프트웨어
현재는많은사용자들이에보안프로그램을도입하고있지만,그대부분은매년,엔정도드는업데이트비용과그절차에대해불만을가지고있다.유료소프트웨어를이용하는사용자의약%는무료보안소프트웨어를알고있음에도불구하고,성능면에서뒤떨어지는게아니냐는불안에서도입을미루고있는상황이다.


■텔레비전의새로운활용방법을제안!의봄신상는와를연계
는년월일,개인용데스크톱인'"시리즈종류모델을월일부터판매한다고발표했다.신상품은더강력해진녹화기능외에도시청·녹화기능에더해서업계최초로인기를연계한'트위트플러스'를추가하는등컴퓨터만의기능을탑재.스마트폰홈네트워크대응도강화하고,"안심간단쾌적"한디지털엔터테인먼트를제안하여,주요모델에대해다음과같이기능강화를실시했다.


■마치축제같은출하식!렛츠노트출하시작
월일에발매되는'/의출하식이월일국내제조거점인고베공장에서열렸다.동사의컴퓨터로는처음실시하는출하식으로,이제품에얼마나힘이들어가있는지알수있다.



[엡손정품잉크]잉크카트리지색세트
엡손
출판사:..
입소문을본다



구형에서금단의파워업!최신나소프트웨어를한꺼번에체크[플래시백]
텔레비전이나와연계할수있는나프로세서전환등재미있는가속속등장했다구형의금단이라고도할수있는파워업방법에서의최신화제의새로운보안소프트웨어까지한꺼번에소개합니다

■인텔을에장착!구형은얼마나빨라질것인가?(위)
인텔이최신'시리즈'를출시했다현재중에서도최고의성능을자랑하는이제품을구형의고속화를도모한다는점에서리뷰해

In [89]:
### \n, \s -> ' '로 변경
reg_text = re.sub(r'[\n\s]', '', reg_text)
print(reg_text)

구형에서금단의파워업!최신나소프트웨어를한꺼번에체크[플래시백]텔레비전이나와연계할수있는나프로세서전환등재미있는가속속등장했다구형의금단이라고도할수있는파워업방법에서의최신화제의새로운보안소프트웨어까지한꺼번에소개합니다■인텔을에장착!구형은얼마나빨라질것인가?(위)인텔이최신'시리즈'를출시했다현재중에서도최고의성능을자랑하는이제품을구형의고속화를도모한다는점에서리뷰해보았다조금색다른리뷰가되지만어느정도의효과가있는지기대가크다■는사용하는가(인텔등)에서으로전환가능한하이브리드하지만이와동시에도바뀐다■초기비용업데이트비용모두무료!저스트시스템도마뱀로그가인상적인보안소프트웨어현재는많은사용자들이에보안프로그램을도입하고있지만그대부분은매년엔정도드는업데이트비용과그절차에대해불만을가지고있다유료소프트웨어를이용하는사용자의약%는무료보안소프트웨어를알고있음에도불구하고성능면에서뒤떨어지는게아니냐는불안에서도입을미루고있는상황이다■텔레비전의새로운활용방법을제안!의봄신상는와를연계는년월일개인용데스크톱인'"시리즈종류모델을월일부터판매한다고발표했다신상품은더강력해진녹화기능외에도시청·녹화기능에더해서업계최초로인기를연계한'트위트플러스'를추가하는등컴퓨터만의기능을탑재스마트폰홈네트워크대응도강화하고"안심간단쾌적"한디지털엔터테인먼트를제안하여주요모델에대해다음과같이기능강화를실시했다■마치축제같은출하식!렛츠노트출하시작월일에발매되는'의출하식이월일국내제조거점인고베공장에서열렸다동사의컴퓨터로는처음실시하는출하식으로이제품에얼마나힘이들어가있는지알수있다[엡손정품잉크]잉크카트리지색세트엡손출판사입소문을본다


### 한국어 어간 어미 추출
- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분
- 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분

In [90]:
from konlpy.tag import Okt

# 인스턴스 객체 생성
okt = Okt()

# 숫자, 영문자 등 문자열 제거
reg_text = re.sub(r'[^가-힣\n]', "", text)
print(reg_text)

# 형태소(토큰) 분석
tokens = okt.morphs(reg_text)
for token in tokens:
    print(token)



구형에서금단의파워업최신나소프트웨어를한꺼번에체크플래시백
텔레비전이나와연계할수있는나프로세서전환등재미있는가속속등장했다구형의금단이라고도할수있는파워업방법에서의최신화제의새로운보안소프트웨어까지한꺼번에소개합니다

인텔을에장착구형은얼마나빨라질것인가위
인텔이최신시리즈를출시했다현재중에서도최고의성능을자랑하는이제품을구형의고속화를도모한다는점에서리뷰해보았다조금색다른리뷰가되지만어느정도의효과가있는지기대가크다



는사용하는가인텔등에서으로전환가능한하이브리드하지만이와동시에도바뀐다


초기비용업데이트비용모두무료저스트시스템도마뱀로그가인상적인보안소프트웨어
현재는많은사용자들이에보안프로그램을도입하고있지만그대부분은매년엔정도드는업데이트비용과그절차에대해불만을가지고있다유료소프트웨어를이용하는사용자의약는무료보안소프트웨어를알고있음에도불구하고성능면에서뒤떨어지는게아니냐는불안에서도입을미루고있는상황이다


텔레비전의새로운활용방법을제안의봄신상는와를연계
는년월일개인용데스크톱인시리즈종류모델을월일부터판매한다고발표했다신상품은더강력해진녹화기능외에도시청녹화기능에더해서업계최초로인기를연계한트위트플러스를추가하는등컴퓨터만의기능을탑재스마트폰홈네트워크대응도강화하고안심간단쾌적한디지털엔터테인먼트를제안하여주요모델에대해다음과같이기능강화를실시했다


마치축제같은출하식렛츠노트출하시작
월일에발매되는의출하식이월일국내제조거점인고베공장에서열렸다동사의컴퓨터로는처음실시하는출하식으로이제품에얼마나힘이들어가있는지알수있다



엡손정품잉크잉크카트리지색세트
엡손
출판사
입소문을본다




구형
에서
금단
의
파워
업
최신
나
소프트웨어
를
한꺼
번
에
체크
플래시백


텔레비전
이나
와
연
계
할수있는나
프로세서
전환
등
재미있는가
속속
등장
했다
구형
의
금단
이라고도
할수있는
파워
업
방법
에서의
최신
화제
의
새로운
보안
소프트웨어
까지
한
꺼번
에
소개
합니다



인텔
을
에
장착
구형
은
얼마나
빨라질
것
인
가위


인텔
이
최신
시리즈
를
출시
했다
현재
중
에서도
최고
의
성능
을
자랑
하
는
이
제품
을
구형
의
고속
화
를
도모
한다는
점
에서
리뷰


### 불용어(Stopword) 제거
- 갖고 있는 데이터에서 유이미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업 
- 한글 보편적 불용어: https://www.ranks.nl/stopwords/korean

In [91]:
# 읽어오기 - 방법 1 (.readlines())
f = open('Stopwords.txt', encoding = 'utf-8')
stopword = f.readlines() # readlines()-> 단어가 한개 한개 쪼개짐! 
print(stopword)

['\n', '아\n', '휴\n', '아이구\n', '아이쿠\n', '아이고\n', '어\n', '나\n', '우리\n', '저희\n', '따라\n', '의해\n', '을\n', '를\n', '에\n', '의\n', '가\n', '으로\n', '로\n', '에게\n', '뿐이다\n', '의거하여\n', '근거하여\n', '입각하여\n', '기준으로\n', '예하면\n', '예를 들면\n', '예를 들자면\n', '저\n', '소인\n', '소생\n', '저희\n', '지말고\n', '하지마\n', '하지마라\n', '다른\n', '물론\n', '또한\n', '그리고\n', '비길수 없다\n', '해서는 안된다\n', '뿐만 아니라\n', '만이 아니다\n', '만은 아니다\n', '막론하고\n', '관계없이\n', '그치지 않다\n', '그러나\n', '그런데\n', '하지만\n', '든간에\n', '논하지 않다\n', '따지지 않다\n', '설사\n', '비록\n', '더라도\n', '아니면\n', '만 못하다\n', '하는 편이 낫다\n', '불문하고\n', '향하여\n', '향해서\n', '향하다\n', '쪽으로\n', '틈타\n', '이용하여\n', '타다\n', '오르다\n', '제외하고\n', '이 외에\n', '이 밖에\n', '하여야\n', '비로소\n', '한다면 몰라도\n', '외에도\n', '이곳\n', '여기\n', '부터\n', '기점으로\n', '따라서\n', '할 생각이다\n', '하려고하다\n', '이리하여\n', '그리하여\n', '그렇게 함으로써\n', '하지만\n', '일때\n', '할때\n', '앞에서\n', '중에서\n', '보는데서\n', '으로써\n', '로써\n', '까지\n', '해야한다\n', '일것이다\n', '반드시\n', '할줄알다\n', '할수있다\n', '할수있어\n', '임에 틀림없다\n', '한다면\n', '등\n', '등등\n', '제\n', '겨우\n', '단지\n', '다만\n', '할뿐\n',

In [92]:
# 읽어오기 - 방법 2 (.read())
f = open('Stopwords.txt', encoding = 'utf-8')
stopword = f.read()
print(stopword.split('\n'))
stopword = stopword.split('\n')

['', '아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다', '의거하여', '근거하여', '입각하여', '기준으로', '예하면', '예를 들면', '예를 들자면', '저', '소인', '소생', '저희', '지말고', '하지마', '하지마라', '다른', '물론', '또한', '그리고', '비길수 없다', '해서는 안된다', '뿐만 아니라', '만이 아니다', '만은 아니다', '막론하고', '관계없이', '그치지 않다', '그러나', '그런데', '하지만', '든간에', '논하지 않다', '따지지 않다', '설사', '비록', '더라도', '아니면', '만 못하다', '하는 편이 낫다', '불문하고', '향하여', '향해서', '향하다', '쪽으로', '틈타', '이용하여', '타다', '오르다', '제외하고', '이 외에', '이 밖에', '하여야', '비로소', '한다면 몰라도', '외에도', '이곳', '여기', '부터', '기점으로', '따라서', '할 생각이다', '하려고하다', '이리하여', '그리하여', '그렇게 함으로써', '하지만', '일때', '할때', '앞에서', '중에서', '보는데서', '으로써', '로써', '까지', '해야한다', '일것이다', '반드시', '할줄알다', '할수있다', '할수있어', '임에 틀림없다', '한다면', '등', '등등', '제', '겨우', '단지', '다만', '할뿐', '딩동', '댕그', '대해서', '대하여', '대하면', '훨씬', '얼마나', '얼마만큼', '얼마큼', '남짓', '여', '얼마간', '약간', '다소', '좀', '조금', '다수', '몇', '얼마', '지만', '하물며', '또한', '그러나', '그렇지만', '하지만', '이외에도', '대해 말하자면', '뿐이다', '다음에', '반대로', '반대로 말하자면', '이와 반

In [None]:
tokens

In [93]:
tokens_word =[]

for token in tokens:
    if token not in stopword:
        tokens_word.append(token)

tokens_word

['\n\n',
 '구형',
 '금단',
 '파워',
 '업',
 '최신',
 '소프트웨어',
 '한꺼',
 '번',
 '체크',
 '플래시백',
 '\n',
 '텔레비전',
 '이나',
 '연',
 '계',
 '할수있는나',
 '프로세서',
 '전환',
 '재미있는가',
 '속속',
 '등장',
 '했다',
 '구형',
 '금단',
 '이라고도',
 '할수있는',
 '파워',
 '업',
 '방법',
 '에서의',
 '최신',
 '화제',
 '새로운',
 '보안',
 '소프트웨어',
 '한',
 '꺼번',
 '소개',
 '합니다',
 '\n\n',
 '인텔',
 '장착',
 '구형',
 '은',
 '빨라질',
 '인',
 '가위',
 '\n',
 '인텔',
 '최신',
 '시리즈',
 '출시',
 '했다',
 '현재',
 '중',
 '에서도',
 '최고',
 '성능',
 '자랑',
 '는',
 '제품',
 '구형',
 '고속',
 '화',
 '도모',
 '한다는',
 '점',
 '리뷰',
 '해보았다',
 '색다른',
 '리뷰',
 '되지만',
 '정도',
 '효과',
 '있는지기',
 '대가',
 '크다',
 '\n\n\n\n',
 '는사',
 '용하는가',
 '인텔',
 '전환',
 '가능한',
 '하이브리드',
 '와동',
 '시',
 '에도',
 '바뀐다',
 '\n\n\n',
 '초기',
 '비용',
 '업데이트',
 '비용',
 '무료',
 '저스트',
 '시스템',
 '도마뱀',
 '로그',
 '인상',
 '적',
 '인',
 '보안',
 '소프트웨어',
 '\n',
 '현재',
 '는',
 '많은',
 '사용자',
 '들이에',
 '보안',
 '프로그램',
 '도입',
 '하고',
 '있지만',
 '대부분',
 '은',
 '매년',
 '엔',
 '정도',
 '드는',
 '업데이트',
 '비용',
 '절차',
 '대해',
 '불만',
 '가지',
 '고',
 '유료',
 '소프트웨어',
 '이용',
 '는',
 '사용자',
 '의약',
 '는',


### 단어에 대한 빈도수 

In [38]:
from collections import Counter
from konlpy.tag import Okt

# 인스턴스 객체 생성 
okt = Okt()

# 형태소(토큰) 분석
tokens_pos = okt.pos(reg_text) # 리스트 형태로 잘려서 나옴 
print(tokens_pos) 

[('구형', 'Noun'), ('에서', 'Josa'), ('금단', 'Noun'), ('의', 'Josa'), ('파워', 'Noun'), ('업', 'Noun'), ('!', 'Punctuation'), ('최신', 'Noun'), ('나', 'Josa'), ('소프트웨어', 'Noun'), ('를', 'Josa'), ('한꺼', 'Verb'), ('번', 'Noun'), ('에', 'Josa'), ('체크', 'Noun'), ('[', 'Punctuation'), ('플래시백', 'Noun'), (']', 'Punctuation'), ('텔레비전', 'Noun'), ('이나', 'Noun'), ('와', 'Josa'), ('연', 'Modifier'), ('계', 'Noun'), ('할수있는나', 'Verb'), ('프로세서', 'Noun'), ('전환', 'Noun'), ('등', 'Noun'), ('재미있는가', 'Adjective'), ('속속', 'Adverb'), ('등장', 'Noun'), ('했다', 'Verb'), ('구형', 'Noun'), ('의', 'Josa'), ('금단', 'Noun'), ('이라고도', 'Josa'), ('할수있는', 'Verb'), ('파워', 'Noun'), ('업', 'Noun'), ('방법', 'Noun'), ('에서의', 'Josa'), ('최신', 'Noun'), ('화제', 'Noun'), ('의', 'Josa'), ('새로운', 'Adjective'), ('보안', 'Noun'), ('소프트웨어', 'Noun'), ('까지', 'Josa'), ('한', 'Determiner'), ('꺼번', 'Noun'), ('에', 'Josa'), ('소개', 'Noun'), ('합니다', 'Verb'), ('■', 'Foreign'), ('인텔', 'Noun'), ('을', 'Josa'), ('에', 'Josa'), ('장착', 'Noun'), ('!', 'Punctuation'), ('구형', 'Noun'),

In [None]:
# 명사('Noun') 추출
tokens_nouns = okt.nouns(reg_text)
tokens_nouns

In [56]:
# 명사('Noun') - 각 데이터의 빈도수 (딕셔너리 구조)
cnt = Counter(tokens_nouns) 
print(cnt)
print(type(cnt))

Counter({'소프트웨어': 5, '구형': 4, '보안': 4, '기능': 4, '출하': 4, '최신': 3, '계': 3, '등': 3, '인텔': 3, '비용': 3, '금단': 2, '파워': 2, '업': 2, '텔레비전': 2, '전환': 2, '방법': 2, '얼마나': 2, '시리즈': 2, '를': 2, '현재': 2, '성능': 2, '제품': 2, '리뷰': 2, '정도': 2, '업데이트': 2, '무료': 2, '사용자': 2, '도입': 2, '대해': 2, '제안': 2, '모델': 2, '월일': 2, '녹화': 2, '컴퓨터': 2, '실시': 2, '엡손': 2, '잉크': 2, '번': 1, '체크': 1, '플래시백': 1, '이나': 1, '프로세서': 1, '등장': 1, '화제': 1, '꺼번': 1, '소개': 1, '장착': 1, '것': 1, '위': 1, '출시': 1, '최고': 1, '자랑': 1, '고속': 1, '도모': 1, '점': 1, '조금': 1, '효과': 1, '대가': 1, '하이브리드': 1, '와동': 1, '시': 1, '초기': 1, '저스트': 1, '시스템': 1, '도마뱀': 1, '로그': 1, '인상': 1, '프로그램': 1, '대부분': 1, '매년': 1, '절차': 1, '불만': 1, '가지': 1, '유료': 1, '이용': 1, '의약': 1, '불구': 1, '뒤': 1, '불안': 1, '상황': 1, '활용': 1, '의봄': 1, '신상': 1, '년월': 1, '일개': 1, '인용': 1, '데스크톱': 1, '종류': 1, '판매': 1, '고': 1, '발표': 1, '상품': 1, '더': 1, '외': 1, '시청': 1, '업계': 1, '최초': 1, '인기': 1, '트': 1, '위트': 1, '플러스': 1, '추가': 1, '탑재': 1, '스마트폰': 1, '홈': 1, '네트워크': 1, '대응': 1, '안심': 1, '간단

In [60]:
# 리스트 구조로 바꿔서 확인하기
#text_cnt = Counter.most_common(cnt)

#print((cnt.most_common(n=10))) # 상위 10개 데이터 보기 
print((cnt.most_common()))     # 전체 데이터 보기

[('소프트웨어', 5), ('구형', 4), ('보안', 4), ('기능', 4), ('출하', 4), ('최신', 3), ('계', 3), ('등', 3), ('인텔', 3), ('비용', 3), ('금단', 2), ('파워', 2), ('업', 2), ('텔레비전', 2), ('전환', 2), ('방법', 2), ('얼마나', 2), ('시리즈', 2), ('를', 2), ('현재', 2), ('성능', 2), ('제품', 2), ('리뷰', 2), ('정도', 2), ('업데이트', 2), ('무료', 2), ('사용자', 2), ('도입', 2), ('대해', 2), ('제안', 2), ('모델', 2), ('월일', 2), ('녹화', 2), ('컴퓨터', 2), ('실시', 2), ('엡손', 2), ('잉크', 2), ('번', 1), ('체크', 1), ('플래시백', 1), ('이나', 1), ('프로세서', 1), ('등장', 1), ('화제', 1), ('꺼번', 1), ('소개', 1), ('장착', 1), ('것', 1), ('위', 1), ('출시', 1), ('최고', 1), ('자랑', 1), ('고속', 1), ('도모', 1), ('점', 1), ('조금', 1), ('효과', 1), ('대가', 1), ('하이브리드', 1), ('와동', 1), ('시', 1), ('초기', 1), ('저스트', 1), ('시스템', 1), ('도마뱀', 1), ('로그', 1), ('인상', 1), ('프로그램', 1), ('대부분', 1), ('매년', 1), ('절차', 1), ('불만', 1), ('가지', 1), ('유료', 1), ('이용', 1), ('의약', 1), ('불구', 1), ('뒤', 1), ('불안', 1), ('상황', 1), ('활용', 1), ('의봄', 1), ('신상', 1), ('년월', 1), ('일개', 1), ('인용', 1), ('데스크톱', 1), ('종류', 1), ('판매', 1), ('고'

In [62]:
import pandas as pd

df = pd.DataFrame(cnt.most_common())
df

Unnamed: 0,0,1
0,소프트웨어,5
1,구형,4
2,보안,4
3,기능,4
4,출하,4
...,...,...
130,색,1
131,세트,1
132,출판사,1
133,입,1


### 기사 전체를 이용한 형태소 분석

In [94]:
import os 
import re
from konlpy.tag import Okt

In [96]:
f = open('Stopwords.txt', encoding = 'utf-8')
stopword = f.read()
print(stopword.split('\n'))
stopword = stopword.split('\n')

['', '아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다', '의거하여', '근거하여', '입각하여', '기준으로', '예하면', '예를 들면', '예를 들자면', '저', '소인', '소생', '저희', '지말고', '하지마', '하지마라', '다른', '물론', '또한', '그리고', '비길수 없다', '해서는 안된다', '뿐만 아니라', '만이 아니다', '만은 아니다', '막론하고', '관계없이', '그치지 않다', '그러나', '그런데', '하지만', '든간에', '논하지 않다', '따지지 않다', '설사', '비록', '더라도', '아니면', '만 못하다', '하는 편이 낫다', '불문하고', '향하여', '향해서', '향하다', '쪽으로', '틈타', '이용하여', '타다', '오르다', '제외하고', '이 외에', '이 밖에', '하여야', '비로소', '한다면 몰라도', '외에도', '이곳', '여기', '부터', '기점으로', '따라서', '할 생각이다', '하려고하다', '이리하여', '그리하여', '그렇게 함으로써', '하지만', '일때', '할때', '앞에서', '중에서', '보는데서', '으로써', '로써', '까지', '해야한다', '일것이다', '반드시', '할줄알다', '할수있다', '할수있어', '임에 틀림없다', '한다면', '등', '등등', '제', '겨우', '단지', '다만', '할뿐', '딩동', '댕그', '대해서', '대하여', '대하면', '훨씬', '얼마나', '얼마만큼', '얼마큼', '남짓', '여', '얼마간', '약간', '다소', '좀', '조금', '다수', '몇', '얼마', '지만', '하물며', '또한', '그러나', '그렇지만', '하지만', '이외에도', '대해 말하자면', '뿐이다', '다음에', '반대로', '반대로 말하자면', '이와 반

In [100]:
## 내 코드 ##
okt = Okt()

# 기사별 폴더 지정 
fdir = ['it-life', 'movie']

doc_tmp = [] # 데이터 설명 변수
label = []   # 레이블(목적 변수)


# 각 폴더에 파일을 각각 읽어와 표시
for i, v in enumerate(fdir): # i=[0,1] / v=['it-life', 'movie']
  # 폴더에 있는 파일 목록 가져오기
  files = os.listdir('./' + v ) 

  # 파일 하나씩 읽어오기
  for file in files:
    tmp1 = []    # 파일단위 token 리스트 저장
    tmp2 = ''    # 파일단위 token 텍스트 저장

    f = open('./' + v + '/' + file , 'r', encoding='utf-8')
    text = f.read()

    # 불필요한 문자열 제거하기(정규 표현식 사용)
    reg_text = re.sub('[0-9a-zA-Z]', '', text )        # 1차 제거 
    reg_text = re.sub('[ \t\n\r]', '', reg_text )      # 2차 제거 (앞에 공백도 제거)
    reg_text = re.sub('[:;/₩$-+[]!?■]', '', reg_text ) # 3차 제거

    # 제거된 문자열을 기준으로 명사만 추출하는 형태소 분석
    tokens = okt.nouns(reg_text) # 'reg_text'에서 '명사'만 추출하는 변수
    
    for token in tokens:
      # 불용어 제거
      if token not in stopword:
        tmp1.append(token)      # tmp1 리스트에 추가(불용어 제거하기 위해) 
      
    tmp2 = ' '.join(tmp1)  # 여기 잘못넣어서 수정!    # token의 데이터들을 공백(' ')을 붙여 쭉 나열 -> 텍스트로 변경    
    doc_tmp.append(tmp2)        # 기사별/파일별 

    label.append(i)             # i=[0,1]
    f.close()                   # 파일 하나 열면 닫고 다시 반복

df = pd.DataFrame(doc_tmp)
df

# [0-9a-zA-Z] = [\w] 같아!! (대문자-> 남겨라 / 소문자-> 없애랴)
# [^0-9a-zA-Z] = [\W]
# [ \t\n\r\f\v] = [\s] 같아!! 

Unnamed: 0,0
0,소 문
1,소 문
2,소 문
3,소 문
4,소 문
...,...
390,쇼
391,공 개
392,일
393,공 개


In [95]:
# 참조) .join() 예시
aa = ['sss', 'ddd', 'fff']
bb = ' '.join(aa)
bb

'sss ddd fff'

In [102]:
## 강사님 코드 ##
okt = Okt()

# 기사별 폴더 지정
fdir = ['it-life', 'movie']

doc_tmp = []   # 데이터 설명변수
label = []     # 레이블(목적) 변수

# 각 폴더에 파일을 각각 읽어와 표시
for i, v in enumerate(fdir):

    # 폴더에 있는 파일 목록 가져오기
    files = os.listdir("./" + v )
    
    # 파일을 하나씩 읽어오기
    for file in files:
        tmp1 = []      # 파일단위 token 저장
        tmp2 = ""      # 파일단위 token 텍스트 저장

        f = open("./" + v + "/" + file, 'r', encoding='utf-8')
        text = f.read()

        # 불필요한 문자열 제거하기(정규 표현식 사용)
        reg_text = re.sub(r'[0-9a-zA-Z]', "", text)    # [0-9a-zA-Z] => \w
        reg_text = re.sub(r'[ \t\n\r]', "", reg_text)  # [ \t\n\r\f\v]  => [\s]
        reg_text = re.sub(r'[::/\-+.[]!?■]', "", reg_text)

        # 제거된 문자열을 기준으로 명사만 추출하는 형태소 분석
        tokens=okt.nouns(reg_text)
        for token in tokens:
            if token not in stopword:   # 불용어 처리
                tmp1.append(token)      # tmp1 리스트에 추가
            
        tmp2 = " ".join(tmp1)           # 리스트 형식을 " "로 구분된 텍스트로 변경
        doc_tmp.append(tmp2)            # 기사별/파일별 로 단어 추가

        label.append(i)   # 레이블에 폴더 index 값 추가
        f.close()         # 파일 닫기

pd.DataFrame(doc_tmp).head()  # DataFrame 으로 변경후 확인

Unnamed: 0,0
0,고성능 디지털 등장 캐논 굉 장년 렌즈 교환 디지털카메라 하량 전세계 년대 비약 증...
1,단번 액정 해상도 쪽 디지털 통 해상도 스마트폰 표시 화면 고화질 화면 감동 미래 ...
2,코페르니쿠스 전회 등장 뉴스 주일 회상 플래시백 지난주 신경 뉴스 화제 플래시백 발...
3,테이블 생 더 키 조작 기억 하자 이득 치트 시트 표 작성 거나 데이터 입력 질 마...
4,차기 목적 도움 보안 최근 출시 보안 관점 장 기능 소스 다운로드 응용프로그램 설치...


In [105]:
# 첫번째 기사/마지막 기사 내용 확인하기 
print(doc_tmp[0])
print(doc_tmp[-1])

고성능 디지털 등장 캐논 굉 장년 렌즈 교환 디지털카메라 하량 전세계 년대 비약 증가 만대 아시아 지역 중심 수요 신장 비약 증가 한약 만대 순조 시장 확대 전망 상황 근거 캐논 사진 동영상 본격 작품 제작 묘사 자랑 하이 아마추어 용 디지털카메라 년월 하순 발매 발표 모델 년월 발매 후계 종 해당 정지 화상 동영상 품질 비약 향상 기존 모델 정밀도 속도 촬영 성능 이크 향상 작품 제작 위 표현 진화 본격 작품 제작 화질 이굉 촬 상소 개발 풀 사이즈 약 화소 센서 의약 배 처리 능력 영상 엔진 탑재 고화질 다이나믹 레인지 화질 실현 상용 최고 확대 소지로 야경 촬영 두운 장면 인물 촬영 시 노이즈 촬영 동영상 촬영 시 기존 모델 가짜 색상 물결 무늬 발생 크게 억제 게다 노이즈 고화질 영상 진화 동영상 촬영 의상 용감 도 개발 시스템 이굉 개발 시스템 최상 위기종 월말 출시 예정 센서 점 밀도 레티 크루 총 거점 점 탑재 덕분 구도 대응 피 사체 포착 율 향상 인물 동체 촬영 효과 성능 발휘 고 화소 응답 이굉 장종 속도 향상 한신 개발 센서 고속 상처리 해약 화소 고 소수 유지 면서 최고 팽이 초 연사 가능 기존 모델 릴리 타임 랙 단축 실현 제품 정보 캐논 캐논 의기 보기 할인 프린터 품질 프린트 서비스 비용 디지털 통 수리 최근 프린터 잉크 가격 동등 신품 프린터 디지털 통 키 박하 고화질 컴팩트 디카 캐논 디지털카메라 출시 스마트폰 태블릿 데이터 활용 캐논 탑재 소형 스캐너 매력 배속 카드 평생 보증 입 소문
영화 파이널 데스티네이션 사랑 효과 소문 검증 연애 사랑 조교 이론 은 현수교 남녀 공포 연애 착각 사랑 학설 현수교 건너 필요 공포영화 롤러코스터 공포 상황 효과 문제 실제 확실 치 일이 내 여대생 심박수 분당 박동수 계 공포영화 롤러코스터 경험 심박수 측정 측정 사용 의심 박동 모니터 가슴 주위 계측기 완화 심박수 무선 전송 관측 세 실시간 표시 다다 제품 진로 표시 심박수 여대생 보고 영화 사상가 고함 명소 공포 파이널 데스티네이션 무영 남

In [106]:
# 전체 데이터 개수 확인하기 
print(len(doc_tmp))

395


In [115]:
print(np.array(doc_tmp).shape)
print(np.array(label).shape)
# 둘다 일차원

(395,)
(395,)


In [121]:
## 방법1) 설명변수 + 목적변수 병합 
# numpy - np.concatenate()

import numpy as np
#news_data = np.concatenate(np.array(doc_tmp), np.array(label), axis=1) # 오류! 1차원은 행/열X-> 병합X
news_data=np.concatenate((np.array(doc_tmp).reshape(-1,1), np.array(label).reshape(-1,1)) , axis=1)
news_data[:5]
# 판다스로 바꿔서 concat()해도 됨
# 딥러닝/머신러닝쪽 가면 많이쓰여! 잘 알아두기~~~!!

array([['고성능 디지털 등장 캐논 굉 장년 렌즈 교환 디지털카메라 하량 전세계 년대 비약 증가 만대 아시아 지역 중심 수요 신장 비약 증가 한약 만대 순조 시장 확대 전망 상황 근거 캐논 사진 동영상 본격 작품 제작 묘사 자랑 하이 아마추어 용 디지털카메라 년월 하순 발매 발표 모델 년월 발매 후계 종 해당 정지 화상 동영상 품질 비약 향상 기존 모델 정밀도 속도 촬영 성능 이크 향상 작품 제작 위 표현 진화 본격 작품 제작 화질 이굉 촬 상소 개발 풀 사이즈 약 화소 센서 의약 배 처리 능력 영상 엔진 탑재 고화질 다이나믹 레인지 화질 실현 상용 최고 확대 소지로 야경 촬영 두운 장면 인물 촬영 시 노이즈 촬영 동영상 촬영 시 기존 모델 가짜 색상 물결 무늬 발생 크게 억제 게다 노이즈 고화질 영상 진화 동영상 촬영 의상 용감 도 개발 시스템 이굉 개발 시스템 최상 위기종 월말 출시 예정 센서 점 밀도 레티 크루 총 거점 점 탑재 덕분 구도 대응 피 사체 포착 율 향상 인물 동체 촬영 효과 성능 발휘 고 화소 응답 이굉 장종 속도 향상 한신 개발 센서 고속 상처리 해약 화소 고 소수 유지 면서 최고 팽이 초 연사 가능 기존 모델 릴리 타임 랙 단축 실현 제품 정보 캐논 캐논 의기 보기 할인 프린터 품질 프린트 서비스 비용 디지털 통 수리 최근 프린터 잉크 가격 동등 신품 프린터 디지털 통 키 박하 고화질 컴팩트 디카 캐논 디지털카메라 출시 스마트폰 태블릿 데이터 활용 캐논 탑재 소형 스캐너 매력 배속 카드 평생 보증 입 소문',
        '0'],
       ['단번 액정 해상도 쪽 디지털 통 해상도 스마트폰 표시 화면 고화질 화면 감동 미래 디스플레이 디스플레이 필연 현재 인치 픽셀 인치 픽셀 픽셀 인치 픽셀 수 인치 경우 절반 정도 상도 액정 크기 생각 향후 등장 모델 정도 해상도 채택 이의 디스플레이 설명 화면 눈 거리 인치 약 가인 치 약 개인 측정 노트북 경우 화면 눈 거리 정도 거리 해상도 뿐 해상도 정도 인치 정도 가정 세로 정도 

In [120]:
## 방법2) 설명변수 + 목적변수 병합 
# pandas - concat()/merge() 

pd.concat([pd.DataFrame(doc_tmp), pd.DataFrame(label)], axis=1).head()
#pd.merge([pd.DataFrame(doc_tmp), pd.DataFrame(label)], axis=1)

Unnamed: 0,0,0.1
0,고성능 디지털 등장 캐논 굉 장년 렌즈 교환 디지털카메라 하량 전세계 년대 비약 증...,0
1,단번 액정 해상도 쪽 디지털 통 해상도 스마트폰 표시 화면 고화질 화면 감동 미래 ...,0
2,코페르니쿠스 전회 등장 뉴스 주일 회상 플래시백 지난주 신경 뉴스 화제 플래시백 발...,0
3,테이블 생 더 키 조작 기억 하자 이득 치트 시트 표 작성 거나 데이터 입력 질 마...,0
4,차기 목적 도움 보안 최근 출시 보안 관점 장 기능 소스 다운로드 응용프로그램 설치...,0


In [122]:
# 첫번째 데이터에 대한 빈도수
from collections import Counter

word_c1 = Counter(doc_tmp[0])
print(word_c1)
#-> 결과) 공백이 제일 많아! 공백 제거해주기

Counter({' ': 240, '상': 18, '영': 13, '지': 11, '이': 11, '화': 11, '고': 9, '발': 9, '시': 8, '촬': 8, '소': 8, '디': 7, '캐': 7, '약': 7, '품': 7, '질': 7, '털': 6, '장': 6, '논': 6, '대': 6, '동': 6, '작': 6, '기': 6, '도': 6, '능': 5, '카': 5, '비': 5, '가': 5, '사': 5, '제': 5, '용': 5, '서': 5, '스': 5, '굉': 4, '년': 4, '즈': 4, '하': 4, '진': 4, '모': 4, '델': 4, '정': 4, '향': 4, '속': 4, '크': 4, '개': 4, '리': 4, '인': 4, '최': 4, '프': 4, '린': 4, '터': 4, '성': 3, '메': 3, '라': 3, '증': 3, '아': 3, '수': 3, '신': 3, '격': 3, '월': 3, '매': 3, '종': 3, '존': 3, '현': 3, '센': 3, '의': 3, '탑': 3, '재': 3, '물': 3, '점': 3, '보': 3, '트': 3, '등': 2, '전': 2, '계': 2, '만': 2, '한': 2, '순': 2, '확': 2, '근': 2, '거': 2, '본': 2, '마': 2, '표': 2, '해': 2, '밀': 2, '위': 2, '배': 2, '처': 2, '력': 2, '다': 2, '레': 2, '실': 2, '면': 2, '노': 2, '생': 2, '게': 2, '템': 2, '출': 2, '응': 2, '체': 2, '통': 2, '렌': 1, '교': 1, '환': 1, '량': 1, '세': 1, '역': 1, '중': 1, '심': 1, '요': 1, '조': 1, '망': 1, '황': 1, '묘': 1, '자': 1, '랑': 1, '추': 1, '어': 1, '후': 1, '당': 1, '풀': 1, '엔': 1, 

### 문서단어행렬(Document-Term Matrix, DTM)
- 참고: https://wikidocs.net/24559

In [148]:
# 첫번쨰 데이터에 대한 빈도수
word_c1 = Counter(doc_tmp[0].split())
print(word_c1)

# 리스트로 변경하기
word_c1_lst = word_c1.most_common()
print(word_c1_lst)

# DataFrame으로 내용 확인 
word_c1_df = pd.DataFrame(word_c1_lst)
display(word_c1_df.head())

# index값 변경(.set_index()) - 0번째 필드로 바꾸기 
word_c1_df = word_c1_df.set_index(0)
word_c1_df.head()

# 행/열 바꾸기
#word_c1_df.T 같음! 
word_c1_df1 = word_c1_df.transpose()
word_c1_df1

Counter({'촬영': 7, '캐논': 6, '동영상': 4, '모델': 4, '향상': 4, '개발': 4, '디지털': 3, '디지털카메라': 3, '비약': 3, '작품': 3, '제작': 3, '기존': 3, '이굉': 3, '화소': 3, '센서': 3, '탑재': 3, '고화질': 3, '프린터': 3, '증가': 2, '만대': 2, '확대': 2, '본격': 2, '년월': 2, '발매': 2, '품질': 2, '속도': 2, '성능': 2, '진화': 2, '화질': 2, '영상': 2, '실현': 2, '최고': 2, '인물': 2, '시': 2, '노이즈': 2, '시스템': 2, '출시': 2, '점': 2, '고': 2, '통': 2, '고성능': 1, '등장': 1, '굉': 1, '장년': 1, '렌즈': 1, '교환': 1, '하량': 1, '전세계': 1, '년대': 1, '아시아': 1, '지역': 1, '중심': 1, '수요': 1, '신장': 1, '한약': 1, '순조': 1, '시장': 1, '전망': 1, '상황': 1, '근거': 1, '사진': 1, '묘사': 1, '자랑': 1, '하이': 1, '아마추어': 1, '용': 1, '하순': 1, '발표': 1, '후계': 1, '종': 1, '해당': 1, '정지': 1, '화상': 1, '정밀도': 1, '이크': 1, '위': 1, '표현': 1, '촬': 1, '상소': 1, '풀': 1, '사이즈': 1, '약': 1, '의약': 1, '배': 1, '처리': 1, '능력': 1, '엔진': 1, '다이나믹': 1, '레인지': 1, '상용': 1, '소지로': 1, '야경': 1, '두운': 1, '장면': 1, '가짜': 1, '색상': 1, '물결': 1, '무늬': 1, '발생': 1, '크게': 1, '억제': 1, '게다': 1, '의상': 1, '용감': 1, '도': 1, '최상': 1, '위기종': 1, '월말': 1, '예정': 1, '

Unnamed: 0,0,1
0,촬영,7
1,캐논,6
2,동영상,4
3,모델,4
4,향상,4


Unnamed: 0,촬영,캐논,동영상,모델,향상,개발,디지털,디지털카메라,비약,작품,...,활용,소형,스캐너,매력,배속,카드,평생,보증,입,소문
1,7,6,4,4,4,4,3,3,3,3,...,1,1,1,1,1,1,1,1,1,1


In [150]:
# 두번쨰 데이터에 대한 빈도수
word_c1 = Counter(doc_tmp[1].split())
print(word_c1)

# 리스트로 변경하기
word_c1_lst = word_c1.most_common()
print(word_c1_lst)

# DataFrame으로 내용 확인 
word_c1_df = pd.DataFrame(word_c1_lst)
display(word_c1_df.head())

# index값 변경(.set_index()) - 0번째 필드로 바꾸기 
word_c1_df = word_c1_df.set_index(0)
display(word_c1_df.head())

# 행/열 바꾸기
word_c1_df2 = word_c1_df.T

# 기존 1번째 데이터의 행/열 변환값에 2번째 데이터 추가
word_c1_df2 = pd.concat([word_c1_df2, word_c1_df1], axis=0, ignore_index=True)
display(word_c1_df2)



Counter({'해상도': 18, '인치': 9, '정도': 8, '디지털': 6, '통': 6, '디스플레이': 6, '경우': 5, '화면': 4, '픽셀': 4, '거리': 4, '방향': 4, '상도': 3, '세로': 3, '보기': 3, '납부': 3, '음성인식': 3, '캐논': 3, '액정': 2, '스마트폰': 2, '고화질': 2, '현재': 2, '생각': 2, '등장': 2, '눈': 2, '약': 2, '가로': 2, '길이': 2, '더': 2, '우정': 2, '사용': 2, '기기': 2, '잉크': 2, '단번': 1, '쪽': 1, '표시': 1, '감동': 1, '미래': 1, '필연': 1, '수': 1, '절반': 1, '크기': 1, '향후': 1, '모델': 1, '채택': 1, '이의': 1, '설명': 1, '가인': 1, '치': 1, '개인': 1, '측정': 1, '노트북': 1, '뿐': 1, '가정': 1, '대응': 1, '해상': 1, '그다지': 1, '응용프로그램': 1, '개발': 1, '관점': 1, '형편': 1, '예상': 1, '일부': 1, '수직': 1, '그대로': 1, '가의': 1, '갑자기': 1, '비용': 1, '관계': 1, '비교': 1, '현실': 1, '이경우': 1, '말': 1, '신제품': 1, '인텔': 1, '코드': 1, '채용': 1, '분기': 1, '일설': 1, '월말': 1, '집': 1, '화': 1, '그래픽': 1, '코어': 1, '지원': 1, '추측': 1, '가미': 1, '쿠라': 1, '켄': 1, '의약': 1, '접근': 1, '위': 1, '정보': 1, '집필': 1, '진': 1, '제공': 1, '의기사': 1, '기능': 1, '은사': 1, '영어': 1, '어회': 1, '연습': 1, '신의': 1, '발음': 1, '객관': 1, '방법': 1, '서비스': 1, '종료': 1, '후': 1, '전자책': 1, 

Unnamed: 0,0,1
0,해상도,18
1,인치,9
2,정도,8
3,디지털,6
4,통,6


Unnamed: 0,해상도,인치,정도,디지털,통,디스플레이,경우,화면,픽셀,거리,...,태블릿,데이터,활용,소형,스캐너,매력,배속,카드,평생,보증
0,18.0,9.0,8.0,6,6,6.0,5.0,4.0,4.0,4.0,...,,,,,,,,,,
1,,,,3,2,,,,,,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [152]:
word_cl_df1 = pd.DataFrame()

for i in range(len(doc_tmp)):
  word_cl = Counter(doc_tmp[i].split())
  word_cl_lst = word_cl.most_common()
  word_cl_df = pd.DataFrame(word_cl_lst)
  word_cl_df = word_cl_df.set_index(0)
  word_cl_df1 = pd.concat([word_cl_df1, word_cl_df.T], axis=0, ignore_index=True)

display(word_cl_df1)

# 엄청 오래걸려!!
# 이런 작업을 'sklearn'이 해줌!

Unnamed: 0,촬영,캐논,동영상,모델,향상,개발,디지털,디지털카메라,비약,작품,...,가로축,등락,해달,시속,넘버,우뚝,트윈타워,마이너스,웃돈,변동
0,7.0,6.0,4.0,4.0,4.0,4.0,3.0,3.0,3.0,3.0,...,,,,,,,,,,
1,,3.0,,1.0,,1.0,6.0,,,,...,,,,,,,,,,
2,,,,1.0,,,,,,,...,,,,,,,,,,
3,,,1.0,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,,,,,,,,,,,...,,,,,,,,,,
391,2.0,,7.0,,,,,,,1.0,...,,,,,,,,,,
392,1.0,,,,,,,,,7.0,...,,,,,,,,,,
393,1.0,,,,,,,,,2.0,...,,,,,,,,,,


In [158]:
word_cl_df1 = word_cl_df1.fillna(0)
word_cl_df1 = word_cl_df1.astype(int)
display(word_cl_df1.head())

collName = word_cl_df1.columns
print(collName)

collName_num = []
for i, name in enumerate(collName):
  collName_num.append(i)


word_cl_df1.columns = collName_num


Unnamed: 0,촬영,캐논,동영상,모델,향상,개발,디지털,디지털카메라,비약,작품,...,가로축,등락,해달,시속,넘버,우뚝,트윈타워,마이너스,웃돈,변동
0,7,6,4,4,4,4,3,3,3,3,...,0,0,0,0,0,0,0,0,0,0
1,0,3,0,1,0,1,6,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Index(['촬영', '캐논', '동영상', '모델', '향상', '개발', '디지털', '디지털카메라', '비약', '작품',
       ...
       '가로축', '등락', '해달', '시속', '넘버', '우뚝', '트윈타워', '마이너스', '웃돈', '변동'],
      dtype='object', name=0, length=11311)


In [162]:
word_cl_df1.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11301,11302,11303,11304,11305,11306,11307,11308,11309,11310
0,7,6,4,4,4,4,3,3,3,3,...,0,0,0,0,0,0,0,0,0,0
1,0,3,0,1,0,1,6,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [163]:
word_cl_df1.values

array([[7, 6, 4, ..., 0, 0, 0],
       [0, 3, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [1, 0, 0, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 1, 1, 1]])

### `sklearn` 

In [174]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# 단어의 출현 건수 카운트
cv = CountVectorizer() # 함수로 넣어줌 
doct_cv = cv.fit_transform(np.array(doc_tmp))
doct_cnt = doct_cv.toarray()

print(doct_cnt[:5])
# DataFrame 구조로 보기
display(pd.DataFrame(doct_cnt).head())

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [1 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 2]]


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,10754,10755,10756,10757,10758,10759,10760,10761,10762,10763
0,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,2


In [175]:
# 데이터 사이즈 확인 
print(pd.DataFrame(doct_cnt).shape)

(395, 10764)


In [180]:
print(cv.get_feature_names()[:50]) # 가나다 순서 (한글자 X)
print(collName[:50]) # 한글자 포함 -> 머신러닝에서는 의미 X 없애버림 
# 선행작업으로 collName 길이가 2보다 큰 데이터들을 뽑아줘야 함!!! 

['가가', '가가호호', '가각본', '가감', '가게', '가격', '가계', '가고시마', '가곡면', '가공', '가과', '가관', '가굉장', '가교', '가구', '가군', '가그에', '가극', '가극장', '가기', '가까이', '가끔', '가나', '가나가와현', '가나타', '가내', '가년', '가능', '가능성', '가다해', '가담', '가대', '가도', '가동', '가두', '가드', '가득', '가든', '가디스', '가라', '가라데', '가라오케', '가라테', '가랑이', '가량', '가로', '가로막', '가로세로', '가로수', '가로축']
Index(['촬영', '캐논', '동영상', '모델', '향상', '개발', '디지털', '디지털카메라', '비약', '작품', '제작',
       '기존', '이굉', '화소', '센서', '탑재', '고화질', '프린터', '증가', '만대', '확대', '본격',
       '년월', '발매', '품질', '속도', '성능', '진화', '화질', '영상', '실현', '최고', '인물', '시',
       '노이즈', '시스템', '출시', '점', '고', '통', '고성능', '등장', '굉', '장년', '렌즈', '교환',
       '하량', '전세계', '년대', '아시아'],
      dtype='object', name=0)




In [181]:
# 위에 변수명이 같아서 이미 word_cl_df1.columns가 int로 바뀌어 있어!
# 일단 코드 이해만 해놓고 나중에 변수명 바꿔서 진행해보기 

word_cl_df1 = word_cl_df1.fillna(0)
word_cl_df1 = word_cl_df1.astype(int)
display(word_cl_df1.head())

collName = word_cl_df1.columns

new_colName = []
for cn in collName:
  if len(cn)>=2:
    new_colName.append(cn)

word_cl_df_new = word_cl_df1[new_colName].copy() # word_cl_df1의 컬럼값만 가져와 복사한 데이터 변수 저장

collName_num = []
for i, name in enumerate(collName): # 컬럼에 번호 붙여줌 
  collName_num.append(i)


word_cl_df1.columns = collName_num # 컬럼명 -> 반복문으로 만든 컬럼 번호로 바꿔줌

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11301,11302,11303,11304,11305,11306,11307,11308,11309,11310
0,7,6,4,4,4,4,3,3,3,3,...,0,0,0,0,0,0,0,0,0,0
1,0,3,0,1,0,1,6,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


TypeError: ignored

In [182]:
# 단어의 출현 빈조수 카운트
# 단어의 출현건수 카운트 
# 최소 빈도수 ~ 최대 빈도수에 포함된 데이터만 뽑아보자 ?
cv = CountVectorizer(min_df=0.01, max_df = 0.5)  # 최소/최대 지정(float)
doct_cv = cv.fit_transform(np.array(doc_tmp))
doct_cnt = doct_cv.toarray()

display(pd.DataFrame(doct_cnt).head())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3085,3086,3087,3088,3089,3090,3091,3092,3093,3094
0,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,3,...,0,0,0,0,0,0,0,0,0,0


In [183]:
len(doc_tmp)

395

In [186]:
len(doc_tmp)*0.01 
# 최소 하한선 ?

3.95

In [187]:
len(doc_tmp)*0.5
# 최대 상한선 ?

197.5

In [189]:
print(cv.get_feature_names()[:50])

['가가', '가게', '가격', '가공', '가까이', '가끔', '가나', '가년', '가능', '가능성', '가담', '가도', '가득', '가라데', '가로', '가로막', '가면', '가면라이더', '가모', '가발', '가방', '가브리엘', '가사', '가상', '가속', '가수', '가슴', '가시', '가신', '가약', '가연', '가요', '가운데', '가위', '가을', '가의', '가이드', '가일', '가입', '가장', '가전', '가정', '가족', '가주', '가지', '가집', '가짜', '가차', '가출', '가치']




### 어휘 빈도 - 문서 역빈도(TF-IDF)분석


- `TF` (단어 빈도, term frequency): 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값
- `DF` (문서 빈도, document frequency): 각 단어가 등장한 문서의 수
- `IDF` (역문서 빈도, inverse document frequency): DF의 역수
- `IDF = log(총문서수/(1+단어가 등장한 문서수))`
- `DF-IDF = TF * IDF`
----------
< 설명 >
- TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단.
- TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것.
- 즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 마련이기 때문에 자연스럽게 불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 됨.


- 특정 문서 내에서 단어 빈도가 높을 수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 TF-IDF값이 높아진다
-  이 값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과를 얻을 수 있다.
- IDF의 로그 함수 안의 값은 항상 1 이상이므로, IDF값과 TF-IDF값은 항상 0 이상이 된다
- 특정 단어를 포함하는 문서들이 많을 수록 로그 함수 안의 값이 1에 가까워지게 되고, 이 경우 IDF값과 TF-IDF값은 0에 가까워지게 된다.
--------
- 참고: 책 '파이썬으로 텍스트 분석하기' (p.173~)
- 참고(**): https://wikidocs.net/31698
- 참고: https://ko.wikipedia.org/wiki/Tf-idf

In [198]:
from sklearn.feature_extraction.text import TfidfVectorizer

## TF-IDF 연산
tv = TfidfVectorizer(min_df=0.395, max_df=0.5, sublinear_tf=True)
doc_tv = tv.fit_transform(np.array(doc_tmp))
doc_Tfidf = doc_tv.toarray()

display(pd.DataFrame(doc_Tfidf).head())

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,1.0,0.0,0.0
2,0.36189,0.0,0.715657,0.597386,0.0
3,0.716016,0.0,0.0,0.698084,0.0
4,0.676209,0.63333,0.376342,0.0,0.0
