# NLTK 자연어 처리 패키지 소개

- 샘플 corpus 및 사전
- 토큰 생성(tokenizing)
- 형태소 분석(stemming/lemmatizing)
- 품사 태깅(part-of-speech tagging)
- 구문 분석(syntax parsing)

## 샘플 corpus
샘플 문서 집합

download 명령 <br>
nltk.download('averaged_perceptron_tagger')<br>
nltk.download("gutenberg")<br>
nltk.download('punkt')<br>
nltk.download('reuters')<br>
nltk.download("stopwords")<br>
nltk.download("taggers")<br>
nltk.download("webtext")<br>
nltk.download("wordnet")

In [2]:
import nltk
nltk.download("gutenberg")

[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\student\AppData\Roaming\nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!


True

In [3]:
nltk.corpus.gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [6]:
emma_raw = nltk.corpus.gutenberg.raw("austen-emma.txt")
print(emma_raw[:1302])

[Emma by Jane Austen 1816]

VOLUME I

CHAPTER I


Emma Woodhouse, handsome, clever, and rich, with a comfortable home
and happy disposition, seemed to unite some of the best blessings
of existence; and had lived nearly twenty-one years in the world
with very little to distress or vex her.

She was the youngest of the two daughters of a most affectionate,
indulgent father; and had, in consequence of her sister's marriage,
been mistress of his house from a very early period.  Her mother
had died too long ago for her to have more than an indistinct
remembrance of her caresses; and her place had been supplied
by an excellent woman as governess, who had fallen little short
of a mother in affection.

Sixteen years had Miss Taylor been in Mr. Woodhouse's family,
less as a governess than a friend, very fond of both daughters,
but particularly of Emma.  Between _them_ it was more the intimacy
of sisters.  Even before Miss Taylor had ceased to hold the nominal
office of governess, the mildness o

## 토큰 생성(tokenizing)

In [7]:
 nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [8]:
from nltk.tokenize import word_tokenize
word_tokenize(emma_raw[50:100])

['Emma',
 'Woodhouse',
 ',',
 'handsome',
 ',',
 'clever',
 ',',
 'and',
 'rich',
 ',',
 'with',
 'a']

In [9]:
from nltk.tokenize import RegexpTokenizer
t = RegexpTokenizer("[\w]+")
t.tokenize(emma_raw[50:100])

['Emma', 'Woodhouse', 'handsome', 'clever', 'and', 'rich', 'with', 'a']

## 형태소 분석

 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 언어적 속성의 구조를 파악
 
- stemming (어근 추출)
- lemmatizing (원형 복원)
- POS tagging (품사 태깅)

### Stemming and lemmatizing

In [10]:
from nltk.stem import PorterStemmer
st = PorterStemmer()
st.stem("eating")

'eat'

In [11]:
from nltk.stem import LancasterStemmer
st = LancasterStemmer()
st.stem("designed")

'design'

In [12]:
from nltk.stem import RegexpStemmer
st = RegexpStemmer("ing")
st.stem("cooking")

'cook'

In [13]:
from nltk.stem import WordNetLemmatizer
lm = WordNetLemmatizer()
print(lm.lemmatize("cooking"))
print(lm.lemmatize("cooking", pos="v"))
print(lm.lemmatize("cookbooks"))

cooking
cook
cookbook


In [14]:
print(WordNetLemmatizer().lemmatize("believes"))
print(LancasterStemmer().stem("believes"))

belief
believ


## POS tagging

POS(part-of-speech)

Part-of-Speech Tagset <br>
https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.htm<br>
http://www.ibm.com/support/knowledgecenter/ko/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysspostagset.htm

In [15]:
from nltk.tag import pos_tag

tagged_list = pos_tag(word_tokenize(emma_raw[:100]))
tagged_list

[('[', 'NNS'),
 ('Emma', 'NNP'),
 ('by', 'IN'),
 ('Jane', 'NNP'),
 ('Austen', 'NNP'),
 ('1816', 'CD'),
 (']', 'NNP'),
 ('VOLUME', 'NNP'),
 ('I', 'PRP'),
 ('CHAPTER', 'VBP'),
 ('I', 'PRP'),
 ('Emma', 'NNP'),
 ('Woodhouse', 'NNP'),
 (',', ','),
 ('handsome', 'NN'),
 (',', ','),
 ('clever', 'NN'),
 (',', ','),
 ('and', 'CC'),
 ('rich', 'JJ'),
 (',', ','),
 ('with', 'IN'),
 ('a', 'DT')]

In [16]:
from nltk.tag import untag
untag(tagged_list)

['[',
 'Emma',
 'by',
 'Jane',
 'Austen',
 '1816',
 ']',
 'VOLUME',
 'I',
 'CHAPTER',
 'I',
 'Emma',
 'Woodhouse',
 ',',
 'handsome',
 ',',
 'clever',
 ',',
 'and',
 'rich',
 ',',
 'with',
 'a']

# konlpy 한국어 처리 패키지 소개

http://konlpy.org/ko/latest/ <br>
https://github.com/konlpy/konlpy

* Kkma<br>
    http://kkma.snu.ac.kr/<br>
* Hannanum<br>
    http://semanticweb.kaist.ac.kr/hannanum/<br>
* Twitter<br>
    https://github.com/twitter/twitter-korean-text/<br>
* Komoran<br>
    http://www.shineware.co.kr/?page_id=835<br>
* Mecab<br>
    https://bitbucket.org/eunjeon/mecab-ko-dic

## 한국어 corpus

In [17]:
!pip install JPype1-0.6.2-cp36-cp36m-win_amd64.whl
!pip install konlpy



Requirement 'JPype1-0.6.2-cp36-cp36m-win_amd64.whl' looks like a filename, but the file does not exist




In [18]:
import konlpy
from konlpy.corpus import kolaw
kolaw.fileids()

['constitution.txt']

In [19]:
c = kolaw.open('constitution.txt').read()
print(c[:100])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의


In [20]:
from konlpy.corpus import kobill
kobill.fileids()

['1809890.txt',
 '1809891.txt',
 '1809892.txt',
 '1809893.txt',
 '1809894.txt',
 '1809895.txt',
 '1809896.txt',
 '1809897.txt',
 '1809898.txt',
 '1809899.txt']

In [21]:
d = kobill.open('1809890.txt').read()
print(d[:100])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호

9890

발의연월일 : 2010.  11.  12.  

발  의  자 : 정의화․이명수․김을동 

이


## 한국어 처리 유틸리티

pprint 유틸리티 함수로 한국어 프린트 해줌 

In [22]:
x = [u"한글", {u"한글 키": [u"한글 밸류1", u"한글 밸류2"]}]
print(x)

['한글', {'한글 키': ['한글 밸류1', '한글 밸류2']}]


In [23]:
from konlpy.utils import pprint
pprint(x)

['한글', {'한글 키': ['한글 밸류1', '한글 밸류2']}]


## 형태소 분석

- Kkma
- Hannanum
- Twitter
- Komoran
- Mecab
 <br>-------
- morphs : 형태소 추출
- nouns : 명사 추출
- pos : pos 태깅

In [24]:
import numpy as np
from konlpy.tag import *

hannanum = Hannanum()
kkma = Kkma()
twitter = Twitter()

## 명사 추출
noun 명령

In [25]:
pprint(hannanum.nouns(c[:65]))

['대한민국헌법',
 '유구',
 '역사',
 '전통',
 '빛',
 '우리',
 '대한국민',
 '3·1운동',
 '건립',
 '대한민국임시정부',
 '법통',
 '불의',
 '항거']


In [27]:
pprint(kkma.nouns(c[:65]))

['대한',
 '대한민국',
 '대한민국헌법',
 '민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '3',
 '1',
 '1운동',
 '운동',
 '건립',
 '대한민국임시정부',
 '임시',
 '정부',
 '법통',
 '불의',
 '항거']


In [28]:
pprint(twitter.nouns(c[:65]))

['대한민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '대한',
 '국민',
 '운동',
 '건립',
 '대한민국',
 '임시정부',
 '법',
 '통과',
 '불의',
 '항거']


### 형태소 추출

모든 품사의 형태소를 알아내려면 morphs라는 명령을 사용

In [29]:
pprint(hannanum.morphs(c[:65]))

['대한민국헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛',
 '나는',
 '우리',
 '대한국민',
 '은',
 '3·1운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국임시정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거']


In [30]:
pprint(kkma.morphs(c[:65]))

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국',
 '임시',
 '정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거']


In [31]:
pprint(twitter.morphs(c[:65]))

['대한민국',
 '헌법',
 '유구',
 '한',
 '역사',
 '와',
 '전통',
 '에',
 '빛나는',
 '우리',
 '대한',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '된',
 '대한민국',
 '임시정부',
 '의',
 '법',
 '통과',
 '불의',
 '에',
 '항거']


### 품사 태깅

품사(POS)가 붙어있는(tagging) 형태로 형태소 분석

https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0


In [32]:
pprint(hannanum.pos(c[:65]))

[('대한민국헌법', 'N'),
 ('유구', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('역사', 'N'),
 ('와', 'J'),
 ('전통', 'N'),
 ('에', 'J'),
 ('빛', 'N'),
 ('나는', 'J'),
 ('우리', 'N'),
 ('대한국민', 'N'),
 ('은', 'J'),
 ('3·1운동', 'N'),
 ('으로', 'J'),
 ('건립', 'N'),
 ('되', 'X'),
 ('ㄴ', 'E'),
 ('대한민국임시정부', 'N'),
 ('의', 'J'),
 ('법통', 'N'),
 ('과', 'J'),
 ('불의', 'N'),
 ('에', 'J'),
 ('항거', 'N')]


In [33]:
pprint(kkma.pos(c[:65]))

[('대한민국', 'NNG'),
 ('헌법', 'NNG'),
 ('유구', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKM'),
 ('빛나', 'VV'),
 ('는', 'ETD'),
 ('우리', 'NNM'),
 ('대하', 'VV'),
 ('ㄴ', 'ETD'),
 ('국민', 'NNG'),
 ('은', 'JX'),
 ('3', 'NR'),
 ('·', 'SP'),
 ('1', 'NR'),
 ('운동', 'NNG'),
 ('으로', 'JKM'),
 ('건립', 'NNG'),
 ('되', 'XSV'),
 ('ㄴ', 'ETD'),
 ('대한민국', 'NNG'),
 ('임시', 'NNG'),
 ('정부', 'NNG'),
 ('의', 'JKG'),
 ('법통', 'NNG'),
 ('과', 'JC'),
 ('불의', 'NNG'),
 ('에', 'JKM'),
 ('항거', 'NNG')]


In [34]:
pprint(twitter.pos(c[:65]))

[('대한민국', 'Noun'),
 ('헌법', 'Noun'),
 ('유구', 'Noun'),
 ('한', 'Josa'),
 ('역사', 'Noun'),
 ('와', 'Josa'),
 ('전통', 'Noun'),
 ('에', 'Josa'),
 ('빛나는', 'Verb'),
 ('우리', 'Noun'),
 ('대한', 'Noun'),
 ('국민', 'Noun'),
 ('은', 'Josa'),
 ('3', 'Number'),
 ('·', 'Foreign'),
 ('1', 'Number'),
 ('운동', 'Noun'),
 ('으로', 'Josa'),
 ('건립', 'Noun'),
 ('된', 'Verb'),
 ('대한민국', 'Noun'),
 ('임시정부', 'Noun'),
 ('의', 'Josa'),
 ('법', 'Noun'),
 ('통과', 'Noun'),
 ('불의', 'Noun'),
 ('에', 'Josa'),
 ('항거', 'Noun')]


# 문서 전처리

특징 벡터(feature vector)를 문서로부터 추출하는 과정

## BOW (Bag of Words)

전체 문서  {D1,D2,…,Dn}{D1,D2,…,Dn}  를 구성하는 <br>
고정된 단어장(vocabulary)  {W1,W2,…,Wm}{W1,W2,…,Wm}  를 만들고  <br>
Di 라는 개별 문서에 단어장에 해당하는 단어들이 포함되어 있는지를 표시하는 방법

## Scikit-Learn 의 문서 전처리 기능

feature_extraction.text 
- CountVectorizer:<br>
    문서 집합으로부터 단어의 수를 세어 카운트 행렬을 만든다.
- TfidfVectorizer:<br>
    문서 집합으로부터 단어의 수를 세고 TF-IDF 방식으로 단어의 가중치를 조정한 카운트 행렬을 만든다.
- HashingVectorizer: <br>
    hashing trick 을 사용하여 빠르게 카운트 행렬을 만든다.

In [35]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',    
]
vect = CountVectorizer()
vect.fit(corpus)
vect.vocabulary_

{'and': 0,
 'document': 1,
 'first': 2,
 'is': 3,
 'last': 4,
 'one': 5,
 'second': 6,
 'the': 7,
 'third': 8,
 'this': 9}

In [36]:
vect.transform(['This is the second document.']).toarray()

array([[0, 1, 0, 1, 0, 0, 1, 1, 0, 1]], dtype=int64)

In [37]:
vect.transform(['Something completely new.']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

In [38]:
vect.transform(corpus).toarray()

array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 1, 0, 0]], dtype=int64)

## 문서 처리 옵션
* CountVectorizer는 다양한 인수
    * stop_words : 문자열 {‘english’}, 리스트 또는 None (디폴트)
        * stop words 목록.‘english’이면 영어용 스탑 워드 사용.
    * analyzer : 문자열 {‘word’, ‘char’, ‘char_wb’} 또는 함수
        * 단어 n-그램, 문자 n-그램, 단어 내의 문자 n-그램
    * tokenizer : 함수 또는 None (디폴트)
        * 토큰 생성 함수 .
    * token_pattern : string
        * 토큰 정의용 정규 표현식
    * ngram_range : (min_n, max_n) 튜플
        * n-그램 범위
    * max_df : 정수 또는 [0.0, 1.0] 사이의 실수. 디폴트 1
        * 단어장에 포함되기 위한 최대 빈도
    * min_df : 정수 또는 [0.0, 1.0] 사이의 실수. 디폴트 1
        * 단어장에 포함되기 위한 최소 빈도
    * vocabulary : 사전이나 리스트
        * 단어장
        
        
## Stop Words
무시할 단어 관사나 접속사, 한국어의 조사 등 .. 

In [39]:
vect = CountVectorizer(stop_words=["and", "is", "the", "this"]).fit(corpus)
vect.vocabulary_

{'document': 0, 'first': 1, 'last': 2, 'one': 3, 'second': 4, 'third': 5}

In [40]:
vect = CountVectorizer(stop_words="english").fit(corpus)
vect.vocabulary_

{'document': 0, 'second': 1}

## 토큰(token)

하나의 단어가 되는 단위

analyzer, tokenizer, token_pattern 등의 인수로 조절

In [42]:
vect = CountVectorizer(analyzer="char").fit(corpus)
vect.vocabulary_

{' ': 0,
 '.': 1,
 '?': 2,
 'a': 3,
 'c': 4,
 'd': 5,
 'e': 6,
 'f': 7,
 'h': 8,
 'i': 9,
 'l': 10,
 'm': 11,
 'n': 12,
 'o': 13,
 'r': 14,
 's': 15,
 't': 16,
 'u': 17}

In [43]:
import nltk
nltk.download("punkt")
vect = CountVectorizer(tokenizer=nltk.word_tokenize).fit(corpus)
vect.vocabulary_

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\student\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


{'.': 0,
 '?': 1,
 'and': 2,
 'document': 3,
 'first': 4,
 'is': 5,
 'last': 6,
 'one': 7,
 'second': 8,
 'the': 9,
 'third': 10,
 'this': 11}

In [44]:
vect = CountVectorizer(token_pattern="t\w+").fit(corpus)
vect.vocabulary_

{'the': 0, 'third': 1, 'this': 2}

## n-그램

토큰의 크기를 결정<br>
1-그램은 토큰 하나만 단어로 사용 2-그램은 두 개의 연결된 토큰을 하나의 단어로 사용

In [47]:
vect = CountVectorizer(ngram_range=(2,2)).fit(corpus)
vect.vocabulary_

{'and the': 0,
 'first document': 1,
 'is the': 2,
 'is this': 3,
 'last document': 4,
 'second document': 5,
 'second second': 6,
 'the first': 7,
 'the last': 8,
 'the second': 9,
 'the third': 10,
 'third one': 11,
 'this is': 12,
 'this the': 13}

In [48]:
vect = CountVectorizer(ngram_range=(1,2), token_pattern="t\w+").fit(corpus)
vect.vocabulary_

{'the': 0, 'the third': 1, 'third': 2, 'this': 3, 'this the': 4}

## 빈도수

토큰이 나타난 횟수를 기준으로 단어장을 구성<br>
min_df ~ max_df 미만, 초과 인 경우 무시<br>
정수인 경우 횟수, 부동소수점인 경우 비중

In [49]:
vect = CountVectorizer(max_df=4, min_df=2).fit(corpus)
vect.vocabulary_, vect.stop_words_

({'document': 0, 'first': 1, 'is': 2, 'this': 3},
 {'and', 'last', 'one', 'second', 'the', 'third'})

In [53]:
vect.transform(corpus).toarray().sum(axis=0)

array([4, 2, 3, 3], dtype=int64)

## TF-IDF (Term Frequency – Inverse Document Frequency)

모든 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법

문서  d (document)와 단어  t

$\text{tf-idf}(d, t) = \text{tf}(d, t) \cdot $$\text{idf}(d, t)$

$\text{idf}(d, t) = \log \dfrac{n_d}{1 + \text{df}(t)}$

* $\text{tf}(d, t) $ : 단어의 빈도수 

* $\text{idf}(d, t) $ :  inverse document frequency

* $n_d$ : 전체 문서의 수

* $\text{df}(t)$ : 단어  t 를 가진 문서의 수

In [55]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidv = TfidfVectorizer().fit(corpus)
tfidv.transform(corpus).toarray()

array([[ 0.        ,  0.38947624,  0.55775063,  0.4629834 ,  0.        ,
         0.        ,  0.        ,  0.32941651,  0.        ,  0.4629834 ],
       [ 0.        ,  0.24151532,  0.        ,  0.28709733,  0.        ,
         0.        ,  0.85737594,  0.20427211,  0.        ,  0.28709733],
       [ 0.55666851,  0.        ,  0.        ,  0.        ,  0.        ,
         0.55666851,  0.        ,  0.26525553,  0.55666851,  0.        ],
       [ 0.        ,  0.38947624,  0.55775063,  0.4629834 ,  0.        ,
         0.        ,  0.        ,  0.32941651,  0.        ,  0.4629834 ],
       [ 0.        ,  0.45333103,  0.        ,  0.        ,  0.80465933,
         0.        ,  0.        ,  0.38342448,  0.        ,  0.        ]])

In [56]:
tfidv.vocabulary_

{'and': 0,
 'document': 1,
 'first': 2,
 'is': 3,
 'last': 4,
 'one': 5,
 'second': 6,
 'the': 7,
 'third': 8,
 'this': 9}

## Hashing Trick

단어에 대한 인덱스 번호를 생성하기 때문에 메모리 및 실행 시간을 줄임


In [4]:
import nltk
from sklearn.datasets import fetch_20newsgroups
twenty = fetch_20newsgroups()
len(twenty.data)

11314

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
%time CountVectorizer().fit(twenty.data).transform(twenty.data)

Wall time: 6.02 s


<11314x130107 sparse matrix of type '<class 'numpy.int64'>'
	with 1787565 stored elements in Compressed Sparse Row format>

In [8]:
from sklearn.feature_extraction.text import HashingVectorizer
hv = HashingVectorizer(n_features=10)

In [9]:
%time hv.transform(twenty.data)

Wall time: 3.25 s


<11314x10 sparse matrix of type '<class 'numpy.float64'>'
	with 112863 stored elements in Compressed Sparse Row format>

## 형태소 분석기 이용


In [10]:
corpus = ["imaging", "image", "imagination", "imagine", "buys", "buying", "bought"]
vect = CountVectorizer().fit(corpus)
vect.vocabulary_

{'bought': 0,
 'buying': 1,
 'buys': 2,
 'image': 3,
 'imagination': 4,
 'imagine': 5,
 'imaging': 6}

In [11]:
from sklearn.datasets import fetch_20newsgroups
twenty = fetch_20newsgroups()
docs = twenty.data[:100]

In [12]:
vect = CountVectorizer(stop_words="english", token_pattern="wri\w+").fit(docs)
vect.vocabulary_

{'write': 0,
 'writer': 1,
 'writers': 2,
 'writes': 3,
 'writing': 4,
 'writing_': 5,
 'written': 6}

In [13]:
from nltk.stem import SnowballStemmer

class StemTokenizer(object):
    def __init__(self):
        self.s = SnowballStemmer('english')
        self.t = CountVectorizer(stop_words="english", token_pattern="wri\w+").build_tokenizer()
    def __call__(self, doc):
        return [self.s.stem(t) for t in self.t(doc)]

vect = CountVectorizer(tokenizer=StemTokenizer()).fit(docs)
vect.vocabulary_

{'write': 0, 'writer': 1, 'writing_': 2, 'written': 3}

 웹사이트에 특정한 단어가 어느 정도 사용되었는지 빈도수를 알아보는 코드

In [None]:
import urllib2
import json
import string
from konlpy.utils import pprint
from konlpy.tag import Hannanum
hannanum = Hannanum()

req = urllib2.Request("https://www.datascienceschool.net/download-notebook/708e711429a646818b9dcbb581e0c10a/")
opener = urllib2.build_opener()
f = opener.open(req)
json = json.loads(f.read())
cell = ["\n".join(c["source"]) for c in json["cells"] if c["cell_type"] == u"markdown"]
docs = [w for w in hannanum.nouns(" ".join(cell)) if ((not w[0].isnumeric()) and (w[0] not in string.punctuation))]

In [None]:
vect = CountVectorizer().fit(docs)
count = vect.transform(docs).toarray().sum(axis=0)
plt.bar(range(len(count)), count)
plt.show()

In [None]:
pprint(zip(vect.get_feature_names(), count))