**DictVectorizer (예제 1)**  
문서에서 단어의 사용빈도를 나타내는 딕셔너리 정보를 입력받아 BoW 인코딩한 수치 벡터로 변환합니다.  
어떤 방식으로 BoW를 할것인지를 명시하고, fit_transform()을 사용하여 변환합니다.

In [3]:
from sklearn.feature_extraction import DictVectorizer

v = ?(sparse=False)
D = [{'A': 1, 'B': 2}, {'B': 3, 'C': 1}]
X = v.?(D)
X

array([[1., 2., 0.],
       [0., 3., 1.]])

In [4]:
v.feature_names_

['A', 'B', 'C']

In [5]:
v.transform({'C': 4, 'B': 2})

array([[0., 2., 4.]])

**CountVectorizer (에제 2)**  
CounVectorizer는 다음과 같은 세가지 작업을 수행합니다.  
(1) 문서를 토큰 리스트로 변환합니다.  
(2) 각 문서에서 토큰의 출현 빈도를 셉니다.  
(3) 각 문서를 BoW 인코딩 벡터로 변환합니다.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]

# 어떤 방식으로 BoW를 할것인지를 명시하고, fit과 transfrom을 통해 결과를 얻습니다.

vect = ?()
vect.?(corpus)
vect.vocabulary_ # feature index 확인


{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [7]:
# "This is the second document"라는 문장을 입력한 경우

vect.?(['This is the second document.']).toarray()

array([[0, 1, 0, 1, 0, 0, 1, 1, 0, 1]])

In [8]:
# "Something completely new"라는 문장을 입력한 경우

vect.transform(['Something completely new.']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [9]:
# Corpus를 처리한 경우

vect.transform(corpus).toarray()

array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 1, 0, 0]])

**자연어 처리 예제 1 (Stop Words)**  
Stop Words는 문장에서 단어장을 생성할 때 무시할 수 있는 단어를 의미합니다.  
영어의 the, a/an과 같은 관사가 여기에 해당됩니다.

In [10]:
# stop_words의 인수로 "and", "is", "the", "this"를 사용합니다.

vect = CountVectorizer(stop_words=[?, ?, ?, ?]).fit(corpus)
vect.vocabulary_

{'first': 1, 'document': 0, 'second': 4, 'third': 5, 'one': 3, 'last': 2}

In [11]:
# stop_words="english"는 영어 불용어를 의미함

vect = CountVectorizer(stop_words="english").fit(corpus)
vect.vocabulary_

{'document': 0, 'second': 1}

In [12]:
# Stop words의 인수에 따라 생성된 BoW 벡터가 상이함을 확인합니다.

vect.?(corpus).toarray()

array([[1, 0],
       [1, 2],
       [0, 0],
       [1, 0],
       [1, 0]])

**자연어 처리 예제 2 (Token)**  
anlyzer 옵션의 값에 따라 token의 기준이 결정됩니다.(word, char)

In [13]:
vect = ?(analyzer=?).fit(corpus)
vect.vocabulary_

{'t': 16,
 'h': 8,
 'i': 9,
 's': 15,
 ' ': 0,
 'e': 6,
 'f': 7,
 'r': 14,
 'd': 5,
 'o': 13,
 'c': 4,
 'u': 17,
 'm': 11,
 'n': 12,
 '.': 1,
 'a': 3,
 '?': 2,
 'l': 10}

In [14]:
vect = CountVectorizer(analyzer=?).fit(corpus)
vect.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

**자연어 처리 예제 3 (Token)**

tokenizer는 문장에서 색인어 추출을 위해 명사, 동사, 알파벳, 숫자 정도의 단어만 뽑아서   
normalization, stemming 처리하도록 합니다.  
word_tokenize는 구두점을 기준으로 토큰화를 합니다.

In [18]:
import nltk
nltk.download('punkt')

vect = CountVectorizer(tokenizer=nltk.word_tokenize).fit(corpus)
vect.vocabulary_

[nltk_data] Error loading punkt: <urlopen error [SSL:
[nltk_data]     CERTIFICATE_VERIFY_FAILED] certificate verify failed:
[nltk_data]     unable to get local issuer certificate (_ssl.c:1056)>


LookupError: 
**********************************************************************
  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt/PY3/english.pickle[0m

  Searched in:
    - '/Users/sang-soopark/nltk_data'
    - '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.7/nltk_data'
    - '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.7/share/nltk_data'
    - '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.7/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************


**자연어 처리 예제 4 (빈도수 계산)**  
토큰의 빈도가 max_df로 지정한 값을 초과하거나, min_df로 지정한 값보다 작은 경우는 무시합니다.

In [20]:
vect = CountVectorizer(?=4, ?=2).fit(corpus)
vect.vocabulary_, vect.stop_words_

({'this': 3, 'is': 2, 'first': 1, 'document': 0},
 {'and', 'last', 'one', 'second', 'the', 'third'})

In [21]:
vect.transform(corpus).toarray().sum(axis=0)

array([4, 2, 3, 3])