자연어 처리에서 특징 추출이란, 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 
- 기존에 문자로 구성되었던 데이터를, 모델에 적용할 수 있도록 특징을 뽑아, 어떤 값으로 바꿔서 수치화한다.

#### 벡터를 만드는 방법
- CountVectorizer
  - 단순히 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법
- TfidfVectorizer
  - TF-IDF 을 활용해 텍스트에서 특징을 추출
- HashingVectorizer
  - CountVectorizer 와 동일한 방법이지만, 텍스트를 처리할 때 해시함수를 사용하여, 실행시간을 줄일 수 있다.
  - 텍스트의 크기가 클수록 효율적이다.

### Count Vectorizer
- 문장을 입력으로 받아 단어의 횟수를 측정한 뒤 벡터로 만든다.
- 먼저 객체를 생성한다
- 객체에 특정 텍스트를 적합시킨다. ( 횟수를 셀 단어의 목록을 만드는 과정
- 횟수를 기준으로 해당 텍스트를 벡터화한다.

ex.) 

     "나는 매일 공부를 한다" 

     "나는 너가 매일 공부를 한다 좋아한다 -> "1, 0, 1, 1, 1, 0" 으로 전환

     "나는 매일 매일 공부를 한다  -> "1, 0, 2, 1, 1, 0




In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']
count_vectorizer =CountVectorizer()

# 단어 사전 만들기
count_vectorizer.fit(text_data)
print(count_vectorizer.vocabulary_)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


In [3]:
sentence = [text_data[0]] # ['나는 배가 고프다']
print(count_vectorizer.transform(sentence).toarray())
# 나는 배가 고프다를 딕셔너리화

[[1 0 1 0 0 0 1 0 0 0]]


### TfidfVecotorizer
TF(Term Frequency)란 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미한다.

DF(Document Frequency)는 문서의 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표다.

IDF(Inverse Document Frequency) 는 이 값에 역수를 취하여 구할 수 있으며, 특정 단어가 다른 데이터에 등장하지 않을수록 값이 커지는것을 의미한다.

즉 TF-IDF는 위 2 값을 곱해서 사용하므로, "어떤 단어가 해당 문서에 자주 등장하지만, 다른 문서에는 많이 없는 단어일수록 높은 값을 가지게 된다."
  - 조사나 지시대명사처럼 자주 등장하는 단어는 TF값은 크지만 IDF 값은 작아지므로 CountVectorizer의 문제점을 해결해준다.

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

# 점심 먹고 공부해야지 에 대한 변환
sentence = [text_data[3]]
print(tfidf_vectorizer.transform(sentence).toarray())

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]


In [None]:
|