# 사이킷런을 이용한 특징 추출

* 자연어 처리에서 특징 추출이란 ? </br>
    - 텍스트 데이터에서 단어나 문장을 특정 값으로 바꿔주는 것을 말함 
    - 문자 에서 >> 특징 뽑기 >> 수치화
 </br>   
</br>

* 텍스트 수치화 방법 3 가지 
    </br>
    - CountVectorizer :  단순히 각 텍스트의 횟수를 기준으로 특징 추출
    </br>
    - TfidfVectorizer :  TF-IDF라는 값을 사용
    </br>
    - HashingVectorizer :  Count 방식과 동일한 방법을 쓰지만, 해시함수를 사용해 시간을 줄일 수 있다


## CountVectorizer 

* 어떤 단위의 횟수를 셀 것인지는 선택 사항 (단어 , 문자 하나하나 등) / 보통은 단어를 기준으로 횟수 측정 
    - 문장을 입력으로 받아 단어의 횟수를 측정한 뒤 벡터로 만든다.
    
</br>

* 진행과정

    - 먼저 객체를 만들어야 한다
    - 이 객체에 특정 텍스트를 적합시켜야 한다 (적합 : 횟수를 셀 단어의 목록을 만드는 과정)
    - 횟수를 기준으로 해당 텍스트를 벡터화 한다.

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

# 텍스트를 불러온다. 여기서는 특정 데이터를 사용하지 않고 리스트로 텍스트 데이터를 직접 정의해서 사용한다.

text_data =['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

count_vectorizer = CountVectorizer()

count_vectorizer.fit(text_data) # fit 함수를 사용하면 자동으로 단어 사전을 생성함 

# print(count_vectorizer.vocabulary_)

# 이제 텍스트 데이터를 실제로 벡터로 만들어보자 / 정의한 텍스트 데이터 중에서 하나만 선택해 벡터로 만든다.

sentence = [text_data[0]] # ['나는 배가 고프다']
print(count_vectorizer.transform(sentence).toarray())

#  [[1 0 1 0 0 0 1 0 0 0]]

[[1 0 1 0 0 0 1 0 0 0]]


* 이처럼 매우 간단하게 텍스트 데이터에서 특징을 추출할 수 있다.
</br></br>
* 하지만 단순히 횟수만을 특징으로 잡기 때문에 큰 의미는 없지만 자주 사용되는 단어들 (조사, 지시대명사)가 </br>
  높은 값을 가지기 때문에 유의미하게 사용하기 어려울 수 있다. 
  </br></br>
* 이러한 점을 해결 해 줄 수 있는 TF-IDF 방식의 특징 추출을 알아보자

## TfidfVectorizer

* TF- IDF
    - TF (Term Frequency) : 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미 
    - DF (Document Frequency) : 문서의 빈도 값, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표다
    - TF-IDF : 이 두 값을 곱해서 사용한다 
    - 즉, 어떤 단어가 해당 문서에 자주 등장하지만 다른 문서에는 많이 없는 단어일수록 높은 값을 가지게 된다.
    - 따라서 지시대명사, 조사 처럼 자주 등장하는 단어는 tf 값은 크지만 IDF 값은 작음 


In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

tfidf_vectorizer = TfidfVectorizer()

## 단어 사전 만들기

tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

sentence = [text_data[3]] # ['점심 먹고 공부 해야지']
print(tfidf_vectorizer.transform(sentence).toarray())

# {'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}

# [[0.         0.43779123 0.         0.         0.55528266 0.
#   0.         0.43779123 0.         0.55528266]]

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]


* 이 처럼 특징 추출 방법으로 TF-IDF 값을 사용할 경우 단순 횟수를 이용하는 것보다 각 단어의 특성을 더 잘 반영할 수 있음
