## 사이킷런을 이용한 특징추출

### 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화 하는 것

## 사이킷 런에서 텍스트 데이터를 수치화하는 3가지 방법
<tbody></tbody>

<li>CountVectorizer - 단순히 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법</li>
<li>TfidVectorizer - TF-IDF 를 사용해 텍스트에서 특징을 추출하는 방법</li>
<li>HashingVectorizer - CountVectorizer와 방법은 동일하지만 텍스트를 처리할 때 Hash를 사용하기 떄문에 실행 시간을 크게 줄일 수 있다.</li>

### CountVectorizer

In [1]:
# 텍스트 카운팅은 먼저 단어 사전 벡터를 만들고, 카운팅할 문장을 확인하며 그 단어 사전의 횟수를 카운팅하는 것입니다.
# 예를들면 단어사전에
# [나는, 너가, 매일, 공부를, 한다, 좋아한다]
# 이러한 벡터가 존재한다면,
# '나는 매일 공부를 한다'
# 라는 문장을 카운팅한다면,
# [1,0,1,1,1,0]
# 이라는 벡터로 특징을 추출할수 있습니다.

from sklearn.feature_extraction.text import CountVectorizer

In [3]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

count_vectorizer = CountVectorizer()

In [4]:
count_vectorizer.fit(text_data)
print(count_vectorizer.vocabulary_)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


In [5]:
sentence = [text_data[0]] # 나는 배가 고프다.
print(count_vectorizer.transform(sentence).toarray())

#직관적이고 간단해서 여러 상황에서 사용할 수 있다는 장점이 있다.
#단순히 회수만을 특징으로 잡기 때문에 큰 의미가 없지만
#자주 사용되는 단어들 ex) 조사, 지시대명사 가 높은 특징 값을 가지기 때문에 유의미하게 사용하기 어려울 수 있다.
# CountVectorizer의 문제로 인해 이것을 해결할 수 있는 TF-IDF 방식의 특징추출을 사용한다.

[[1 0 1 0 0 0 1 0 0 0]]


### TfidVectorizer

In [11]:
# TF-IDF는 특정한 값을 사용해서 텍스트 데이터의 특징을 추출하는 방법
# TF(Term Frequency) 란 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미한다.
# DF(Document Frequency) 란 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표다.
# IDF(Inverse Document Frequency)는 이 값에 역수를 취해서 구할 수 있으며 , 특정 단어가 다른 데이터에 등장하지 않을수록 값이 커진다는 것을 의미

# 따라서 TF-IDF는 어떤 단어가 해당 문서에 자주 등장하지만 다른 문서에는 많이 없는 단어일수록 높은 값을 가지게 된다.
# 그래서 조사나 지시대명사처럼 자주 등장하는 단어는 TF값이 크지만 IDF 값이 작아지므로 CountVectorizer가 가진 문제점을 해결할 수 있다.

from sklearn.feature_extraction.text import TfidfVectorizer

text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']
tfidf_vectorizer = TfidfVectorizer()

In [20]:
tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)
print('\n')
print(sorted(tfidf_vectorizer.vocabulary_))

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


['고프다', '공부', '나는', '내일', '먹고', '뭐먹지', '배가', '점심', '해야겠다', '해야지']


In [13]:
sentence = [text_data[3]] # ['점심 먹고 공부 해야지']
print(tfidf_vectorizer.transform(sentence).toarray())

[[0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]
