# 텍스트 데이터 실수화 

## 1. 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 방법
## CountVectorizer

### 1) 필요 라이브러리 Import 

In [1]:
import pandas as pd   # pandas package 임포트
from sklearn.feature_extraction import DictVectorizer # 각 단어의 수를 세어놓은 사전에서 BOW 인코딩
from sklearn.feature_extraction.text import CountVectorizer # 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩

###  DictVectorizer: 각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다.

### CountVectorizer: 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.

### TfidfVectorizer: CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.

### HashingVectorizer: 해시 함수(hash function)을 사용하여 적은 메모리와 빠른 속도로 BOW 인코딩 벡터를 만든다.

### DictVectorizer

In [2]:
v = DictVectorizer(sparse=False)
D = [{'A': 1, 'B': 2}, {'B': 3, 'C': 1}]
X = v.fit_transform(D)
X

array([[1., 2., 0.],
       [0., 3., 1.]])

In [3]:
type(D[0])

dict

In [4]:
D

[{'A': 1, 'B': 2}, {'B': 3, 'C': 1}]

In [5]:
v.feature_names_

['A', 'B', 'C']

In [6]:
v.transform({'C': 4, 'D': 3})

array([[0., 0., 4.]])

## 1. 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 방법
### CountVectorizer 함수 : 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 Bag Of Words로 인코딩 하는 함수

### 1) 필요 라이브러리 Import 

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

### 2) 데이터 셋 생성 및 확인 

In [8]:
corpus = [
            '청년 인재 개발 양성 과정',
            '인공지능 청년 양성',
            '미래 인공지능 데이터 대한민국',
            '데이터 원유 기술사 청년 개발',
         ]

In [9]:
corpus

['청년 인재 개발 양성 과정', '인공지능 청년 양성', '미래 인공지능 데이터 대한민국', '데이터 원유 기술사 청년 개발']

In [10]:
type(corpus) 

list

### 3) 텍스트 실수화 : 단어의 빈도수를 카운트(Count)

In [11]:
# 카운트 벡터라이저 생성 
count_vect = CountVectorizer() 

# 단어 카운트
count_vect.fit(corpus)

# 단어 확인 
count_vect.vocabulary_ 

{'청년': 10,
 '인재': 9,
 '개발': 0,
 '양성': 6,
 '과정': 1,
 '인공지능': 8,
 '미래': 5,
 '데이터': 4,
 '대한민국': 3,
 '원유': 7,
 '기술사': 2}

In [12]:
# 단어 벡터화 한 값을 array로 변환하여 확인  
count_vect.transform(corpus).toarray()

array([[1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1],
       [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1],
       [0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0],
       [1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1]], dtype=int64)

In [13]:
# 단어 벡터화 
features = count_vect.transform(corpus)

In [17]:
features

<4x11 sparse matrix of type '<class 'numpy.int64'>'
	with 17 stored elements in Compressed Sparse Row format>

### 4) 문서 단어 행렬로 변환 

In [18]:
# 속성 이름만 반환 
vocab = count_vect.get_feature_names()

In [19]:
vocab

['개발', '과정', '기술사', '대한민국', '데이터', '미래', '양성', '원유', '인공지능', '인재', '청년']

In [20]:
# 문서단어행렬(DTM)을 데이터 프레임으로 변환 
DTM = pd.DataFrame(features.toarray(), columns = vocab).head()

In [21]:
DTM

Unnamed: 0,개발,과정,기술사,대한민국,데이터,미래,양성,원유,인공지능,인재,청년
0,1,1,0,0,0,0,1,0,0,1,1
1,0,0,0,0,0,0,1,0,1,0,1
2,0,0,0,1,1,1,0,0,1,0,0
3,1,0,1,0,1,0,0,1,0,0,1


In [22]:
# 문서 단어 행렬에 일치하는 단어 확인 
count_vect.transform(['기술사 대한민국 인재 만세']).toarray()

array([[0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0]], dtype=int64)

## 2. 단어의 빈도수를 단어들마다 중요한 정도를 가중치로 주어 수치화하는 방법
### TfidfVectorizer 함수 : TF-IDF 방식으로 단어의 가중치를 조정한 BOW로 인코딩 하는  함수

### 1) 필요 라이브러리 Import 

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer

### 2) 데이터 셋 생성 및 확인 
#### 단어의 빈도수 수치화에서 활용한 corpus 데이터 셋 사용

In [24]:
corpus

['청년 인재 개발 양성 과정', '인공지능 청년 양성', '미래 인공지능 데이터 대한민국', '데이터 원유 기술사 청년 개발']

### 3) 텍스트 실수화 : TF-IDF 방식

In [25]:
# TF-IDF 벡터라이저 생성 
tfid = TfidfVectorizer()

# 단어 카운트
tfid.fit(corpus)

# 단어 사전 확인 
tfid.vocabulary_ 

{'청년': 10,
 '인재': 9,
 '개발': 0,
 '양성': 6,
 '과정': 1,
 '인공지능': 8,
 '미래': 5,
 '데이터': 4,
 '대한민국': 3,
 '원유': 7,
 '기술사': 2}

In [26]:
# 단어 벡터화 한 값을 array로 변환하여 확인  
tfid.transform(corpus).toarray()

array([[0.41263976, 0.52338122, 0.        , 0.        , 0.        ,
        0.        , 0.41263976, 0.        , 0.        , 0.52338122,
        0.33406745],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.61366674, 0.        , 0.61366674, 0.        ,
        0.49681612],
       [0.        , 0.        , 0.        , 0.55528266, 0.43779123,
        0.55528266, 0.        , 0.        , 0.43779123, 0.        ,
        0.        ],
       [0.41263976, 0.        , 0.52338122, 0.        , 0.41263976,
        0.        , 0.        , 0.52338122, 0.        , 0.        ,
        0.33406745]])

In [27]:
# 단어 벡터화 
features_idf = tfid.transform(corpus)

In [28]:
features_idf

<4x11 sparse matrix of type '<class 'numpy.float64'>'
	with 17 stored elements in Compressed Sparse Row format>

### 4) 문서 단어 행렬로 변환 

In [30]:
# 속성 이름만 반환 
vocab_idf = count_vect.get_feature_names()

In [31]:
vocab_idf

['개발', '과정', '기술사', '대한민국', '데이터', '미래', '양성', '원유', '인공지능', '인재', '청년']

In [32]:
# 문서단어행렬(DTM)을 데이터 프레임으로 변환 
DTM_idf = pd.DataFrame(features_idf.toarray(), columns = vocab_idf).head()

In [33]:
DTM_idf

Unnamed: 0,개발,과정,기술사,대한민국,데이터,미래,양성,원유,인공지능,인재,청년
0,0.41264,0.523381,0.0,0.0,0.0,0.0,0.41264,0.0,0.0,0.523381,0.334067
1,0.0,0.0,0.0,0.0,0.0,0.0,0.613667,0.0,0.613667,0.0,0.496816
2,0.0,0.0,0.0,0.555283,0.437791,0.555283,0.0,0.0,0.437791,0.0,0.0
3,0.41264,0.0,0.523381,0.0,0.41264,0.0,0.0,0.523381,0.0,0.0,0.334067
