In [20]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

In [21]:
corpus = ["코로나 거리두기와 코로나 상생지원금 문의입니다.",
        "지하철 운행시간과 지하철 요금 문의입니다.",
        "지하철 승강장 문의입니다.",
        "택시 승강장 문의입니다."]
print(corpus)

['코로나 거리두기와 코로나 상생지원금 문의입니다.', '지하철 운행시간과 지하철 요금 문의입니다.', '지하철 승강장 문의입니다.', '택시 승강장 문의입니다.']


In [None]:
cvt = CountVectorizer()
tfidf = TfidfVectorizer()

obj = [cvt,tfidf]
for i in obj:
    countvec = i.fit(corpus)
    mat = i.transform(corpus)
    print(f'name : {i}')
    print(f' tokenized by counting - {countvec.vocabulary_}')
    df = pd.DataFrame(mat.toarray(),columns=i.get_feature_names_out(corpus))
    print(df.head())
    # print(f' name : {i} // "{{단어": 인덱스번호}} {i.vocabulary_} // get feature {i.get_feature_names_out()}')

name : CountVectorizer()
 tokenized by counting - {'코로나': 7, '거리두기와': 0, '상생지원금': 2, '문의입니다': 1, '지하철': 6, '운행시간과': 5, '요금': 4, '승강장': 3, '택시': 8}
   거리두기와  문의입니다  상생지원금  승강장  요금  운행시간과  지하철  코로나  택시
0      1      1      1    0   0      0    0    2   0
1      0      1      0    0   1      1    2    0   0
2      0      1      0    1   0      0    1    0   0
3      0      1      0    1   0      0    0    0   1
name : TfidfVectorizer()
 tokenized by counting - {'코로나': 7, '거리두기와': 0, '상생지원금': 2, '문의입니다': 1, '지하철': 6, '운행시간과': 5, '요금': 4, '승강장': 3, '택시': 8}
      거리두기와     문의입니다     상생지원금       승강장        요금     운행시간과       지하철  \
0  0.399288  0.208365  0.399288  0.000000  0.000000  0.000000  0.000000   
1  0.000000  0.239219  0.000000  0.000000  0.458412  0.458412  0.722835   
2  0.000000  0.423897  0.000000  0.640434  0.000000  0.000000  0.640434   
3  0.000000  0.379192  0.000000  0.572892  0.000000  0.000000  0.000000   

        코로나        택시  
0  0.798575  0.000000  
1  0.000000  0.00

: 

##### DTM(Document Term Matrix) 문서 단어 행렬
* CountVectorizer는 문서에서 단어의 빈도수를 계산해서 문서 단어 행렬을 만들어주는 작업을 하는 모듈

In [None]:
# 문장의 등장 빈도수
dtm = cvt.fit_transform(corpus)
vocab = cvt.get_feature_names_out()
df = pd.DataFrame(dtm.toarray(),columns=vocab)
df

Unnamed: 0,거리두기와,문의입니다,상생지원금,승강장,요금,운행시간과,지하철,코로나,택시
0,1,1,1,0,0,0,0,2,0
1,0,1,0,0,1,1,2,0,0
2,0,1,0,1,0,0,1,0,0
3,0,1,0,1,0,0,0,0,1


In [16]:
dtm.toarray()

array([[1, 1, 1, 0, 0, 0, 0, 2, 0],
       [0, 1, 0, 0, 1, 1, 2, 0, 0],
       [0, 1, 0, 1, 0, 0, 1, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 0, 1]])

##### N-grams
* 토큰을 몇 개 사용할 것인지를 구분합니다. 지정한 n개의 숫자 만큼의 토큰을 묶어서 사용한다.

* 예를 들어 (1, 1) 이라면 1개의 토큰을 (2, 3)이라면 2~3개의 토큰을 사용한다.

* analyzer 설정에 따라 단어단위, 캐릭터 단위에 따라 사용할 수 있다.

* 기본값 = (1, 1)

* ngram_range(min_n, max_n)

* min_n <= n <= max_n

In [19]:
cvt = CountVectorizer(ngram_range=(1,2))
dtm = cvt.fit_transform(corpus).toarray()
vocab = cvt.get_feature_names_out(corpus)
df = pd.DataFrame(dtm,columns=vocab)
df

Unnamed: 0,거리두기와,거리두기와 코로나,문의입니다,상생지원금,상생지원금 문의입니다,승강장,승강장 문의입니다,요금,요금 문의입니다,운행시간과,운행시간과 지하철,지하철,지하철 승강장,지하철 요금,지하철 운행시간과,코로나,코로나 거리두기와,코로나 상생지원금,택시,택시 승강장
0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,2,1,1,0,0
1,0,0,1,0,0,0,0,1,1,1,1,2,0,1,1,0,0,0,0,0
2,0,0,1,0,0,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0
3,0,0,1,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1
