# TF-IDF

### TfidfVectorizer 주요 매개 변수

- **norm**: 각 문서의 피처 벡터 정규화 방법
    - `'l2'`: 벡터의 각 원소의 제곱의 합이 1이 되도록 만드는 것이 기본값
    - `'l1'`: 벡터의 각 원소의 절댓값의 합이 1이 되도록 크기를 조절
- **use_idf** = `True`
    - TF-IDF를 사용해 피처를 만들 것인지 아니면 단어 빈도 자체를 사용할 것인지를 결정
- **smooth_idf** = `False`
    - `True`일 때는 피처를 만들 때 0으로 나오는 항목에 대해 작은 값을 더해서 피처를 만들고 `False`일 때는 더하지 않음
- **sublinear_tf**=`False`
    - `True`일 때는 로그 스케일링을 사용하고 `False`일 때는 단어 빈도를 그대로 사용
    - 이상치가 데이터를 심하게 왜곡하는 경우 sublinear_tf=True로 두면 완화되는 효과를 얻을 수 있음
- **max_df**: 특정 문서 비율 이상에서 나타나는 단어를 제외
- **min_df**: 특정 문서 비율 이하에서 나타나는 단어를 제외


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer # TF-IDF
from sklearn.svm import LinearSVC

# 한글 폰트 설정
import koreanize_matplotlib

# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'

In [3]:
corpus = ['코로나 거리두기와 코로나 상생지원금 문의입니다.',
          '지하철 운행시간과 지하철 요금 문의입니다.',
          '지하철 승강장 문의입니다.',
          '택시 승강장 문의입니다.']
corpus

['코로나 거리두기와 코로나 상생지원금 문의입니다.',
 '지하철 운행시간과 지하철 요금 문의입니다.',
 '지하철 승강장 문의입니다.',
 '택시 승강장 문의입니다.']

In [4]:
tfidfvect = TfidfVectorizer()
dtm = tfidfvect.fit_transform(corpus)
dtm

<4x9 sparse matrix of type '<class 'numpy.float64'>'
	with 14 stored elements in Compressed Sparse Row format>

In [5]:
# 문서에 토큰이 더 많이 나타날수록 가중치는 더 커진다.
# 그러나 토큰이 문서에 많이 표시될수록 가중치가 감소한다.
dtm.toarray()

array([[0.39928771, 0.20836489, 0.39928771, 0.        , 0.        ,
        0.        , 0.        , 0.79857543, 0.        ],
       [0.        , 0.23921859, 0.        , 0.        , 0.45841237,
        0.45841237, 0.72283516, 0.        , 0.        ],
       [0.        , 0.42389674, 0.        , 0.64043405, 0.        ,
        0.        , 0.64043405, 0.        , 0.        ],
       [0.        , 0.37919167, 0.        , 0.5728925 , 0.        ,
        0.        , 0.        , 0.        , 0.72664149]])

In [6]:
# display_transform_dtm으로 변환 결과를 확인한다
vocab = tfidfvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
print("단어 수 :", len(vocab))
print(vocab)
display(df_dtm.style.background_gradient())

단어 수 : 9
['거리두기와' '문의입니다' '상생지원금' '승강장' '요금' '운행시간과' '지하철' '코로나' '택시']


Unnamed: 0,거리두기와,문의입니다,상생지원금,승강장,요금,운행시간과,지하철,코로나,택시
0,0.399288,0.208365,0.399288,0.0,0.0,0.0,0.0,0.798575,0.0
1,0.0,0.239219,0.0,0.0,0.458412,0.458412,0.722835,0.0,0.0
2,0.0,0.423897,0.0,0.640434,0.0,0.0,0.640434,0.0,0.0
3,0.0,0.379192,0.0,0.572892,0.0,0.0,0.0,0.0,0.726641


첫 번째 문서는 '코로나 거리두기와 코로나 상생지원금 문의입니다' 이다. 여기에서 '코로나'라는 단어는 다른 문서에는 등장하지 않고 첫 번째 문서에만 등장하기 때문에 가중치가 높게 나온다. 반면에 '문의입니다'는 모든 문서에 등장하기 때문에 가중치가 낮게 나온다