## **1. 파이썬을 이용한 TF-IDF 구하기**
- 한 문서 내에서는 자주 나오지만, 전체 문서에서는 잘 안 나오는 단어 => 이 단어는 그 문서를 특징짓는 단어일 가능성이 높기 때문에

In [1]:
import pandas as pd
from math import log    # IDF 계산에 사용

In [4]:
# 4개의 문서
docs = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]

# 총 문서의 수
N = len(docs)
print('총 문서의 수', N)

총 문서의 수 4


### 1-1) Vocab 구하기

In [5]:
# 빈 집합 생성 - 중복 단어 제거됨
docs = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
unique_words = set()

for doc in docs:
    words = doc.split()
    for w in words:
        unique_words.add(w)

vocab = list(unique_words)

# 위 문장을 list comprehension 사용하여 코드 변겨경해 보기
# vocab = [w for doc.split() in docs for w in doc.split()]  # 코드 입력

# vocab 정렬하기
vocab.sort()  # 코드 입력
print(vocab)

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']


### 1-2-0) TF / IDF / TF-IDF 함수 정의하기

In [6]:
# TF 구하는 함수 정의하기
def tf(t, d):
    return d.count(t)

In [None]:
# IDF를 구하는 함수 정의하기

def idf(t):
    df = 0
    for doc in docs:
        # 단어 t가 현재 문서 doc에 포함되어 있으면 df를 1 증가시킵니다. => df += t in doc
        if t in doc:
            df += 1
    return log(N/(df + 1))

- log 사용 이유           
  1. 스케일 조절 (축소)
  - 만약 로그 없이 그냥 idf = N / df를 쓰면 값의 범위가 너무 큽니다.
  - 값이 크면 값이 너무 튀고 학습이 불안정,  log를 씌우면 값 범위가 줄어들고 안정적
  2. 단어 중요도를 완만하게 반영
    - 흔한 단어는 IDF를 작게, 드문 단어는 IDF를 크게 하고 싶은데, 너무 희귀한 단어가 과도하게 중요해지지 않도록 제어
  3. 정보 이론적 의미 (Information Theory)
   - 드문 단어일수록 정보가 많다 → log로 표현

In [8]:
# TF와 IDF의 값을 곱하는 함수 정의하기
def tfidf(t, d):
    return tf(t, d) * idf(t)

### 1-2-1) tf()를 통해 Document-Term Matrix (DTM) 구하기

In [10]:
# docs : ['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']
# vocab : ['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

result = []

# 각 문서에 대해서 아래 연산을 반복
for i in range(N):
    result.append([])   # result : [[]] => [[], []]=> [[], [], []] => [[], [], [], []]
    print(result)
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        # tf 함수를 호출 : TF 값을 계산
        result[-1].append(tf(t, d))     # result[i].append(tf(t, d))
        print(result[-1])

tf_ = pd.DataFrame(result, columns = vocab)
tf_

[[]]
[0]
[0, 0]
[0, 0, 0]
[0, 0, 0, 1]
[0, 0, 0, 1, 0]
[0, 0, 0, 1, 0, 1]
[0, 0, 0, 1, 0, 1, 1]
[0, 0, 0, 1, 0, 1, 1, 0]
[0, 0, 0, 1, 0, 1, 1, 0, 0]
[[0, 0, 0, 1, 0, 1, 1, 0, 0], []]
[0]
[0, 0]
[0, 0, 0]
[0, 0, 0, 1]
[0, 0, 0, 1, 1]
[0, 0, 0, 1, 1, 0]
[0, 0, 0, 1, 1, 0, 1]
[0, 0, 0, 1, 1, 0, 1, 0]
[0, 0, 0, 1, 1, 0, 1, 0, 0]
[[0, 0, 0, 1, 0, 1, 1, 0, 0], [0, 0, 0, 1, 1, 0, 1, 0, 0], []]
[0]
[0, 1]
[0, 1, 1]
[0, 1, 1, 0]
[0, 1, 1, 0, 2]
[0, 1, 1, 0, 2, 0]
[0, 1, 1, 0, 2, 0, 0]
[0, 1, 1, 0, 2, 0, 0, 0]
[0, 1, 1, 0, 2, 0, 0, 0, 0]
[[0, 0, 0, 1, 0, 1, 1, 0, 0], [0, 0, 0, 1, 1, 0, 1, 0, 0], [0, 1, 1, 0, 2, 0, 0, 0, 0], []]
[1]
[1, 0]
[1, 0, 0]
[1, 0, 0, 0]
[1, 0, 0, 0, 0]
[1, 0, 0, 0, 0, 0]
[1, 0, 0, 0, 0, 0, 0]
[1, 0, 0, 0, 0, 0, 0, 1]
[1, 0, 0, 0, 0, 0, 0, 1, 1]


Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


```python
# vocab = ['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

1. 첫 문서: '먹고 싶은 사과'
→ result = [[]]                   # 문서 1개 준비
→ result[-1].append(0)            # 과일이 없음
→ result[-1].append(0)            # 길고 없음
→ ...
→ result[-1] = [0, 0, 0, 1, 0, 1, 1, 0, 0]

2. 두 번째 문서: '먹고 싶은 바나나'
→ result = [[...], []]
→ result[-1]에 계속 append
```

### 1-2-2) IDF 구하기

In [11]:
result = []

for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns=["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


### 1-2-3)TF-IDF 행렬 구하기

In [12]:
result = []

for i in range(N):
    result.append([])      # result : [[]] => [[], []]=> [[], [], []] => [[], [], [], []]
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tfidf(t, d))  # result[i].append(tf(t, d))

tfidf_ = pd.DataFrame(result, columns=vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


### 첫번째 문장 적용 과정
```python
d = docs[0]   
result = [
    [tf('먹고', '먹고 싶은 사과'), tf('싶은', '먹고 싶은 사과'), tf('사과', '먹고 싶은 사과'), tf('바나나', '먹고 싶은 사과'), tf('길고', '먹고 싶은 사과'), tf('노란', '먹고 싶은 사과'), tf('저는', '먹고 싶은 사과'), tf('과일이', '먹고 싶은 사과'), tf('좋아요', '먹고 싶은 사과')]
]
```

## **2.사이킷런을 이용한 TF-IDF 구하기**

### 2-1)TF (DTM) 구하기
- sklearn 의 CountVectorizer 사용하여 DTM 만들 수 있음

In [None]:
!pip install scikit-learn

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do'
]

vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수를 기록
print(vector.fit_transform(corpus).toarray())

# 각 단어와 맵핑된 인덱스 출력
print(vector.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


▲ {'do': 0, 'know': 1, 'like': 2, 'love': 3, 'should': 4, 'want': 5, 'what': 6, 'you': 7,  'your': 8}  
- corpus 각 문장별로 등장하는 자리에 1의 값을 가짐

### 2-2) TFIDF 구하기
- sklearn 의 TfidfVectorize 사용하여 구할 수 있음

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do'
]

tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())

print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
