<a href="https://colab.research.google.com/github/zsert1/-Natural_language_processing/blob/main/%ED%85%8D%EC%8A%A4%ED%8A%B8_%EB%B2%A1%ED%84%B0%ED%99%94.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 벡터화

### 1. 파이썬을 이용한 TF-IDF 행렬 구현

In [2]:
import pandas as pd
from math import log #IDF계산을 위해 사용

In [3]:
# 4개의 문서
docs=['먹고 싶은 사과','먹고 싶은 바나나','길고 노란 바나나 바나나','저는 과일이 좋아요']
vocab= list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [4]:
print(vocab)

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']


In [5]:
N=len(docs)

In [6]:
# TF,IDF,TF-IDF 구하는 함수
def tf(t,d):
  return d.count(t)

In [8]:
def idf(t):
  df=0
  for doc in docs:
    df+=t in doc
  return log(N/(df+1))

In [10]:
def tfidf(t,d):
  return tf(t,d)+idf(t)

In [16]:
result=[]

for i in range(N):
  result.append([])
  d=docs[i]
  for j in range(len(vocab)):
    t=vocab[j]
    result[-1].append(tf(t,d))

tf_=pd.DataFrame(result,columns=vocab)

In [17]:
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [18]:
result=[]
for j in range(len(vocab)):
  t= vocab[j]
  result.append(idf(t))
idf_=pd.DataFrame(result,index=vocab,columns=['IDF'])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [19]:
result=[]
for i in range(N):
  result.append([])
  d=docs[i]
  for j in range(len(vocab)):
    t=vocab[j]
    result[-1].append(tfidf(t,d))


tfidf_=pd.DataFrame(result,columns=vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.693147,0.693147,0.693147,1.287682,0.287682,1.693147,1.287682,0.693147,0.693147
1,0.693147,0.693147,0.693147,1.287682,1.287682,0.693147,1.287682,0.693147,0.693147
2,0.693147,1.693147,1.693147,0.287682,2.287682,0.693147,0.287682,0.693147,0.693147
3,1.693147,0.693147,0.693147,0.287682,0.287682,0.693147,0.287682,1.693147,1.693147


## 사이킷 런을 이용한 DTM과 TF-IDF 실습

In [25]:
from  sklearn.feature_extraction.text import CountVectorizer
corpus=['you know I want your love', 'i like you', 'what should I do']
vector= CountVectorizer()
# 코퍼스로부터 긱 딘어의 빈도수를 기록
print(vector.fit_transform(corpus).toarray())
# 각 단어와 매핑된 인덱스 출력
print(vector.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [24]:
from  sklearn.feature_extraction.text import TfidfVectorizer
corpus=['you know I want your love', 'i like you', 'what should I do']
tfidf= TfidfVectorizer()
print(tfidf.fit_transform(corpus).toarray())
print(tfidf.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


### 무서간의 유사도를 구하기 위한 재료를 손질방법 익힌 것 유사도를 구하는 방식으로는 일반적으로 내적,코사인 유사도가 존재

#### 코사인 유사도
- 벡터간의 유사도를 구할 때 사용하는 방식이며 -1~1 사이의 유사도를 구하는 계산 방법

In [26]:
import numpy as np
from  sklearn.metrics.pairwise import cosine_similarity


In [27]:
doc1=np.array([[0,1,1,1]])
doc2=np.array([[1,0,1,1]])
doc3=np.array([[2,0,2,2]])
print('1과 2의 유사도',cosine_similarity(doc1,doc2))
print('1과 3의 유사도',cosine_similarity(doc1,doc3))
print('2과 3의 유사도',cosine_similarity(doc2,doc3))





1과 2의 유사도 [[0.66666667]]
1과 3의 유사도 [[0.66666667]]
2과 3의 유사도 [[1.]]
