# 12주차 : TF-IDF, BOW 구현

## BOW
- 목표는 코사인 유사도 검사까지였는데 다음시간으로 ㅎㅎ

### Bow _ Bag of Words

- 단어의 순서 고려하지 않고 오직 단어의 빈도수만 고려한 데이터 수치화 방법
- 리스트가 아닌 집합으로 인덱스 부여 ( 중복X)
  - 기계는 단어를 인덱스로 부여한다
  - 집합 표시 : set(''), {} 둘 중 하나 쓰면 됨
- 각 인덱스 위치에 단어의 빈도수 기록(리스트 -> 중복 O)
  - 리스트는 [] 나 list('')로 사용

In [14]:
# bow_ 포르투갈어 BOW _Basic파일 확인

doc1 = 'Eu quero dormir mas tenho que estudar tudo noite. Acho que não posso dormir hoje.'
word_to_index = {}
bow = [0] * len(word_to_index)

for word in doc1.split():
    if word not in word_to_index:
        word_to_index[word] = len(word_to_index)

# 빈도수가 아닌 각각의 인덱스를 매긴 것
print("단어-정수 인코딩:",(word_to_index))

bow = [0] * len(word_to_index)  # 초기화: 각 단어의 빈도를 0으로 설정

# 문서의 각 단어에 대해 BOW 업데이트
for word in doc1.split():
    if word in word_to_index:
        index = word_to_index[word]
        bow[index] += 1  # 해당 단어의 빈도를 1 증가

print("bow:", bow)

단어-정수 인코딩: {'Eu': 0, 'quero': 1, 'dormir': 2, 'mas': 3, 'tenho': 4, 'que': 5, 'estudar': 6, 'tudo': 7, 'noite.': 8, 'Acho': 9, 'não': 10, 'posso': 11, 'hoje.': 12}
bow: [1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1]


In [15]:
doc1.split()

['Eu',
 'quero',
 'dormir',
 'mas',
 'tenho',
 'que',
 'estudar',
 'tudo',
 'noite.',
 'Acho',
 'que',
 'não',
 'posso',
 'dormir',
 'hoje.']

In [16]:
from nltk.tokenize import TreebankWordTokenizer

#bow 함수화
def build_bag_of_words(doc):
    # 온점 제거 및 토큰화
    doc = doc.replace('.', '')
    tokenized_document = TreebankWordTokenizer().tokenize(doc)

    word_to_index = {}  # 단어와 해당 인덱스를 매핑할 딕셔너리
    bow = []  # BoW를 저장할 리스트

    for word in tokenized_document:
        if word not in word_to_index.keys():
            # 단어가 처음 등장한 경우, 인덱스를 부여하고 BoW에 1을 추가
            word_to_index[word] = len(word_to_index)
            bow.insert(len(word_to_index) -1, 1)
        else:
            # 이미 등장한 단어의 경우, 해당 인덱스 위치의 BoW 값에 1을 추가
            index = word_to_index.get(word)
            bow[index] = bow[index] + 1

    return word_to_index, bow

#doc1 = "Cão mordido de cobra tem medo até de corda"

vocab, bow = build_bag_of_words(doc1)
print('vocabulary :', vocab)
print('bag of words :', bow)


vocabulary : {'Eu': 0, 'quero': 1, 'dormir': 2, 'mas': 3, 'tenho': 4, 'que': 5, 'estudar': 6, 'tudo': 7, 'noite': 8, 'Acho': 9, 'não': 10, 'posso': 11, 'hoje': 12}
bag of words : [1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1]


In [17]:
from sklearn.feature_extraction.text import CountVectorizer

doc = ['Eu quero dormir mas tenho que estudar tudo noite. Acho que não posso dormir hoje.','Cão mordido de cobra tem medo até de corda']

# 인덱스와 빈도수 계산 모델
vectorizer = CountVectorizer()

# vectorizer를 doc 학습 및 변환
bow = vectorizer.fit_transform(doc)

print('word index:', vectorizer.vocabulary_)
print(bow.toarray())

word index: {'eu': 8, 'quero': 17, 'dormir': 6, 'mas': 10, 'tenho': 19, 'que': 16, 'estudar': 7, 'tudo': 20, 'noite': 13, 'acho': 0, 'não': 14, 'posso': 15, 'hoje': 9, 'cão': 4, 'mordido': 12, 'de': 5, 'cobra': 2, 'tem': 18, 'medo': 11, 'até': 1, 'corda': 3}
[[1 0 0 0 0 0 2 1 1 1 1 0 0 1 1 1 2 1 0 1 1]
 [0 1 1 1 1 2 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0]]


## DTM
- Document Term Matrix

In [19]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
from IPython.display import display

In [21]:
cv = CountVectorizer ()

# 문서를 희소행렬로 변환해줌
dtm = cv.fit_transform(doc)

# 단어와 빈도수를 df로 출력
print("어휘 빈도수 표시:")
print("===================================")
names = cv.get_feature_names_out()
count_words = pd.DataFrame(dtm.toarray(), columns = names)
display(count_words)

어휘 빈도수 표시:


Unnamed: 0,acho,até,cobra,corda,cão,de,dormir,estudar,eu,hoje,...,medo,mordido,noite,não,posso,que,quero,tem,tenho,tudo
0,1,0,0,0,0,0,2,1,1,1,...,0,0,1,1,1,2,1,0,1,1
1,0,1,1,1,1,2,0,0,0,0,...,1,1,0,0,0,0,0,1,0,0


In [22]:
# 데이터 크다고 끊어먹지말고 다 보여줘
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [23]:
display(count_words)

Unnamed: 0,acho,até,cobra,corda,cão,de,dormir,estudar,eu,hoje,mas,medo,mordido,noite,não,posso,que,quero,tem,tenho,tudo
0,1,0,0,0,0,0,2,1,1,1,1,0,0,1,1,1,2,1,0,1,1
1,0,1,1,1,1,2,0,0,0,0,0,1,1,0,0,0,0,0,1,0,0


## DTF _ Documents TF


In [24]:
import pandas as pd

# countervecotrizer에서 대문자를 소문자화해준다.

doc1 = "Cão mordido de cobra tem medo até de corda"
doc2 = 'Não acordes o cão quando ele está dormindo'
doc3 = 'A ferida do cão cura-se com o pêlo do mesmo cão'
doc4 = 'São como o cão e o gato'

docs = [doc1, doc2, doc3, doc4]
print(docs)

# 문서내 단어 집합, 복수의 문서로 부터 단어를 추출하는 방법

# vocas = []
# for doc in docs:
#     for word in doc.split():
#         vocas.append(word)

vocas =list(w for doc in docs for w in doc.split()) # 복수의 문서에서 단어를 추출해서 리스트 형태로 반환
print('단어 리스트: ', vocas)

# 전체 문서에 등장한 단어의 빈도수
print('cão의 Term Frequency:', vocas.count('cão'))

['Cão mordido de cobra tem medo até de corda', 'Não acordes o cão quando ele está dormindo', 'A ferida do cão cura-se com o pêlo do mesmo cão', 'São como o cão e o gato']
단어 리스트:  ['Cão', 'mordido', 'de', 'cobra', 'tem', 'medo', 'até', 'de', 'corda', 'Não', 'acordes', 'o', 'cão', 'quando', 'ele', 'está', 'dormindo', 'A', 'ferida', 'do', 'cão', 'cura-se', 'com', 'o', 'pêlo', 'do', 'mesmo', 'cão', 'São', 'como', 'o', 'cão', 'e', 'o', 'gato']
cão의 Term Frequency: 4


In [25]:
display(count_words)

Unnamed: 0,acho,até,cobra,corda,cão,de,dormir,estudar,eu,hoje,mas,medo,mordido,noite,não,posso,que,quero,tem,tenho,tudo
0,1,0,0,0,0,0,2,1,1,1,1,0,0,1,1,1,2,1,0,1,1
1,0,1,1,1,1,2,0,0,0,0,0,1,1,0,0,0,0,0,1,0,0


## TF (Term Frequency)

- 특정 문서 d에서 특정 단어 t의 등장 횟수
- doc_name.count('words')

In [28]:
doc1 = "Cão mordido de cobra tem medo até de corda"
doc2 = 'Não acordes o cão quando ele está dormindo'
doc3 = 'A ferida do cão cura-se com o pêlo do mesmo cão'
doc4 = 'São como o cão e o gato'

docs = [doc1, doc2, doc3, doc4]

# 문서내 단어 집합, 복수의 문서로 부터 단어를 추출하는 방법
vocas = []
for doc in docs:
  for word in doc.split():
    vocas.append(word)

#리스트컴프리헨션
#vocas =list(w for doc in docs for w in doc.split())

print('단어 리스트: ', vocas)
# 맨앞 Cão은 대문자로 처리되어 따로 인덱스가 매겨짐
print('cão의 Term Frequency:', vocas.count('cão'))

단어 리스트:  ['Cão', 'mordido', 'de', 'cobra', 'tem', 'medo', 'até', 'de', 'corda', 'Não', 'acordes', 'o', 'cão', 'quando', 'ele', 'está', 'dormindo', 'A', 'ferida', 'do', 'cão', 'cura-se', 'com', 'o', 'pêlo', 'do', 'mesmo', 'cão', 'São', 'como', 'o', 'cão', 'e', 'o', 'gato']
cão의 Term Frequency: 4


In [30]:
import pandas as pd

# tf 계산 함수
def tf(t, d):
  return d.count(t)

# 샘플 문사
doc1 = "Cão mordido de cobra tem medo até de corda"
doc2 = 'Não acordes o cão quando ele está dormindo'
doc3 = 'A ferida do cão cura-se com o pêlo do mesmo cão'
doc4 = 'São como o cão e o gato'

docs = [doc1, doc2, doc3, doc4]

# 문서에 포함된 단어의 집합을 리스트로 변환 (단어 중복 없음)
vocas =list(set(w for doc in docs for w in doc.split()))

# 문서별 tf 게산
result = [] # 결과를 저장할 리스트

for doc in docs:
  result.append([])
  for voca in vocas:
    result[-1].append(tf(voca, doc)) # TF 값을 결과에 추가

# 단어와 단어별 tf값을 매치하여 dataframe 형태로 변환하고 출력
tf_score = pd.DataFrame(result, columns=vocas)
print(tf_score)

   acordes  pêlo  São  ele  mordido  está  com  mesmo  ferida  medo  cura-se  \
0        0     0    0    0        1     0    0      0       0     1        0   
1        1     0    0    1        0     1    0      0       0     0        0   
2        0     1    0    0        0     0    1      1       1     0        1   
3        0     0    1    0        0     0    1      0       0     0        0   

   quando  tem  de  A  até  dormindo  como  e  do  cobra  corda  o  Cão  gato  \
0       0    1   2  0    1         0     0  4   2      1      1  6    1     0   
1       1    0   1  0    0         1     0  4   3      0      0  7    0     0   
2       0    0   0  1    0         0     0  3   2      0      0  8    0     0   
3       0    0   0  0    0         0     1  1   0      0      0  7    0     1   

   Não  cão  
0    0    0  
1    1    1  
2    0    2  
3    0    1  


## DF : Document Frequency
- collection의 defaultdict사용할 것

In [35]:
from collections import defaultdict
import pandas as pd

# 예제 문서 집합
doc1 = "Cão mordido de cobra tem medo até de corda. A é"
doc2 = 'Não acordes o cão quando ele está dormindo A é'
doc3 = 'A ferida do cão cura-se com o pêlo do mesmo cão A é'
doc4 = 'São como o cão e o gato A é'

docs = [doc1, doc2, doc3, doc4]

def doc_frequency(documents):
  # 각 단어가 등장한 문서의 수를 저장할 딕셔너리
  df = defaultdict(int)
  # 각 문서에서 고유 단어를 추출하여 카운트
  for document in documents:
    words = set(document.split())
    for word in words:
      df[word] += 1
  return df

# 문서 빈도 계산
document_frequency = doc_frequency(docs)
table =pd.DataFrame(list(document_frequency.items()), columns=['word', 'frequency'])

In [36]:
table

Unnamed: 0,word,frequency
0,mordido,1
1,de,1
2,Cão,1
3,medo,1
4,até,1
5,A,4
6,é,4
7,cobra,1
8,corda.,1
9,tem,1


## IDF
- log를 넣어줘야 역문서 빈도수를 줄일 수 있다
- 자연로그를 사용 (ln)
- +1은 특정 단어가 전체 문서에 등장 안하는 바람에 분모가 0이 되는 것을 방지

In [44]:
from math import log
def idf(t):
  df = 0
  D = len(t)

  for doc in docs:
    df += t in doc # doc에 t가 있는지 확인

  return log(D / (df + 1))

result_idf = [] # 결과를 저장할 리스트

for voca in vocas:
  result_idf.append(idf(voca)) # IDF 값을 결과에 추가

idf_score = pd.DataFrame(result_idf, index=vocas, columns=["IDF"])
print(idf_score)

               IDF
acordes   1.252763
pêlo      0.693147
São       0.405465
ele       0.405465
mordido   1.252763
está      0.693147
com       0.000000
mesmo     0.916291
ferida    1.098612
medo      0.693147
cura-se   1.252763
quando    1.098612
tem       0.405465
de       -0.405465
A        -0.693147
até       0.405465
dormindo  1.386294
como      0.693147
e        -1.609438
do       -0.693147
cobra     0.916291
corda     0.916291
o        -1.609438
Cão       0.405465
gato      0.693147
Não       0.405465
cão      -0.287682


In [45]:
def tfidf(t, d):
  return tf(t, d) * idf(t)


result_tf_idf = []

for doc in docs:
  result_tf_idf.append([])
  for voca in vocas:
    result_tf_idf[-1].append(tfidf(voca, doc)) # TF-IDF 값을 결과에 추가

tfidf_score = pd.DataFrame(result_tf_idf, columns=vocas)
print(tfidf_score)

    acordes      pêlo       São       ele   mordido      está  com     mesmo  \
0  0.000000  0.000000  0.000000  0.000000  1.252763  0.000000  0.0  0.000000   
1  1.252763  0.000000  0.000000  0.405465  0.000000  0.693147  0.0  0.000000   
2  0.000000  0.693147  0.000000  0.000000  0.000000  0.000000  0.0  0.916291   
3  0.000000  0.000000  0.405465  0.000000  0.000000  0.000000  0.0  0.000000   

     ferida      medo   cura-se    quando       tem        de         A  \
0  0.000000  0.693147  0.000000  0.000000  0.405465 -0.810930 -0.000000   
1  0.000000  0.000000  0.000000  1.098612  0.000000 -0.405465 -0.000000   
2  1.098612  0.000000  1.252763  0.000000  0.000000 -0.000000 -0.693147   
3  0.000000  0.000000  0.000000  0.000000  0.000000 -0.000000 -0.000000   

        até  dormindo      como         e        do     cobra     corda  \
0  0.405465  0.000000  0.000000 -6.437752 -1.386294  0.916291  0.916291   
1  0.000000  1.386294  0.000000 -6.437752 -2.079442  0.000000  0.000000  

In [42]:
# 사이킷런으로 구현
from sklearn.feature_extraction.text import TfidfVectorizer

doc1 = "Cão mordido de cobra tem medo até de corda"

doc2 = 'Não acordes o cão quando ele está dormindo'
doc3 = 'A ferida do cão cura-se com o pêlo do mesmo cão'
doc4 = 'São como o cão e o gato'

docs = [doc1, doc2, doc3, doc4]

tfidfv = TfidfVectorizer().fit(docs)
print(tfidfv.transform(docs))

  (0, 23)	0.3120080225388757
  (0, 17)	0.3120080225388757
  (0, 15)	0.3120080225388757
  (0, 8)	0.6240160450777514
  (0, 7)	0.16281872961611005
  (0, 5)	0.3120080225388757
  (0, 2)	0.3120080225388757
  (0, 1)	0.3120080225388757
  (1, 20)	0.3992877139811605
  (1, 18)	0.3992877139811605
  (1, 12)	0.3992877139811605
  (1, 11)	0.3992877139811605
  (1, 10)	0.3992877139811605
  (1, 7)	0.20836489335344868
  (1, 0)	0.3992877139811605
  (2, 21)	0.30029523436595373
  (2, 19)	0.30029523436595373
  (2, 16)	0.30029523436595373
  (2, 13)	0.30029523436595373
  (2, 9)	0.6005904687319075
  (2, 7)	0.3134130216997516
  (2, 6)	0.30029523436595373
  (2, 3)	0.30029523436595373
  (3, 22)	0.5528053199908667
  (3, 14)	0.5528053199908667
  (3, 7)	0.2884767487500274
  (3, 4)	0.5528053199908667
