# Building a Document-Term Matrix from scratch


In [1]:
# install & import the libraries needed
!pip3 install pandas
!pip3 install scikit-learn
from typing import List
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np



In [2]:
# A mini corpus to play with

CORPUS = [
    'this is the first document',
    'this is the second document',
    'and this is the third document',
    'is this the first document ?'
]

In [3]:
def tf(term: str, doc: str) -> int: # 문장과 문서를 입력받아 그 속의 단어를 count 해줌
    # TODO 1 
    # count the frequency of term in doc. hint: str.count()
    
    tf = doc.count(term)
    
    return tf

In [4]:
def build_dtm(corpus: List[str]) -> pd.DataFrame:
    # TODO 2
    # build a vocabulary of the given corpus - use nested list comprehension, str.split(" "),  set,  and list
    
    vocab: List[str] = [
                        word
                        for row in CORPUS
                        for word in row.split(" ")
    ] # 단어 종류 별로 분류 (중복o)
    set_vocab = set(vocab) # 중복 피하기 위해 set으로 묶기
    vocab = list(set_vocab) # set을 리스트로 묶기
    
    # TODO 3
    # populate a dtm - get use of the tf function

    # 1)
    # dtm: List[List[int]] = []
    # for doc in corpus:
    #   row = list()
    #   for term in vocab:
    #     term_freq = tf(term, doc)
    #     row.append(term_freq)
    #   dtm.append(row)

    # 2)
    # dtm = [
    #        [tf(term, doc) for term in vocab]  # row
    #        for doc in corpus
    # ]

    # 3)
    C_len = len(CORPUS) # 문장 개수 : 4
    S_len = len(vocab) # 단어 개수 : 9

    dtm: List[List[int]] = [
                            tf(vocab[j], CORPUS[i])
                            for i in range(C_len)
                            for j in range(S_len)
    ] # (1, 36) 리스트로 반환됨
    dtm = np.reshape(dtm, (C_len, S_len)) # (4, 9)으로 변환
    
    # return dtm as a pandas dataframe (for better visualization of the columns)
    dtm = pd.DataFrame(data=dtm, columns=vocab) # 데이터프레임으로 보기
    return dtm

In [5]:
# build a dtm from the corpus, and have a look at it
dtm = build_dtm(CORPUS)
print(dtm)

   ?  is  and  this  second  third  the  first  document
0  0   2    0     1       0      0    1      1         1
1  0   2    0     1       1      0    1      0         1
2  0   2    1     1       0      1    1      0         1
3  1   2    0     1       0      0    1      1         1


다음과 같은 결과가 나와야 합니다 (단어의 순서는 달라도 괜찮습니다):
```
   is  ?  first  and  document  this  the  second  third
0   2  0      1    0         1     1    1       0      0
1   2  0      0    0         1     1    1       1      0
2   2  0      0    1         1     1    1       0      1
3   2  1      1    0         1     1    1       0      0
```
(슬라이드에는 0또는 1로 카운트를 했지만, 튜토리얼에서는 그냥 카운트를 하겠습니다! (e.g. is가 두 개 포함되어 있다면 그냥 2로)

In [None]:
# this will print out the similarities of the documents to each other
sim_matrix = cosine_similarity(dtm.to_numpy(), dtm.to_numpy())
print(sim_matrix)

[[1.         0.875      0.82495791 0.94280904]
 [0.875      1.         0.82495791 0.82495791]
 [0.82495791 0.82495791 1.         0.77777778]
 [0.94280904 0.82495791 0.77777778 1.        ]]


다음과 같은 결과가 나와야 합니다:
```
[[1.         0.875      0.82495791 0.94280904]
 [0.875      1.         0.82495791 0.82495791]
 [0.82495791 0.82495791 1.         0.77777778]
 [0.94280904 0.82495791 0.77777778 1.        ]]
```

## **TODO 4**: 마지막으로, 다음의 질문에 답해주세요.
> 위 `sim_matrix`를 보고 `dtm`의 어떤 문제를 발견할 수 있나요? (힌트: `CORPUS`에 있는 문장의 의미는 모두 동일한가요?)

In [None]:
# Bag Of Words 표현 (COUNT_BASED의 문제)
# 어떠한 문단이 있으면 문법 등 무시하고 단어만 보겠다. 순서 고려 X
# 단어의 유무만으로는 문장이 가진 의미를 제대로 파악하지 못하는거 같습니다. 의문이라던가, 명령같은것
# 단어 내 this 안에 is도 포함되어 제대로 된 단어의 구분이 되지 않습니다