# 문제1

### **문제 1) Tokenizer 생성하기**

**1-1. `preprocessing()`**

텍스트 전처리를 하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장을 토큰화한 결과로, nested list 형태입니다. ex) [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
- 조건 1: 입력된 문장에 대해서 소문자로의 변환과 특수문자 제거를 수행합니다.
- 조건 2: 토큰화는 white space 단위로 수행합니다.
    
    

**1-2. `fit()`**

어휘 사전을 구축하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: 위에서 만든 `preprocessing` 함수를 이용하여 각 문장에 대해 토큰화를 수행합니다.
- 조건 2: 각각의 토큰을 정수 인덱싱 하기 위한 어휘 사전(`self.word_dict`)을 생성합니다.
    - 주어진 코드에 있는 `self.word_dict`를 활용합니다.
    

**1-3. `transform()`**

어휘 사전을 활용하여 입력 문장을 정수 인덱싱하는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장의 정수 인덱싱으로, nested list 형태입니다. ex) [[1, 2, 3, 4], [1, 5, 6]]
- 조건 1: 어휘 사전(`self.word_dict`)에 없는 단어는 'oov'의 index로 변환합니다.

In [3]:
import os
import string
import math
import pandas as pd

# 모듈 선언

cwd = os.getcwd()

with open(f'{cwd}/random_sentences.txt') as f:
    test_set = f.read().splitlines() 
docs = test_set[:5]

In [78]:
class Tokenizer():
  def __init__(self):
    self.word_dict = {'oov': 0}
    self.fit_checker = False
  
  def preprocessing(self, sequences):
    result = []
    for s in sequences:
        new_s = s.lower().translate(str.maketrans('', '', string.punctuation))
        result.append(new_s.split(' '))
    return result
  
  def fit(self, sequences):
    self.fit_checker = False
    pre_docs = self.preprocessing(sequences)
    flatten_docs = list(set(sum(pre_docs, [])))
    for i, word in enumerate(flatten_docs):
        self.word_dict[word] = self.word_dict.get(word, 1) + i
    self.fit_checker = True
  
  def transform(self, sequences):
    result = []
    pre_docs = self.preprocessing(sequences)
    if self.fit_checker:
        for doc in pre_docs:
            arr = [self.word_dict[w]  if self.word_dict[w] != None else self.word_dict['oov'] for w in doc]
            result.append(arr)
        return result
    else:
      raise Exception("Tokenizer instance is not fitted yet.")
      
  def fit_transform(self, sequences):
    self.fit(sequences)
    result = self.transform(sequences)
    return result




In [79]:
example_set = ['I go to school.', 'I LIKE pizza!']

token = Tokenizer()

print("문제 1-1")
arr = token.preprocessing(example_set)
print(f"전처리 결과값: {arr}")

print("문제 1-2")
token.fit(example_set)
print(token.word_dict)

result = token.transform(example_set)
print("문제 1-3")
print(f"결과값: {result}")

문제 1-1
전처리 결과값: [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
문제 1-2
{'oov': 0, 'i': 1, 'to': 2, 'go': 3, 'like': 4, 'pizza': 5, 'school': 6}
문제 1-3
결과값: [[1, 3, 2, 6], [1, 4, 5]]


# 문제2

### **문제 2) TfidfVectorizer 생성하기**

**2-1. `fit()`**

입력 문장들을 이용해 IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: IDF 행렬은 list 형태입니다.
    - ex) [토큰1에 대한 IDF 값, 토큰2에 대한 IDF 값, .... ]
- 조건 2: IDF 값은 아래 식을 이용해 구합니다.
    
    $$
    idf(d,t)=log_e(\frac{n}{1+df(d,t)})
    $$
    
    - $df(d,t)$ : 단어 t가 포함된 문장 d의 개수
    - $n$ : 입력된 전체 문장 개수
- 조건 3: 입력된 문장의 토큰화에는 문제 1에서 만든 Tokenizer를 사용합니다.
    
    

**2-2. `transform()`**

입력 문장들을 이용해 TF-IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output : nested list 형태입니다.
    
    ex) [[tf-idf(1, 1), tf-idf(1, 2), tf-idf(1, 3)], [tf-idf(2, 1), tf-idf(2, 2), tf-idf(2, 3)]]
    
    |  | 토큰1 | 토큰2 | 토큰3 |
    | --- | --- | --- | --- |
    | 문장1 | tf-idf(1,1) | tf-idf(1,2) | tf-idf(1,3) |
    | 문장2 | tf-idf(2,1) | tf-idf(2,2) | tf-idf(2,3) |
- 조건1 : 입력 문장을 이용해 TF 행렬을 만드세요.
    - $tf(d, t)$ : 문장 d에 단어 t가 나타난 횟수
- 조건2 : 문제 2-1( `fit()`)에서 만든 IDF 행렬과 아래 식을 이용해 TF-IDF 행렬을 만드세요
    
    $$
    tf-idf(d,t) = tf(d,t) \times idf(d,t)
    $$

In [67]:
class TfidfVectorizer:
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer
        self.fit_checker = False
        self.tfidf_matrix = {}
        self.idf_matrix = {}
  
    def fit(self, sequences):
        tokenized = self.tokenizer.fit_transform(sequences)
        numOfTokenList = []
        for bagOfToken in tokenized:
            numOfToken = {}
            for token in bagOfToken:
                numOfToken[token] = numOfToken.get(token, 0) + 1
                numOfTokenList.append(numOfToken)
        
        N = len(numOfTokenList)
        
        idfDict = {}
        
        for doc in numOfTokenList:
            for token, count in doc.items():
                if count > 0:
                    idfDict[token] = idfDict.get(token, 1) + 1
        
        for token, value in idfDict.items():
            idfDict[token] = math.log(N / (1 + value))

        idfList = [v for k, v in sorted(idfDict.items())]
        
        self.idf_matrix = idfDict
        self.fit_checker = True
    

    def transform(self, sequences):
        tf_dict = {}
        if self.fit_checker:
            tokenized = self.tokenizer.transform(sequences)
            
            for bagOfToken in tokenized:
                numOfToken = {}
                for token in bagOfToken:
                    numOfToken[token] = numOfToken.get(token, 0) + 1
                
                for token, count in numOfToken.items():
                    self.tfidf_matrix[token] = self.idf_matrix[token] * count
            return self.tfidf_matrix
        else:
            raise Exception("TfidfVectorizer instance is not fitted yet.")

  
    def fit_transform(self, sequences):
        self.fit(sequences)
        return self.transform(sequences)
 


In [80]:
tokenizer = Tokenizer()
tf_idf = TfidfVectorizer(tokenizer)
print("문제 2-1")
tf_idf.fit(docs)
print(tf_idf.idf_matrix)
print("문제 2-2")
tf_idf.transform(docs)
print(tf_idf.tfidf_matrix)


print("결과값")
result = tf_idf.fit_transform(docs)
for k, v in sorted(result.items()):
    print(f" token {k} : {v}")




문제 2-1
{30: 1.1314021114911006, 43: 1.1314021114911006, 32: 1.1314021114911006, 25: 1.1314021114911006, 4: 1.1314021114911006, 36: 1.1314021114911006, 17: 0.7949298748698876, 20: 1.1314021114911006, 51: 1.1314021114911006, 48: 1.1314021114911006, 18: 1.1314021114911006, 46: 1.1314021114911006, 19: 1.1314021114911006, 24: 1.1314021114911006, 5: 1.1314021114911006, 16: 0.8690378470236095, 12: 1.6422277352570913, 28: 1.6422277352570913, 42: 1.6422277352570913, 6: 1.6422277352570913, 23: 1.6422277352570913, 21: 1.6422277352570913, 7: 1.6422277352570913, 47: 1.6422277352570913, 35: 1.3545456628053103, 14: 1.3545456628053103, 1: 1.3545456628053103, 2: 0.949080554697146, 40: 1.3545456628053103, 22: 1.3545456628053103, 38: 0.7949298748698876, 11: 1.3545456628053103, 29: 1.3545456628053103, 8: 0.7949298748698876, 44: 1.3545456628053103, 26: 1.3545456628053103, 50: 1.488077055429833, 34: 1.488077055429833, 9: 1.488077055429833, 45: 1.488077055429833, 37: 1.488077055429833, 49: 1.488077055429833,