# 문제 1

### **문제 1) Tokenizer 생성하기**

**1-1. `preprocessing()`**

텍스트 전처리를 하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장을 토큰화한 결과로, nested list 형태입니다. ex) [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
- 조건 1: 입력된 문장에 대해서 소문자로의 변환과 특수문자 제거를 수행합니다.
- 조건 2: 토큰화는 white space 단위로 수행합니다.
    
    

**1-2. `fit()`**

어휘 사전을 구축하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: 위에서 만든 `preprocessing` 함수를 이용하여 각 문장에 대해 토큰화를 수행합니다.
- 조건 2: 각각의 토큰을 정수 인덱싱 하기 위한 어휘 사전(`self.word_dict`)을 생성합니다.
    - 주어진 코드에 있는 `self.word_dict`를 활용합니다.
    

**1-3. `transform()`**

어휘 사전을 활용하여 입력 문장을 정수 인덱싱하는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장의 정수 인덱싱으로, nested list 형태입니다. ex) [[1, 2, 3, 4], [1, 5, 6]]
- 조건 1: 어휘 사전(`self.word_dict`)에 없는 단어는 'oov'의 index로 변환합니다.

## 함수 해석
### preprocessing()
- 화이트스페이스 토크나이징
- lower case

### fit()
- 모든 단어에 대해 워드 딕셔너리 생성
- task 종료 후 fit_checker = True로 설정하여
- transform()이 작동하도록 설정

### transform()
- word_dict이 생성되어 있어야 정수 인덱싱 가능
- 따라서 fit_checker를 통해 word_dict 생성 task의 완료 여부 확인
- task가 수행되었다면, word_dict 기반 정수 인덱싱
- task가 수행되지 않았다면, return
- 개선 방향
    - 형태소 분석기를 사용하여 각 단어를 원형으로 토크나이징한 후 word_dict 생성

### fit_transform()
- fit(), transform()의 순차 실행
- fit()
    - word_dict 생성 및 fit_check 설정
- transform()
    - fit_check에 따라 정수 인덱싱 or error

In [198]:
import re
import time
import os
import math
import numpy as np
from functools import reduce

In [65]:
class Tokenizer():
    def __init__(self):
        self.word_dict = {'oov': 0}
        self.fit_checker = False

    def preprocessing(self, sequences):
#         return [list(map(lambda x: x.lower, list(filter(str.isalnum, s)))) for s in sequences]
        return [list(map(lambda x: re.sub(r"[^a-zA-Z0-9]", "", x).lower(), s.split())) for s in sequences]
  
    def fit(self, sequences):
        self.fit_checker = False
        tokens = self.preprocessing(sequences)
        tokens = set(reduce(lambda x, y: x + y, tokens))
        self.word_dict = dict(self.word_dict, 
                              **{v:i+1 for i,v in enumerate(tokens)}) 
        self.fit_checker = True
    
    def transform(self, sequences):
        result = []
        tokens = self.preprocessing(sequences)
        if self.fit_checker:
            result = [list(map(lambda x: self.word_dict[x if x in self.word_dict.keys() else "oov"], t)) 
                      for t in tokens]
            return result
        else:
            raise Exception("Tokenizer instance is not fitted yet.")
      
    def fit_transform(self, sequences):
        self.fit(sequences)
        result = self.transform(sequences)
        return result
    

# 문제 2

**2-1. `fit()`**

입력 문장들을 이용해 IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: IDF 행렬은 list 형태입니다.
    - ex) [토큰1에 대한 IDF 값, 토큰2에 대한 IDF 값, .... ]
- 조건 2: IDF 값은 아래 식을 이용해 구합니다.
    
    $$
    idf(d,t)=log_e(\frac{n}{1+df(d,t)})
    $$
    
    - $df(d,t)$ : 단어 t가 포함된 문장 d의 개수
    - $n$ : 입력된 전체 문장 개수
- 조건 3: 입력된 문장의 토큰화에는 문제 1에서 만든 Tokenizer를 사용합니다.
    
    

**2-2. `transform()`**

입력 문장들을 이용해 TF-IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output : nested list 형태입니다.
    
    ex) [[tf-idf(1, 1), tf-idf(1, 2), tf-idf(1, 3)], [tf-idf(2, 1), tf-idf(2, 2), tf-idf(2, 3)]]
    
    |  | 토큰1 | 토큰2 | 토큰3 |
    | --- | --- | --- | --- |
    | 문장1 | tf-idf(1,1) | tf-idf(1,2) | tf-idf(1,3) |
    | 문장2 | tf-idf(2,1) | tf-idf(2,2) | tf-idf(2,3) |
- 조건1 : 입력 문장을 이용해 TF 행렬을 만드세요.
    - $tf(d, t)$ : 문장 d에 단어 t가 나타난 횟수
- 조건2 : 문제 2-1( `fit()`)에서 만든 IDF 행렬과 아래 식을 이용해 TF-IDF 행렬을 만드세요
    
    $$
    tf-idf(d,t) = tf(d,t) \times idf(d,t)
    $$

In [204]:
class TfidfVectorizer:
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer
        self.fit_checker = False
        self.idf_matrix = []
        self.tfidf_matrix = []
  
    def fit(self, sequences):
        tokenized = self.tokenizer.fit_transform(sequences)
        
        number_token = set(reduce(lambda x, y: x + y, tokenized))
        token_count = {nt:sum([1 if nt in t else 0 for t in tokenized]) for nt in number_token}
        df = [list(map(lambda x: token_count[x], t)) for t in tokenized]

        n = len(sequences)
        self.idf_matrix = [list(map(lambda x: math.log(n / (1 + x)), d)) for d in df]
        
        self.fit_checker = True
    
    def transform(self, sequences):
        if self.fit_checker:
            tokenized = self.tokenizer.transform(sequences)
            self.tfidf_matrix = [np.array(list(map(lambda x: t.count(x), t))) * np.array(self.idf_matrix[i]) for i, t in enumerate(tokenized)]
            return self.tfidf_matrix
        else:
            raise Exception("TfidfVectorizer instance is not fitted yet.")

  
    def fit_transform(self, sequences):
        self.fit(sequences)
        return self.transform(sequences)

In [210]:
%%writefile test_main.py

import re
import time
import os
import math
import numpy as np
from functools import reduce

class Tokenizer():
    def __init__(self):
        self.word_dict = {'oov': 0}
        self.fit_checker = False

    def preprocessing(self, sequences):
#         return [list(map(lambda x: x.lower, list(filter(str.isalnum, s)))) for s in sequences]
        return [list(map(lambda x: re.sub(r"[^a-zA-Z0-9]", "", x).lower(), s.split())) for s in sequences]
  
    def fit(self, sequences):
        self.fit_checker = False
        tokens = self.preprocessing(sequences)
        tokens = set(reduce(lambda x, y: x + y, tokens))
        self.word_dict = dict(self.word_dict, 
                              **{v:i+1 for i,v in enumerate(tokens)}) 
        self.fit_checker = True
    
    def transform(self, sequences):
        result = []
        tokens = self.preprocessing(sequences)
        if self.fit_checker:
            result = [list(map(lambda x: self.word_dict[x if x in self.word_dict.keys() else "oov"], t)) 
                      for t in tokens]
            return result
        else:
            raise Exception("Tokenizer instance is not fitted yet.")
      
    def fit_transform(self, sequences):
        self.fit(sequences)
        result = self.transform(sequences)
        return result
    

class TfidfVectorizer:
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer
        self.fit_checker = False
        self.idf_matrix = []
        self.tfidf_matrix = []
  
    def fit(self, sequences):
        tokenized = self.tokenizer.fit_transform(sequences)
        
        number_token = set(reduce(lambda x, y: x + y, tokenized))
        token_count = {nt:sum([1 if nt in t else 0 for t in tokenized]) for nt in number_token}
        df = [list(map(lambda x: token_count[x], t)) for t in tokenized]

        n = len(sequences)
        self.idf_matrix = [list(map(lambda x: math.log(n / (1 + x)), d)) for d in df]
        
        self.fit_checker = True
    
    def transform(self, sequences):
        if self.fit_checker:
            tokenized = self.tokenizer.transform(sequences)
            self.tfidf_matrix = [np.array(list(map(lambda x: t.count(x), t))) * np.array(self.idf_matrix[i]) for i, t in enumerate(tokenized)]
            return self.tfidf_matrix
        else:
            raise Exception("TfidfVectorizer instance is not fitted yet.")

  
    def fit_transform(self, sequences):
        self.fit(sequences)
        return self.transform(sequences)    

Writing test_main.py
