# 문제 1

### **문제 1) Tokenizer 생성하기**

**1-1. `preprocessing()`**

텍스트 전처리를 하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장을 토큰화한 결과로, nested list 형태입니다. ex) [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
- 조건 1: 입력된 문장에 대해서 소문자로의 변환과 특수문자 제거를 수행합니다.
- 조건 2: 토큰화는 white space 단위로 수행합니다.
    
    

**1-2. `fit()`**

어휘 사전을 구축하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: 위에서 만든 `preprocessing` 함수를 이용하여 각 문장에 대해 토큰화를 수행합니다.
- 조건 2: 각각의 토큰을 정수 인덱싱 하기 위한 어휘 사전(`self.word_dict`)을 생성합니다.
    - 주어진 코드에 있는 `self.word_dict`를 활용합니다.
    

**1-3. `transform()`**

어휘 사전을 활용하여 입력 문장을 정수 인덱싱하는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장의 정수 인덱싱으로, nested list 형태입니다. ex) [[1, 2, 3, 4], [1, 5, 6]]
- 조건 1: 어휘 사전(`self.word_dict`)에 없는 단어는 'oov'의 index로 변환합니다.

## 함수 해석
### preprocessing()
- 화이트스페이스 토크나이징
- lower case

### fit()
- 모든 단어에 대해 워드 딕셔너리 생성
- task 종료 후 fit_checker = True로 설정하여
- transform()이 작동하도록 설정

### transform()
- word_dict이 생성되어 있어야 정수 인덱싱 가능
- 따라서 fit_checker를 통해 word_dict 생성 task의 완료 여부 확인
- task가 수행되었다면, word_dict 기반 정수 인덱싱
- task가 수행되지 않았다면, return
- 개선 방향
    - 형태소 분석기를 사용하여 각 단어를 원형으로 토크나이징한 후 word_dict 생성

### fit_transform()
- fit(), transform()의 순차 실행
- fit()
    - word_dict 생성 및 fit_check 설정
- transform()
    - fit_check에 따라 정수 인덱싱 or error

In [42]:
import re
import time
import os
from functools import reduce

In [65]:
class Tokenizer():
    def __init__(self):
        self.word_dict = {'oov': 0}
        self.fit_checker = False

    def preprocessing(self, sequences):
#         return [list(map(lambda x: x.lower, list(filter(str.isalnum, s)))) for s in sequences]
        return [list(map(lambda x: re.sub(r"[^a-zA-Z0-9]", "", x).lower(), s.split())) for s in sequences]
  
    def fit(self, sequences):
        self.fit_checker = False
        tokens = self.preprocessing(sequences)
        tokens = set(reduce(lambda x, y: x + y, tokens))
        self.word_dict = dict(self.word_dict, 
                              **{v:i+1 for i,v in enumerate(tokens)}) 
        self.fit_checker = True
    
    def transform(self, sequences):
        result = []
        tokens = self.preprocessing(sequences)
        if self.fit_checker:
            result = [list(map(lambda x: self.word_dict[x if x in self.word_dict.keys() else "oov"], t)) 
                      for t in tokens]
            return result
        else:
            raise Exception("Tokenizer instance is not fitted yet.")
      
    def fit_transform(self, sequences):
        self.fit(sequences)
        result = self.transform(sequences)
        return result

In [7]:
f = open(os.path.join("test_data.txt"), "r")
text = f.read()
text = text.split(".")
text = [t.replace("\n", "").strip() for t in text]
f.close()

In [8]:
tk = Tokenizer()

In [9]:
tk = Tokenizer()
start = time.time()
pre = tk.preprocessing(sequences=text)
# for p in pre: print(p, "\n")
end = time.time()

In [10]:
print("time :", end - start)

time : 0.001150369644165039


In [12]:
times = []
tk = Tokenizer()
for _ in range(1000):
    start = time.time()
    pre = tk.preprocessing(sequences=text)
    end = time.time()
    times.append(end-start)
    
print(sum(times)/len(times))

0.0006586859226226806


In [111]:
times = []
tk = Tokenizer()
for _ in range(10):
    start = time.time()
    pre = tk.preprocessing(sequences=text)
    end = time.time()
    times.append(end-start)
    
print(sum(times)/len(times))

2.018002724647522


In [13]:
tt = [["1", "2"], ["3", "4", "1"]]

In [45]:
for s in set(reduce(lambda x, y: x + y, tt)):
    print(s)

1
2
3
4


In [39]:
*ttt, = tt

In [40]:
ttt

[['1', '2'], ['3', '4', '1']]

In [66]:
tk = Tokenizer()

In [69]:
tk.transform(["dasds", "12313"])

[[0], [0]]

In [58]:
tk.word_dict

{'oov': 0,
 'bypassing': 1,
 'effective': 2,
 'ai': 3,
 'equipment': 4,
 'used': 5,
 'dimensions': 6,
 'direct': 7,
 'machines': 8,
 'central': 9,
 'including': 10,
 'includes': 11,
 '23': 12,
 'dream': 13,
 'it': 14,
 'device': 15,
 'programs': 16,
 'october': 17,
 'very': 18,
 'sent': 19,
 'the': 20,
 'oped': 21,
 'specification': 22,
 'from': 23,
 'parts': 24,
 '32feet': 25,
 'nothing': 26,
 'wave': 27,
 'provided': 28,
 'alternately': 29,
 'or': 30,
 'architecture': 31,
 'digital': 32,
 'dartmouth': 33,
 'initially': 34,
 'transistors': 35,
 'handle': 36,
 'andy': 37,
 'example': 38,
 'except': 39,
 'operation': 40,
 'a': 41,
 'analogue': 42,
 'topic': 43,
 'interaction': 44,
 'computer': 45,
 'develops': 46,
 'any': 47,
 'founded': 48,
 'electronic': 49,
 'exhibit': 50,
 'has': 51,
 'many': 52,
 'right': 53,
 'where': 54,
 'unit': 55,
 'allow': 56,
 '2005': 57,
 'communication': 58,
 'evaluates': 59,
 'this': 60,
 'see': 61,
 'keyboard': 62,
 'as': 63,
 'mobile': 64,
 'mbps': 65,


In [57]:
tk.fit(text)

# 문제 2

In [2]:
class TfidfVectorizer:
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer
        self.fit_checker = False
  
    def fit(self, sequences):
        tokenized = self.tokenizer.fit_transform(sequences)
        '''
        문제 2-1.
        '''
        self.fit_checker = True
    
    def transform(self, sequences):
        if self.fit_checker:
            tokenized = self.tokenizer.transform(sequences)
            '''
            문제 2-2.
            '''
            return self.tfidf_matrix
        else:
            raise Exception("TfidfVectorizer instance is not fitted yet.")

  
    def fit_transform(self, sequences):
        self.fit(sequences)
        return self.transform(sequences)