### **문제 1) Tokenizer 생성하기**

**1-1. `preprocessing()`** 완

텍스트 전처리를 하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장을 토큰화한 결과로, nested list 형태입니다. ex) [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
- 조건 1: 입력된 문장에 대해서 소문자로의 변환과 특수문자 제거를 수행합니다.
- 조건 2: 토큰화는 white space 단위로 수행합니다.
    
    

**1-2. `fit()`**

어휘 사전을 구축하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: 위에서 만든 `preprocessing` 함수를 이용하여 각 문장에 대해 토큰화를 수행합니다.
- 조건 2: 각각의 토큰을 정수 인덱싱 하기 위한 어휘 사전(`self.word_dict`)을 생성합니다.
    - 주어진 코드에 있는 `self.word_dict`를 활용합니다.
    

**1-3. `transform()`**

어휘 사전을 활용하여 입력 문장을 정수 인덱싱하는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장의 정수 인덱싱으로, nested list 형태입니다. ex) [[1, 2, 3, 4], [1, 5, 6]]
- 조건 1: 어휘 사전(`self.word_dict`)에 없는 단어는 'oov'의 index로 변환합니다.

In [1]:
import re

class Tokenizer():
  def __init__(self):
    self.word_dict = {'oov': 0}
    self.fit_checker = False
  
  def preprocessing(self, sequences):
    result = []
    #문제 1-1
    for sequence in sequences:
      preprocessing_sequence=re.sub(r'[^0-9a-zA-Z ]', "", sequence.lower()) # 대문자->소문자 변환, 특수문자 제거
      split_sequence=list(filter(None, preprocessing_sequence.split())) # white space를 기준으로 token화, 공백문자의 연속으로 발생하는 None 데이터 삭제
      result.append(split_sequence)

    return result
  
  def fit(self, sequences):
    self.fit_checker = False
    #문제 1-2
    preprocessing_results = self.preprocessing(sequences) # token화 실행 및 결과

    key_list = list(self.word_dict.keys()) #현재 word dict가 가지고 있는 key 집합과 길이
    key_index=len(key_list)-1

    for tokens in preprocessing_results:
      for token in list(set(tokens)):
        if token not in key_list:
          key_list.append(token)
          key_index += 1
          self.word_dict[token]=key_index

    self.fit_checker = True
  
  def transform(self, sequences):
    result = []
    tokens = self.preprocessing(sequences)

    if self.fit_checker:
      #문제 1-3
      key_list = self.word_dict.keys()

      for token in tokens:
        token_by_result=list()
        for word in token:
          if word in key_list:
            token_by_result.append(self.word_dict[word])
          else:
            token_by_result.append(self.word_dict['oov'])
        result.append(token_by_result)

      return result
    else:
      raise Exception("Tokenizer instance is not fitted yet.")
      
  def fit_transform(self, sequences):
    self.fit(sequences)
    result = self.transform(sequences)
    return result

In [2]:
Tokenizer().fit_transform(['I go to school.', 'I LIKE pizza!'])

[[2, 1, 3, 4], [2, 5, 6]]

### **문제 2) TfidfVectorizer 생성하기**

**2-1. `fit()`**

입력 문장들을 이용해 IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: IDF 행렬은 list 형태입니다.
    - ex) [토큰1에 대한 IDF 값, 토큰2에 대한 IDF 값, .... ]
- 조건 2: IDF 값은 아래 식을 이용해 구합니다.
    
    $$
    idf(d,t)=log_e(\frac{n}{1+df(d,t)})
    $$
    
    - $df(d,t)$ : 단어 t가 포함된 문장 d의 개수
    - $n$ : 입력된 전체 문장 개수
- 조건 3: 입력된 문장의 토큰화에는 문제 1에서 만든 Tokenizer를 사용합니다.
    
    

**2-2. `transform()`**

입력 문장들을 이용해 TF-IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output : nested list 형태입니다.
    
    ex) [[tf-idf(1, 1), tf-idf(1, 2), tf-idf(1, 3)], [tf-idf(2, 1), tf-idf(2, 2), tf-idf(2, 3)]]
    
    |  | 토큰1 | 토큰2 | 토큰3 |
    | --- | --- | --- | --- |
    | 문장1 | tf-idf(1,1) | tf-idf(1,2) | tf-idf(1,3) |
    | 문장2 | tf-idf(2,1) | tf-idf(2,2) | tf-idf(2,3) |
- 조건1 : 입력 문장을 이용해 TF 행렬을 만드세요.
    - $tf(d, t)$ : 문장 d에 단어 t가 나타난 횟수
- 조건2 : 문제 2-1( `fit()`)에서 만든 IDF 행렬과 아래 식을 이용해 TF-IDF 행렬을 만드세요
    
    $$
    tf-idf(d,t) = tf(d,t) \times idf(d,t)
    $$

In [3]:
import numpy as np

class TfidfVectorizer:
  def __init__(self, tokenizer):
    self.tokenizer = tokenizer
    self.fit_checker = False
  
  def fit(self, sequences):
    tokenized = self.tokenizer.fit_transform(sequences)
    #문제 2-1
    flatten_token=sum(tokenized, [])
    token_list=list(set(flatten_token))
    sentence_len=len(tokenized)

    df_matrix=list()

    for token_num in token_list:
      df=0
      for tokens in tokenized:
        if token_num in tokens:
          df+=1
      
      idf=np.log(sentence_len/(1+df))
      df_matrix.append(idf)

    self.df_matrix=df_matrix
    self.fit_checker = True
    

  def transform(self, sequences):
    if self.fit_checker:
      tokenized = self.tokenizer.transform(sequences)
      #문제 2-2
      flatten_token=sum(tokenized, [])
      token_list=list(set(flatten_token))

      tfidf_matrix = list()
      for sentence_token in tokenized:
        sen_tf_idf=[0 for _ in range(len(token_list))]
        for token in sentence_token:
          idf=self.df_matrix[token-1]
          tf= sentence_token.count(token)
          tf_idf_value=tf*idf
          sen_tf_idf[token-1]=tf_idf_value
        tfidf_matrix.append(sen_tf_idf)
        
      self.tfidf_matrix = tfidf_matrix
      return self.tfidf_matrix

    else:
      raise Exception("TfidfVectorizer instance is not fitted yet.")

  def fit_transform(self, sequences):
    self.fit(sequences)
    return self.transform(sequences)

In [5]:
TfidfVectorizer(Tokenizer()).fit_transform(['I go to school.', 'I LIKE pizza!'])

[[0.0, -0.40546510810816444, 0.0, 0.0, 0, 0],
 [0, -0.40546510810816444, 0, 0, 0.0, 0.0]]