<a href="https://colab.research.google.com/github/kangheeleeai/wanted_pre_onboarding/blob/master/wanted_pre_onborading.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **문제 1) Tokenizer 생성하기**

**1-1. `preprocessing()`** 완

텍스트 전처리를 하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장을 토큰화한 결과로, nested list 형태입니다. ex) [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
- 조건 1: 입력된 문장에 대해서 소문자로의 변환과 특수문자 제거를 수행합니다.
- 조건 2: 토큰화는 white space 단위로 수행합니다.
    
    

**1-2. `fit()`**

어휘 사전을 구축하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: 위에서 만든 `preprocessing` 함수를 이용하여 각 문장에 대해 토큰화를 수행합니다.
- 조건 2: 각각의 토큰을 정수 인덱싱 하기 위한 어휘 사전(`self.word_dict`)을 생성합니다.
    - 주어진 코드에 있는 `self.word_dict`를 활용합니다.
    

**1-3. `transform()`**

어휘 사전을 활용하여 입력 문장을 정수 인덱싱하는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장의 정수 인덱싱으로, nested list 형태입니다. ex) [[1, 2, 3, 4], [1, 5, 6]]
- 조건 1: 어휘 사전(`self.word_dict`)에 없는 단어는 'oov'의 index로 변환합니다.

https://www.wanted.co.kr/events/pre_onboarding_course_9 <br>
https://codestates.notion.site/_AIB-8aaa720522d0496bb80a707f32dc7411
<br>
https://www.codestates.com/course/ai?gclid=CjwKCAiAo4OQBhBBEiwA5KWu_y0scGLCderOvEOouHCQPADA15Qyc_ffVzp8R9Z02kUs1BCoROgCVhoCCOUQAvD_BwE

In [6]:
import re

class Tokenizer():
  def __init__(self):
    self.word_dict = {'oov': 0}
    self.fit_checker = False
  
  def preprocessing(self, sequences):
    result = []
    #문제 1-1
    # input 이 문자열로 이루어진 list이므로 한 문장씩 처리
    for sequence in sequences:
      #특수 문자 제거
      #살려야하는 특수문자가 없으므로 숫자, 영문, 공백문자를 제외하고 모두 삭제
      remove_mark_sequence=re.sub(r'[^0-9a-zA-Z ]', "", sequence)
      #lower를 사용한 대문자->소문자 처리
      lower_sequence=remove_mark_sequence.lower()
      #white space를 기준으로 분할(토큰화)
      result.append(lower_sequence.split())
    return result
  
  def fit(self, sequences):
    self.fit_checker = False
    #문제 1-2
    #현재 담겨있는 키 목록과 갯수
    #변수로 설정해둔 이유는 아래 for loop에서 계속 사용해야되기 때문에 연산량 감소를 위한 메모리로 저장
    key_list = word_dict.keys()
    key_index=len(key_list)-1

    #1-1문제에서 제작해둔 전처리 함수 작동 및 결과 저장
    pre_results=preprocessing(sequences)

    #전처리 결과가 2차원 list이기 때문에 문장단위 호출
    # - flatten 함수를 사용해 1차원 배열로 변환한 뒤 진행할 수 있지만 index가 꼬일 수도 있으므로 제외
    for tokens in pre_results:
      #한 문장안에서 중복된 token은 취급하지 않기 위한 set 함수 사용
      for token in list(set(tokens)):
        #word_dict에 현재 token이 없는 경우에만 작동 
        if token not in key_list:
          key_list.append(token)
          key_index += 1
          word_dict[token]=key_index
    self.fit_checker = True
  
  def transform(self, sequences):
    result = []
    tokens = self.preprocessing(sequences)
    #문제 1-3
    #현재 word dict에 저장된 모든 키값을 변수값으로 저장
    key_list = word_dict.keys()
    if self.fit_checker:
      #문제 1-2의 결과물이 2차원 list의 token 집합이기 때문에 하나의 token 집합(한 문장) 단위로 작업
      #이거 전제가 잘못됨 다시 풀어야됨 (지금 순서가 토큰화 결과 -> 순선데 이러면 oov처리는 절대 나올 수가 없음 oov까지 처리하려면 최초 입력 데이터를 기반으로 작업하는게 맞음)
      for token in tokens:
        #각 token 별로 저장될 결과 변수 
        token_by_result=list()
        #token 집합에서 한 요소(word token) 씩 작업
        for word in token:
          #현재의 word token이 key_list에 있다면 해당  
          if word in key_list:
            token_by_result.append(word_dict[word])
          else:
            token_by_result.append(word_dict['oov'])
        result.append(token_by_result)
      return result
    else:
      raise Exception("Tokenizer instance is not fitted yet.")
      
  def fit_transform(self, sequences):
    self.fit(sequences)
    result = self.transform(sequences)
    return result

In [16]:
temp = ['I go to school.', 'I LIKE pizza!']
T=Tokenizer()
T.fit(temp)

NameError: ignored

In [17]:
word_dict

NameError: ignored

In [1]:
import re

class Tokenizer():
  def __init__(self):
    self.word_dict = {'oov': 0}
    self.fit_checker = False
  
  def preprocessing(self, sequences):
    result = []
    for sequence in sequences:
      remove_mark_sequence=re.sub(r'[^0-9a-zA-Z ]', "", sequence)
      lower_sequence=remove_mark_sequence.lower()
      result.append(lower_sequence.split())
    return result
  
  def fit(self, sequences):
    self.fit_checker = False

    #현재 담겨있는 키 목록과 갯수
    #변수로 설정해둔 이유는 아래 for loop에서 계속 사용해야되기 때문에 연산량 감소를 위한 메모리로 저장
    key_list = word_dict.keys()
    key_index=len(key_list)-1

    #1-1문제에서 제작해둔 전처리 함수 작동 및 결과 저장
    pre_result=preprocessing(sequences)

    #전처리 결과가 2차원 list이기 때문에 문장단위 호출
    # - flatten 함수를 사용해 1차원 배열로 변환한 뒤 진행할 수 있지만 index가 꼬일 수도 있으므로 제외
    for tokens in pre_result:
      #한 문장안에서 중복된 token은 취급하지 않기 위한 set 함수 사용
      for token in list(set(tokens)):
        #word_dict에 현재 token이 없는 경우에만 작동 
        if token not in key_list:
          key_list.append(token)
          key_index += 1
          word_dict[token]=key_index
    self.fit_checker = True
  
  def transform(self, sequences):
    result = []
    tokens = self.preprocessing(sequences)
    key_list = word_dict.keys()
    if self.fit_checker:
      for token in tokens:
        token_by_result=list()
        for word in token:
          if word in key_list:
            token_by_result.append(word_dict[word])
          else:
            token_by_result.append(word_dict['oov'])
        result.append(token_by_result)
      return result
    else:
      raise Exception("Tokenizer instance is not fitted yet.")
      
  def fit_transform(self, sequences):
    self.fit(sequences)
    result = self.transform(sequences)
    return result

### **문제 2) TfidfVectorizer 생성하기**

**2-1. `fit()`**

입력 문장들을 이용해 IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: IDF 행렬은 list 형태입니다.
    - ex) [토큰1에 대한 IDF 값, 토큰2에 대한 IDF 값, .... ]
- 조건 2: IDF 값은 아래 식을 이용해 구합니다.
    
    $$
    idf(d,t)=log_e(\frac{n}{1+df(d,t)})
    $$
    
    - $df(d,t)$ : 단어 t가 포함된 문장 d의 개수
    - $n$ : 입력된 전체 문장 개수
- 조건 3: 입력된 문장의 토큰화에는 문제 1에서 만든 Tokenizer를 사용합니다.
    
    

**2-2. `transform()`**

입력 문장들을 이용해 TF-IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output : nested list 형태입니다.
    
    ex) [[tf-idf(1, 1), tf-idf(1, 2), tf-idf(1, 3)], [tf-idf(2, 1), tf-idf(2, 2), tf-idf(2, 3)]]
    
    |  | 토큰1 | 토큰2 | 토큰3 |
    | --- | --- | --- | --- |
    | 문장1 | tf-idf(1,1) | tf-idf(1,2) | tf-idf(1,3) |
    | 문장2 | tf-idf(2,1) | tf-idf(2,2) | tf-idf(2,3) |
- 조건1 : 입력 문장을 이용해 TF 행렬을 만드세요.
    - $tf(d, t)$ : 문장 d에 단어 t가 나타난 횟수
- 조건2 : 문제 2-1( `fit()`)에서 만든 IDF 행렬과 아래 식을 이용해 TF-IDF 행렬을 만드세요
    
    $$
    tf-idf(d,t) = tf(d,t) \times idf(d,t)
    $$

In [None]:
import numpy as np

temp = ['I go to school.', 'I LIKE pizza!']
tokenizer = Tokenizer()
fit_checker = False

result=list()
tokenized = tokenizer.fit_transform(temp)
flatten_token=sum(tokenized, [])
token_list=list(set(flatten_token))

sentence_len=len(tokenized)

for token_num in token_list:
  df=0
  for tokens in tokenized:
    if token_num in tokens:
      df+=1
  
  idf=np.log(sentence_len/(1+df))
  result.append(idf)
fit_checker = True

print(result)

[-0.40546510810816444, 0.0, 0.0, 0.0, 0.0, 0.0]


In [None]:
[0 for _ in range(9)]

[0, 0, 0, 0, 0, 0, 0, 0, 0]

In [3]:
import numpy as np

#oov 토큰에 대한 계산값도 들어가야됨
class TfidfVectorizer:
  def __init__(self, tokenizer):
    self.tokenizer = tokenizer
    self.fit_checker = False
    self.df_matrix=list()(이거 두개 빼야됨)
    self.tfidf_matrix=list()
  
  def fit(self, sequences):
    tokenized = self.tokenizer.fit_transform(sequences)
    flatten_token=sum(tokenized, [])
    token_list=list(set(flatten_token))
    

    sentence_len=len(tokenized)

    for token_num in token_list:
      df=0
      for tokens in tokenized:
        if token_num in tokens:
          df+=1
      
      idf=np.log(sentence_len/(1+df))
      df_matrix.append(idf)
    self.fit_checker = True
    

  def transform(self, sequences):
    if self.fit_checker:
      tokenized = self.tokenizer.transform(sequences)
      flatten_token=sum(tokenized, [])
      token_list=list(set(flatten_token))

      #oov 에 대한 처리를 해야하는지 확인해볼 것 
      #oov 안들어가는게 맞음
      for sentence_tokens in tokenized:
        sen_tf_idf=[0 for _ in range(len(sentence_tokens))]
        for token in sentence_tokens:
          idf=df_matrix[token]
          tf= sentence_tokens.count(token)
          tf_idf_value=tf*idf
          sen_tf_idf[token]=tf_idf_value
          tfidf_matrix.append(sen_tf_idf)
      return self.tfidf_matrix
    else:
      raise Exception("TfidfVectorizer instance is not fitted yet.")

  
  def fit_transform(self, sequences):
    self.fit(sequences)
    return self.transform(sequences)

In [5]:
temp = ['I go to school.', 'I LIKE pizza!']

T=TfidfVectorizer(Tokenizer)
print(T.fit_transform(temp))

NameError: ignored