<a href="https://colab.research.google.com/github/Ethan0625/Study_room/blob/main/wanted_pre_onboarding/wanted_pre_onboarding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 원티드 프리온보딩 사전과제(박병학)  
## Requirement 필수 제출 사항

- 원티드 이력서
- 과제 (아래에 자세한 안내가 있습니다.)
    - GitHub Repository 링크

## 과제 안내

- 아래 설명에 따라 코드의 빈칸을 채워 Tokenizer(문제 1)와 TfidfVectorizer(문제 2) 클래스를 완성하세요.
    - 문제 1, 문제 2 모두 수행해야 합니다.
    - 주어진 조건을 모두 만족해야 합니다.
- 작업한 파일을 하나의 GitHub Repository에 담아서 제출하세요.
    - 파일 형식: `.ipynb`
        - `.ipynb` 파일 하나에 문제 1과 문제 2 작업 결과를 모두 담아 주시기 바랍니다.
    - 링크 제출 전 해당 GitHub Repository가 public으로 설정되어 있는지 확인 바랍니다.
        - private으로 설정 시 제출 확인이 불가합니다.  


In [2]:
import re

### **문제 1) Tokenizer 생성하기**

**1-1. `preprocessing()`**

텍스트 전처리를 하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장을 토큰화한 결과로, nested list 형태입니다. ex) [['i', 'go', 'to', 'school'], ['i', 'like', 'pizza']]
- 조건 1: 입력된 문장에 대해서 소문자로의 변환과 특수문자 제거를 수행합니다.
- 조건 2: 토큰화는 white space 단위로 수행합니다.
    
    

**1-2. `fit()`**

어휘 사전을 구축하는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: 위에서 만든 `preprocessing` 함수를 이용하여 각 문장에 대해 토큰화를 수행합니다.
- 조건 2: 각각의 토큰을 정수 인덱싱 하기 위한 어휘 사전(`self.word_dict`)을 생성합니다.
    - 주어진 코드에 있는 `self.word_dict`를 활용합니다.
    

**1-3. `transform()`**

어휘 사전을 활용하여 입력 문장을 정수 인덱싱하는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output: 각 문장의 정수 인덱싱으로, nested list 형태입니다. ex) [[1, 2, 3, 4], [1, 5, 6]]
- 조건 1: 어휘 사전(`self.word_dict`)에 없는 단어는 'oov'의 index로 변환합니다.

In [3]:
class Tokenizer():
    def __init__(self):
        self.word_dict = {'oov': 0}
        self.fit_checker = False

    def preprocessing(self, sequences):
        self.sequences = sequences
        result = []
        '''
        문제 1-1.
        '''
        # 반복문을 통한 전처리 구간
        for sen in sequences:
            # 대문자를 소문자로 일괄변경
            temp = sen.lower()
            # 정규식을 활용, 특수문자 제거
            temp = re.sub('[-=+,#/\?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]','', temp)
            # white space를 기준으로 문장 토큰화
            temp = temp.split()
            # list로 받은 토큰들을 result에 append
            result.append(temp)

        return result
  
    def fit(self, sequences):
        self.fit_checker = False
        '''
        문제 1-2.
        '''
        # tokens변수를 활용하여 전처리 결과를 저장
        tokens = self.preprocessing(sequences)
        # 정수 번호를 지정해주기 위해서 len()활용
        num = len(self.word_dict)
        # 문장에서 토큰을 하나씩 뽑기 위해 이중 for문 활용
        for word in tokens:
            for i in word:
                # wrod_dict에 해당 단어가 들어있지 않으면 새로운 단어로 판단하여
                # word_dict에 num을 할당하여 추가
                if i not in self.word_dict:
                    self.word_dict[i] = num
                    # 다음 단어는 다음 정수를 받아야 하므로
                    # 새로운 단어가 추가 되었을 때 num+=1을 통해 정수 1 증가
                    num+=1

        self.fit_checker = True
  
    def transform(self, sequences):
        result = []
        tokens = self.preprocessing(sequences)
        if self.fit_checker:
            '''
            문제 1-3.
            '''
            for word in tokens:
                word2idx = []
                for i in word:
                    if i in self.word_dict:
                        word2idx.append(self.word_dict[i])
                    else :
                        word2idx.append(self.word_dict['oov'])
                result.append(word2idx)
            return result
        else:
            raise Exception("Tokenizer instance is not fitted yet.")
      
    def fit_transform(self, sequences):
        self.fit(sequences)
        result = self.transform(sequences)
        return result

### **문제 2) TfidfVectorizer 생성하기**

**2-1. `fit()`**

입력 문장들을 이용해 IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list 입니다. ex) ['I go to school.', 'I LIKE pizza!']
- 조건 1: IDF 행렬은 list 형태입니다.
    - ex) [토큰1에 대한 IDF 값, 토큰2에 대한 IDF 값, .... ]
- 조건 2: IDF 값은 아래 식을 이용해 구합니다.
    
    $$
    idf(d,t)=log_e(\frac{n}{1+df(d,t)})
    $$
    
    - $df(d,t)$ : 단어 t가 포함된 문장 d의 개수
    - $n$ : 입력된 전체 문장 개수
- 조건 3: 입력된 문장의 토큰화에는 문제 1에서 만든 Tokenizer를 사용합니다.
    
    

**2-2. `transform()`**

입력 문장들을 이용해 TF-IDF 행렬을 만드는 함수입니다.

- input: 여러 영어 문장이 포함된 list입니다. ex) ['I go to school.', 'I LIKE pizza!']
- output : nested list 형태입니다.
    
    ex) [[tf-idf(1, 1), tf-idf(1, 2), tf-idf(1, 3)], [tf-idf(2, 1), tf-idf(2, 2), tf-idf(2, 3)]]

|  | 토큰1 | 토큰2 | 토큰3 |
| --- | --- | --- | --- |
| 문장1 | tf-idf(1,1) | tf-idf(1,2) | tf-idf(1,3) |
| 문장2 | tf-idf(2,1) | tf-idf(2,2) | tf-idf(2,3) |

- 조건1 : 입력 문장을 이용해 TF 행렬을 만드세요.
    - $tf(d, t)$ : 문장 d에 단어 t가 나타난 횟수
- 조건2 : 문제 2-1( `fit()`)에서 만든 IDF 행렬과 아래 식을 이용해 TF-IDF 행렬을 만드세요
    
$$
tf-idf(d,t) = tf(d,t) \times idf(d,t)
$$

In [5]:
sen = ['I go to school.', 'I LIKE pizza!']
tok = Tokenizer()
res = tok.fit_transform(sen)

In [47]:
res

[[1, 2, 3, 4], [1, 5, 6]]

In [12]:
from math import log
from collections import Counter, defaultdict

In [25]:
class TfidfVectorizer:
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer
        self.fit_checker = False
        self.idf_matrix = []
        self.tfidf_matrix = []
        self.count = Counter()
        self.idf_dict = defaultdict()

    def fit(self, sequences):
        tokenized = self.tokenizer.fit_transform(sequences)
        '''
        문제 2-1.
        '''
        n = len(tokenized)
        for i in tokenized:
            self.count += Counter(i)

        for k, v in self.count.items():
            self.idf_matrix.append(log(n/1+v))
            self.idf_dict[k] = log(n/1+v)

        self.fit_checker = True


    def transform(self, sequences):
        if self.fit_checker:
            tokenized = self.tokenizer.transform(sequences)
            '''
            문제 2-2.
            '''
            def _tf_idf(sen):
                tmp = []
                for i in self.idf_dict.keys():
                    tf_idf = sen.count(i)*self.idf_dict[i]
                    tmp.append(tf_idf)
                return tmp

            for i in tokenized:
                self.tfidf_matrix.append(_tf_idf(i))

            return self.tfidf_matrix
        else:
            raise Exception("TfidfVectorizer instance is not fitted yet.")


    def fit_transform(self, sequences):
        self.fit(sequences)
        return self.transform(sequences)

In [26]:
tokenized = tok.transform(sen)

In [27]:
tfidf = TfidfVectorizer(tok)

In [28]:
result = tfidf.fit_transform(sen)

In [29]:
result

[[1.3862943611198906,
  1.0986122886681098,
  1.0986122886681098,
  1.0986122886681098,
  0.0,
  0.0],
 [1.3862943611198906, 0.0, 0.0, 0.0, 1.0986122886681098, 1.0986122886681098]]

In [243]:
idf_matrix = tfidf.fit(sen)

count : Counter({1: 2, 2: 1, 3: 1, 4: 1, 5: 1, 6: 1})
0
sen : [1, 2, 3, 4]
df : 0
sen : [1, 5, 6]
df : 0
1
sen : [1, 2, 3, 4]
df : 1
sen : [1, 5, 6]
df : 2
2
sen : [1, 2, 3, 4]
df : 1
sen : [1, 5, 6]
df : 1
3
sen : [1, 2, 3, 4]
df : 1
sen : [1, 5, 6]
df : 1
4
sen : [1, 2, 3, 4]
df : 1
sen : [1, 5, 6]
df : 1
5
sen : [1, 2, 3, 4]
df : 0
sen : [1, 5, 6]
df : 1
6
sen : [1, 2, 3, 4]
df : 0
sen : [1, 5, 6]
df : 1


In [246]:
idf_matrix

In [7]:
chk = tfidf.fit_transform(sen)

0
1
2
3
4
5
6
['I go to school.', 'I LIKE pizza!']
[[1, 2, 3, 4], [1, 5, 6]]


In [202]:
[1.3862943611198906,
 1.0986122886681098,
 1.0986122886681098,
 1.0986122886681098,
 1.0986122886681098,
 1.0986122886681098]

[1.3862943611198906,
 1.0986122886681098,
 1.0986122886681098,
 1.0986122886681098,
 1.0986122886681098,
 1.0986122886681098]

In [217]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

docs = ['i go to school', 'i like pizza']
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()

# 총 문서의 수
N = len(docs) 

def tf(t, d):
  return d.count(t)

def idf(t):
  df = 0
  for doc in docs:
    df += t in doc
  return log((N)/(df+1))

def tfidf(t, d):
  return tf(t,d)* idf(t)


result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index=vocab, columns=["IDF"])
idf_

Unnamed: 0,IDF
go,0.0
i,-0.405465
like,0.0
pizza,0.0
school,0.0
to,0.0


In [211]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import numpy as np

corpus = ['i go to school', 'i like pizza']

vect = CountVectorizer()
document_term_matrix = vect.fit_transform(corpus)       # 문서-단어 행렬 

tf = pd.DataFrame(document_term_matrix.toarray(), columns=vect.get_feature_names())  
                                             # TF (Term Frequency)
D = len(tf)
df = tf.astype(bool).sum(axis=0)
idf = np.log((D+1) / (df+1)) + 1             # IDF (Inverse Document Frequency)

# TF-IDF (Term Frequency-Inverse Document Frequency)
tfidf = tf * idf                      
tfidf = tfidf / np.linalg.norm(tfidf, axis=1, keepdims=True)



In [212]:
idf

go        1.405465
like      1.405465
pizza     1.405465
school    1.405465
to        1.405465
dtype: float64

In [120]:
from sklearn.feature_extraction.text import TfidfVectorizer

text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']
tfidf_vectorizer = TfidfVectorizer()

tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

sentence = [text_data[3]] #['점심 먹고 공부 해야지']
print(tfidf_vectorizer.transform(text_data).toarray())

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.         0.        ]
 [0.         0.         0.         0.52640543 0.         0.66767854
  0.         0.52640543 0.         0.        ]
 [0.         0.52640543 0.         0.52640543 0.         0.
  0.         0.         0.66767854 0.        ]
 [0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]


In [121]:
from collections import Counter

In [130]:
tmp = Counter()
for i in res:
    print(Counter(i))
    tmp += Counter(i)

Counter({1: 1, 2: 1, 3: 1, 4: 1})
Counter({1: 1, 5: 1, 6: 1})


In [131]:
tmp

Counter({1: 2, 2: 1, 3: 1, 4: 1, 5: 1, 6: 1})