# 텍스트 전처리
---
- 패키지 설치
    * NLTK : !pip install nltk (for 영어 전처리 => 한글 처리 불가능)  
    (정제 - 형태소 나누기 - 각각 넘버링 => 이런 작업을 해주는 툴)
    * KoNLPy : !pip install konlpy (for 한글 처리 가능)

## [1] 토큰화(Tokenization)
---
- 문장/문서를 뜻이 있는 가장 작은 단위로 나눈 것 (like 형태소)
- 나누어진 단어를 토큰(Token)이라고 함
- 종류
    * 문장 토큰화
    * 단어 토큰화

In [3]:
from nltk.tokenize import sent_tokenize, word_tokenize
import nltk
# nltk.download('all') # quiet=True)

# 불용어 패키지 다운로드 (all로 했기 때문에 다 깔려 있긴함)
# nltk.download('stopwords')

In [4]:
raw_text1 = "Freeze!! Everybody guns down!!"

raw_text2 = 'Trained on billions of lines of code'

# '''
# ddd
# '''    => 이렇게 넣으면 \n ddd \n 이런식으로 읽게 됨

raw_text3 = 'To install the data.\
            first install NLTK (see https://www.nltk.org/install.html).\
            then use NLTK’s data downloader as described below.'

In [5]:
# 단어 단위 토큰화
result1 = word_tokenize(raw_text1)
print(result1)

['Freeze', '!', '!', 'Everybody', 'guns', 'down', '!', '!']


In [6]:
# 문장 단위 토큰화
raw_text = [raw_text1, raw_text2]
raw_text

['Freeze!! Everybody guns down!!', 'Trained on billions of lines of code']

In [7]:
sent_result = sent_tokenize("aaaa")
print(sent_result)

['aaaa']


In [8]:
# 마침표를 하나의 문장으로 봐줌
result = sent_tokenize(raw_text1)
print(result, len(result))

['Freeze!!', 'Everybody guns down!', '!'] 3


### 여러 문장의 토큰 추출
---

In [9]:
# 문장 단위로 추출 (분리된 문장)
for sent in raw_text1:    # 해당 text에서 문장을 하나씩 빼
    total_token = []

    # 문장 추출
    sentResult = sent_tokenize(sent)
    print(sentResult)
    
#     # 문장에서 추출한 토큰
#     print(f' sent => {sent}')
#     sentToken = word_tokenize(sent)
#     print(f' sentToken => {sentToken}')
    
#     # 모든 문장의 토큰에 추가
#     total_token.append(sentToken)

# print('---')
# print(total_token)

['F']
['r']
['e']
['e']
['z']
['e']
['!']
['!']
[]
['E']
['v']
['e']
['r']
['y']
['b']
['o']
['d']
['y']
[]
['g']
['u']
['n']
['s']
[]
['d']
['o']
['w']
['n']
['!']
['!']


In [10]:
# 문장 단위 토큰화
raw_text = [raw_text1, raw_text2]
raw_text

['Freeze!! Everybody guns down!!', 'Trained on billions of lines of code']

In [11]:
# 문장 단위로 추출 (문장이 합쳐진 상태)

for sent in raw_text:    # 해당 text에서 문장을 하나씩 빼
    total_token = []
#     print(sent)
    
    # 문장 단위로 추출해서 토큰화 (리스트에 담아줌)
    sentResult = sent_tokenize(sent)
    
    for ele in sentResult:
        print(f' ele => {ele}')
        wordResult = word_tokenize(ele)
        print(f' ele => {wordResult}\n')

    for ele in sentResult:
        print(f' ele => {ele}')
        wordResult = sent_tokenize(ele)
        print(f' ele => {wordResult}\n')

 ele => Freeze!!
 ele => ['Freeze', '!', '!']

 ele => Everybody guns down!
 ele => ['Everybody', 'guns', 'down', '!']

 ele => !
 ele => ['!']

 ele => Freeze!!
 ele => ['Freeze!', '!']

 ele => Everybody guns down!
 ele => ['Everybody guns down!']

 ele => !
 ele => ['!']

 ele => Trained on billions of lines of code
 ele => ['Trained', 'on', 'billions', 'of', 'lines', 'of', 'code']

 ele => Trained on billions of lines of code
 ele => ['Trained on billions of lines of code']



- 토탈 토큰을 set()으로 두면 중복 제거
- 중복 체크를 하든지

# 문장 단위로 추출
sl = [s, s2, s3]
total_token=[]

for sent in sl:
    # 문장 추출
    sent_result = sent_tokenize(sent)
    
    # 문장에서 추출한 토큰
    for ele in sent_result:

        word_token = word_tokenize(sent)
        
    # 모든 문장 토큰에 추가
        total_token.append(word_token)
        
print(total_token)

### 한글
---

In [12]:
from konlpy.tag import Okt

# 형태소 분리 객체
okt = Okt()

In [13]:
result = okt.morphs("오늘은 월요일입니다.")
print(result)

['오늘', '은', '월요일', '입니다', '.']


In [14]:
# 형태소 분리 후, 태깅(Tagging) => 품사
result2 = okt.pos("오늘은 월요일입니다.")
print(result2)

[('오늘', 'Noun'), ('은', 'Josa'), ('월요일', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation')]


In [15]:
# 형태소 분리 후, 태깅(Tagging) => 품사
result2 = okt.pos("오늘은 월요일입니다.", stem = True)
print(result2)

[('오늘', 'Noun'), ('은', 'Josa'), ('월요일', 'Noun'), ('이다', 'Adjective'), ('.', 'Punctuation')]


In [16]:
# stem=True를 주면 어간이 나옴 => [ 입니다 -> 이다 ]로 바뀜

### [2] 정제 & 정규화
---
- 불용어 제거 => 노이즈 제거
- 텍스트 동일화
    * 대문자 or 소문자로 통일
    * 문장의 길이

### [2-1] 불용어 (Stopword)

In [17]:
# 영어의 불용어로 들어가 있는 것
# -> 먼저 제거해도 아무런 영향이 없다는 의미
# -> 불용어가 없으면 만들어줘야겠지

en_stopwords = nltk.corpus.stopwords.words('english')
print(len(en_stopwords))
print(en_stopwords)

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than

### [2-2] 어간 및 표제어 처리
---

In [18]:
# 어간 추출

# 형태만 보고 잘라줌
# -es나 y->i로 고쳐지는 것들도 있는데, 원형 찾아주지 않고 그대로 잘라버림

from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

In [19]:
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('happy'), stemmer.stem('happiness'), stemmer.stem('happier'))
print(stemmer.stem('amuse'), stemmer.stem('amused'), stemmer.stem('amusing'))

work work work
happy happy happy
amus amus amus


In [20]:
# 표제어 (사전에 등록된 단어 추출)
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

In [21]:
# 품사를 적어줘야 함 (명확하게 추출하고 싶다면)
print(lemmatizer.lemmatize('working'), lemmatizer.lemmatize('working', 'n'), lemmatizer.lemmatize('worked', 'v'))

# 마지막에 'v'와 'n'의 차이 볼 것
print(lemmatizer.lemmatize('working', 'v'), lemmatizer.lemmatize('working', 'n'), lemmatizer.lemmatize('worked', 'n'))

working working work
work working worked


In [297]:
print(lemmatizer.lemmatize('working', 'v'), lemmatizer.lemmatize('working', 'n'), lemmatizer.lemmatize('worked', 'v'))
print(lemmatizer.lemmatize('amusing', 'v'), lemmatizer.lemmatize('amused', 'v'), lemmatizer.lemmatize('amusing', 'n'))

work working work
amuse amuse amusing


### [3] 텍스트 벡터화
---
- 텍스트 => 수치화
- 희소벡터(OHE) : BOW 방식 => Count 기반, TF-IDF 기반
- 밀집벡터 : Embedding 방식, Word2Vect

In [298]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [299]:
corpos = [raw_text1, raw_text2]

In [300]:
ohe = CountVectorizer()

In [301]:
ohe.fit(corpos)
ret = ohe.transform(corpos)
print(type(ret), ret, sep='\n')
# (x,y) => x행의 y열 자리

<class 'scipy.sparse.csr.csr_matrix'>
  (0, 2)	1
  (0, 3)	1
  (0, 4)	1
  (0, 5)	1
  (1, 0)	1
  (1, 1)	1
  (1, 6)	1
  (1, 7)	2
  (1, 8)	1
  (1, 9)	1


In [302]:
# OHE한 것으로 볼 수 있음
# ret = ret.toarray()
print(ret.shape, ret, sep = '\n')

(2, 10)
  (0, 2)	1
  (0, 3)	1
  (0, 4)	1
  (0, 5)	1
  (1, 0)	1
  (1, 1)	1
  (1, 6)	1
  (1, 7)	2
  (1, 8)	1
  (1, 9)	1


In [303]:
# 전체 문서에서 나온 횟수 / 전체 문서
# DF-IDF 기반
tfIdf = TfidfVectorizer()
tf_corpus = tfIdf.fit_transform(corpos)

In [304]:
print(type(tf_corpus), tf_corpus, sep = '\n')

<class 'scipy.sparse.csr.csr_matrix'>
  (0, 2)	0.5
  (0, 5)	0.5
  (0, 3)	0.5
  (0, 4)	0.5
  (1, 1)	0.33333333333333337
  (1, 6)	0.33333333333333337
  (1, 7)	0.6666666666666667
  (1, 0)	0.33333333333333337
  (1, 8)	0.33333333333333337
  (1, 9)	0.33333333333333337


In [305]:
# tf_corpus = tf_corpus.toarray()
print(tf_corpus.shape, tf_corpus, sep = '\n')

(2, 10)
  (0, 2)	0.5
  (0, 5)	0.5
  (0, 3)	0.5
  (0, 4)	0.5
  (1, 1)	0.33333333333333337
  (1, 6)	0.33333333333333337
  (1, 7)	0.6666666666666667
  (1, 0)	0.33333333333333337
  (1, 8)	0.33333333333333337
  (1, 9)	0.33333333333333337


In [306]:
# !pip install -U spacy

In [307]:
sent='Wiki is in Ward is original description: The simplest online database that could possibly work.\
Wiki is a piece of server software that allows users to freely create and edit Web page content using any Web browser. Wiki supports hyperlinks and has a simple text syntax for creating new pages and crosslinks between internal pages on the fly.\
Wiki is unusual among group communication mechanisms in that it allows the organization of contributions to be edited in addition to the content itself.Like many simple concepts, "open editing" has some profound and subtle effects on Wiki usage. Allowing everyday users to create and edit any page in a Web site is exciting in that it encourages democratic use of the Web and promotes content composition by nontechnical users.'


## Tokenizer 객체 생성

In [308]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence, Tokenizer
# Tokenizer는 문장으로부터 단어를 토큰화하고 숫자에 대응시키는 딕셔너리를 사용할 수 있도록 함

In [309]:
raw_text='Wiki is in Ward is original description: The simplest online database that could possibly work.\
Wiki is a piece of server software that allows users to freely create and edit Web page content using any Web browser. Wiki supports hyperlinks and has a simple text syntax for creating new pages and crosslinks between internal pages on the fly.\
Wiki is unusual among group communication mechanisms in that it allows the organization of contributions to be edited in addition to the content itself.Like many simple concepts, "open editing" has some profound and subtle effects on Wiki usage. Allowing everyday users to create and edit any page in a Web site is exciting in that it encourages democratic use of the Web and promotes content composition by nontechnical users.'

In [310]:
# 토큰으로 나누기
tokens = text_to_word_sequence(raw_text)
print(len(tokens), tokens)

128 ['wiki', 'is', 'in', 'ward', 'is', 'original', 'description', 'the', 'simplest', 'online', 'database', 'that', 'could', 'possibly', 'work', 'wiki', 'is', 'a', 'piece', 'of', 'server', 'software', 'that', 'allows', 'users', 'to', 'freely', 'create', 'and', 'edit', 'web', 'page', 'content', 'using', 'any', 'web', 'browser', 'wiki', 'supports', 'hyperlinks', 'and', 'has', 'a', 'simple', 'text', 'syntax', 'for', 'creating', 'new', 'pages', 'and', 'crosslinks', 'between', 'internal', 'pages', 'on', 'the', 'fly', 'wiki', 'is', 'unusual', 'among', 'group', 'communication', 'mechanisms', 'in', 'that', 'it', 'allows', 'the', 'organization', 'of', 'contributions', 'to', 'be', 'edited', 'in', 'addition', 'to', 'the', 'content', 'itself', 'like', 'many', 'simple', 'concepts', 'open', 'editing', 'has', 'some', 'profound', 'and', 'subtle', 'effects', 'on', 'wiki', 'usage', 'allowing', 'everyday', 'users', 'to', 'create', 'and', 'edit', 'any', 'page', 'in', 'a', 'web', 'site', 'is', 'exciting', '

In [311]:
# 정수 인코딩
myToken = Tokenizer(num_words=10)
# 만든 voca들 중의 인덱스를 뽑을 때의 최대범위ㅏ
# - 입력하지 않으면 전체 범위

# ----------------------------------------------------------------
# 단어 빈도에 따른 사용할 단어 개수의 최대값. 가장 빈번하게 사용되는 num_words개의 단어만 보존합니다.
# -> 빈도 높은 것 부터 내림차순, 그 빈도 숫자까지만 쓰겠다
# ----------------------------------------------------------------
# [ num_words=10 ] 이기 때문에 9번이 뜨는 것
# [ num_words=5 ] 라면 뜨지 않음 => OOV(out of voca) 가 됨
# voca에서는 번호를 매길 때 1번부터 매김 (패딩을 0으로 줘야하기 때문)

# 0을 쓰고자 한다면
# i) [ oov_token = 1 ] 로 두면 인덱스 번호가 2번부터 시작하게끔 밀림
# ii) [ 총 인덱스 개수 + 1 ] 로 해서 
# => but, 대부분 패딩을 '0'으로 쓰기 때문에 
# ----------------------------------------------------------------

num_words: 단어 빈도에 따른 사용할 단어 개수의 최대값. 가장 빈번하게 사용되는 num_words개의 단어만 보존합니다.
filters: 문자열로, 각 성분이 텍스트에서 걸러진 문자에 해당됩니다. 디폴트 값은 모든 구두점이며, 거기에 탭과 줄 바꿈은 추가하고 ' 문자는 제외합니다.
lower: 불리언. 텍스트를 소문자로 변환할지 여부.
split: 문자열. 단어 분해 용도의 분리기.
char_level: 참인 경우 모든 문자가 토큰으로 처리됩니다.
oov_token: 값이 지정된 경우, text_to_sequence 호출 과정에서 단어색인(word_index)에 추가되어 어휘목록 외 단어를 대체합니다.

In [312]:
myToken.fit_on_texts(tokens)
# fit_on_texts() : 문자 데이터를 입력받아서 리스트의 형태로 변환
print(myToken.word_index)

{'and': 1, 'wiki': 2, 'is': 3, 'in': 4, 'the': 5, 'that': 6, 'to': 7, 'web': 8, 'a': 9, 'of': 10, 'users': 11, 'content': 12, 'allows': 13, 'create': 14, 'edit': 15, 'page': 16, 'any': 17, 'has': 18, 'simple': 19, 'pages': 20, 'on': 21, 'it': 22, 'ward': 23, 'original': 24, 'description': 25, 'simplest': 26, 'online': 27, 'database': 28, 'could': 29, 'possibly': 30, 'work': 31, 'piece': 32, 'server': 33, 'software': 34, 'freely': 35, 'using': 36, 'browser': 37, 'supports': 38, 'hyperlinks': 39, 'text': 40, 'syntax': 41, 'for': 42, 'creating': 43, 'new': 44, 'crosslinks': 45, 'between': 46, 'internal': 47, 'fly': 48, 'unusual': 49, 'among': 50, 'group': 51, 'communication': 52, 'mechanisms': 53, 'organization': 54, 'contributions': 55, 'be': 56, 'edited': 57, 'addition': 58, 'itself': 59, 'like': 60, 'many': 61, 'concepts': 62, 'open': 63, 'editing': 64, 'some': 65, 'profound': 66, 'subtle': 67, 'effects': 68, 'usage': 69, 'allowing': 70, 'everyday': 71, 'site': 72, 'exciting': 73, 'enc

In [313]:
print(myToken.word_counts)

OrderedDict([('wiki', 5), ('is', 5), ('in', 5), ('ward', 1), ('original', 1), ('description', 1), ('the', 5), ('simplest', 1), ('online', 1), ('database', 1), ('that', 4), ('could', 1), ('possibly', 1), ('work', 1), ('a', 3), ('piece', 1), ('of', 3), ('server', 1), ('software', 1), ('allows', 2), ('users', 3), ('to', 4), ('freely', 1), ('create', 2), ('and', 6), ('edit', 2), ('web', 4), ('page', 2), ('content', 3), ('using', 1), ('any', 2), ('browser', 1), ('supports', 1), ('hyperlinks', 1), ('has', 2), ('simple', 2), ('text', 1), ('syntax', 1), ('for', 1), ('creating', 1), ('new', 1), ('pages', 2), ('crosslinks', 1), ('between', 1), ('internal', 1), ('on', 2), ('fly', 1), ('unusual', 1), ('among', 1), ('group', 1), ('communication', 1), ('mechanisms', 1), ('it', 2), ('organization', 1), ('contributions', 1), ('be', 1), ('edited', 1), ('addition', 1), ('itself', 1), ('like', 1), ('many', 1), ('concepts', 1), ('open', 1), ('editing', 1), ('some', 1), ('profound', 1), ('subtle', 1), ('ef

In [314]:
# print(myToken.word_docs)

In [315]:
myToken.texts_to_sequences('a')
# ()안의 text값을 인덱스 값으로 반환

# myToken = Tokenizer(num_words=10)
# [ num_words=10 ] 이기 때문에 9번이 뜨는 것
# [ num_words=5 ] 라면 뜨지 않음 => OOV(out of voca) 가 됨

[[9]]

In [316]:
# 문장 읽고, 토큰화(Tokenizer) 작업

### **Tokenizer 객체 생성-------------------------------**
- 제공한 문서/문장에 대한 단어사전(voca)
- 단어사전(voca)에 존재하지 않는 단어 => Out Of Voca(OOV)

In [317]:
sentences = [
  'I love my dog',
  'I love my cat',
  'You love my dog!',
  'Do you think my dog is amazing?'
]

# {'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 
#  'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}
# ===> 느낌표, 마침표와 같은 구두점은 인코딩에 영향을 주지 않음

In [318]:
tokenizer = Tokenizer()
# tokenizer = Tokenizer(num_words=3, oov_token=1)

# 단어 빈도수가 높은 순으로 낮은 점수 인덱스 부여
tokenizer.fit_on_texts(sentences)
# 공백기준으로 쪼개고, 소문자로 통일 해주는 과정 수행~

In [319]:
# 단어 인덱스
# -> word_index 속성은 단어와 숫자의 키-값 쌍을 포함하는 딕셔너리를 반환
# -> 단어 빈도수가 높은 순으로 낮은 점수 인덱스 부여

print(tokenizer.word_index)

print()

# 단어 출력 개수
# 중복을 제거하면서, 순서대로 [ 토큰 : 개수 ]를 나타냄
print(tokenizer.word_counts)

print('\n=> 둘의 순서가 같지 않음')

# [ oov_token = 1 ]
# 1: 1이 생기면서, 다른 단어들이 다 밀림
# => 이게 OOV로 들어간다는 것
# => num_words에도 밀리니까 결국, 3일 때 1,2만 나오게 됨

{'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}

OrderedDict([('i', 2), ('love', 3), ('my', 4), ('dog', 3), ('cat', 1), ('you', 2), ('do', 1), ('think', 1), ('is', 1), ('amazing', 1)])

=> 둘의 순서가 같지 않음


In [324]:
# texts_to_sequences() : 텍스트 안의 단어들을 숫자의 시퀀스의 형태로 변환
# ==> 문장을 생성된 사전(voca)를 기반으로 수치화

seq_voca = tokenizer.texts_to_sequences(sentences)
print(f'seq_voca : {len(seq_voca)}')
print(seq_voca)

# [ num_words=3 ] 인데 3이 안나오네?
# -> [ num_words=3+1 ]이면 나오지!

seq_voca : 4
[[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]


# 패딩(Padding)
---
- 길이가 모두 다른 문장들을 동일 길이로 맞추기 위한 과정
- 길이 기준 설정
- 긴 경우 => 앞/뒤 중 선택
- 짧은 경우 => 앞/뒤 중 선택
- 값 => 패딩에 들어갈 값

In [326]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [330]:
result_=tokenizer.texts_to_sequences(sentences)
result_

[[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]

In [331]:
# 가장 긴 것에 길이를 맞춰주기 위해, '0'으로 채워진 것을 볼 수 있음
encoding = pad_sequences(result_)
encoding

array([[ 0,  0,  0,  4,  2,  1,  3],
       [ 0,  0,  0,  4,  2,  1,  6],
       [ 0,  0,  0,  5,  2,  1,  3],
       [ 7,  5,  8,  1,  3,  9, 10]])

In [321]:
# 수치화한 것을 원-핫 인코딩 수행
# sklearn OneHotEncoder 객체 생성 (이미 라벨 인코더는 된 셈)
# keras 함수
from tensorflow.keras.utils import to_categorical
to_categorical(seq_voca[1])

array([[0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

In [322]:
tokenizer.texts_to_matrix(sentences)

array([[0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 1., 0., 1., 0., 1., 0., 0., 0., 0.],
       [0., 1., 1., 1., 0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1., 1., 1., 1.]])

In [323]:
# 1. 토큰화 ( 문장단위, 워드단위 => 상황에 맞게 )


#  -> 인덱스 부여
#  -> 원-핫 인코딩
#  -> 임베딩 작업

# 2. 정제(Cleaning) 및 정규화(Normalization)
# - 불용어 제거 (뽑은 토큰에서 불용어 제거)
# - 어간 -> 사전에 존재하지 않는 경우가 있을 수도 
# - 표제어 -> 기본 사전에 존재하는 단어. 뿌리 단어를 찾아서 단어의 개수를 줄임

# 3. 피처 백터화 => 수치화
# - 단순 카운트 기반 벡터화
# - TF (얼마나 자주 나오는가), DF (다른 문서에는 얼마나 나오는가)
#  -> TF가 높고, DF가 낮아야 => 해당 문서에서 중요한 단어라는 것 (가중치 부여)
#  -> 가중치를 매겨서 중요도를 보겠다는 것

# 4. 패딩
# - 가변 길이의 문장들을 동일 길이로 맞추어 주는 것
# - 지정된 길이보다 길면 자르기 (기본은 앞을 자르기(뒤를 남기고))
# - 지정된 길이보다 짧으면 0으로 채우기 (=> 단어 인덱스가 1부터 시작하는 이유)
# - OHE하기 전에 패딩을 하도록

# 5. 임배딩 (Word2Vec, FastText, BERT)
# - 벡터 값들이 실수로 나오게 되고, 비슷하게 나오면 비슷한 것이라 보면 됨

