# 다층 퍼셉트론(MultiLayer Perceptron, MLP)으로 텍스트 분류하기
<b><h2>1. 케라스의 texts_to_matrix() 이해하기</h2></b>

In [9]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [10]:
texts = ['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']

In [18]:
# 각 단어에 정수 인덱스 부여 : Tokenizer.fit_on_texts
t = Tokenizer()
t.fit_on_texts(texts)
print(t.word_index)

{'바나나': 1, '먹고': 2, '싶은': 3, '사과': 4, '길고': 5, '노란': 6, '저는': 7, '과일이': 8, '좋아요': 9}


In [5]:
# texts_to_matrix() 적용 : 입력된 텍스트 데이터로부터 행렬를 만듬
# 4가지 모드 지원 : binary, count, freq, tfidf
print(t.texts_to_matrix(texts, mode='count'))

[[0. 0. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 2. 0. 0. 0. 1. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1.]]


- <b>'count' 모드</b><br>
    문서 단어 행렬(Document-Term Matrix, DTM)을 생성<br>
    단어 정수 인덱스는 1부터 시작하여 0번째 열은 0으로 채우고 열개수는 한개가 추가됨.<br>
    예) 정수 인덱스 9개이나 0번째 열을 0으로 채우니 총 열 개수 10개 됨<br>
    DTM은 bag of words를 기반으로 하므로 단어 순서 정보 X

In [6]:
print(t.texts_to_matrix(texts, mode='binary'))

[[0. 0. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 1. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1.]]


- <b>'binary' 모드</b><br>
    'binary' 모드는 'count'모드와 유사하나 해당 단어가 존재하는지만 관심을 가지고 해당 단어가 몇 개였는지는 무시<br>

In [7]:
print(t.texts_to_matrix(texts, mode='tfidf').round(2))

[[0.   0.   0.85 0.85 1.1  0.   0.   0.   0.   0.  ]
 [0.   0.85 0.85 0.85 0.   0.   0.   0.   0.   0.  ]
 [0.   1.43 0.   0.   0.   1.1  1.1  0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   1.1  1.1  1.1 ]]


- <b>'tfidf' 모드</b><br>
    'tfidf' 모드는 TF-IDF행렬이며, TF(Term Frequency) - 특정문서의 특정단어의 출현빈도와 Inverse Document Frequency - 특정 단어의 특정문서에서 출현하는 빈도수의 Inverse로 만든다.<br>
    1) 모든 문서에서 자주 등장하는 단어는 중요도가 낮고<br>
    2) 특정 문서에서 자주 등장하는 단어는 중요도가 높다<br>

In [8]:
print(t.texts_to_matrix(texts, mode='freq').round(2))

[[0.   0.   0.33 0.33 0.33 0.   0.   0.   0.   0.  ]
 [0.   0.33 0.33 0.33 0.   0.   0.   0.   0.   0.  ]
 [0.   0.5  0.   0.   0.   0.25 0.25 0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.33 0.33 0.33]]


- <b>'freq' 모드</b><br>
    'freq' 모드는  각 문서에서의 각 단어의 등장 횟수를 분자로, 각 문서의 크기(각 문서에서 등장한 모든 단어의 개수의 총 합)를 분모로 하는 표현 방법<br>