In [43]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import pandas as pa
import numpy as np



# 토큰화, 인코딩
-Tokenizer(개수): 원하는 개수만큼만 만들기 위한 초기화 작업
-fit_on_texts([문장]) : 문장을 토큰화. 즉 단어집합을 만듬
-text_to_sequences([문장]): 정수인코딩을 하는데 단어집합에 없는 단어는 할당하지 않는다.
-왜 같은 [문장]을 넣어주나 했드만...

In [44]:
tokenizer = Tokenizer()
train_text = "The earth is an aswsome place live"

# 단어집합생성
tokenizer.fit_on_texts([train_text])

# 정수인코딩(단어집합에 있는 것만)
sub_text = "The earth is a great place live"
sequence = tokenizer.texts_to_sequences([sub_text])

print("단어집합:{}".format(tokenizer.word_index))
print("정수인코딩:{}".format(sequence))


단어집합:{'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'aswsome': 5, 'place': 6, 'live': 7}
정수인코딩:[[1, 2, 3, 6, 7]]


# pad_sequence() : 말 그대로 패딩을 수행

In [45]:
pad_sequences([[1,2,3], [3,4,5,6], [7,8]], maxlen=10, padding='pre')

array([[0, 0, 0, 0, 0, 0, 0, 1, 2, 3],
       [0, 0, 0, 0, 0, 0, 3, 4, 5, 6],
       [0, 0, 0, 0, 0, 0, 0, 0, 7, 8]])

# 모델의 call함수 호출시기를 한번보자
-모델 생성시가 아닌 모델에 데이터가 입력될때 호출
-즉 fit, 평가, 예측시 작동 함

In [46]:

class LinerRegression(tf.keras.Model):
    def __init__(self):
        super(LinerRegression, self).__init__()
        self.linear_layer = tf.keras.layers.Dense(1, input_dim=1, activation='relu')
        
    def call(self, x):
        y_pred = self.linear_layer(x)
        print("fit 일때만 호출되네..역시 데이터가 들어가야지 호출되는 구나")
        return y_pred
    
model = LinerRegression()

x = np.arange(1,10).reshape(-1,1)
y = np.arange(11,20).reshape(-1,1)

sgd = tf.keras.optimizers.SGD(learning_rate=0.01)
model.compile(optimizer=sgd, loss='mse', metrics=['mse'])

model.fit(x,y, epochs=10)


Epoch 1/10
fit 일때만 호출되네..역시 데이터가 들어가야지 호출되는 구나
fit 일때만 호출되네..역시 데이터가 들어가야지 호출되는 구나
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x17a5c072ed0>

# texts_to_matrix
-모드에 따라 여러 형태의 매트릭트 출력

In [None]:
texts = ['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']

tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
print(tokenizer.word_index)

sequence = tokenizer.texts_to_sequences(texts)
print(sequence)


# count 모드: 같은 인덱스에 2개가 존재하면 '2'로 표시
count_mode = tokenizer.texts_to_matrix(texts, mode='count')
print(count_mode)
print()

# binary 모드: 존재하는지만 관심
binary_mode = tokenizer.texts_to_matrix(texts, mode='binary')
print(binary_mode)
print()

# tfidf 모드: tf_idf 행렬을 만듬
tfidf_mode = tokenizer.texts_to_matrix(texts, mode='tfidf')
print(tfidf_mode)
print()

# freq 모드: 등장횟수
freq_mode = tokenizer.texts_to_matrix(texts, mode='freq')
print(freq_mode.round(2))
print()


{'바나나': 1, '먹고': 2, '싶은': 3, '사과': 4, '길고': 5, '노란': 6, '저는': 7, '과일이': 8, '좋아요': 9}
[[2, 3, 4], [2, 3, 1], [5, 6, 1, 1], [7, 8, 9]]
[[0. 0. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 2. 0. 0. 0. 1. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1.]]

[[0. 0. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 1. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1.]]

[[0.         0.         0.84729786 0.84729786 1.09861229 0.
  0.         0.         0.         0.        ]
 [0.         0.84729786 0.84729786 0.84729786 0.         0.
  0.         0.         0.         0.        ]
 [0.         1.43459998 0.         0.         0.         1.09861229
  1.09861229 0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         1.09861229 1.09861229 1.09861229]]

[[0.   0.   0.33 0.33 0.33 0.   0.   0.   0.   0.  ]
 [0.   0.33 0.33 0.33 0.   0.   0.   0.   0.   0.  ]
 [0.   0.5  0.   0.   0.   0.25 0.25 0.   0.   0.  ]
 [