# tf.Dataset, batch를 활용한 loader 만들기

In [1]:
import tensorflow as tf

daily_sales_numbers = [21, 22, -100, 31, -1, 32, 34, 31]

tf_dataset = tf.data.Dataset.from_tensor_slices(daily_sales_numbers)
tf_dataset

<_TensorSliceDataset element_spec=TensorSpec(shape=(), dtype=tf.int32, name=None)>

In [2]:
for sales in tf_dataset:
    print(sales)

tf.Tensor(21, shape=(), dtype=int32)
tf.Tensor(22, shape=(), dtype=int32)
tf.Tensor(-100, shape=(), dtype=int32)
tf.Tensor(31, shape=(), dtype=int32)
tf.Tensor(-1, shape=(), dtype=int32)
tf.Tensor(32, shape=(), dtype=int32)
tf.Tensor(34, shape=(), dtype=int32)
tf.Tensor(31, shape=(), dtype=int32)


### as_numpy_iterator

In [3]:
for sales in tf_dataset.as_numpy_iterator():
    print(sales)

21
22
-100
31
-1
32
34
31


### take

In [4]:
for sales in tf_dataset.take(3):
    print(sales.numpy())

21
22
-100


### filter

In [5]:
tf_dataset = tf_dataset.filter(lambda x: x > 0)

for sales in tf_dataset.as_numpy_iterator():
    print(sales)

21
22
31
32
34
31


### map

- Dataset 전체에 함수를 맵핑합니다.

In [6]:
tf_dataset = tf_dataset.map(lambda x: x * 2)

for sales in tf_dataset.as_numpy_iterator():
    print(sales)

42
44
62
64
68
62


### shuffle
- 데이터세트는 buffer_size 요소로 버퍼를 채운 다음이 버퍼에서 요소를 무작위로 샘플링하여 선택한 요소를 새 요소로 바꿉니다.

- 완벽한 셔플 링을 위해서는 데이터 세트의 전체 크기보다 크거나 같은 버퍼 크기가 필요합니다.

- 예를 들어, 데이터 집합에 10,000 개의 element가 있지만 buffer_size가 1,000으로 설정된 경우 셔플은 처음에 버퍼의 처음 1,000 개 element 중 임의의 element 만 선택합니다.

- element가 선택되면 버퍼의 공간이 다음 element (즉, 1,001-st)로 대체되어 1,000 element 버퍼를 유지합니다.

In [7]:
tf_dataset = tf_dataset.shuffle(10)
for sales in tf_dataset.as_numpy_iterator():
    print(sales)

42
44
62
64
62
68


In [8]:
for sales_batch in tf_dataset.batch(2):
    print(sales_batch.numpy())

[62 68]
[42 64]
[62 44]


In [9]:
for sales_batch in tf_dataset.batch(3):
    print(sales_batch.numpy())

[68 62 44]
[62 42 64]


In [10]:
for sales in tf_dataset.batch(4):
    print(sales.numpy())

[68 42 44 64]
[62 62]


In [11]:
for sales in tf_dataset.batch(4, drop_remainder=True):
    print(sales.numpy())

[64 62 62 44]


- 위 모든 것을 한 줄로 결합

In [12]:
daily_sales_numbers = [21, 22, -100, 31, -1, 32, 34, 31]
tf_dataset = tf.data.Dataset.from_tensor_slices(daily_sales_numbers)
tf_dataset = tf_dataset.filter(lambda x: x > 0).map(lambda y: y * 2).shuffle(3).batch(4, drop_remainder=True)

for sales_batch in tf_dataset.as_numpy_iterator():
    print(sales_batch)

[44 64 42 62]


### train, test dataset 생성
- train : test = 8 : 2

In [13]:
daily_sales_numbers = list(range(100))

tf_dataset = tf.data.Dataset.from_tensor_slices(daily_sales_numbers)

ds_count = len(tf_dataset)
train_size = int(ds_count * 0.8)

train_ds = tf_dataset.take(train_size)
test_ds  = tf_dataset.skip(train_size)

len(train_ds), len(test_ds)

(80, 20)

## StringLookup 
- 문자열을 정수 index로 mapping 하여 vocabulary 사전 작성

In [14]:
import tensorflow as tf
from tensorflow.keras.layers import StringLookup

# 예제 데이터셋 생성
vocab = ["apple", "banana", "orange", "grape"]
data = [["apple", "orange", "banana"], ["banana", "grape", "apple"]]

# StringLookup 레이어 생성 및 어휘(vocabulary) 설정
string_lookup = StringLookup(vocabulary=vocab, mask_token=None)

# 데이터를 정수 인덱스로 변환
indices = string_lookup(data)

# 결과 출력
print(indices)

# 어휘 사전 조회
vocab_list = string_lookup.get_vocabulary()

# 어휘 사전 출력
print("Vocabulary:", vocab_list)

tf.Tensor(
[[1 3 2]
 [2 4 1]], shape=(2, 3), dtype=int64)
Vocabulary: ['[UNK]', 'apple', 'banana', 'orange', 'grape']


## Embedding Layer

In [15]:
from tensorflow.keras.layers import Embedding

# Embedding 레이어 설정
# 여기서는 최대 어휘 크기를 10000으로, 임베딩 벡터의 차원을 32로 설정합니다.
embedding_layer = Embedding(input_dim=10000, output_dim=32)

# 간단한 모델 생성 및 Embedding 레이어 추가
model = tf.keras.Sequential([
    embedding_layer
])

# 예제 데이터 - 일반적으로 여기서는 각 정수가 어휘 사전의 단어를 나타냅니다.
# 예를 들어, 5는 어휘 사전의 6번째 단어를 의미합니다(인덱싱은 0부터 시작).
input_data = [[1, 2, 3, 4, 5], [5, 4, 3, 2, 1]]

# 모델을 통해 입력 데이터를 임베딩 벡터로 변환
output_data = model.predict(input_data)

# 임베딩 결과 출력
print(output_data.shape)
print(output_data)

(2, 5, 32)
[[[-0.01971922  0.02207631 -0.04662553 -0.04253106 -0.02734951
    0.0406588  -0.00061249 -0.02470632  0.00350528  0.00197375
   -0.00865706 -0.03523492  0.04360373  0.03724784  0.0481537
    0.00471278 -0.03360472  0.02409854 -0.0023606  -0.00968312
   -0.03683097 -0.04464549 -0.01498514  0.02074439  0.04754834
   -0.04122965 -0.0408228   0.02771798 -0.01582999 -0.04303341
    0.01259701 -0.04938173]
  [ 0.00753429 -0.03045622 -0.04151043  0.0414545  -0.00607675
   -0.01192582 -0.01513904 -0.03280842 -0.04408692  0.00694034
   -0.01954736 -0.03955538 -0.02612366  0.01281765 -0.01381334
   -0.00616728  0.04593951  0.03639991 -0.007167   -0.03010724
    0.03252793  0.02388528  0.0413456  -0.04652636 -0.00368999
    0.03836865  0.0424743  -0.00068066 -0.04904016 -0.01522862
   -0.03746773 -0.04455226]
  [-0.01566799  0.02373822  0.03697922 -0.03106792  0.04784943
   -0.03909376  0.00163611 -0.04805058 -0.00697832 -0.0490486
    0.01111058  0.02257657  0.04775355  0.01962167 -0

In [17]:
# 예제 텍스트 데이터
texts = ['apple', 'banana', 'orange', 'grape']

# 어휘 사전 생성
vocab = ['apple', 'banana', 'orange', 'grape']
vocab_size = len(vocab)

# StringLookup 레이어 생성
string_lookup = StringLookup(vocabulary=vocab, mask_token=None, output_mode='int')

# Embedding 레이어 설정
# 어휘 사전 크기에 1을 더해야 하는 이유는 StringLookup 레이어가 0을 패딩 인덱스로 사용하기 때문입니다.
embedding_layer = Embedding(input_dim=vocab_size + 1, output_dim=8)

# 모델 생성 및 레이어 추가
model = tf.keras.Sequential([
    string_lookup,
    embedding_layer
])

# 텍스트 데이터를 정수 인덱스로 변환 후 임베딩 벡터로 매핑
input_data = tf.constant(texts)
embedded_data = model(input_data)

# 결과 출력
print("Embedded data:", embedded_data.numpy())

Embedded data: [[-0.03632933  0.00081471 -0.02350252 -0.04285234  0.04859957 -0.01085646
   0.04851237  0.03186392]
 [ 0.00653478 -0.01706654 -0.02110559  0.04784301  0.00015245  0.03750508
   0.00052039  0.00686011]
 [ 0.04971243  0.02336747 -0.02216467  0.03158424 -0.00508889  0.03314925
   0.00824787 -0.02050964]
 [-0.034262   -0.03014683 -0.01995154  0.01962764  0.04355304 -0.03027788
   0.0030066   0.00131402]]
