## 텐서플로에서 텐서 만들기

In [1]:
import tensorflow as tf
import numpy as np
np.set_printoptions(precision=3)

a = np.array([1, 2, 3], dtype=np.int32) # shape (3,)
b = [4, 5, 6]

t_a = tf.convert_to_tensor(a)
t_b = tf.convert_to_tensor(b)

print(t_a)
print(t_b)

tf.Tensor([1 2 3], shape=(3,), dtype=int32)
tf.Tensor([4 5 6], shape=(3,), dtype=int32)


In [2]:
t_ones = tf.ones((2, 3))
t_ones.shape

TensorShape([2, 3])

In [3]:
# 텐서가 참조하는 값 얻기
t_ones.numpy()

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

In [4]:
# 상수 값을 가진 텐서 만들기
const_tensor = tf.constant([1.2, 5, np.pi], dtype=tf.float32)
print(const_tensor)

tf.Tensor([1.2   5.    3.142], shape=(3,), dtype=float32)


## 텐서의 데이터 타입과 크기 조작
모델이나 연산에 맞는 입력을 준비하려면 텐서를 조작하는 법을 알아야 한다.
- cast
- reshape
- transpose
- squeeze

In [5]:
# cast: 텐서의 데이터 타입을 원하는 타입으로 바꿈
t_a_new = tf.cast(t_a, tf.int64)
print(t_a_new.dtype)

<dtype: 'int64'>


In [6]:
# 텐서의 크기를 바꾸고 차원을 추가하거나 불필요한 차원을 제거
# 텐서 전치하기
t = tf.random.uniform(shape=(3, 5))
t_tr = tf.transpose(t)
print(t.shape, '-->', t_tr.shape)

# 텐서 크기 바꾸기
t = tf.zeros((30,))
t_reshape = tf.reshape(t, shape=(5, 6))
print(t_reshape.shape)

# 불필요한 차원 삭제하기
t = tf.zeros((1, 2, 1, 4, 1))
t_sqz = tf.squeeze(t, axis=(2, 4))
print(t.shape, '-->', t_sqz.shape)

(3, 5) --> (5, 3)
(5, 6)
(1, 2, 1, 4, 1) --> (1, 2, 4)


## 텐서에 수학 연산 적용
- 원소별 곱셈
- 행렬 곱셈
- 텐서의 노름 연산

In [7]:
tf.random.set_seed(1)
# [-1, 1) 사이의 균등 분포
t1 = tf.random.uniform(shape=(5, 2), minval=-1.0, maxval=1.0)
# 표준 정규 분포
t2 = tf.random.normal(shape=(5, 2), mean=0.0, stddev=1.0)
print('t1:', t1)
print('t2:', t2)
# 원소별 곱셈
t3 = tf.multiply(t1, t2).numpy()
print(t3)

t1: tf.Tensor(
[[-0.67   0.803]
 [ 0.262 -0.131]
 [-0.416  0.285]
 [ 0.952 -0.13 ]
 [ 0.32   0.21 ]], shape=(5, 2), dtype=float32)
t2: tf.Tensor(
[[ 0.403 -1.088]
 [-0.063  1.337]
 [ 0.712 -0.489]
 [-0.764 -1.037]
 [-1.252  0.021]], shape=(5, 2), dtype=float32)
[[-0.27  -0.874]
 [-0.017 -0.175]
 [-0.296 -0.139]
 [-0.727  0.135]
 [-0.401  0.004]]


In [8]:
# 각 열의 평균 계산
t4 = tf.math.reduce_mean(t1, axis=0)
print(t4)

tf.Tensor([0.09  0.207], shape=(2,), dtype=float32)


In [9]:
# 행렬 곱셈
t5 = tf.linalg.matmul(t1, t2, transpose_b=True) # t2 전치
print('t5: \n', t5.numpy())

t6 = tf.linalg.matmul(t1, t2, transpose_a=True) # t1 전치
print('t6: \n', t6.numpy())

t5: 
 [[-1.144  1.115 -0.87  -0.321  0.856]
 [ 0.248 -0.191  0.25  -0.064 -0.331]
 [-0.478  0.407 -0.436  0.022  0.527]
 [ 0.525 -0.234  0.741 -0.593 -1.194]
 [-0.099  0.26   0.125 -0.462 -0.396]]
t6: 
 [[-1.711  0.302]
 [ 0.371 -1.049]]


In [10]:
# 텐서의 노름 계산
norm_t1 = tf.norm(t1, ord=2, axis=1).numpy() # L2 노름
print(norm_t1)

[1.046 0.293 0.504 0.96  0.383]


## split(), stack(), concat() 함수
하나의 텐서를 여러개의 텐서로 나누거나 여러개의 텐서를 쌓거나, 연결하여 하나의 텐서로 만드는 연산

In [13]:
# 분할 개수 지정하기
tf.random.set_seed(1)
t = tf.random.uniform((6,))
print(t.numpy())
t_splits = tf.split(t, num_or_size_splits=3)
[item.numpy() for item in t_splits]

[0.165 0.901 0.631 0.435 0.292 0.643]


[array([0.165, 0.901], dtype=float32),
 array([0.631, 0.435], dtype=float32),
 array([0.292, 0.643], dtype=float32)]

In [14]:
# 다른 분할 크기 전달하기
tf.random.set_seed(1)
t = tf.random.uniform((5,))
print(t.numpy())
t_splits = tf.split(t, num_or_size_splits=[3, 2])
[item.numpy() for item in t_splits]

[0.165 0.901 0.631 0.435 0.292]


[array([0.165, 0.901, 0.631], dtype=float32),
 array([0.435, 0.292], dtype=float32)]

In [16]:
A = tf.ones((3,))
B = tf.zeros((2,))
C = tf.concat([A, B], axis=0)
print(C.numpy())

[1. 1. 1. 0. 0.]


In [17]:
A = tf.ones((3,))
B = tf.zeros((3,))
S = tf.stack([A, B], axis=1)
print(S.numpy())

[[1. 0.]
 [1. 0.]
 [1. 0.]]


# 텐서플로 데이터셋 API(tf.data)를 사용하여 입력 파이프라인 구축
매번 전처리 함수를 수동으로 적용하는 것은 매우 번거롭다.
<br>
이를 위해 텐서플로에는 효율적이고 간편한 전처리 파이프라인을 만들어 주는 특별한 클래스를 제공한다.
<br>
텐서플로는 'tf.data.Dataset.from_tensor_slices()' 함수를 이용해 손쉽게 데이터셋을 만들 수 있다.

In [18]:
a = [1.2, 3.4, 7.5, 4.1, 5.0, 1.0]
ds = tf.data.Dataset.from_tensor_slices(a)
print(ds)

<_TensorSliceDataset element_spec=TensorSpec(shape=(), dtype=tf.float32, name=None)>


In [19]:
# 데이터 순환
for item in ds:
    print(item)

tf.Tensor(1.2, shape=(), dtype=float32)
tf.Tensor(3.4, shape=(), dtype=float32)
tf.Tensor(7.5, shape=(), dtype=float32)
tf.Tensor(4.1, shape=(), dtype=float32)
tf.Tensor(5.0, shape=(), dtype=float32)
tf.Tensor(1.0, shape=(), dtype=float32)


2024-08-12 02:06:09.064846: I tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


이때 배치 크기 3의 배치를 만들려면 'batch()' 메서드를 이용한다.

In [20]:
ds_batch = ds.batch(3)
for i, elem in enumerate(ds_batch, 1):
    print('batch {}:'.format(i), elem.numpy())

batch 1: [1.2 3.4 7.5]
batch 2: [4.1 5.  1. ]


2024-08-12 02:07:29.501386: I tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


## 두 개의 텐서를 하나의 데이터셋으로 연결
종종 데이터는 2개 또는 그 이상의 텐서로 구성된다. 예를 들어 feature와 label 텐서 2개가 있다. 이 텐서를 연결하여 하나의 데이터셋으로 만들면 두 텐서의 원소를 튜플로 추출할 수 있다.


In [21]:
tf.random.set_seed(1)
t_x = tf.random.uniform([4, 3], dtype=tf.float32)
t_y = tf.range(4)

ds_x = tf.data.Dataset.from_tensor_slices(t_x)
ds_y = tf.data.Dataset.from_tensor_slices(t_y)

ds_joint = tf.data.Dataset.zip((ds_x, ds_y))
for example in ds_joint:
    print('   x:', example[0].numpy(), '   y:', example[1].numpy())

   x: [0.165 0.901 0.631]    y: 0
   x: [0.435 0.292 0.643]    y: 1
   x: [0.976 0.435 0.66 ]    y: 2
   x: [0.605 0.637 0.614]    y: 3


자주 발생하는 에러는 원본 특성(x)과 레이블(y) 사이의 원소 간 대응이 깨지는 경우이다.(두 데이터셋을 따로 섞으면 일어난다.) -> 하나의 데이터 셋으로 합쳐야 한다.

In [22]:
ds_trans = ds_joint.map(lambda x, y: (x*2-1.0, y))
for example in ds_trans:
    print('   x:', example[0].numpy(), '   y:', example[1].numpy())

   x: [-0.67   0.803  0.262]    y: 0
   x: [-0.131 -0.416  0.285]    y: 1
   x: [ 0.952 -0.13   0.32 ]    y: 2
   x: [0.21  0.273 0.229]    y: 3


2024-08-12 02:16:38.971012: I tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


## shuffle(), batch(), repeat() 메서드
훈련 데이터를 무작위로 섞은 배치로 만들어 주입하는 것이 중요한다. 이 외에도 데이터셋을 섞거나 재순환하는 방법이 있다.

In [23]:
tf.random.set_seed(1)
ds = ds_joint.shuffle(buffer_size=len(t_x))
for example in ds:
    print('   x:', example[0].numpy(), '   y:', example[1].numpy())

   x: [0.976 0.435 0.66 ]    y: 2
   x: [0.435 0.292 0.643]    y: 1
   x: [0.165 0.901 0.631]    y: 0
   x: [0.605 0.637 0.614]    y: 3
