In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf

# 텐서플로

## 텐서플로(Tensorflow)
- 구글이 만든 딥러닝 오픈소스 패키지
    - 머신러닝 알고리즘을 구현하고 실행하기 위한 프로그램이 인터페이스
- 텐서플로 특징
    - 확장이 용이하고 다양한 플랫폼을 지원
    - 강력한 수치 계산용 라이브러리
    - **분산 컴퓨팅 지원**
    - 계산 그래프를 사용하여 계산을 최적화
        - 사용하지 않는 노드의 가지치키
        - 독립적 연산은 병렬 실행
    - 자동 미분 기능, 고성능 옵티마이저 제공
- 가장 인기있는 딥러닝 라이브러리 : 대규모 머신러닝에 적합
- 머신러닝 작업 속도가 매우 빠름
    - CPU와 GPU(CUDA 기반)를 사용
    - GPU 사용 : 그래픅 카드를 작은 컴퓨터 클러스터로 생각
        - 계산을 작은 단위로 나눠 여러 GPU 스레드에서 병렬로 실행
        - 파이썬의 GIL로 하나의 코어만 사용하는 문제를 해결하여 대용량 데이터 처리 가능


## 텐서플로 파이썬 API
|종류|모듈(패키지)|
|--|--|
|고수준 딥러닝 API|`tf.keras`, `tf.estimator`|
|저수준 딥러닝 API|`tf.nn`, `tf.losses`, `tf.metrics`, `tf.optimizers`, `tf.train`, `tf.initializers`|
|입출력과 전처리|`tf.data`, `tf.io`, `tf.image`|
|선형대수와 신호처리|`tf.math`, `tf.linalg`, `tf.signal`, `tf.random`|
|자동 미분|`tf.GradientTape`, `tf.gradients`|

# 텐서

## 텐서(tensor)
- 넘파이 다차원 배열(ndarray)과 유사
- 계산 그래프의 각 노드는 입력과 출력을 갖는 연산으로 표현되며, 이런 연산의 입력과 출력을 참조하기 위한 심볼릭 핸들(symbilc handle) 역할을 함
- **실제 값은 넘파이 배열이고, 텐서는 배열에 대한 참조를 제공**
    - 텐서가 참조하는 값 : 텐서.numpy() 메서드 혹은 np.array(텐서)
- 텐서 만들기
    - `tf.convert_to_tenser()` : 리스트나 넘파이 배열로부터 텐서 생성
        - 부동소수 : 텐서는 32-bit, 넘파이 배열은 64-bit
    - `tf.constant()` : 변경 불가능(immutable)한 텐서 객체 생성
    - `tf.Variable()` : 변경가능한 텐서 객체 생성(ex. 신경망의 가중치들)
        - `assign()`으로 값 수정
- 텐서 속성 : shape, dtype
- 인덱스 참조 : 넘파이 배열과 유사
- 텐서 연산
    - +, -, *, @
    - `tf.add`, `tf.multiply`, `tf.square`, `tf.sqrt`, `tf.reshape`, `tf.reduce_mean`, `tf.math.log`, ...
    - 넘파이 배열과 텐서의 연산은 호환성을 가짐
- 텐서 형변환 : `tf.cast(텐서, dtype)`
    - (텐서는 형에 예민함)
- 텐서 모양 변경 : `tf.reshape(텐서, shape)`

In [1]:
t0 = tf.convert_to_tensor(10)  # 스칼라, rank = 0 (0차원)
t1 = tf.convert_to_tensor([1, 2, 4.0])  # rank = 1 (1차원)
t2 = tf.Variable([[1, 2, 3], [4, 5, 6]])  # rank = 2,  (dtype = int32)

In [2]:
t0, t1, t2

(<tf.Tensor: shape=(), dtype=int32, numpy=10>,
 <tf.Tensor: shape=(3,), dtype=float32, numpy=array([1., 2., 4.], dtype=float32)>,
 <tf.Variable 'Variable:0' shape=(2, 3) dtype=int32, numpy=
 array([[1, 2, 3],
        [4, 5, 6]])>)

In [3]:
# assign()
t2[1, 1].assign(100)
t2

<tf.Variable 'Variable:0' shape=(2, 3) dtype=int32, numpy=
array([[  1,   2,   3],
       [  4, 100,   6]])>

In [4]:
# 형변환
t2_float = tf.cast(t2, dtype = tf.float32)
t2_float

<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
array([[  1.,   2.,   3.],
       [  4., 100.,   6.]], dtype=float32)>

In [5]:
# 인덱싱
t2_float[1, 1:]

<tf.Tensor: shape=(2,), dtype=float32, numpy=array([100.,   6.], dtype=float32)>

In [6]:
t1 + t2_float

<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
array([[  2.,   4.,   7.],
       [  5., 102.,  10.]], dtype=float32)>

In [7]:
# reshape
t2_reshape = tf.reshape(t2, shape = (6,))
t2_reshape

<tf.Tensor: shape=(6,), dtype=int32, numpy=array([  1,   2,   3,   4, 100,   6])>

- 텐서 분할 / 쌓기 / 연결 : `split()`/`stack()`/`concat()` 

# 텐서플로 데이터셋 API

## 텐서플로 데이터셋 API(tf.data)  
(= tensor들의 collection)
- 데이터셋이 메모리에 충분히 적재 가능한 경우 : 텐서를 바로 사용
- 데이터셋이 메모리보다 큰 경우 : 배치(batch) 단위로 적재
- `tf.data.Dataset.from_tensor_slices()`
    - 리스트, 넘파이 배열, 텐서에 대하여 Dataset 객체를 반환

In [13]:
ds = tf.data.Dataset.from_tensor_slices(np.arange(5))
print(ds)  # dataset 정보
print()
for ex in ds:
    print(ex)  # 텐서별로 보기

<TensorSliceDataset shapes: (), types: tf.int32>

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


## 신경망 입력을 위한 텐서플로 데이터셋 만들기
- 두 개의 텐서를 하나의 데이터셋으로 연결하기 : `zip()` 메서드

In [19]:
d_x = tf.data.Dataset.from_tensor_slices([[0.3, 0.5], [0.8, 0.4], [0.1, 0.75]])  # X
d_y = tf.data.Dataset.from_tensor_slices([0, 1, 2])  # y
ds_joint = tf.data.Dataset.zip((d_x, d_y))

for ex in ds_joint:
    print(ex)
print()
for ex in ds_joint:
    print(ex[0].numpy(), ex[1].numpy())

(<tf.Tensor: shape=(2,), dtype=float32, numpy=array([0.3, 0.5], dtype=float32)>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)
(<tf.Tensor: shape=(2,), dtype=float32, numpy=array([0.8, 0.4], dtype=float32)>, <tf.Tensor: shape=(), dtype=int32, numpy=1>)
(<tf.Tensor: shape=(2,), dtype=float32, numpy=array([0.1 , 0.75], dtype=float32)>, <tf.Tensor: shape=(), dtype=int32, numpy=2>)

[0.3 0.5] 0
[0.8 0.4] 1
[0.1  0.75] 2


- Dataset의 각 원소에 변환 적용하기 : `map()` 메서드

In [21]:
ds_map = ds_joint.map(lambda x, y : (2 * x-1, y))
for ex in ds_map:
    print(ex[0].numpy(), ex[1].numpy())

[-0.39999998  0.        ] 0
[ 0.6        -0.19999999] 1
[-0.8  0.5] 2


- 신경망 모델을 훈련하기 위해서는 훈련 데이터를 무작위로 섞은 배치로 만들어 주입해야 함
- Dataset 객체 섞기 : `shuffle()` 메서드
    - buffer_size 인수 : 완벽한 셔플링을 위해서는 데이터 세트의 전체 크기보다 크거나 같은 버퍼 크기가 필요

In [28]:
ds_ = ds_map.shuffle(buffer_size = 100)
for ex in ds:
    print(ex[0].numpy, ex[1].numpy())

<bound method _EagerTensorBase.numpy of <tf.Tensor: shape=(2,), dtype=float32, numpy=array([-0.39999998,  0.        ], dtype=float32)>> 0
<bound method _EagerTensorBase.numpy of <tf.Tensor: shape=(2,), dtype=float32, numpy=array([-0.8,  0.5], dtype=float32)>> 2
<bound method _EagerTensorBase.numpy of <tf.Tensor: shape=(2,), dtype=float32, numpy=array([ 0.6       , -0.19999999], dtype=float32)>> 1


- Dataset 객체 원소의 배치 만들기 : batch() 메서드
    - batch_size 인수 : 배치 크기
    - drop_remainder(= False) : True면, 배치의 크기보다 작은 배치(남은 데이터)는 버림  # default = False

In [35]:
ds_batch = ds.batch(batch_size = 2)
for ex in ds_batch:
    print(ex[0].numpy(), ex[1].numpy())

[[-0.8         0.5       ]
 [ 0.6        -0.19999999]] [2 1]
[[-0.39999998  0.        ]] [0]


## 로컬 디스크에 있는 파일들로부터 데이터셋 만들기
- 이미지 파일 : tf.io, tf.image 모듈 사용
- 이미지 파일과 레이블로 이루어진 Dataset 만든 후, map() 메서드를 사용하여 전처리

## tensorflow_datasets 라이브러리 데이터셋 로드
- `import tensorflow_datasets as tfds`
- 방법1 : `builder()` -> `download_and_prepare()` -> `as_dataset()`
- 방법2 : `load()`함수 (wrapper)

In [45]:
# 아이리스 데이터셋 만들기
import tensorflow_datasets as tfds
iris = tfds.load('iris')

[1mDownloading and preparing dataset Unknown size (download: Unknown size, generated: Unknown size, total: Unknown size) to C:\Users\user\tensorflow_datasets\iris\2.0.0...[0m


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Generating splits...:   0%|          | 0/1 [00:00<?, ? splits/s]

Generating train examples...: 0 examples [00:00, ? examples/s]

Shuffling iris-train.tfrecord...:   0%|          | 0/150 [00:00<?, ? examples/s]

[1mDataset iris downloaded and prepared to C:\Users\user\tensorflow_datasets\iris\2.0.0. Subsequent calls will reuse this data.[0m


In [46]:
iris

{Split('train'): <PrefetchDataset shapes: {features: (4,), label: ()}, types: {features: tf.float32, label: tf.int64}>}

- iris Dataset은 'train'을 키로 하는 한 덩어리이므로, 실제 훈련용과 테스트용으로 분할해야 함
- 각 원소는 features와 label을 키로 하는 닥셔너리 형태임

In [48]:
ds = iris['train']
ds = ds.shuffle(buffer_size = 150, reshuffle_each_iteration = False)

ds_train = ds.take(100)  # 훈련용 100개
ds_test = ds.skip(100)  # 테스트용 100개를 뺸 나머지
print(ds_train)
print(ds_test)

<TakeDataset shapes: {features: (4,), label: ()}, types: {features: tf.float32, label: tf.int64}>
<SkipDataset shapes: {features: (4,), label: ()}, types: {features: tf.float32, label: tf.int64}>


- map() 메서드를 이용하여 딕셔너리를 튜플로 변환

In [50]:
ds_train = ds_train.map(lambda x : (x['features'], x['label']))
ds_test = ds_test.map(lambda x : (x['features'], x['label']))

- 아이리스 MLP

In [52]:
iris_mlp = tf.keras.Sequential([
    tf.keras.layers.Dense(16, input_shape = (4,), activation = 'sigmoid'),
    tf.keras.layers.Dense(3, activation = 'softmax')
])

In [53]:
iris_mlp.compile(optimizer = 'adam',
                 loss = 'sparse_categorical_crossentropy',
                 metrics = ['accuracy'])

In [54]:
TRAIN_SIZE = 100
NUM_EPOCH = 50
BATCH_SIZE = 2
STEPS_PER_EPOCH = TRAIN_SIZE / BATCH_SIZE

In [55]:
ds_train = ds_train.shuffle(TRAIN_SIZE).batch(BATCH_SIZE)
history = iris_mlp.fit(ds_train, epochs = NUM_EPOCH, steps_per_epoch = STEPS_PER_EPOCH)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


In [57]:
iris_mlp.evaluate(ds_test.batch(50))



[0.2676054835319519, 1.0]