# **Tensorflow**

## **1. Tensorflow 개요**

### 1-1. Tensorflow란?

- Google에서 개발한 딥러닝과 기계 학습을 위한 오픈소스 라이브러리
- 2015년에 공개하여 지금까지 계속 업데이트 및 지원이 진행 중임

### 1-2. Tensorflow의 기능적 소개
- 그래프 형태로 수치 연산을 하는 라이브러리
- '텐서(tensor)'라는 데이터 구조를 사용함
- 텐서
    - 수학적으로는 쉽게 말하면 다차원 배열을 나타냄
    - TensorFlow에서는 이러한 텐서를 노드(node)라고 부르는 연산들 사이를 흐르는 데이터로 사용함
- 즉, TensorFlow는 데이터의 흐름을 그래프로 표현하고, 이 그래프를 계산하여 딥러닝 모델을 학습하고 실행하는 도구
    - 그래프는 연산(operation)들과 변수(variable)들로 구성됨
    - 변수들은 학습 중에 업데이트되는 모델의 파라미터를 의미함

### 1-3. TensorFlow의 장점
- 딥러닝 모델을 구성하고, 학습시키며, 추론(inference)하는 작업을 보다 간단하고 유연하게 만들 수 있음
- GPU나 TPU와 같은 가속기를 활용하여 계산을 빠르게 처리할 수 있기 때문에, 대용량 데이터와 복잡한 모델에도 적용하기 용이함
- 쉽고 다양한 API를 제공하므로 사용자가 원하는 수준에서 모델을 구성할 수 있음
- 이미 구현된 많은 딥러닝 모델과 레이어를 포함하여 고수준의 추상화된 기능을 제공함
- 자유롭게 커스터마이징이 가능함
- 다른 라이브러리나 프레임워크와 쉽게 통합하여 사용할 수 있음

### 1-4. Tensorflow의 사용 현황
- TensorFlow는 딥러닝과 머신러닝의 다양한 분야에서 널리 사용되고 있으며, 컴퓨터 비전, 자연어 처리, 음성 인식 등 다양한 애플리케이션에 적용되고 있음
- 활발한 커뮤니티가 많으며, 이러한 커뮤니티를 통해 지속적인 지원과 발전이 이루어지고 있음

## **2. Tensorflow를 사용하는 과정**

- 필요한 패키지를 가져온다.
- 텐서를 만들고 사용한다.
- GPU 가속을 사용한다.
- tf.data.Dataset로 데이터 파이프라인을 구축한다.

### 2-1. 필요한 패키지(Tensorflow) 가져오기

In [9]:
import tensorflow as tf

### 2-2. Tensor 만들고 사용하기

- Tensor
    - 다차원 배열
    - NumPy ndarray 객체와 유사하게 tf.Tensor 객체에도 dtype(데이터 유형)과 shape(형상)가 있음
    - tf.Tensor는 가속기 메모리(예: GPU)에 상주할 수 있음
    - tf.math.add, tf.linalg.matmul, tf.linalg.inv 등 다양한 연산 라이브러리 지원
    - 연산 라이브러리는 기본 Python 유형을 자동으로 변환하여 사용/적용 가능

In [10]:
print(tf.math.add(1, 2))
print(tf.math.add([1, 2], [3, 4]))
print(tf.math.square(5))
print(tf.math.reduce_sum([1, 2, 3]))

# Operator overloading is also supported
print(tf.math.square(2) + tf.math.square(3))

tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor([4 6], shape=(2,), dtype=int32)
tf.Tensor(25, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(13, shape=(), dtype=int32)


In [11]:
x = tf.linalg.matmul([[1]], [[2, 3]])
print(x)
print(x.shape)
print(x.dtype)

tf.Tensor([[2 3]], shape=(1, 2), dtype=int32)
(1, 2)
<dtype: 'int32'>


- Numpy와의 호환성
    - 간단한 TensorFlow tf.Tensor와 NumPy ndarray 사이의 변환
        - 텐서플로 연산은 자동으로 NumPy 배열을 텐서로 변환함
        - NumPy 연산은 자동으로 텐서를 NumPy 배열로 변환함
    - 텐서는 .numpy() 메서드(method)를 호출하여 NumPy 배열로 변환할 수 있음
        - tf.Tensor와 배열은 메모리 표현을 공유하기 때문에 이러한 변환은 일반적으로는 간단함
    - 텐서와 NumPy 배열의 차이
        - tf.Tensor는 GPU 메모리에 저장될 수 있고, NumPy 배열은 항상 호스트 메모리에 저장됨
        - 따라서 이러한 변환이 항상 가능한 것은 아님
        - GPU 메모리와 호스트 메모리에 각각 저장된 배열을 변환하려면 GPU에서 호스트 메모리로 복사하는 작업이 필요함

In [12]:
import numpy as np

ndarray = np.ones([3, 3])

print("TensorFlow operations convert numpy arrays to Tensors automatically")
tensor = tf.math.multiply(ndarray, 42)
print(tensor)


print("And NumPy operations convert Tensors to NumPy arrays automatically")
print(np.add(tensor, 1))

print("The .numpy() method explicitly converts a Tensor to a numpy array")
print(tensor.numpy())

TensorFlow operations convert numpy arrays to Tensors automatically
tf.Tensor(
[[42. 42. 42.]
 [42. 42. 42.]
 [42. 42. 42.]], shape=(3, 3), dtype=float64)
And NumPy operations convert Tensors to NumPy arrays automatically
[[43. 43. 43.]
 [43. 43. 43.]
 [43. 43. 43.]]
The .numpy() method explicitly converts a Tensor to a numpy array
[[42. 42. 42.]
 [42. 42. 42.]
 [42. 42. 42.]]


### 2-3. GPU 가속 사용하기

- GPU 가속의 사용
    - 대부분의 TensorFlow 연산은 GPU를 사용하여 가속화됨
    - 어떠한 코드를 명시하지 않아도, TensorFlow는 연산을 위해 CPU 또는 GPU를 사용할 것인지를 자동으로 결정함
    - 필요 시 텐서를 CPU와 GPU 메모리 사이에서 복사
    - 연산에 의해 생성된 텐서는 전형적으로 연산이 실행된 장치의 메모리에 의해 실행됨

In [13]:
x = tf.random.uniform([3, 3])

print("Is there a GPU available: "),
print(tf.config.list_physical_devices("GPU"))

print("Is the Tensor on GPU #0:  "),
print(x.device.endswith('GPU:0'))

Is there a GPU available: 
[]
Is the Tensor on GPU #0:  
False


- 장치 명
    - Tensor.device는 텐서를 구성하고 있는 호스트 장치의 풀네임을 제공함
    - 제공되는 호스트 장치 명
        - 프로그램이 실행중인 호스트의 네트워크 주소 및 해당 호스트 내의 장치와 같은 많은 세부 정보를 인코딩
        - 텐서플로 프로그램의 분산 실행에 필요함
        - 텐서가 호스트의 N번째 GPU에 놓여지면 문자열은 GPU:<N>으로 끝남
    - 명시적 장치 배치
        - TensorFlow에서 배치란 개별 연산이 실행을 위해 장치에 할당(배치)되는 방식을 나타냄
        - 명시적인 지침이 없으면 TensorFlow는 연산을 실행할 장치를 자동으로 결정하고 필요한 경우 해당 장치에 텐서를 복사함
        - 명시적으로 배치하려면 tf.device 컨텍스트 관리자를 사용하여 특정 장치에 배치 가능

In [14]:
import time

def time_matmul(x):
  start = time.time()
  for loop in range(10):
    tf.linalg.matmul(x, x)

  result = time.time()-start

  print("10 loops: {:0.2f}ms".format(1000*result))

# Force execution on CPU
print("On CPU:")
with tf.device("CPU:0"):
  x = tf.random.uniform([1000, 1000])
  assert x.device.endswith("CPU:0")
  time_matmul(x)

# Force execution on GPU #0 if available
if tf.config.list_physical_devices("GPU"):
  print("On GPU:")
  with tf.device("GPU:0"): # Or GPU:1 for the 2nd GPU, GPU:2 for the 3rd etc.
    x = tf.random.uniform([1000, 1000])
    assert x.device.endswith("GPU:0")
    time_matmul(x)

On CPU:
10 loops: 327.01ms


### 2-4. tf.data.Dataset로 데이터 파이프라인을 구축하기

- 데이터 세트의 사용
    - tf.data.Dataset API를 사용하여 모델에 데이터를 공급하기 위한 파이프라인을 구축
    - tf.data.Dataset
        - 모델의 훈련 또는 평가 루프에 데이터를 제공할 단순하고 재사용 가능한 부분으로부터 성능이 뛰어나고 복잡한 입력 파이프라인을 구축하는 데 사용됨

- 소스 데이터세트 생성하기
    1. tf.data.Dataset.from_tensors, tf.data.Dataset.from_tensor_slices 등의 팩토리 함수 중 하나를 사용
    2. tf.data.TextLineDataset 또는 tf.data.TFRecordDataset와 같은 파일에서 읽는 객체를 사용

In [15]:
ds_tensors = tf.data.Dataset.from_tensor_slices([1, 2, 3, 4, 5, 6])

# Create a CSV file
import tempfile
_, filename = tempfile.mkstemp()

with open(filename, 'w') as f:
  f.write("""Line 1
Line 2
Line 3
  """)

ds_file = tf.data.TextLineDataset(filename)

- 데이터세트 변환 적용
    - tf.data.Dataset.map, tf.data.Dataset.batch 및 tf.data.Dataset.shuffle과 같은 변환 함수를 사용하여 데이터세트 레코드에 변환 적용

In [16]:
ds_tensors = ds_tensors.map(tf.math.square).shuffle(2).batch(2)

ds_file = ds_file.batch(2)

- 반복하기
    - tf.data.Dataset는 레코드 순회를 지원하는 반복 가능한 객체

In [17]:
print('Elements of ds_tensors:')
for x in ds_tensors:
  print(x)

print('\nElements in ds_file:')
for x in ds_file:
  print(x)

Elements of ds_tensors:
tf.Tensor([4 9], shape=(2,), dtype=int32)
tf.Tensor([16  1], shape=(2,), dtype=int32)
tf.Tensor([25 36], shape=(2,), dtype=int32)

Elements in ds_file:
tf.Tensor([b'Line 1' b'Line 2'], shape=(2,), dtype=string)
tf.Tensor([b'Line 3' b'  '], shape=(2,), dtype=string)


## **3. 정형 데이터 다루기**

### 3-1. 정형 데이터를 다루는 기본적인 방법

- 실습 내용
    - 판다스(Pandas)를 사용하여 CSV 파일을 읽기
    - tf.data를 사용하여 행을 섞고 배치로 나누는 입력 파이프라인(pipeline)을 만들기
    - CSV의 열을 feature_column을 사용해 모델 훈련에 필요한 특성으로 매핑하기
- 데이터 셋
    - 클리블랜드(Cleveland) 심장병 재단에서 제공한 작은 데이터셋을 사용함
    - CSV 파일은 수백 개의 행으로 이루어져 있음
    - 각 행은 환자 한 명을 나타내고 각 열은 환자에 대한 속성 값을 나타냄
    - 데이터를 사용해 환자의 심장병 발병 여부를 예측(이진 분류)하기 위한 모델에 적용할 수 있도록 매핑

### 3-2. 데이터 처리

- 필요한 라이브러리 import

In [18]:
!pip install sklearn

Collecting sklearn
  Downloading sklearn-0.0.post7.tar.gz (3.6 kB)
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (setup.py) ... [?25l[?25herror
[1;31merror[0m: [1mmetadata-generation-failed[0m

[31m×[0m Encountered error while generating package metadata.
[31m╰─>[0m See above for output.

[1;35mnote[0m: This is an issue with the package mentioned above, not pip.
[1;36mhint[0m: See above for details.


In [19]:
import numpy as np
import pandas as pd


import tensorflow as tf

from tensorflow import feature_column
from tensorflow.keras import layers
from sklearn.model_selection import train_test_split

- Pandas로 DataFrame 만들기

In [20]:
URL = pd.read_csv('https://raw.githubusercontent.com/aidalabs/Lectures/master/LectureFiles/dataset/Heart.csv')
dataframe = pd.read_csv(URL)
dataframe.head()

HTTPError: ignored

- 데이터를 훈련 세트(Training Set), 검증 세트(Validation Set), 테스트 세트(Test Set)로 분할하기

In [None]:
train, test = train_test_split(dataframe, test_size=0.2)
train, val = train_test_split(train, test_size=0.2)
print(len(train), '훈련 샘플')
print(len(val), '검증 샘플')
print(len(test), '테스트 샘플')

- tf.data를 사용하여 입력 파이프라인 만들기
    - tf.data를 사용하여 데이터프레임을 감싸면 특성 열을 사용하여 판다스 데이터프레임의 열을 모델 훈련에 필요한 특성으로 매핑할 수 있음

In [None]:
# 판다스 데이터프레임으로부터 tf.data 데이터셋을 만들기 위한 함수
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
  dataframe = dataframe.copy()
  labels = dataframe.pop('target')
  ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))
  if shuffle:
    ds = ds.shuffle(buffer_size=len(dataframe))
  ds = ds.batch(batch_size)
  return ds

In [None]:
# 간단하게 출력하기 위해 작은 배치 크기를 사용함
batch_size = 5
train_ds = df_to_dataset(train, batch_size=batch_size)
val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size)

- 입력 파이프라인 이해하기
    - 앞에서 만든 입력 파이프라인을 호출하여 반환되는 데이터 포맷을 확인함
    - 이 데이터셋은 (DataFrame의) 열 이름을 키로 갖는 딕셔너리를 반환함
    - DataFrame 열의 값이 매핑되어 있음

In [None]:
for feature_batch, label_batch in train_ds.take(1):
  print('전체 특성:', list(feature_batch.keys()))
  print('나이 특성의 배치:', feature_batch['age'])
  print('타깃의 배치:', label_batch )

### 3-3. 여러 종류의 특성 열 알아 보기

- 몇 가지 특성 열을 만들어서 데이터프레임의 열을 변환하는 방법을 확인함

In [None]:
# 특성 열을 시험해 보기 위해 샘플 배치를 만듭니다.
example_batch = next(iter(train_ds))[0]

In [None]:
# 특성 열을 만들고 배치 데이터를 변환하는 함수
def demo(feature_column):
  feature_layer = layers.DenseFeatures(feature_column)
  print(feature_layer(example_batch).numpy())

- 수치형 열(Numerical Column)
    - 가장 간단한 종류의 열
    - 실수 특성을 표현하는데 사용
    - 이 열을 사용하면 모델은 데이터프레임 열의 값을 변형시키지 않고 그대로 전달 받음
    - 특성 열의 출력은 모델의 입력이 됨
    - 심장병 데이터셋 데이터프레임의 대부분 열은 수치형임

In [None]:
age = feature_column.numeric_column("age")
demo(age)

- 버킷형 열(Bucketized Column)
	- 종종 모델에 수치 값을 바로 주입하기 원치 않을 때, 수치 값의 구간을 나누어 이를 기반으로 범주형으로 변환
	- 이때 수치 데이터를 수치형 열로 표현하는 대신 버킷형 열을 사용하여 몇 개의 버킷(bucket)으로 분할할 수 있음
	- 분할 후, 원-핫 인코딩(one-hot encoding)된 값은 각 열이 매칭되는 나이 범위를 나타냄


In [None]:
age_buckets = feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
demo(age_buckets)

- 범주형 열(Categorical Column)
	- 이 데이터셋에서 thal 열은 문자열(예: 'fixed', 'normal', 'reversible')
	- 모델에 문자열을 바로 주입할 수 없으므로 문자열을 먼저 수치형으로 매핑해야 함
	- 범주형 열을 사용하여 문자열을 원-핫 벡터로 표현
	- 문자열 목록은 categorical_column_with_vocabulary_list를 사용하여 리스트로 전달하거나 categorical_column_with_vocabulary_file을 사용하여 파일에서 읽을 수 있음

In [None]:
thal = feature_column.categorical_column_with_vocabulary_list(
      'thal', ['fixed', 'normal', 'reversible'])

thal_one_hot = feature_column.indicator_column(thal)
demo(thal_one_hot)

- 임베딩 열(Embedding Column)
    - 가능한 문자열이 몇 개가 있는 것이 아니라 범주마다 수천 개 이상의 값이 있는 경우, 여러 가지 이유로 범주의 개수가 늘어남에 따라 원-핫 인코딩을 사용하여 신경망을 훈련시키는 것이 불가능해 질 수 있음(임베딩 열을 사용하면 이런 제한을 극복할 수 있음)
    - 고차원 원-핫 벡터로 데이터를 표현하는 대신 임베딩 열을 사용하여 저차원으로 데이터를 표현함
    - 이 벡터는 0 또는 1이 아니라 각 원소에 어떤 숫자도 넣을 수 있는 밀집 벡터(dense vector) 임
    - 임베딩의 크기는 튜닝 대상 파라미터
    - 범주형 열에 가능한 값이 많을 때는 임베딩 열을 사용하는 것이 최선이라고 할 수 있음

In [None]:
# 임베딩 열의 입력은 앞서 만든 범주형 열입니다.
thal_embedding = feature_column.embedding_column(thal, dimension=8)
demo(thal_embedding)

- 해시 특성 열
    - 가능한 값이 많은 범주형 열을 표현하는 또 다른 방법은 categorical_column_with_hash_bucket을 사용하는 것
    - 이 특성 열은 입력의 해시(hash) 값을 계산한 다음 hash_bucket_size 크기의 버킷 중 하나를 선택하여 문자열을 인코딩함
    - 이 열을 사용할 때는 어휘 목록을 제공할 필요가 없고 공간을 절약하기 위해 실제 범주의 개수보다 훨씬 작게 해시 버킷(bucket)의 크기를 정할 수 있음
    - 이 기법의 큰 단점은 다른 문자열이 같은 버킷에 매핑될 수 있다는 것이지만 실전에서는 대체로 잘 작동함

In [None]:
thal_hashed = feature_column.categorical_column_with_hash_bucket(
      'thal', hash_bucket_size=1000)
demo(feature_column.indicator_column(thal_hashed))

- 교차 특성 열(Feature Cross Column)
    - 여러 특성을 연결하여 하나의 특성으로 만드는 것
    - 모델이 특성의 조합에 대한 가중치를 학습할 수 있음
    - crossed_column은 모든 가능한 조합에 대한 해시 테이블을 만들지 않고 hashed_column 매개변수를 사용하여 해시 테이블의 크기를 선택함

In [None]:
crossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
demo(feature_column.indicator_column(crossed_feature))

### 3-4. 사용할 열 선택하기

- 제대로 된 모델을 만들어야 한다면 대용량의 데이터셋을 사용하고 어떤 특성을 포함하는 것이 가장 의미있는지, 또 어떻게 표현해야 할지 신중하게 생각하여야 함

In [None]:
feature_columns = []

# 수치형 열
for header in ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'slope', 'ca']:
  feature_columns.append(feature_column.numeric_column(header))

# 버킷형 열
age_buckets = feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
feature_columns.append(age_buckets)

# 범주형 열
thal = feature_column.categorical_column_with_vocabulary_list(
      'thal', ['fixed', 'normal', 'reversible'])
thal_one_hot = feature_column.indicator_column(thal)
feature_columns.append(thal_one_hot)

# 임베딩 열
thal_embedding = feature_column.embedding_column(thal, dimension=8)
feature_columns.append(thal_embedding)

# 교차 특성 열
crossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
crossed_feature = feature_column.indicator_column(crossed_feature)
feature_columns.append(crossed_feature)

### 3-5. 특성 층 만들기

- 특성 열을 정의하고 나면 DenseFeatures 층을 사용해 케라스 모델에 주입할 수 있음

In [None]:
feature_layer = tf.keras.layers.DenseFeatures(feature_columns)

In [None]:
# 앞에서는 특성 열의 작동 예를 보이기 위해 작은 배치 크기를 사용했으나
# 여기에서는 조금 더 큰 배치 크기로 입력 파이프라인을 만듦
batch_size = 32
train_ds = df_to_dataset(train, batch_size=batch_size)
val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size)

## **4. 모델 생성, 컴파일, 훈련**

- 여기서는 그냥 작동 상황만 확인함
- 관련된 부분은 DNN 구현에서 다시 확인

In [None]:
model = tf.keras.Sequential([
  feature_layer,
  layers.Dense(128, activation='relu'),
  layers.Dense(128, activation='relu'),
  layers.Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(train_ds,
          validation_data=val_ds,
          epochs=5)

In [None]:
loss, accuracy = model.evaluate(test_ds)
print("정확도", accuracy)