<a href="https://colab.research.google.com/github/PingPingE/Learn_ML_DL/blob/main/ch13_tensorflow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텐서플로에서 데이터 적재와 전처리하기
- 메모리 용량에 맞지 않는 큰 규모의 데이터셋으로 딥러닝 시스템을 훈련해야 하는 경우 -> 데이터 API
- 데이터 API로 대규모의 데이터셋을 효율적으로 로드하고 전처리할 수 있다.

# 데이터 API
- 전체적인 데이터 API의 중심에는 <strong>연속된 데이터 샘플인 Dataset</strong> 개념이 있다.
- 일반적으로 <strong>디스크에서 데이터를 점진적으로 읽는</strong> 데이터셋을 사용한다.


In [1]:
import tensorflow as tf

###  Dataset 객체를 만들고 데이터를 읽어 올 위치와 변환 방법을 지정하면 된다

#### from_tensor_slices(): 텐서를 받아 X의 <strong>각 원소가 아이템으로 표현</strong>되는 <strong>tf.data.Dataset</strong>을 만든다. 


In [7]:
X=tf.range(10)
dataset=tf.data.Dataset.from_tensor_slices(X)
dataset # = tf.data.Dataset.range(10)

<TensorSliceDataset shapes: (), types: tf.int32>

In [3]:
for item in dataset: #dataset의 각 원소를 '원소', '아이템', '슬라이스' 등으로 부름
  print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


### 연쇄 변환

#### repeat 및 batch 메서드

In [8]:
dataset=dataset.repeat(3).batch(7) #원본 dataset의 아이템을 세차례 반복하는 새로운 dataset반환, 7개 그룹으로 묶어서 새로운 dataset 반환
for item in dataset:
  print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
tf.Tensor([8 9], shape=(2,), dtype=int32)


#### map 메서드: <strong>각 아이템</strong>에 변환 적용

In [9]:
dataset=dataset.map(lambda x: x*2) 

In [10]:
for item in dataset:
  print(item)

tf.Tensor([ 0  2  4  6  8 10 12], shape=(7,), dtype=int32)
tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)
tf.Tensor([ 2  4  6  8 10 12 14], shape=(7,), dtype=int32)
tf.Tensor([16 18], shape=(2,), dtype=int32)


#### apply 메서드: <strong>전체</strong>에 변환 적용

In [11]:
dataset=dataset.apply(tf.data.experimental.unbatch()) #unbatch함수를 적용하면 기존의 7개의 정수로 이루어진 배치가 아니라, 하나의 정수 텐서가 된다.

Instructions for updating:
Use `tf.data.Dataset.unbatch()`.


In [12]:
for item in dataset:
  print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, sh

#### filter 메서드: 데이터셋 필터링

In [13]:
dataset=dataset.filter(lambda x: x<10)
for item in dataset:
  print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


#### take 메서드: 데이터셋에 있는 몇 개의 아이템만 보고 싶을 때

In [14]:
for item in dataset.take(3): #몇 개의 아이템만 보고 싶다면 take 메서드를 사용
  print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


## 데이터 셔플링
경사 하강법은 훈련 세트에 있는 샘플이 <strong>독립적이고 동일한 분포일 때 최고의 성능</strong>을 발휘한다.
그래서 <strong>shuffle()</strong>메서드를 사용해서 샘플을 섞는다.

### shuffle
1. 먼저 원본 데이터셋의 처음 아이템을 <strong>buffer_size 개수만큼 추출</strong>해서 버퍼에 채운다. 
2. 그 다음 새로운 아이템이 <strong>요청</strong>되면 <strong>이 버퍼에서 랜덤하게 하나를 꺼내 반환</strong>한다.
3. 그리고 원본 데이터셋에서 새로운 아이템을 <strong>추출</strong>해서 <strong>비워진 버퍼를 또 채운다</strong>.
4. 1~3을 원본 데이터셋의 <strong>모든 아이템이 사용될 때까지 반복</strong>한다. 
5. 그 다음엔 <strong>버퍼가 비워질 때까지</strong> 계속해서 랜덤하게 아이템을 <strong>반환</strong>한다.

In [15]:
dataset=tf.data.Dataset.range(10).repeat(3)#0~9까지 세 번 반복
dataset=dataset.shuffle(buffer_size=5, seed=42).batch(7) #프로그램을 실행할 때마다 셔플링되는 순서를 동일하게 하려면 seed를 부여한다.
for item in dataset:
  print(item)

tf.Tensor([0 2 3 6 7 9 4], shape=(7,), dtype=int64)
tf.Tensor([5 0 1 1 8 6 5], shape=(7,), dtype=int64)
tf.Tensor([4 8 7 1 2 3 0], shape=(7,), dtype=int64)
tf.Tensor([5 4 2 7 8 9 9], shape=(7,), dtype=int64)
tf.Tensor([3 6], shape=(2,), dtype=int64)


In [None]:
for item in dataset.repeat(3):
  print(item)

tf.Tensor([3 5 2 1 8 4 0], shape=(7,), dtype=int64)
tf.Tensor([1 2 3 7 9 5 0], shape=(7,), dtype=int64)
tf.Tensor([7 4 0 9 6 8 1], shape=(7,), dtype=int64)
tf.Tensor([2 6 6 4 9 8 5], shape=(7,), dtype=int64)
tf.Tensor([7 3], shape=(2,), dtype=int64)
tf.Tensor([2 1 3 5 8 9 4], shape=(7,), dtype=int64)
tf.Tensor([1 0 7 3 5 6 7], shape=(7,), dtype=int64)
tf.Tensor([2 4 9 1 0 3 6], shape=(7,), dtype=int64)
tf.Tensor([0 4 7 5 2 8 6], shape=(7,), dtype=int64)
tf.Tensor([9 8], shape=(2,), dtype=int64)
tf.Tensor([1 4 6 7 5 2 3], shape=(7,), dtype=int64)
tf.Tensor([8 2 0 0 3 5 1], shape=(7,), dtype=int64)
tf.Tensor([4 8 0 6 9 9 2], shape=(7,), dtype=int64)
tf.Tensor([5 3 7 4 1 8 6], shape=(7,), dtype=int64)
tf.Tensor([9 7], shape=(2,), dtype=int64)


#### 실습

In [16]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
housing = fetch_california_housing()

Downloading Cal. housing from https://ndownloader.figshare.com/files/5976036 to /root/scikit_learn_data


In [17]:
X_train_full, X_test, y_train_full, y_test = train_test_split(housing.data, housing.target)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_full, y_train_full)

In [18]:
import pandas as pd
X_train_df=pd.DataFrame(X_train, columns=housing.feature_names)
X_valid_df=pd.DataFrame(X_valid, columns=housing.feature_names)
X_test_df=pd.DataFrame(X_test, columns=housing.feature_names)

In [19]:
X_train_df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,5.7789,13.0,6.324242,0.948485,1165.0,3.530303,32.63,-117.03
1,2.4286,32.0,5.029825,1.078947,1705.0,2.991228,36.77,-119.83
2,3.6034,16.0,3.220957,1.054670,793.0,1.806378,34.44,-119.82
3,5.0100,20.0,17.546099,4.432624,338.0,2.397163,37.65,-118.99
4,3.3690,25.0,4.610512,1.082210,1681.0,2.265499,32.80,-116.96
...,...,...,...,...,...,...,...,...
11605,2.6513,42.0,5.674208,1.092760,1035.0,2.341629,35.37,-119.03
11606,4.5461,33.0,4.696133,1.019337,981.0,2.709945,33.93,-117.97
11607,6.0487,24.0,7.207080,1.030088,1834.0,3.246018,34.26,-118.78
11608,2.5694,27.0,3.143770,0.955272,777.0,2.482428,34.43,-119.72


- train/valid/test csv파일로 만들기

In [20]:
X_train_df.to_csv("my_train.csv", index=False)
X_test_df.to_csv("my_test.csv", index=False)
X_valid_df.to_csv("my_valid.csv", index=False)

- 파일 경로 list

In [21]:
file_paths=[]

In [31]:
cd 

[0m[01;34mbin[0m/      [01;34mdatalab[0m/  [01;34mhome[0m/   [01;34mlib64[0m/  [01;34mopt[0m/   [01;34mrun[0m/   [01;34msys[0m/                [01;34mtools[0m/
[01;34mboot[0m/     [01;34mdev[0m/      [01;34mlib[0m/    [01;34mmedia[0m/  [01;34mproc[0m/  [01;34msbin[0m/  [01;34mtensorflow-1.15.2[0m/  [01;34musr[0m/
[01;34mcontent[0m/  [01;34metc[0m/      [01;34mlib32[0m/  [01;34mmnt[0m/    [01;34mroot[0m/  [01;34msrv[0m/   [30;42mtmp[0m/                [01;34mvar[0m/


In [None]:
cnt=0
for item in tf.data.Dataset.from_tensor_slices(X_train).batch(100):
  file_name=f"train/my_train_{cnt:03}"
  pd.DataFrame(item, columns=housing.feature_names).to_csv(file_name)
  file_paths.append(file_name)
  cnt+=1

FileNotFoundError: ignored

- list_files: 파일 경로를 섞은 데이터셋을 반환(섞는걸 원치 않는다면 shuffle=False 가능)

In [None]:
filepath_dataset=tf.data.Dataset.list_files(file_paths,seed=42)

- interleave: 한 번에 여러 개의 파일을 한 줄씩 번갈아 읽기(각 파일의 첫 번째 줄은 열의 이름이므로 skip메서드를 사용해서 건너뛴다.)

In [None]:
n_readers=5
dataset=filepath_dataset.interleave(
    lambda filepath:tf.data.TextLineDataset(filepath).skip(1), cycle_length=n_readers
)

In [None]:
for item in dataset.take(5):
  print(item)

tf.Tensor(b'2.2656,15.0,4.755364806866953,1.1321888412017167,2383.0,2.04549356223176,35.26,-120.66', shape=(), dtype=string)
tf.Tensor(b'1.1552,44.0,4.273381294964029,1.2158273381294964,325.0,2.338129496402878,36.97,-122.02', shape=(), dtype=string)
tf.Tensor(b'2.8594,20.0,4.151458137347131,1.118532455315146,4818.0,4.532455315145814,33.76,-117.91', shape=(), dtype=string)
tf.Tensor(b'3.4605,52.0,4.838235294117647,0.9963235294117647,1364.0,2.5073529411764706,37.78,-122.46', shape=(), dtype=string)
tf.Tensor(b'5.5427,4.0,6.570291777188329,0.9522546419098143,1234.0,3.273209549071618,38.04,-121.36', shape=(), dtype=string)


----------------
인터리빙이 잘 동작하려면 파일의 길이가 동일한 것이 좋다. 그렇지 않으면 가장 긴 파일의 끝은 인터리빙이 되지 않을 것이다.

- 그리고 바이트 스트링으로 저장된다. 그래서 이를 파싱하고 스케일을 조정할 필요가 있다.

## 데이터 전처리

In [None]:
X_mean,X_std=X_train.mean(), X_train.std()

In [None]:
n_inputs=8
def preprocess(line):
  defs=[0.] *n_inputs+[tf.constant([], dtype=tf.float32)]
  fields=tf.io.decode_csv(line, record_defaults=defs)
  x=tf.stack(fields[:-1])
  y=tf.stack(fields[-1:])
  return (x-X_mean)/X_std,y