# 03.03 Basic Models in TensorFlow (Logistic Regression + Data + CE) 

### MNIST DataSet

![Alt_text](./03_images/05.png)

X: 손으로 쓴 숫자 이미지  
Y: 정답 값    
이미지를 보고 숫자를 인지 하는 문제  

### Model 

Inference: Y_predicted = softmax(X * w + b)  
Cross entropy loss: -log(Y_predicted)  # 크로스 엔트로피 사용

In [1]:
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

import numpy as np
import tensorflow as tf
import time

  from ._conv import register_converters as _register_converters


### 모델에 대한 매개 변수 정의

In [2]:
learning_rate = 0.01
batch_size = 128
n_epochs = 30
n_train = 60000
n_test = 10000

### MNIST 가져오는 Fouction

In [3]:
def safe_mkdir(path):
    """ 디렉토리가 없으면 디렉토리를 만듭니다. """
    try:
        os.mkdir(path)
    except OSError:
        pass

In [10]:
def download_one_file(download_url, 
                    local_dest, 
                    expected_byte=None, 
                    unzip_and_remove=False):
    """ 
    파일이 이미 존재하지 않는 경우. download_url에서 local_dest로 파일 다운로드 한다.
    expected_byte가 제공되며 다운로드 한 파일의 바이트와 같습니다.
    unzip_and_remove가 True이면 파일의 압축을 풀고 zip 파일을 제거합니다.
    """
    if os.path.exists(local_dest) or os.path.exists(local_dest[:-3]):
        print('%s already exists' %local_dest)
    else:
        print('Downloading %s' %download_url)
        local_file, _ = urllib.request.urlretrieve(download_url, local_dest)
        file_stat = os.stat(local_dest)
        if expected_byte:
            if file_stat.st_size == expected_byte:
                print('Successfully downloaded %s' %local_dest)
                if unzip_and_remove:
                    with gzip.open(local_dest, 'rb') as f_in, open(local_dest[:-3],'wb') as f_out:
                        shutil.copyfileobj(f_in, f_out)
                    os.remove(local_dest)
            else:
                print('The downloaded file has unexpected number of bytes')

In [11]:
def download_mnist(path):
    """ 
    데이터 세트가 아직 다운로드되지 않은 경우 다운로드하고 압축 해제합니다.
    다운로드는  http://yann.lecun.com/exdb/mnist 해당 Site 에서 합니다.
    """
    safe_mkdir(path)
    url = 'http://yann.lecun.com/exdb/mnist'
    filenames = ['train-images-idx3-ubyte.gz',
                'train-labels-idx1-ubyte.gz',
                't10k-images-idx3-ubyte.gz',
                't10k-labels-idx1-ubyte.gz']
    expected_bytes = [9912422, 28881, 1648877, 4542]

    for filename, byte in zip(filenames, expected_bytes):
        download_url = os.path.join(url, filename)
        local_dest = os.path.join(path, filename)
        download_one_file(download_url, local_dest, byte, True)

In [12]:
def read_mnist(path, flatten=True, num_train=55000):
    """
     데이터가 경로에 저장되어 있으면 mnist 데이터 세트를 읽습니다.  
     그리고 numpy 배열의 두 튜플을 반환합니다.  
     ((train_imgs, train_labels), (test_imgs, test_labels))  
    """
    imgs, labels = parse_data(path, 'train', flatten)
    indices = np.random.permutation(labels.shape[0]) # 셔플 기능을 제공한다.
    train_idx, val_idx = indices[:num_train], indices[num_train:]
    train_img, train_labels = imgs[train_idx, :], labels[train_idx, :]
    val_img, val_labels = imgs[val_idx, :], labels[val_idx, :]
    test = parse_data(path, 't10k', flatten)
    return (train_img, train_labels), (val_img, val_labels), test # train / test / validation 값들을 넘겨준다.

In [13]:
def parse_data(path, dataset, flatten):
    if dataset != 'train' and dataset != 't10k': # 에러 처리 구문
        raise NameError('dataset must be train or t10k')

    label_file = os.path.join(path, dataset + '-labels-idx1-ubyte') # Label 관련 전체 경로 가져오기
    with open(label_file, 'rb') as file: # 
        _, num = struct.unpack(">II", file.read(8))
        labels = np.fromfile(file, dtype=np.int8) #int8
        new_labels = np.zeros((num, 10))
        new_labels[np.arange(num), labels] = 1
    
    img_file = os.path.join(path, dataset + '-images-idx3-ubyte')
    with open(img_file, 'rb') as file:
        _, num, rows, cols = struct.unpack(">IIII", file.read(16))
        imgs = np.fromfile(file, dtype=np.uint8).reshape(num, rows, cols) #uint8
        imgs = imgs.astype(np.float32) / 255.0
        if flatten:
            imgs = imgs.reshape([num, -1])

    return imgs, new_labels  # image 와 label을 처리 해서 넘겨 준다.

In [14]:
def get_mnist_dataset(batch_size):
    # Step 1: Read in data
    mnist_folder = 'data/mnist'
    download_mnist(mnist_folder)
    train, val, test = read_mnist(mnist_folder, flatten=False)

    # Step 2: Create datasets and iterator
    train_data = tf.data.Dataset.from_tensor_slices(train)
    train_data = train_data.shuffle(10000) # if you want to shuffle your data
    train_data = train_data.batch(batch_size)

    test_data = tf.data.Dataset.from_tensor_slices(test)
    test_data = test_data.batch(batch_size)

    return train_data, test_data  # tf.data를 통해 Tensorflow에 들어갈 Data를 만들고 있다.

In [9]:
def show(image):
    """
    픽셀 데이터의 2차원 배열을 생성 합니다. 
    """
    plt.imshow(image, cmap='gray')
    plt.show()

### Step 1: Read in data

In [None]:
mnist_folder = 'data/mnist'