## mnist.py 파일을 분석해본다

- mnist 파일을 인터넷에서 가져와서 train, test 등으로 분류해주는 함수가 구현되어 있다

In [1]:
# coding: utf-8
# urllib.request 라는 Python 3.x 파일을 사용
try:
    import urllib.request
except ImportError:
    raise ImportError('You should use Python 3.x')
import os.path
import gzip  # 압축풀기
import pickle  # 파일 읽고 쓰기
import os
import numpy as np

# urllib.request라는 함수를 통해서 아래 위치의 압축파일들을 가져올 예정
url_base = 'http://yann.lecun.com/exdb/mnist/'
key_file = {
    'train_img':'train-images-idx3-ubyte.gz',
    'train_label':'train-labels-idx1-ubyte.gz',
    'test_img':'t10k-images-idx3-ubyte.gz',
    'test_label':'t10k-labels-idx1-ubyte.gz'
}

dataset_dir = os.path.dirname(os.path.abspath(__file__))  # 현재 파일의 절대위치를 dataset_dir이라 한다
save_file = dataset_dir + "/mnist.pkl"  # 현재 파일 위치에 나중에 파일 저장할 것. mnist.pkl 이라는 이름으로 

train_num = 60000
test_num = 10000
img_dim = (1, 28, 28)  # 이미지는 1채널, 28x28 이미지이다
img_size = 784

NameError: name '__file__' is not defined

In [None]:



def _download(file_name):
    file_path = dataset_dir + "/" + file_name
    
    if os.path.exists(file_path):  # 이미 다운로드 받았으면 바로 리턴할 것
        return

    print("Downloading " + file_name + " ... ")
    urllib.request.urlretrieve(url_base + file_name, file_path)  # 처음 다운로드 하는 것이라면 urllib.request를 사용해서 가져온다
    print("Done")
    
def download_mnist():
    """
    key_file에는 파일 이름들이 이미 저장되어 있다.
    이걸 하나씩 _download() 함수를 통해 순차적으로 가져오는 것이다. 
    """
    for v in key_file.values():
       _download(v)
        
def _load_label(file_name):
    """
    다운로드 받은 특정 파일 하나를 
    1) gzip으로 푼 다음에 
    2) label을 읽는다. - np.frombuffer() 사용
    """
    file_path = dataset_dir + "/" + file_name
    
    print("Converting " + file_name + " to NumPy Array ...")
    with gzip.open(file_path, 'rb') as f:
            # https://docs.scipy.org/doc/numpy/reference/generated/numpy.frombuffer.html
            # 아래는 8번 부터 np.uint8 type 형태로 가져오라는 것
            labels = np.frombuffer(f.read(), np.uint8, offset=8)
    print("Done")
    
    return labels

def _load_img(file_name):
    """
    위에는 offset 8부터지만 이번에는 16부터 가져오라는 것
    위에는 라벨이고 이건 image 이다
    """
    file_path = dataset_dir + "/" + file_name
    
    print("Converting " + file_name + " to NumPy Array ...")    
    with gzip.open(file_path, 'rb') as f:
            data = np.frombuffer(f.read(), np.uint8, offset=16)
            
    # reshape하라는 것인데, 전체를 img_size로 reshape 하라는 것인가 봄
    data = data.reshape(-1, img_size)
    print("Done")
    
    return data
    
def _convert_numpy():
    # 다운로드 받은 파일들을 nupmy 배열로 바꿔서 저장해줌
    dataset = {}
    dataset['train_img'] =  _load_img(key_file['train_img'])
    dataset['train_label'] = _load_label(key_file['train_label'])    
    dataset['test_img'] = _load_img(key_file['test_img'])
    dataset['test_label'] = _load_label(key_file['test_label'])
    
    return dataset

def init_mnist():
    # 초기화 작업
    download_mnist()  # 전부 다운로드 받은 다음에 
    dataset = _convert_numpy()  # numpy 배열로 바꾼다. 
    print("Creating pickle file ...") # 이것을 일단 pickle 파일로 바꿔둔다. 
    with open(save_file, 'wb') as f:  # pickle 파일을 열어둔 다음에 dataset 딕셔너리를 통째로 pickle로 저장해둔다
        pickle.dump(dataset, f, -1)
    print("Done!")

def _change_ont_hot_label(X):
    """
    1) 그냥 라벨은 1,2 처럼 해당 이미지의 정답 index를 가지고 있다.
    2) one-hot-label은 이를 리스트로 가지고 있다. 
        - 0에서 9중에서 0 이라면 [1,0,0,0,0,0,0,0,0,0] 이런식이다. 
    """
    T = np.zeros((X.size, 10))  # 따라서 총 라벨 갯수 * 10 형태로 만든 다음에 
    for idx, row in enumerate(T): 
        row[X[idx]] = 1  # 각 행의 X[idx] 를 1로 만들어준다
        
    return T
    



In [None]:
# 이게 실제 동작함수이다 
def load_mnist(normalize=True, flatten=True, one_hot_label=False):
    """MNIST 데이터셋 읽기
    
    Parameters
    ----------
    normalize : 이미지의 픽셀 값을 0.0~1.0 사이의 값으로 정규화할지 정한다.
    one_hot_label : 
        one_hot_label이 True면、레이블을 원-핫(one-hot) 배열로 돌려준다.
        one-hot 배열은 예를 들어 [0,0,1,0,0,0,0,0,0,0]처럼 한 원소만 1인 배열이다.
    flatten : 입력 이미지를 1차원 배열로 만들지를 정한다. 
    
    Returns
    -------
    (훈련 이미지, 훈련 레이블), (시험 이미지, 시험 레이블)
    """
    
    # pickel 파일이 없으면 만들어존다 
    if not os.path.exists(save_file):
        init_mnist()
        
    # 만들든, 만들어져 있든, pickel 파일을 읽어와서 다시 dataset 딕셔너리로 풀어준다. 
    with open(save_file, 'rb') as f:
        dataset = pickle.load(f)
    
    # 각각의 픽셀은 0-255 값을 가진다. 
    # 이걸 255로 나누면 0-1 안의 normalized 된 값이 된다 
    if normalize:
        for key in ('train_img', 'test_img'):
            dataset[key] = dataset[key].astype(np.float32)  # 원래는 0-255의 정수였는데 이를 소수점을 쓰는 실수로 바꾸어준다
            dataset[key] /= 255.0
            
    # 그냥 라벨값을, 라벨값만큼의 인덱스 위치만 1인 리스트로 바꿔준다 
    if one_hot_label:
        dataset['train_label'] = _change_ont_hot_label(dataset['train_label'])
        dataset['test_label'] = _change_ont_hot_label(dataset['test_label'])    
    
    # 디폴트는 flatten 되어 있는 것인데 flatten == False 라면
    # 다시 reshape 해주는 것이다. 1*28*28로 
    if not flatten:
         for key in ('train_img', 'test_img'):
            dataset[key] = dataset[key].reshape(-1, 1, 28, 28)

    return (dataset['train_img'], dataset['train_label']), (dataset['test_img'], dataset['test_label']) 


if __name__ == '__main__':
    init_mnist()