#### DataSet Download
- Data URL 사용
    * urllib 패키지 활용 => from urllib.request import urlretrieve
    * 함수 :

In [1]:
# 모듈로딩
from urllib.request import urlretrieve
import os

# pytorch의 내장 image dataset
from torchvision import datasets

In [2]:
LOGO_URL = "https://www.google.co.kr/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png"
PATH = "../image"
FILE_NAME = "../image/logo.png"

In [3]:
# Data 저장 폴더 존재 여부 체크 후 생성
if not os.path.exists(PATH) :
    os.mkdir(PATH)

In [4]:
# Data Download 후 Image 저장
urlretrieve(LOGO_URL, FILE_NAME)            # urlretrieve(URL 경로, 저장할 폴더의 파일명) 

('../image/logo.png', <http.client.HTTPMessage at 0x2b85eeaa3d0>)

In [5]:
PATHS = "../data"
# Data 저장 폴더 존재 여부 체크 후 생성
if not os.path.exists(PATHS) :
    os.mkdir(PATHS)

In [6]:
# MNIST DataSet Download
datasets.MNIST("../data/", download=True)

Dataset MNIST
    Number of datapoints: 60000
    Root location: ../data/
    Split: Train

- Binary Data read

In [7]:
# Data File List 생성
MNIST_PATH = "../data/MNIST/raw/"

filelist = os.listdir(MNIST_PATH)
print(f"File List => {filelist}")               # 확장자명 : .gz 는 압축파일

File List => ['t10k-images-idx3-ubyte', 't10k-images-idx3-ubyte.gz', 't10k-labels-idx1-ubyte', 't10k-labels-idx1-ubyte.gz', 'train-images-idx3-ubyte', 'train-images-idx3-ubyte.gz', 'train-labels-idx1-ubyte', 'train-labels-idx1-ubyte.gz']


In [8]:
# 압축 파일 삭제 (확장자명 : .gz 는 압축파일)
for file in filelist :
    if file.endswith(".gz") :
        filelist.remove(file)

print(f"File List => \n{filelist}")     

File List => 
['t10k-images-idx3-ubyte', 't10k-labels-idx1-ubyte', 'train-images-idx3-ubyte', 'train-labels-idx1-ubyte']


In [9]:
# Data File Read
# with open(MNIST_PATH + filelist[0], encoding = "utf-8") as f :
#     data = f.read(50)
#     print(data)

# ==> text가 아닌데 text로 읽어드릴려고 해서 ERROR

with open(MNIST_PATH+filelist[0], mode = "rb") as f :
    data = f.read(50)
    print(data)

b"\x00\x00\x08\x03\x00\x00'\x10\x00\x00\x00\x1c\x00\x00\x00\x1c\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00"


- Binary Data를 원하는 자료형으로 읽기
* Python 내장 Module struct 사용

In [10]:
# Module Loading
import struct 

In [11]:
# Data File Read
with open(MNIST_PATH+filelist[0], mode = "rb") as f :
    data = f.read(4)                           # 앞쪽에 4Byte가 있어서 가져와야함
    print(struct.unpack(">I", data))           # 빅엔디아
    print(struct.unpack("<I", data))           # 리틀엔디아 

## => 빅, 리틀 엔디아를 비교해보니 우리는 빅엔디아에 해당 


(2051,)
(50855936,)


In [12]:
# Data File Read
with open(MNIST_PATH+filelist[0], mode = "rb") as f :
    data = f.read(8)                          
    print(struct.unpack(">II", data))           # 빅엔디아
    print(struct.unpack("<II", data))           # 리틀엔디아 

## => 빅, 리틀 엔디아를 비교해보니 우리는 빅엔디아에 해당 
## 결과값 (매직코드, 데이터 개수)

(2051, 10000)
(50855936, 270991360)


In [13]:
with open(MNIST_PATH+filelist[0], mode = "rb") as f :
    # 파일의 헤데 정보 읽기
    _, cnt = struct.unpack(">II", f.read(8))                   
    # 앞에 4개 매직코드, 앞에 4개 데이터 개수
    rows, cols = struct.unpack(">II", f.read(8))
    # 다음 4개: 행의 개수, 다음 4개 열의 개수

    # Image raw Data
    pixels = f.read(rows*cols)
    print(pixels)
    # => Type은 Byte
    # => 불러온 건 그림 1장에 대한 Data

    # 그림정보 전체를 불러오려면 반복은 cnt 만큼 돌려야함

b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00T\xb9\x9f\x97<$\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xde\xfe\xfe\xfe\xfe\xf1\xc6\xc6\xc6\xc6\xc6\xc6\xc6\xc6\xaa4\x00\x00\x00\x00\x00\x00\x

### 이떄까지 한 것들
- 이미지 데이터를 이미지 파일로 주는게 아니고, 코드 형식으로 주어짐 
- 코드를 추출해서 우리가 데이터셋을 만들어서 사용을 해야함

- 학습용 이미지 6만장
- 1) 이미지 피쳐 데이터 => train-images-idx3
- 2) 라벨 데이터 (이 이미지가 뭐다라고 설명해주는) => train-labels-idx1
- 1)과 2)를 묶어야 1개의 DataSet이 됨 

In [15]:
# Data FIle Read and DataSet  File 생성
def makeDataFile(imgfile, labelfile, datasetfile, dataLength = None) :   # Data개수 말고 내가 필요한 개수만큼 출력하고 싶을 때
    with open(imgfile, mode = "rb") as data_f :
        with open(labelfile, mode = "rb") as label_f :
            with open(datasetfile, mode = "w") as dataset_f :

                # 파일의 헤더 정보 읽기
                _, img_cnt = struct.unpack(">II", data_f.read(8))          # img_cnt: 총 이미지 개수
                rows, cols = struct.unpack(">II", data_f.read(8))

                _, _ = struct.unpack(">II", label_f.read(8))               # 마우스 커서 이동 때문에 사용


                # 이미지 데이터 개수의 리미트를 주고 싶으면 
                if dataLength : dataLength = img_cnt

                for n in range(img_cnt) :
                    # 이미지 raw 데이터
                    pixcels = data_f.read(rows*cols)
                    sdata = list(map(lambda n:str(n), pixels))
                    # print(sdata)

                    # image label
                    label = struct.unpack("B", label_f.read(1))[0]
                    # print(label)

                    # Feature, Label Conect => 
                    sdata.append(str(label))
                    # print(sdata)

                    # Data File Record
                    img_label =  ",".join(sdata)
                    dataset_f.write(img_label+"\n")
                    # print(",".join(sdata))

In [16]:
DS_PATH = "../data/"
TRAIN_FILE = DS_PATH+"mnist__train.csv"
TEST_FILE = DS_PATH+"mnist__test.csv"
MNIST_PATH = "../data/MNIST/raw/"

makeDataFile(MNIST_PATH+filelist[0], MNIST_PATH+filelist[1], TEST_FILE)
makeDataFile(MNIST_PATH+filelist[2], MNIST_PATH+filelist[3], TRAIN_FILE)