## 손글씨 숫자 인식하기

	` mnist에서 공개하는 데이터 사용
	` http://yann.lecun.com/exdb/mnist
    ` 6만개의 학습용 데이터와 1만개의 검증용 데이터로 구성됨 ( 총 7만개 데이타 )

	train-images-idx3-ubyte.gz:  training set images (9912422 bytes) 
	train-labels-idx1-ubyte.gz:  training set labels (28881 bytes) 
	t10k-images-idx3-ubyte.gz:   test set images (1648877 bytes) 
	t10k-labels-idx1-ubyte.gz:   test set labels (4542 bytes)

	위 4개의 파일에는 수많은 손글씨 이미지가 자체적인 데이타베이스 형식으로 들어 있다.
	해당 형식을 분석해야 이미지 같은 데이터를 얻어서 활용할 수 있다.
	제공되는 4개의 압축파일을 다운받아 Gzip 압축을 우선 해제해야 한다.

	train-images-idx3-ubyte.gz : 6만개의 이미지 정보 저장
	train-labels-idx1-ubyte.gz : 해당 이미지에 어떤 숫자인지 정보 저장

	[결과] 압축푼 4개의 파일의 제목을 보며 위의 사이트에서 확인하면 구조 확인	  
    
    [작업] 이미 data 폴더와 mnist 폴더를 생성한다

## 1. 데이타 다운받아 압축풀기

In [1]:

import urllib.request as req
import gzip, os, os.path
savepath = "./mnist"
baseurl = "http://yann.lecun.com/exdb/mnist"
files = [
    "train-images-idx3-ubyte.gz",
    "train-labels-idx1-ubyte.gz",
    "t10k-images-idx3-ubyte.gz",
    "t10k-labels-idx1-ubyte.gz"]

# 다운로드
if not os.path.exists(savepath): os.mkdir(savepath)
for f in files:
    url = baseurl + "/" + f
    loc = savepath + "/" + f
    print("download:", url)
    if not os.path.exists(loc):
        req.urlretrieve(url, loc)

# GZip 압축 해제
for f in files:
    gz_file = savepath + "/" + f
    raw_file = savepath + "/" + f.replace(".gz", "")
    print("gzip:", f)
    with gzip.open(gz_file, "rb") as fp:
        body = fp.read()
        with open(raw_file, "wb") as w:
            w.write(body)
print("ok")

download: http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
gzip: train-images-idx3-ubyte.gz
gzip: train-labels-idx1-ubyte.gz
gzip: t10k-images-idx3-ubyte.gz
gzip: t10k-labels-idx1-ubyte.gz
ok


##  2. 바이너리 파일들을 CSV파일로 변환하기

	 압축푼 파일들을 바이러니 값들이기에 다루기 어렵다
	 이 바이러니 파일들을 다루기 쉬운 CSV파일로 변환할 것이다.

	 [ 다음과 같은 CSV 파일 ]
	 레이블, 28 * 28의 픽셀 데이타
	 5, 0,0,0,0,0,0, 30, 80, 100, . . . 

	 [결과] train.csv와 t10k.csv 학습테이타와 테스트데이타 생성하고
	 확인할 수 있도록 10개씩 이미지 파일(pgm)로 저장한다.
	 해당 pgm 파일은 볼 수 있는 이미지뷰어 프로그램을 설치하면 볼 수 있다

In [2]:
import struct

def to_csv(name, maxdata):
    # 레이블 파일과 이미지 파일 열기
    # data폴더를 미리 생성하기
    lbl_f = open("./mnist/"+name+"-labels-idx1-ubyte", "rb") # r: 열기 rb: 바이너리 파일 열기
    img_f = open("./mnist/"+name+"-images-idx3-ubyte", "rb")
    csv_f = open("./data/"+name+".csv", "w", encoding="utf-8")


    # 헤더 정보 읽기 ---
	# 이미지 크기 정보 8바이트
    mag, lbl_count = struct.unpack(">II", lbl_f.read(8))
    mag, img_count = struct.unpack(">II", img_f.read(8))
    rows, cols = struct.unpack(">II", img_f.read(8))
    pixels = rows * cols
    # 이미지 데이터를 읽고 CSV로 저장하기 --- 
    res = []
    for idx in range(lbl_count):
        if idx > maxdata: break
		# 원하는 바이너리 수만큼 읽어들이고 정수로 변환하기
        label = struct.unpack("B", lbl_f.read(1))[0]
        bdata = img_f.read(pixels)
        sdata = list(map(lambda n: str(n), bdata))
        csv_f.write(str(label)+",")
        csv_f.write(",".join(sdata)+"\r\n")
        # 잘 저장됐는지 이미지 파일로 저장해서 테스트하기 --
        if idx < 10:
            s = "P2 28 28 255\n"
            s += " ".join(sdata)
            iname = "./data/{0}-{1}-{2}.pgm".format(name,idx,label)
            with open(iname, "w", encoding="utf-8") as f:
                f.write(s)
    csv_f.close()
    lbl_f.close()
    img_f.close()

    
# ----------------------------    
# 결과를 파일로 출력하기 
# 6만 데이타 처리가 오래걸리기 때문에 학습데이타 1000개, 테스트데치타 500개를 CSV에 저장한다.





## 3. csv 파일 읽어서 학습데이타와 테스트데이타 준비

In [None]:
from sklearn import model_selection, svm, metrics

"""
 CSV 파일을 읽어 들이고 가공하기 
	 [ 다음과 같은 CSV 파일 ]
	 레이블, 28 * 28의 픽셀 데이타
	 5, 0,0,0,0,0,0, 30, 80, 100, . . . 
"""

def load_csv(fname):
    labels = []
    images = []
    with open(fname, "r") as f:
        for line in f:
            cols = line.split(",")
            if len(cols) < 2: continue
            labels.append(int(cols.pop(0)))
			# 이미지 데이터의 각 픽셀은 0~255 정수인데 255로 나누어 실수로 변경
			# lambda 이해 : https://wikidocs.net/64
            vals = list(map(lambda n: int(n) / 256, cols))
            images.append(vals)
    return {"labels":labels, "images":images}

data = load_csv("./data/train.csv")
test = load_csv("./data/t10k.csv")

## 4. 머신러닝 학습하기 (SVC)


## 5. 예측하고 결과확인



[결과]  79% 정답률

	[다시 확인] 
	to_csv("train", 10000)
	to_csv("t10k", 5000)

	데이타 추출을 크게하고 다시 실행하면 속도가 엄청 느림
	그러나 결과는 90% 이상 나온다