# 파일 다운로드
1. url로 파일 다운받아서 저장
2. gz파일형식 압축풀기

In [51]:
import urllib.request as req
import gzip, os, os.path
savepath = "./mnist"
baseurl = "http://yann.lecun.com/exdb/mnist"
files = [
    "train-images-idx3-ubyte.gz",
    "train-labels-idx1-ubyte.gz",
    "t10k-images-idx3-ubyte.gz",
    "t10k-labels-idx1-ubyte.gz"]
# 다운로드
if not os.path.exists(savepath): os.mkdir(savepath)    # 다운받을 폴더 생성    

#http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz  ~ 해당웹페이지 다운링크주소
for f in files:
    url = baseurl + "/" + f
    loc = savepath + "/" + f
    print("download:", url)
    if not os.path.exists(loc):
        req.urlretrieve(url, loc)   #urlretrieve : 해당 url , loc : 여기에 다운로드 해준다. 

# GZip 압축 해제  :  읽고 저장하면 된다.
for f in files:
    gz_file = savepath + "/" + f
    raw_file = savepath + "/" + f.replace(".gz", "")
    print("gzip:", f)
    with gzip.open(gz_file, "rb") as fp:
        body = fp.read()
        with open(raw_file, "wb") as w:
            w.write(body)
print("ok")

download: http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
gzip: train-images-idx3-ubyte.gz
gzip: train-labels-idx1-ubyte.gz
gzip: t10k-images-idx3-ubyte.gz
gzip: t10k-labels-idx1-ubyte.gz
ok


# 뭐한거냐

In [54]:
import struct
def to_csv(name, maxdata):
    # 레이블 파일과 이미지 파일 열기
    lbl_f = open("./mnist/"+name+"-labels-idx1-ubyte", "rb")    #다운받은 레이블 파일 읽기(train/t10k)
    img_f = open("./mnist/"+name+"-images-idx3-ubyte", "rb")    #다운받은 이미지 파일 읽기(train/t10k)
    csv_f = open("./mnist/"+name+".csv", "w", encoding="utf-8")  # .csv파일로 저장
    
    ##########                    헤더 정보 읽기 --- (※1)                 #############
                                                            #  확인 : http://yann.lecun.com/exdb/mnist/
    
                                                            #Train = Test ~ 메타정보 동일 
    ## TRAINING SET LABEL FILE (train-labels-idx1-ubyte)
    ## TEST SET LABEL FILE (t10k-labels-idx1-ubyte)
    mag, lbl_count = struct.unpack(">II", lbl_f.read(8))  # 8byte를 읽는데 [ magic number / itemcount ]로 4bytes 씩 나눈다.
    
    ## TRAINING SET IMAGE FILE (train-images-idx3-ubyte)
    ## TEST SET IMAGE FILE (t10k-images-idx3-ubyte)
    mag, img_count = struct.unpack(">II", img_f.read(8))
    rows, cols = struct.unpack(">II", img_f.read(8))
    pixels = rows * cols
    
    
    
    
    # 이미지 데이터를 읽고 CSV로 저장하기 --- (※2)
    res = []
    for idx in range(lbl_count):     #lbl_count : 위의 메타정보로 부터 얻어왔다. number of items
        if idx > maxdata: break
        label = struct.unpack("B", lbl_f.read(1))[0]   #name+"-labels-idx1-ubyte파일.read()
        bdata = img_f.read(pixels)
        sdata = list(map(lambda n: str(n), bdata))
        csv_f.write(str(label)+",")
        csv_f.write(",".join(sdata)+"\r\n")
        # 잘 저장됐는지 이미지 파일로 저장해서 테스트하기 -- (※3)
        if idx < 10:
            s = "P2 28 28 255\n"
            s += " ".join(sdata)
            iname = "./mnist/{0}-{1}-{2}.pgm".format(name,idx,label)
            with open(iname, "w", encoding="utf-8") as f:
                f.write(s)
    csv_f.close()
    lbl_f.close()
    img_f.close()

#메인코드 :  결과를 파일로 출력하기 --- (※4)
to_csv("train", 1000)   #6만건 중 1천건 훈련데이터
to_csv("t10k", 500)     #6만건 중 500건 테스트데이터

PermissionError: [Errno 13] Permission denied: './mnist/t10k.csv'

# 훈련코드

In [48]:
from sklearn import model_selection, svm, metrics
# CSV 파일을 읽어 들이고 가공하기 --- (※1)
def load_csv(fname):
    labels = []
    images = []
    with open(fname, "r") as f:
        for line in f:
            cols = line.split(",")
            if len(cols) < 2: continue
            labels.append(int(cols.pop(0)))
            vals = list(map(lambda n: int(n) / 256, cols))
            images.append(vals)
    return {"labels":labels, "images":images}
data = load_csv("./mnist/train.csv")  #train 데이터
test = load_csv("./mnist/t10k.csv")   #test 데이터
# 학습하기 --- (※2)
clf = svm.SVC()                            #sv R :회귀 / sv C :분류
                                           #c 크면 규제가 크다.  
                                           #gamma _ 분산 :
                                           #커널 ; 비선형이라도 나올 수 있도록
clf.fit(data["images"], data["labels"])
# 예측하기 --- (※3)
predict = clf.predict(test["images"])
# 결과 확인하기 --- (※4)
ac_score = metrics.accuracy_score(test["labels"], predict)  #예측치, 실측치를 인수로 받는다.
cl_report = metrics.classification_report(test["labels"], predict)
print("정답률 =", ac_score)
print("리포트 =")
print(cl_report)



정답률 = 0.7884231536926147
리포트 =
              precision    recall  f1-score   support

           0       0.87      0.93      0.90        42
           1       0.81      1.00      0.89        67
           2       0.84      0.69      0.76        55
           3       0.87      0.57      0.68        46
           4       0.76      0.75      0.75        55
           5       0.63      0.80      0.71        50
           6       0.97      0.67      0.79        43
           7       0.74      0.86      0.79        49
           8       0.91      0.72      0.81        40
           9       0.71      0.81      0.76        54

    accuracy                           0.79       501
   macro avg       0.81      0.78      0.78       501
weighted avg       0.80      0.79      0.79       501



# 타이핑

In [55]:
name= 'train'
lbl_f = open("./mnist/"+name+"-labels-idx1-ubyte", "rb")
mag, lbl_count = struct.unpack(">II", lbl_f.read(8))
mag, lbl_count

label = struct.unpack("B", lbl_f.read(1))[0]   #name+"-labels-idx1-ubyte파일.read()
bdata = img_f.read(pixels)
sdata = list(map(lambda n: str(n), bdata))
csv_f.write(str(label)+",")
csv_f.write(",".join(sdata)+"\r\n")

NameError: name 'csv_f' is not defined