# 손글씨 이미지 데이터(MIST)를 이용한 예측 시스템 
---
- MIST(바이너리 데이터) 
- 바이너리 데이터를 디코딩하여(디코딩 처리법)
- 샘플데이터(전체 데이터의 일부분)을 이용하여 머신러닝 모델을 구축 
- 예측 수행(64%정도 예상)
- 머신러닝 시험(내일) 테스트 => 정확도를 높이는 것  
---

## 1. 연구목표 
- 손글씨 이미지(0-9)를 학습시켜, 새로운 손글씨 이미지가 들어오면 0-9중 어떤것을 예측한다
- 원본데이터를 디코딩하여(바이너리 데이터) 개별 이미지로 저장
- 픽셀데이터를 벡터화 
- 정확도를 94퍼 이상 올리기 
## 2. 데이터 획득/ 수집
- 1.[THE MNIST DATABASE](http://yann.lecun.com/exdb/mnist/)
- 2.사이트를 긁어서, 데이터의 URL을 직접 획득
    - 스크래핑 사용 
        - 
- 3.로컬에 바로 저장(url을 집적 연결하여 로컬 pc에 파일로 원하는 위치에 저장 )
        
## 3. 데이터 준비

In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import urllib.request as rq
# 경로 
import os , os.path, gzip

In [2]:
# path = 'http://yann.lecun.com/exdb/mnist/'
# files = ''
target_url = 'http://yann.lecun.com/exdb/mnist/'

[참고-72번줄](https://github.com/Jerrykim91/Bigdata_Analytics/blob/master/Build_Modeling/Ml/src/1.Sense%20of%20language%20translation%20services%20using%20Ml_full.ipynb)

In [3]:
res  = rq.urlopen(target_url)
soup = BeautifulSoup(res, 'html5lib')

In [4]:
tmp = soup.find_all('tt')[:4]
type(tmp)

list

In [5]:
# bs4 => string(스트링)
# Selenium => 텍스트 
for tt in tmp :
    print(tt.a.string)

train-images-idx3-ubyte.gz
train-labels-idx1-ubyte.gz
t10k-images-idx3-ubyte.gz
t10k-labels-idx1-ubyte.gz


In [6]:
for tt in soup.find_all('tt')[:4] :
    print(target_url + tt.a.string )

http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz


In [7]:
# 다음 단계를 위해서 최종 URL이 담긴 리스트로 전달 하겠다. 
# files  
files = [target_url + tt.a.string for tt in soup.find_all('tt')[:4]]
files

['http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz',
 'http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz',
 'http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz',
 'http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz']

In [8]:
files = [tt.a.string for tt in soup.find_all('tt')[:4]]
files

['train-images-idx3-ubyte.gz',
 'train-labels-idx1-ubyte.gz',
 't10k-images-idx3-ubyte.gz',
 't10k-labels-idx1-ubyte.gz']

In [9]:
# 파일 저장 경로 지정 
# savePath = './data/mnist'
savePath = './data/mnist'
if not os.path.exists(savePath):
    # 디렉토리를만들어라 
    os.makedirs( savePath )
    

In [10]:
# 저장 
for file in files:
    # 로컬에 저장 위치 
    print( '%s/%s' % (savePath ,file))
    

./data/mnist/train-images-idx3-ubyte.gz
./data/mnist/train-labels-idx1-ubyte.gz
./data/mnist/t10k-images-idx3-ubyte.gz
./data/mnist/t10k-labels-idx1-ubyte.gz


In [11]:
from tqdm import tqdm_notebook  # 진행바
# 저장 
for file in tqdm_notebook(files):
    # 로컬에 저장 위치 
    print(f'{savePath}/{file}')
    local_path = f'{savePath}/{file}'
    if not os.path.exists(local_path):
        # 디렉토리를만들어라 
        rq.urlretrieve( target_url + file, local_path)
    

HBox(children=(IntProgress(value=0, max=4), HTML(value='')))

./data/mnist/train-images-idx3-ubyte.gz
./data/mnist/train-labels-idx1-ubyte.gz
./data/mnist/t10k-images-idx3-ubyte.gz
./data/mnist/t10k-labels-idx1-ubyte.gz



In [12]:
# 압축 해제 
for file in tqdm_notebook(files):
    # 원본 파일(* .gz)
    ori_path = f'{savePath}/{file}'
    # 압축 해제 파일 (*) <= .gz 제거
    raw_path = f'{savePath}/{file[:-3]}'
    print(raw_path)
    # 파일 오픈해서 -> 기록 
    with gzip.open(ori_path, 'rb') as fg :
        # 대용량이면 분활해서 
        # 소용량이니까 그냥 전체 읽기 
        tmp = fg.read()
        with open(raw_path, 'wb') as f:
            f.write(tmp)

HBox(children=(IntProgress(value=0, max=4), HTML(value='')))

./data/mnist/train-images-idx3-ubyte
./data/mnist/train-labels-idx1-ubyte
./data/mnist/t10k-images-idx3-ubyte
./data/mnist/t10k-labels-idx1-ubyte



---
- 데이터 중 이미지 레이블 크기 = `4+4+4+4+60000x28x28 = 47040016(byte)`
- 데이터 중 레이블 크기 = `4+4+60000(byte)`
---

## LABEL FILE 구조 
- 구조 
> magic number : 4byte    
> label 개수   : 4byte    
> label : 나머지 ~ (1byte씩)   

---

## IMAGE FILE 구조 
- 구조 
> magic number   : 4byte    
> image 개수     : 4byte    
> image 가로길이 : 4byte    
> image 세로길이 : 4byte    
> 이미지 : 28 * 28(=784)byte image 개수만큼 반복

---

## 정수(integer) 처리
- 구조 
> 정수 값을 읽을떄 앞에서 부터 읽을 것인가 뒤에서 부터 읽을 것인가 ?
> 오더링 (ordering)      


> 빅에디언 

|메모리주소|0x100|0x101|0x102|0x103|
|:--:|:--:|:--:|:--:|:--:|
|값|0x12|0x34|0x56|0x78|

> 리틀 에디언

|메모리주소|0x100|0x101|0x102|0x103|
|:--:|:--:|:--:|:--:|:--:|
|값|0x78|0x56|0x34|0x12|


---
``` bash
TRAINING SET LABEL FILE (train-labels-idx1-ubyte):
[offset] [type]          [value]          [description]
0000     32 bit integer  0x00000801(2049) magic number (MSB first)
0004     32 bit integer  60000            number of items
0008     unsigned byte   ??               label
0009     unsigned byte   ??               label
........
xxxx     unsigned byte   ??               label
The labels values are 0 to 9.

TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
[offset] [type]          [value]          [description]
0000     32 bit integer  0x00000803(2051) magic number
0004     32 bit integer  60000            number of images
0008     32 bit integer  28               number of rows
0012     32 bit integer  28               number of columns
0016     unsigned byte   ??               pixel
0017     unsigned byte   ??               pixel
........
xxxx     unsigned byte   ??               pixel
Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).

TEST SET LABEL FILE (t10k-labels-idx1-ubyte):
[offset] [type]          [value]          [description]
0000     32 bit integer  0x00000801(2049) magic number (MSB first)
0004     32 bit integer  10000            number of items
0008     unsigned byte   ??               label
0009     unsigned byte   ??               label
........
xxxx     unsigned byte   ??               label
The labels values are 0 to 9.

TEST SET IMAGE FILE (t10k-images-idx3-ubyte):
[offset] [type]          [value]          [description]
0000     32 bit integer  0x00000803(2051) magic number
0004     32 bit integer  10000            number of images
0008     32 bit integer  28               number of rows
0012     32 bit integer  28               number of columns
0016     unsigned byte   ??               pixel
0017     unsigned byte   ??               pixel
........
xxxx     unsigned byte   ??               pixel

```
---

## 규격의한 본파일 -> high endian(빅 엔딩안으로 저장 )

In [13]:
# 바이너리 데이터를 읽을때 사용한 모듈
import struct 

In [14]:
def decode_mnist( dataType='train', dir='./data/mnist', samples=1000 ):
    
    label_name = f'{dir}/{dataType}-labels-idx1-ubyte'  
    image_name = f'{dir}/{dataType}-images-idx3-ubyte'
    print(label_name, '\n', image_name)
    
    label_f = open( label_name, 'rb')
    image_f = open( image_name, 'rb')
    
    csv_f = open( f'{dir}/{dataType}.csv', 'w', encoding='utf-8' )

    LABEL_HEAD_SIZE = 4 + 4
    magic, label_cnt = struct.unpack('>II', label_f.read(LABEL_HEAD_SIZE) )
    print(magic, label_cnt)

    IMAGE_HEAD_SIZE = 4 + 4 + 4 + 4
    magic_img, image_cnt, row, col = struct.unpack('>IIII', image_f.read(IMAGE_HEAD_SIZE) )
    print(magic_img, image_cnt, row, col)
    pixels = row * col
    

    for idx in range(label_cnt):
        if idx >= samples:
            break
    
        label_value = struct.unpack( 'B', label_f.read(1) )    
        label = label_value[0] # (5,) => 0번째만 추출

        binary_data = image_f.read( pixels )
        strPixelData= list( map( lambda x:str(x) , binary_data ) ) 
        csv_f.write( str(label) + ',' )
        csv_f.write( ','.join(strPixelData) + '\n' )
        #break
        if idx == 0: # 1회만 수행
            with open('test.pgm', 'w', encoding='utf-8') as f:
                f.write( 'P2 28 28 255\n' + ' '.join(strPixelData) )


    if label_f:label_f.close()
    if image_f:image_f.close()
    if csv_f:csv_f.close()
        
decode_mnist()

./data/mnist/train-labels-idx1-ubyte 
 ./data/mnist/train-images-idx3-ubyte
2049 60000
2051 60000 28 28


In [15]:
# # 함수로 파일을 풀어보겟다
# # dataType : train, t10k

# def decode_mnist( dataType='train', dir='./data/mnist' ):
    
#     label_name = f'{dir}/{dataType}-labels-idx1-ubyte'  
#     image_name = f'{dir}/{dataType}-images-idx3-ubyte'
#     print(label_name, '\n', image_name)
    
#     # 파일오픈
#     label_f = open( label_name, 'rb')
#     image_f = open( image_name, 'rb')
    
#     # -----------------------------------------------------------
#     csv_f = open( f'{dir}/{dataType}.csv', 'w', encoding='utf-8' )
#     # -----------------------------------------------------------
#     LABEL_HEAD_SIZE = 4 + 4
#     magic, label_cnt = struct.unpack('>II', label_f.read(LABEL_HEAD_SIZE) )
#     print(magic, label_cnt)
    
#     IMAGE_HEAD_SIZE = 4 + 4 + 4 + 4
#     magic_img, image_cnt, row, col = struct.unpack('>IIII', image_f.read(IMAGE_HEAD_SIZE) )
#     print(magic_img, image_cnt, row, col)
#     pixels = row * col
#     # -----------------------------------------------------------
#     # 파일닫기
#     if label_f:label_f.close()
#     if image_f:image_f.close()
#     if csv_f:csv_f.close()

# decode_mnist()

In [16]:
decode_mnist( dataType='train', samples=750)
decode_mnist( dataType='t10k' , samples=250)

./data/mnist/train-labels-idx1-ubyte 
 ./data/mnist/train-images-idx3-ubyte
2049 60000
2051 60000 28 28
./data/mnist/t10k-labels-idx1-ubyte 
 ./data/mnist/t10k-images-idx3-ubyte
2049 10000
2051 10000 28 28


In [17]:
# # 최종 학습용 데이터 준비
# decode_mnist( dataType='train', samples=750) # 훈련용
# decode_mnist( dataType='t10k' , samples=250) # 테스트용
# # 최종산출물 -> train.csv, t10k.csv

---

## 4. 데이터 분석 및 탐색 

- 픽셀 데이터의 정규화 추가
- 훈련에 필요한 데이터의 형태도 준비
---

In [18]:
# # csv를 읽이서, 정규화 처리, 훈련할수 있는 형태로 반환
# # dataType : train or t10k

# def load_csv( dataType='train', dir='./data/mnist' ):
#     # 0. 데이터를 담는 자료구조
#     labels = list()
#     images = list()
#     # 1. csv 파일 오픈
#     with open( f'{dir}/{dataType}.csv', 'r' ) as f:
#         # 한줄씩 읽는다
#         for line in f:      
#             # 분해
#             tmp = line.strip().split(',')
#             #print(tmp)
#             # 정답 데이터 담기 -> 타입은 수치로 변환
#             labels.append( int(tmp[0]) )
#             # 각 픽셀을 256개(색상의 총수)로 정규화 하여서 리스트로처리
#             images.append( list( map( lambda x:int(x)/256, tmp[1:] ) ) )
#             #break
#         pass
#     return { 'lables':labels   ,'images':images }

# # load_csv()

In [19]:
def load_csv( dataType='train', dir='./data/mnist' ):

    # 0. 데이터를 담는 자료구조
    labels = list()
    images = list()

    # 1. csv 파일 오픈
    with open( f'{dir}/{dataType}.csv', 'r' ) as f:
    # 한줄씩 읽는다
        for line in f:      
            # 분해
            tmp = line.strip().split(',')
            #print(tmp)
            # 정답 데이터 담기 -> 타입은 수치로 변환
            labels.append( int(tmp[0]) )
            # 각 픽셀을 256개(색상의 총수)로 정규화 하여서 리스트로처리
            images.append( list( map( lambda x:int(x)/256, tmp[1:] ) ) )
    return { 'labels':labels   ,'images':images }

#load_csv()

---

## 5.데이터 모델링 
---

In [20]:
# sklearn 모듈 가져오기
from sklearn import svm, model_selection, metrics

In [21]:
# 알고리즘 생성
clf = svm.SVC()

In [22]:
# 훈련, 테스트 데이터 준비
train = load_csv()
test  = load_csv( dataType='t10k' )
# 데이터 : 75,25
len(train['labels']), len(test['labels'])

(750, 250)

In [23]:
X_train = train['images']
y_train = train['labels']

X_test = test['images']
y_test = test['labels']

In [24]:
# tmp = [i for i in  train['images']]
# print(tmp)

In [25]:
# 3. 학습
clf.fit(X_train, y_train)
# clf.fit( train['images'], train['labels'] )



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [26]:
# 4. 예측
predict = clf.predict( X_test )
# print(predict)

In [27]:
# 5. 성능평가 정확도 확인
metrics.accuracy_score(y_test, predict )

0.788

In [28]:
t = metrics.classification_report( y_test, predict )
print( t )

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       0.79      1.00      0.88        34
           2       0.70      0.67      0.68        24
           3       0.86      0.52      0.65        23
           4       0.79      0.79      0.79        33
           5       0.68      0.84      0.75        25
           6       1.00      0.64      0.78        22
           7       0.81      0.76      0.79        29
           8       0.92      0.79      0.85        14
           9       0.65      0.81      0.72        27

    accuracy                           0.79       250
   macro avg       0.82      0.78      0.79       250
weighted avg       0.80      0.79      0.79       250



In [29]:
# # 세트 전체
# decode_mnist( dataType='train', samples = 60000) 
# decode_mnist( dataType='t10k' , samples = 10000) 

# # 데이터 준비
# train = load_csv()
# test  = load_csv( dataType='t10k' )
# len(train['labels']), len(test['labels']) # 데이터 준비 완료 

# # 담기
# X_train = train['images']
# y_train = train['labels']

# X_test = test['images']
# y_test = test['labels']

# # 정확도 확인
# clf = svm.SVC()
# clf.fit(X_train, y_train)
# predict = clf.predict( X_test )
# metrics.accuracy_score(y_test, predict )
# # 리포트 작성 
# t = metrics.classification_report( y_test, predict )
# print( t )

In [30]:
# 세트 전체
decode_mnist( dataType='train', samples = 60000) 
decode_mnist( dataType='t10k' , samples = 10000) 

./data/mnist/train-labels-idx1-ubyte 
 ./data/mnist/train-images-idx3-ubyte
2049 60000
2051 60000 28 28
./data/mnist/t10k-labels-idx1-ubyte 
 ./data/mnist/t10k-images-idx3-ubyte
2049 10000
2051 10000 28 28


In [31]:
# 데이터 준비
train = load_csv()
test  = load_csv( dataType='t10k' )
len(train['labels']), len(test['labels']) # 데이터 준비 완료 

(60000, 10000)

In [32]:
# 담기
X_train = train['images']
y_train = train['labels']

X_test = test['images']
y_test = test['labels']

In [33]:
# 정확도 확인
clf = svm.SVC()
clf.fit(X_train, y_train)
predict = clf.predict( X_test )



In [34]:
metrics.accuracy_score(y_test, predict )

0.9443

In [35]:
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import SVC

In [36]:
scaler = MinMaxScaler().fit( X_train )
scaler

MinMaxScaler(copy=True, feature_range=(0, 1))

In [37]:
# 스케일러를 통해서 변환
X_train_scaled = scaler.transform( X_train )
X_test_scaled = scaler.transform( X_test ) 

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [38]:
param_grid = {
  'C':[0.001, 0.01, 0.1, 1, 10, 100, 1000],
  'gamma':[0.001, 0.01, 0.1, 1, 10, 100, 1000]
}

In [39]:
# 학습용 데이터
from sklearn import datasets
# 데이터를 학습용과 테스트용으로 나눌수 있는 함수
from sklearn.model_selection import train_test_split
# 데이터 표준화
from sklearn.preprocessing import StandardScaler
# Perceptron 머신러닝을 위한 클래스
from sklearn.linear_model import Perceptron
# 로지스트 회귀를 위한 클래스 
from sklearn.linear_model import LogisticRegression
# SVM을 위한 클래스 
from sklearn.svm import SVC
# 의사결정 나무를 위한 클래스 
from sklearn.tree import DecisionTreeClassifier
# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier
# 정확도 계산을 위한 함수 
from sklearn.metrics import accuracy_score

In [40]:
grid   = GridSearchCV( SVC(), param_grid, cv=5 )
grid_R = RandomForestClassifier(criterion='entropy', n_estimators=10, max_depth=3,n_jobs=2, random_state=0)
grid_L = LogisticRegression(C=1000.0,random_state=0)
grid_S = SVC( kernel='linear', C= 1.0, random_state= 0 )
grid_D = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=0)

In [None]:
grid.fit( X_train, y_train )
print('best_params_ = ',grid.best_params_)
print('best_score_ = ',grid.best_score_)
grid.score( X_test_scaled, y_test )
print('GridSearchCV_done')

In [None]:
# tmp = [grid,grid_R,grid_L,grid_S,grid_D]

# for arg in tqdm_notebook(tmp) :
#     arg.fit( X_train, y_train )
#     arg.score( X_test_scaled, y_test )
#     print('=')

HBox(children=(IntProgress(value=0, max=5), HTML(value='')))

In [None]:
grid.best_params_

In [None]:
grid.best_score_

In [None]:
grid.score( X_test_scaled, y_test )

In [None]:
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler

In [None]:
# 생성 방법 비교
pipe_std1 = Pipeline( [ ('scaler', MinMaxScaler()),
                        ('classifier', SVC())   
                      ] )

pipe_std2 = make_pipeline( MinMaxScaler(), SVC() )

In [None]:
pipe = Pipeline( [  ('preprocessing', StandardScaler()),
                    ('classifier',    SVC())   
                  ] )

In [None]:
# 하이퍼파라미터 튜닝
param_grid = [
  {
    'preprocessing':[StandardScaler(), MinMaxScaler()],
    'classifier':[SVC()],
    'classifier__C':[0.001, 0.01, 0.1, 1, 10, 100, 1000],
    'classifier__gamma':[0.001, 0.01, 0.1, 1, 10, 100, 1000]
  },
  {
    'preprocessing':[None],
    'classifier':[RandomForestClassifier(n_estimators=100)],
    'classifier__max_features':[1,2,3]
  }
]

In [None]:
grid = GridSearchCV( pipe, param_grid, cv=5 )

In [None]:
grid.fit( X_train, y_train )

In [None]:
grid.best_params_

In [None]:
# 최고 점수
grid.best_score_

In [None]:
# 예측및 평가
grid.score( X_test, y_test )

---