# # XOR 연산

- fit() 메서드: 머신러닝에 데이터를 학습시킴. 첫번째 매개변수는 학습 데이터, 두번째 매개변수는 레이블 
- predict() 메서드: 데이터를 넣어 예측시킴

In [1]:
from sklearn import svm

### (1) XOR의 계산 결과 데이터

In [2]:
xor_data = [
    #P, Q, result
    [0, 0, 0],
    [0, 1, 1],
    [1, 0, 1],
    [1, 1, 0]
]

### (2) 학습을 위해 데이터와 레이블 분리하기

In [6]:
data = []
label = []

for row in xor_data:
    p = row[0]
    q = row[1]
    r = row[2]
    data.append([p, q])
    label.append(r)

In [7]:
data

[[0, 0], [0, 1], [1, 0], [1, 1]]

In [8]:
label

[0, 1, 1, 0]

### (3) 데이터 학습시키기

In [9]:
clf = svm.SVC()
clf.fit(data, label)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

### (4) 데이터 예측하기

In [12]:
pre = clf.predict(data)
print("예측결과 :",pre)

예측결과 : [0 1 1 0]


### (5) 결과 확인하기

In [13]:
ok = 0; total = 0

for idx, answer in enumerate(label):
    p = pre[idx]
    if p == answer: ok += 1
    total += 1
    
print("정답률:", ok, "/", total, "=", ok/total)

정답률: 4 / 4 = 1.0


# # 프레임워크로 프로그램 간단하게 작성하기

In [11]:
import pandas as pd
from sklearn import svm, metrics

In [12]:
xor_input = [
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]

### (1) 입력을 학습 전용 데이터와 테스트 전용 데이터로 분류하기

In [14]:
xor_df = pd.DataFrame(xor_input)
xor_data = xor_df.ix[:,0:1] #데이터
xor_label = xor_df.ix[:,2] #레이블

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  from ipykernel import kernelapp as app


### (2) 데이터 학습과 예측하기

In [15]:
clf = svm.SVC()
clf.fit(xor_data, xor_label)
pre = clf.predict(xor_data)

### (3) 정답률 구하기

- metrics.accuracy_score() 함수: 멀티 라벨 분류에서 이 함수는 부분 집합의 정확도를 계산함. 첫번째 매개변수는 실제 라벨, 두번째 매개변수는 예측한 라벨

In [16]:
ac_score = metrics.accuracy_score(xor_label, pre)
print("정답률 =", ac_score)

정답률 = 1.0


# # 붓꽃의 품종 분류하기

In [17]:
from sklearn import svm, metrics
import random, re

### (1) 붓꽃의 csv 데이터 읽어 들이기

- strip() 메서드: 양쪽 공백 제거
- lamda 함수: 내장함수. 익명함수. 한번 쓰이고 다음 줄로 넘어가면 메모리 영역에서 증발. 메모리를 아낌

- 삼항 연산자: (값) = (True일 때의 값) if (조건) else (False일 때의 값)
- 정규 표현식(regular expression): 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어
    ^: 문자열의 처음
    [0-9]: 숫자
    . : 줄바꿈 문자(\n)을 제외한 모든 문자와 매치됨
    +:최소한번이상반복(*는0번이상반복)
    $: 문자열의 마지막
    r: 정규식 내의 ‘\’문자가 파이썬과 충돌하지 않도록 처리
- map 함수: 내장함수. map(f, iterable)은 함수(f)와 반복 가능한(iterable) 자료형을 입력으로 받음. map은 입력 받은 자료형의 각 요소가 함수 f에 의해 수행된 결과를 묶어서 리턴하는 함수

In [19]:
csv = []

with open('data/iris.csv', 'r', encoding = 'utf-8') as fp:
    
    # 한 줄씩 읽어 들이기
    for line in fp:
        line = line.strip() #줄바꿈 제거
        cols = line.split(',') #쉼표로 자르기
        #문자열 데이터를 숫자로 변환하기
        fn = lambda n : float(n) if re.match(r'^[0-9\.]+$', n) else n
        cols = list(map(fn, cols))
        csv.append(cols)
        
# 가장 앞 줄의 헤더 제거
del csv[0]

In [20]:
csv

[[5.1, 3.5, 1.4, 0.2, 'Iris-setosa'],
 [4.9, 3.0, 1.4, 0.2, 'Iris-setosa'],
 [4.7, 3.2, 1.3, 0.2, 'Iris-setosa'],
 [4.6, 3.1, 1.5, 0.2, 'Iris-setosa'],
 [5.0, 3.6, 1.4, 0.2, 'Iris-setosa'],
 [5.4, 3.9, 1.7, 0.4, 'Iris-setosa'],
 [4.6, 3.4, 1.4, 0.3, 'Iris-setosa'],
 [5.0, 3.4, 1.5, 0.2, 'Iris-setosa'],
 [4.4, 2.9, 1.4, 0.2, 'Iris-setosa'],
 [4.9, 3.1, 1.5, 0.1, 'Iris-setosa'],
 [5.4, 3.7, 1.5, 0.2, 'Iris-setosa'],
 [4.8, 3.4, 1.6, 0.2, 'Iris-setosa'],
 [4.8, 3.0, 1.4, 0.1, 'Iris-setosa'],
 [4.3, 3.0, 1.1, 0.1, 'Iris-setosa'],
 [5.8, 4.0, 1.2, 0.2, 'Iris-setosa'],
 [5.7, 4.4, 1.5, 0.4, 'Iris-setosa'],
 [5.4, 3.9, 1.3, 0.4, 'Iris-setosa'],
 [5.1, 3.5, 1.4, 0.3, 'Iris-setosa'],
 [5.7, 3.8, 1.7, 0.3, 'Iris-setosa'],
 [5.1, 3.8, 1.5, 0.3, 'Iris-setosa'],
 [5.4, 3.4, 1.7, 0.2, 'Iris-setosa'],
 [5.1, 3.7, 1.5, 0.4, 'Iris-setosa'],
 [4.6, 3.6, 1.0, 0.2, 'Iris-setosa'],
 [5.1, 3.3, 1.7, 0.5, 'Iris-setosa'],
 [4.8, 3.4, 1.9, 0.2, 'Iris-setosa'],
 [5.0, 3.0, 1.6, 0.2, 'Iris-setosa'],
 [5.0, 3.4, 

### (2) 데이터 셔플하기(섞기)

In [21]:
random.shuffle(csv)

### (3) 학습 전용 데이터와 테스트 전용 데이터 분할하기 (2:1 비율)

- random.shuffle() 함수: 순서형 자료(sequence)를 뒤죽박죽으로 섞어 놓는 함수
 

In [23]:
total_len = len(csv)
train_len = int(total_len * 2 / 3)
train_data = []
train_label = []
test_data = []
test_label = []

for i in range(total_len):
    data = csv[i][0:4]
    label = csv[i][4]
    
    if i < train_len:
        train_data.append(data)
        train_label.append(label)
    else:
        test_data.append(data)
        test_label.append(label)

### (4) 데이터를 학습시키고 예측하기

In [24]:
clf = svm.SVC()
clf.fit(train_data, train_label)
pre = clf.predict(test_data)

### (5) 정답률 구하기

In [25]:
ac_score = metrics.accuracy_score(test_label, pre)
print("정답률 =", ac_score)

정답률 = 0.98


# # 훈련/테스트 전용 데이터로 분할하는 메서드

In [26]:
import pandas as pd
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split

#### (1) 붓꽃의 csv 데이터 읽어 들이기

In [29]:
csv = pd.read_csv('data/iris.csv')

In [31]:
csv.head(3)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa


#### (2) 필요한 열 추출하기

In [34]:
csv_data = csv[["SepalLength", "SepalWidth", "PetalLength", "PetalWidth"]]
csv_label = csv["Name"]

#### (3) 학습 전용 데이터와 테스트 전용 데이터로 나누기

- train_test_split() 메서드: 데이터를 단순히 트레이닝 데이터와 테스트 데이터로 분리함 
- 인수: x, y, train_size - 사이즈, random_state - 난수 시드

In [38]:
train_data, test_data, train_label, test_label = train_test_split(csv_data, csv_label)

In [40]:
train_data.head(3)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth
137,6.4,3.1,5.5,1.8
104,6.5,3.0,5.8,2.2
66,5.6,3.0,4.5,1.5


In [41]:
test_data.head(3)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth
141,6.9,3.1,5.1,2.3
107,7.3,2.9,6.3,1.8
148,6.2,3.4,5.4,2.3


In [42]:
train_label.head(3)

137     Iris-virginica
104     Iris-virginica
66     Iris-versicolor
Name: Name, dtype: object

In [43]:
test_label.head(3)

141    Iris-virginica
107    Iris-virginica
148    Iris-virginica
Name: Name, dtype: object

#### (4) 데이터 학습시키고 예측하기

In [44]:
clf = svm.SVC()
clf.fit(train_data, train_label)
pre = clf.predict(test_data)

#### (5) 정답률 구하기

In [46]:
ac_score = metrics.accuracy_score(test_label, pre)
print("정답률 =", ac_score)

정답률 = 1.0


# # MNIST - 손글씨 숫자 데이터

In [48]:
import urllib.request as req
import gzip, os, os.path

In [49]:
savepath = "./mnist"
baseurl = "http://yann.lecun.com/exdb/mnist"

files = [
    "train-images-idx3-ubyte.gz",
    "train-labels-idx1-ubyte.gz",
    "t10k-images-idx3-ubyte.gz",
    "t10k-labels-idx1-ubyte.gz"
]

In [51]:
if not os.path.exists(savepath): os.mkdir(savepath)

for f in files:
    url = baseurl + "/" + f
    loc = savepath + "/" + f
    print("download:", url)
    if not os.path.exists(loc):
        req.urlretrieve(url, loc)

download: http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
download: http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz


 - “rb”: 바이너리 모드로 읽기 
 - “rw”: 바이너리 모드로 쓰기

In [53]:
# GZip 압축 해제
for f in files:
    gz_file = savepath + "/" + f
    raw_file = savepath + "/" + f.replace(".gz","")
    
    print("gzip:",f)
    
    with gzip.open(gz_file, "rb") as fp: # 읽기
        body = fp.read()
        with open(raw_file, "wb") as w: # 쓰기
            w.write(body)
            
print("ok")

gzip: train-images-idx3-ubyte.gz
gzip: train-labels-idx1-ubyte.gz
gzip: t10k-images-idx3-ubyte.gz
gzip: t10k-labels-idx1-ubyte.gz
ok


## CSV 변환 프로그램

- MNIST 데이터베이스 파일은 6만개의 이미지 정보가 저장된 “–images-idx3-ubype”와 해당 이미지에 어떤 숫자가 적혀있는지를 나타내는 “*-lables-idx1-ubyte”가 있음
- Struct 모듈: 파이썬으로 바이너리 처리
- struct.unpack(): 원하는 바이너리 수만큼 읽어들이고, 정수로 변환할 때 사용
- 데이터는 리틀 엔디안으로 저장되어 있는데 struct 모듈로 리틀엔디안 데이터를 읽을 때는 “>” 기호 지정

In [54]:
import struct

In [58]:
def to_csv(name, maxdata):
    
    # 레이블 파일과 이미지 파일 열기
    lbl_f = open("./mnist/" + name + "-labels-idx1-ubyte", "rb")
    img_f = open("./mnist/" + name + "-images-idx3-ubyte", "rb")
    csv_f = open("./mnist/" + name + ".csv", "w", encoding="utf-8")
    
    # 헤더 정보 읽기
    mag, lbl_count = struct.unpack(">II", lbl_f.read(8))
    mag, img_count = struct.unpack(">II", img_f.read(8))
    rows, cols = struct.unpack(">II", img_f.read(8))
    pixels = rows * cols
    
    # 이미지 데이터를 읽고 CSV로 저장하기
    res = []
    
    for idx in range(lbl_count):
        if idx > maxdata: break
        label = struct.unpack("B", lbl_f.read(1))[0]
        bdata = img_f.read(pixels)
        sdata = list(map(lambda n: str(n), bdata))
        csv_f.write(str(label)+",")
        csv_f.write(",".join(sdata)+"\r\n")
        
        # 잘 저장됐는지 이미지 파일로 저장해서 테스트하기
        
        if idx < 10:
            s = "P2 28 28 255\n"
            s += " ".join(sdata)
            iname = "./mnist/{0}-{1}-{2}.pgm".format(name, idx, label)
            
            with open(iname, "w", encoding = "utf-8") as f:
                f.write(s)
                
    csv_f.close()
    lbl_f.close()
    img_f.close()

- “P2 28 28 255”: P2-그레이맵, 28-가로 크기, 28- 세로 크기, 255-최대 그레이 값

In [59]:
# 결과를 파일로 출력하기
to_csv("train", 1000)
to_csv("t10k", 500)

## 이미지 데이터 학습시키기

In [60]:
from sklearn import model_selection, svm, metrics

### (1) CSV 파일을 읽어 들이고 가공하기

- pop():리스트의맨마지막요소를돌려주고그요소는삭제하는함수
- continue: 반복문의 나머지 부분을 보지 않고, 반복문의 처음으로 돌아가는 기능

In [61]:
def load_csv(fname):
    labels = []
    images = []
    
    with open(fname, "r") as f:
        for line in f:
            cols = line.split(",")
            if len(cols) < 2: continue
            labels.append(int(cols.pop(0)))
            vals = list(map(lambda n : int(n) / 256, cols))
            images.append(vals)
            
    return{"labels":labels, "images":images}

data = load_csv("./mnist/train.csv")
test = load_csv("./mnist/t10k.csv")

### (2) 학습하기

In [62]:
clf = svm.SVC()
clf.fit(data["images"], data["labels"])

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

### (3) 예측하기

In [63]:
predict = clf.predict(test["images"])

### (4) 결과 확인하기

- metrics.Classification_report(): 주요 분류 측정 항목을 보여주는 텍스트 보고서 작성

In [64]:
ac_score = metrics.accuracy_score(test["labels"], predict)
cl_report = metrics.classification_report(test["labels"], predict)

print("정답률 =", ac_score)
print("리포트 =")
print(cl_report)

정답률 = 0.788423153693
리포트 =
             precision    recall  f1-score   support

          0       0.87      0.93      0.90        42
          1       0.81      1.00      0.89        67
          2       0.84      0.69      0.76        55
          3       0.87      0.57      0.68        46
          4       0.76      0.75      0.75        55
          5       0.63      0.80      0.71        50
          6       0.97      0.67      0.79        43
          7       0.74      0.86      0.79        49
          8       0.91      0.72      0.81        40
          9       0.71      0.81      0.76        54

avg / total       0.80      0.79      0.79       501



In [65]:
# 결과를 파일로 출력하기
to_csv("train", 99999)
to_csv("t10k", 500)