* 기계학습은 1개의이상의 독립변수 $X$ 집합을 사용하여 종속변수 $y$ 를 예측하는 문제임

> 약인공지능(weak AI) 에 해당되며 특정분야에 한정하여 일을 처리하도록 설계됨

* 기계학습에서는 하나의 데이터, 하나의 행을 샘플(sample)이라고 함
* $y$ 는 카테고리, 범주 또는 클래스라고 함

* 기계학습 문제는 분류와 회귀 문제로 나누어질 수 있음
> 분류는 범주형 레이블을 예측하는 것이고 회귀는 연속된 값을 예측하는 것임


* **SVM(Support Vector Machine)**은 데이터 분석 중 분류에 이용되며 지도학습 방식의 모델
> 다중클래스 문제, 입력변수에 대한 두개 이상의 정해진 선택지 중에서 답을 분류하는 문제, 에 활용함 


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets.samples_generator import make_blobs

# make_blobs() 함수를 이용해 2종류의 총 40개의 샘플 데이터를 생성
X, y = make_blobs(n_samples=40, centers=2, random_state=20)

분류을 위한 샘플은 독립변수 $X$ 와 종속변수 $y$ 로 이루어지며, 학습자료에서 $y$ 는 레이블(분류값)을 을 의미함 

In [None]:
print (f"독립변수 {X[0]}, 종속변수 {y[0]}")

In [None]:
# SVM은 선형 분류와 비선형 분류를 지원
# clf = svm.SVC(kernel='linear') 
clf = svm.SVC(kernel='rbf') 
clf.fit(X, y)


In [None]:
# 학습된 SVM 모델을 통해 데이터 (3,4)를 분류
newData = [[3,4]]
print(clf.predict(newData))

샘플 데이터와 초평면(Hyper-Plane), 지지벡터(Support Vector)

In [None]:
# 샘플 데이터 표현
plt.scatter(X[:,0], X[:,1], c=y, s=30, cmap=plt.cm.Paired)
# 초평면(Hyper-Plane) 표현
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = clf.decision_function(xy).reshape(XX.shape)
ax.contour(XX, YY, Z, colors='k', levels=[-1,0,1], alpha=0.5, linestyles=['--', '-', '--'])
# 지지벡터(Support Vector) 표현
ax.scatter(clf.support_vectors_[:,0], clf.support_vectors_[:,1], s=60, facecolors='r')
plt.show()

In [None]:
from sklearn.svm import SVC
from sklearn import datasets
# Standard scientific Python imports
import matplotlib.pyplot as plt

digits = datasets.load_digits()

_, axes = plt.subplots(nrows=1, ncols=4, figsize=(10, 3))
for ax, image, label in zip(axes, digits.images, digits.target):
    ax.set_axis_off()
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")
    ax.set_title("Training: %i" % label)

# step-1: creating model class object 
model = SVC()
 

# step-2: fitting training data
model.fit(digits.data, digits.target)

# step-3: using model to predict target class
result = list(model.predict(digits.data[:4]))

 

In [None]:
print (f"The classification result of digits = {result}")

* 이미지 데이터셋을 사용한 글자 식별 (분류)

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn import datasets
# Standard scientific Python imports
import matplotlib.pyplot as plt

digits = datasets.load_digits()

# flatten the images
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

# Create a classifier: a support vector classifier
clf = SVC(gamma=0.001)

# Split data into 50% train and 50% test subsets
X_train, X_test, y_train, y_test = train_test_split(
    data, digits.target, test_size=0.5, shuffle=False
)

# Learn the digits on the train subset
clf.fit(X_train, y_train)

# Predict the value of the digit on the test subset
predicted = clf.predict(X_test)

In [None]:
_, axes = plt.subplots(nrows=1, ncols=4, figsize=(10, 3))
for ax, image, prediction in zip(axes, X_test, predicted):
    ax.set_axis_off()
    image = image.reshape(8, 8)
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")
    ax.set_title(f"Prediction: {prediction}")

* 정확도(accuracy), 전체데이터 중에서 정확히 분류된 데이터의 비율 
* 정밀도(precision), 해당 데이터 중 모델이 올바르게 검출된 데이터 비율 ($tp$ / ($tp$ + $fp$))
* 재현율(recall), 실제값이 정답인 데이터 전체 개수에 대한 정답 비율 ($tp$ / ($tp$ + $fn$) 
정답자료 중 얼마나 정답이 예측되었는가)
* 지지(support),클래스 별 정답 비율 


In [None]:
from sklearn import metrics
print(
    f"Classification report for classifier {clf}:\n"
    f"{metrics.classification_report(y_test, predicted)}\n"
)

OneClassSVM 을 사용한 이상 검출하기
* 이진분류(binary classification) 
* 정상메일과 스팸메일 판단

In [None]:
from sklearn.svm import OneClassSVM
from sklearn.datasets import make_blobs
from numpy import quantile, where, random
import matplotlib.pyplot as plt

In [None]:
random.seed(13)
x, _ = make_blobs(n_samples=200, centers=1, cluster_std=.3, center_box=(8, 8))

plt.scatter(x[:,0], x[:,1])
plt.show()

In [None]:
svm = OneClassSVM(kernel='rbf', gamma=0.001, nu=0.03)
print(svm)

In [None]:
svm.fit(x)
pred = svm.predict(x)

In [None]:
anom_index = where(pred==-1)
values = x[anom_index]

In [None]:
plt.scatter(x[:,0], x[:,1])
plt.scatter(values[:,0], values[:,1], color='r')
plt.show()

In [None]:
svm = OneClassSVM(kernel='rbf', gamma=0.001, nu=0.02)
print(svm)

svm.fit(x)
pred = svm.predict(x)
anom_index = where(pred==-1)
values = x[anom_index]

plt.scatter(x[:,0], x[:,1])
plt.scatter(values[:,0], values[:,1], color='r')
plt.show()

svm = OneClassSVM(kernel='rbf', gamma=0.001, nu=0.02)
print(svm)

pred = svm.fit_predict(x)
scores = svm.score_samples(x)

thresh = quantile(scores, 0.03)
print(thresh)
index = where(scores<=thresh)
values = x[index]

plt.scatter(x[:,0], x[:,1])
plt.scatter(values[:,0], values[:,1], color='r')
plt.show()

* DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_blobs
from numpy import random, where
import matplotlib.pyplot as plt

random.seed(7)
x, _ = make_blobs(n_samples=200, centers=1, cluster_std=.3, center_box=(20, 5))

plt.scatter(x[:,0], x[:,1])
plt.show()

dbscan = DBSCAN(eps = 0.28, min_samples = 20)
print(dbscan)

pred = dbscan.fit_predict(x)
anom_index = where(pred == -1)
values = x[anom_index]

plt.scatter(x[:,0], x[:,1])
plt.scatter(values[:,0], values[:,1], color='r')
plt.show()

In [None]:
from sklearn.cluster import KMeans
from numpy import sqrt, array, random, argsort
from sklearn.preprocessing import scale
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt

random.seed(123)
def makeData(N):
	x = []
	for i in range(N):
		a = i/1000 + random.uniform(-3, 2)
		r = random.uniform(-5, 10)
		if(r >= 9.9):
			r = r + 10
		elif(r<(-4.8)):
			r = r +(- 10)			
		x.append([a + r])	
	return array(x)

x = makeData(500)
x_ax = range(500)
plt.plot(x_ax, x)
plt.show()

x = scale(x)
kmeans = KMeans(n_clusters = 1).fit(x)
print(kmeans)

center = kmeans.cluster_centers_
print(center)

distance = sqrt((x - center)**2)
order_index = argsort(distance, axis = 0)
indexes = order_index[-5:]
values = x[indexes]

plt.plot(x_ax, x)
plt.scatter(indexes, values, color='r')
plt.show()

# Boston housing dataset case
boston = load_boston()
y =  boston.target
y = y.reshape(y.shape[0], 1)
y = scale(y)

kmeans = KMeans(n_clusters = 1).fit(y)
print(kmeans)

center = kmeans.cluster_centers_
print(center)

distance = sqrt((y - center)**2)
order_index = argsort(distance, axis = 0)
indexes = order_index[-10:]
values = y[indexes]

x_ax = range(y.shape[0])
plt.plot(x_ax, y)
plt.scatter(indexes,values, color='r')
plt.show()

In [None]:
from sklearn.neighbors import LocalOutlierFactor
from sklearn.datasets import make_blobs
from numpy import quantile, where, random
import matplotlib.pyplot as plt

random.seed(1)
x, _ = make_blobs(n_samples=200, centers=1, cluster_std=.3, center_box=(10,10))

plt.scatter(x[:,0], x[:,1])
plt.show()

lof = LocalOutlierFactor(n_neighbors=20, contamination=.03)
print(thresh)  
 
y_pred = lof.fit_predict(x)

lofs_index=where(y_pred==-1)
values = x[lofs_index]

plt.scatter(x[:,0], x[:,1])
plt.scatter(values[:,0],values[:,1], color='r')
plt.show()

model = LocalOutlierFactor(n_neighbors=20) 
print(model)  
model.fit_predict(x) 
 
lof = model.negative_outlier_factor_
thresh = quantile(lof, .03)
print(thresh) 
 
index = where(lof<=thresh)
values = x[index]

plt.scatter(x[:,0], x[:,1])
plt.scatter(values[:,0],values[:,1], color='r')
plt.show()

* Naive Bayesian

In [None]:
from sklearn import datasets
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import StandardScaler

iris = datasets.load_iris()
print(type(iris))
# Bunch 클래스: {'data': [], 'target': []}으로 이루어진 dict와 비슷한 클래스
# data: 특성(변수)들. n차원 공간의 점(point)
# target: 레이블(분류 클래스)
# print(iris)
print('data shape:', iris.data.shape)
print('iris target:', iris.target_names)
print('iris features:', iris.feature_names)

X = iris.data # 데이터(특성, 변수)
print('type X:', type(X))
print(X[:5])
y = iris.target # 분류 클래스(레이블)
print('type y:', type(y))
print(y[:5])

X, y = datasets.load_iris(return_X_y=True)
# return_X_y=True: numpy.ndarray들의 튜플(data, target)을 리턴
# return_X_y=False(기본값): Bunch 클래스 타입을 리턴

# 데이터 세트를 학습(train)/검증(test) 세트로 나눔.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 데이터들 변환(스케일링)
scaler = StandardScaler() # 생성자 호출 - 변환기 객체 생성
scaler.fit(X_train, y_train) # 학습 데이터의 평균과 표준 편차를 데이터 변환할 때 이용하기 위해서
X_train_transformed = scaler.transform(X_train) # 학습 데이터 세트 변환

X_test_transformed = scaler.transform(X_test) # 테스트 데이터 세트 변환

# 머신 러닝 모델 선택 - Naive Bayes
gnb = GaussianNB() # Gaussian Naive Bayes 모델 선택 - 연속형 자료
gnb.fit(X_train_transformed, y_train) # 모델 학습
y_pred = gnb.predict(X_test_transformed) # 예측

# 성능 측정
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))