## 사이킷런을 이용한 지도학습

### 지도학습이란
<li>각 데이터에 대해 정답이 있는 경우 각 데이터의 정답을 예측할 수 있게 학습시키는 과정</li>
<li>여러 모델이 있지만 간단하고 데이터 특성만 맞는다면 좋은 결과를 확인할 수 있는 K-최근접 이웃 분류기 (K-nearest neighbor classifier) 를 사용</li>
<li> K-nearest neighbor classifier 특징</li>
<ul>
    <li>데이터에 대한 가정이 없어 단순하다.</li>
    <li>다목적 분류와 회귀에 좋다.</li>
    <li>높은 메모리를 요구한다.</li>
    <li>K값이 커지면 계산이 늦어질 수 있다.</li>
    <li>관련 없는 기능의 데이터 규모에 민감하다.</li>
</ul>


In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_dataset = load_iris()
target = iris_dataset['target']
train_input, test_input, train_label, test_label = train_test_split(iris_dataset['data'],
                                                                    target,
                                                                    test_size = 0.25,
                                                                    random_state=42)

In [5]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 1)

In [6]:
knn.fit(train_input, train_label)


In [7]:
import numpy as np
new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

In [8]:
knn.predict(new_input)

array([1])

In [9]:
predict_label = knn.predict(test_input)
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [10]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 1.00


## 사이킷런 비지도 학습

### 비지도 학습이란
<li>지도 학습과 달리 데이터에 대한 정답, 즉 라벨을 사용하지 않고 만들 수 있는 모델이다.</li>
<li>모델을 통해 문제를 해결하고 싶은데 데이터에 대한 정답이 없는 경우에 적용하기에 적합한 모델이다.</li>
<li>여러 모델이 있지만 군집화 방법 중 하나인 K-평균 군집화 (K-means Clustering) 을 사용</li>


In [20]:
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3)

In [21]:
k_means.fit(train_input)

In [22]:
k_means.labels_

array([1, 1, 0, 0, 0, 1, 1, 0, 0, 2, 0, 2, 0, 2, 0, 1, 2, 0, 1, 1, 1, 0,
       0, 1, 1, 1, 0, 1, 0, 2, 1, 0, 0, 1, 0, 0, 0, 0, 2, 0, 1, 0, 2, 1,
       1, 0, 2, 1, 0, 1, 1, 0, 0, 2, 0, 2, 2, 0, 1, 1, 0, 2, 1, 1, 1, 0,
       2, 1, 2, 2, 1, 0, 0, 0, 2, 2, 1, 2, 0, 2, 0, 0, 0, 1, 0, 0, 1, 0,
       2, 2, 1, 0, 2, 2, 1, 2, 1, 2, 2, 2, 0, 2, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 2], dtype=int32)

In [23]:
print("0 cluster:", train_label[k_means.labels_ == 0])
print("1 cluster:", train_label[k_means.labels_ == 1])
print("2 cluster:", train_label[k_means.labels_ == 2])

0 cluster: [2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 1 1 1 1 1 2 2 1 2 1]
1 cluster: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
2 cluster: [2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2]


In [24]:
import numpy as np
new_input  = np.array([[6.1, 2.8, 4.7, 1.2]])

In [25]:
prediction = k_means.predict(new_input)
print(prediction)

[0]


In [26]:
predict_cluster = k_means.predict(test_input)
print(predict_cluster)

[0 1 2 0 0 1 0 2 0 0 2 1 1 1 1 0 2 0 0 2 1 0 1 2 2 2 2 2 1 1 1 1 0 1 1 0 0
 1]


In [27]:
np_arr = np.array(predict_cluster)
np_arr[np_arr==0], np_arr[np_arr==1], np_arr[np_arr==2] = 3, 4, 5
np_arr[np_arr==3] = 1
np_arr[np_arr==4] = 0
np_arr[np_arr==5] = 2
predict_label = np_arr.tolist()
print(predict_label)

[1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 1, 0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0]


In [28]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 0.95
