<p align="center" ><img src="https://www.ai4kids.ai/wp-content/uploads/2019/07/ai4kids_website_logo_120x40.png"></img></p>

# 學AI真簡單 <1> 初探機器學習
## 第三章 3-3 乳癌機率有多高—KNN 分類器介紹與應用



<p align="right">© Copyright AI4kids.ai</p>

# 1. 載入所需套件

In [None]:
# 從 sklearn 載入 breast_cancer 資料集
from sklearn.datasets import load_breast_cancer

# 載入我們會用到的模型，KNN分類模型
from sklearn.neighbors import KNeighborsClassifier

# 載入切分資料集成訓練集及測試集的套件，train_test_split
from sklearn.model_selection import train_test_split

## 2. 載入資料集，觀察資料集

In [None]:
# 載入資料集，放到 my_data變數內
my_data = load_breast_cancer()

# 可以把 my_data 給印出來，看一下裡面的內容
# 印出來後可知他有幾個 key name有："data","target","target_names","DESCR","filename" ...等
print(my_data)


# 更多關於此資料集的敘述可以到官網瀏覽
# https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
 

In [None]:
# 直接觀察有哪些 key 在資料集內
print(my_data.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [None]:
# 觀察資料筆數
print("資料筆數:")
print(my_data.data.shape)
print("\n")

# 觀察我們第一筆的資料內容
print("第一筆的資料內容:")
print(my_data.data[0])
print("\n")

# 觀察我們第一筆的分類目標
print("第一筆的分類目標:")
print(my_data.target[0])
print("\n")

# 觀察我們要預測目標的名稱種類
print("預測目標的名稱種類，分別是惡性腫瘤及良性腫瘤:")
print(my_data.target_names)
print("\n")

資料筆數:
(569, 30)


第一筆的資料內容:
[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]


第一筆的分類目標:
0


預測目標的名稱種類，分別是惡性腫瘤及良性腫瘤:
['malignant' 'benign']




# 3. 切分資料集 - 訓練集 / 測試集

In [None]:
# 我們將資料切分成兩組，把80%當成訓練集，20%當成測試集
# (train_x, train_y) 為80%的訓練集，用來訓練模型
# (test_x , test_y ) 為20%的測試集，用來驗證模型的預測能力

train_x, test_x, train_y, test_y = train_test_split(
    my_data.data, my_data.target, test_size= 0.2, random_state=18, shuffle=True)

# 可以看一下這些資料集的維度，驗證沒有切錯
print("原始資料集的維度大小:" ,my_data.data.shape)
print("訓練集的維度大小:   " ,train_x.shape)
print("測試集的維度大小:   " ,test_x.shape)

原始資料集的維度大小: (569, 30)
訓練集的維度大小:    (455, 30)
測試集的維度大小:    (114, 30)


# 4. 訓練模型及驗證模型

In [None]:
# 把預先載入好的套件KNN分類器拿出來使用，並且存到變數my_model中
my_model = KNeighborsClassifier()

# 訓練模型，放入要訓練的訓練集(train_x, train_y)
my_model.fit(train_x, train_y)

# 訓練完模型後，我們就可以用 my_model.score 來評估模型的能力
test_score = my_model.score(test_x, test_y)
print("模型評估完測試集的準確度為: ", test_score)

模型評估完測試集的準確度為:  0.9473684210526315
