## 첫번째 애플리케이션 : 붓꽃의 종 분류

이제 간단한 머신 러닝 애플리케이션과 첫번째 모델을 만들어 보자.

식물학이 취미인 한 여성은 자신이 발견한 어떤 붓꽃이 무슨 종인지 알고 싶어한다. 그녀는 이 붓꽃의 꽃잎 길이와 너비, 꽃받침 길이와 너비를 센티미터 단위로 측정했다. 그녀는 또한 전문 식물학자가 많은 붓꽃들을 측정하여 각 꽃들을 setosa, versicolor, virginica 의 세 종으로 분류한 데이터를 가지고 있다.

우리의 목적은 어떤 종에 속하는지 이미 알고 있는 붓꽃들의 측정 데이터로부터 학습할 수 있는 머신 러닝 모델을 만든 후 새로 발견한 붓꽃이 어떤 종인지 예측해 보는 것이다. 

우리는 각 붓꽃의 종이 정확히 무엇인지 알고 있는 데이터를 가지고 있기 때문에, 이것은 지도학습 문제이다. 또한 우리는 여러 개의 옵션들(3개의 종) 중에 하나를 예측해야 하기 때문에 이것은 분류(classification) 문제라고 할 수 있다. 도출될 수 있는 결과들을 우리는 클래스(class)라고 부르기 때문이다. 데이터셋에 포함된 모든 붓꽃은 세 개의 클래스 중 하나에 속해 있다.

하나의 데이터 포인트(붓꽃)에 대해 도출되길 원하는 결과는 이 꽃의 ‘종’이다. 하나의 특정한 데이터 포인트에 대해서 그것이 속해있는 종을 우리는 “레이블(label)”이라고 한다.

### 데이터를 살펴보자

이 예제를 위해 우리가 사용할 데이터는 머신 러닝과 통계학에서 고전적으로 사용되는 붓꽃(Iris) 데이터셋이다. 이것은 scikit-learn의 datasets 모듈에 포함되어 있으며, load_iris 함수를 통해 불러낼 수 있다.

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import mglearn

In [5]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

load_iris에 의해 리턴되는 iris 객체는 딕셔너리(dictionary)와 매우 유사하며, 키(key)와 값(value)을 가지고 있다.

In [6]:
iris_dataset.keys()

dict_keys(['target_names', 'data', 'target', 'feature_names', 'DESCR'])

DESCR 키에 해당하는 값은 데이터셋에 대한 설명이다. 그 내용을 앞부부만 살펴보자.

In [7]:
print(iris_dataset['DESCR'][:200] + "\n...")

Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes
...


target_names 키의 값은 문자열의 배열이며, 우리가 예측하고자 하는 붓꽃의 종류를 포함하고 있다.

In [5]:
print(iris_dataset['target_names'])

['setosa' 'versicolor' 'virginica']


In [6]:
print(iris_dataset['feature_names'])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [7]:
type(iris_dataset['data'])

numpy.ndarray

In [8]:
iris_dataset['data'].shape

(150, 4)

In [9]:
iris_dataset['data'][:5]   # 처음 5개의 데이터

array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2]])

In [10]:
type(iris_dataset['target'])

numpy.ndarray

In [11]:
print(iris_dataset['target'])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


### Measuring Success: Training and testing data

In [12]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

In [13]:
x_train.shape

(112, 4)

In [14]:
y_train.shape

(112,)

In [15]:
x_test.shape

(38, 4)

In [16]:
y_test.shape

(38,)

In [17]:
# create dataframe from data in X_train
# label the columns using the strings in iris_dataset.feature_names

In [18]:
iris_dataframe = pd.DataFrame(x_train, columns=iris_dataset.feature_names)

In [19]:
iris_dataframe

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.9,3.0,4.2,1.5
1,5.8,2.6,4.0,1.2
2,6.8,3.0,5.5,2.1
3,4.7,3.2,1.3,0.2
4,6.9,3.1,5.1,2.3
5,5.0,3.5,1.6,0.6
6,5.4,3.7,1.5,0.2
7,5.0,2.0,3.5,1.0
8,6.5,3.0,5.5,1.8
9,6.7,3.3,5.7,2.5


In [20]:
# create a scatter matrix from the dataframe, color by y_train

In [21]:
grr = pd.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o',
                        hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=mglearn.cm3)