- scikit-learn을 활용해서 머신러닝을 시도해본 적이 없다.
- scikit-learn에 내장되어 있는 분류 모델을 활용해본 적이 없다.
- 지도학습의 분류 실습을 해 본 적이 없다.
- 머신러닝 모델을 학습시켜보고, 그 성능을 평가해본 적이 없다.

사진에서 볼 수 있듯 setosa, versicolor, virginica 세 가지의 붓꽃은 모두 꽃잎과 꽃받침의 크기가 조금씩 다릅니다. 꽃잎과 꽃받침의 크기뿐만 아니라 색깔도 조금씩 다르죠.
물론 우리는 전문가가 아니기 때문에 사진만으로 각 품종을 완벽하게 분류해낼 수 없지만, 꽃을 연구하는 식물학자들은 자세히 보지 않아도 금방 분류해 낼 수 있을 것입니다.

그렇다면 기계를 학습시킨다는, 머신러닝 기법을 활용한다면 어떨까요? 붓꽃을 잘 분류해낼 수 있을까요?

어디 한 번, 얼마나 잘 분류해내는지 바로 확인해 보겠습니다. 시작해 보시죠!

- scikit-learn은 파이썬을 기반으로 한 머신러닝 생태계에서 오랜 기간 동안 사랑받고 있는 라이브러리   
- 최근에는 TensorFlow, PyTorch 등 딥러닝에 특화된 라이브러리들이 강세를 보이고 있지만, 머신러닝의 다양한 알고리즘과 편리한 프레임워크를 제공한다는 점으로 인해 여전히 많은 데이터 분석가들이 사용하고 있다.

- https://scikit-learn.org/stable/datasets/index.html   
- scikit 데이터셋

- Toy datasets의 iris 데이터셋
    > 내용을 천천히 살펴봅시다. 데이터셋에는 총 150개의 데이터가 있다고 합니다. 각 데이터에는 4개의 정보가 담겨있다고 합니다.
위에서 봤던 sepal, petal 각각의 길이와 폭, 총 네 가지의 정보를 담고 있는 것으로 보입니다. 카테고리를 나타내는 클래스는 앞서 설명한대로 setosa, versicolour, virginica 세 가지가 있군요.

데이터셋을 다루기 전에 이렇게 데이터셋의 정보를 먼저 확인하는 것은 중요합니다. 데이터를 얼마나 이해하고 있느냐는 그 데이터를 활용한 결과와 성능에 중대한 요소가 되기 때문이죠. 따라서 어떤 데이터셋을 다루든, 그 데이터셋이 담고 있는 정보를 먼저 잘 확인하고 시작하는 것을 권해드립니다.

- 그럼 이제 정말 데이터셋을 가져와 보도록 하겠습니다!
소개해드린 scikit-learn의 예제 데이터셋은 다음과 같이 sklearn 라이브러리의 datasets 패키지 안에 있습니다.
load_iris를 import 해와서 iris 데이터를 로딩해 보겠습니다.

In [3]:
from sklearn.datasets import load_iris
iris = load_iris()

print(type(dir(iris)))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

<class 'list'>


In [4]:
# iris에는 어떤 정보들이 담겼을지, keys() 라는 메서드로 확인해 보겠습니다.
iris.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [6]:
# 네, iris에는 data, target, target_names, DESCR, feature_names, filename 까지   
# 총 6개의 정보가 담겨있군요.

- 가장 중요한 데이터는 다음과 같이 iris_data 변수에 저장한 후, 데이터의 크기를 확인해 보겠습니다.

In [7]:
iris_data = iris.data

print(iris_data.shape)

#shape는 배열의 '형상 정보'를 출력

(150, 4)


- 총 150개의 데이터가 각각 4개의 정보를 담고 있다.

In [8]:
# 샘플로 하나의 데이터만 확인해보자.

iris_data[0]

array([5.1, 3.5, 1.4, 0.2])

In [9]:
iris_data[7]

array([5. , 3.4, 1.5, 0.2])

In [10]:
iris_data[3, 5, 7, 9]

IndexError: too many indices for array: array is 2-dimensional, but 4 were indexed

In [11]:
iris_data[3], [5]

(array([4.6, 3.1, 1.5, 0.2]), [5])

In [12]:
iris_data[3],
iris_data[5]

array([5.4, 3.9, 1.7, 0.4])

In [13]:
iris_data[3]

array([4.6, 3.1, 1.5, 0.2])

In [14]:
iris_data[5]

array([5.4, 3.9, 1.7, 0.4])

In [15]:
iris_data[5],
iris_data[7]

array([5. , 3.4, 1.5, 0.2])

In [16]:
iris_data[7]

array([5. , 3.4, 1.5, 0.2])

- 0, 3, 5, 7 index로 접근해서 확인해 보니, 총 네 개의 숫자가 나옵니다.   
    이는 위에서 확인했던 대로,   
    순서대로 sepal length, sepal width, petal length, petal width 를 나타냅니다.

- 붓꽃의 꽃잎과 꽃받침 길이를 이용해 무엇을 판별하고 싶은가?

> setosa, versicolor, virginica 세 가지 중 붓꽃의 종류가 무엇인지 맞히고자 함

- 우리는 꽃잎과 꽃받침의 길이가 주어지는 경우 그 꽃은 세 가지의 붓꽃 품종 중 어떤 것인지를 맞추어 보고 싶었습니다.   
- 따라서 우리는 머신러닝 모델에게 꽃잎, 꽃받침의 길이와 폭 정보를 입력했을 때 붓꽃의 품종을 출력하도록 학습을 시켜야 하죠.   
   
- 여기서 이렇게 머신러닝 모델이 출력해야 하는 정답을 라벨(label), 또는 타겟(target) 이라고 합니다.   
- 우리의 붓꽃 데이터에서 타겟 정보는 다음과 같이 target으로 볼 수 있습니다.

In [17]:
from sklearn.datasets import load_iris

iris = load_iris()

print(type(dir(iris)))

<class 'list'>


In [18]:
iris.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

- 꽃잎과 꽃받침의 길이가 주어지는 경우. 그 꽃은 세 가지 붓꽃 품종 중 어떤 것인지 판별하고 싶다.
- 머신러닝 모델에게 **꽃잎, 꽃받침의 길이와 폭** 정보를 입력했을 때 **붓꽃의 품종**을 출력하도록 학습을 시킨다.

> 이때, 머신러닝 모델이 출력해야 하는 값을
    > 1. label 또는
    > 2. target
    이라고 한다.

In [19]:
iris_label = iris.target
print(iris_label.shape)
iris_label

(150,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

- iris 데이터의 target을 iris_label이라는 변수에 저장해 보았다.

In [20]:
# 총 150개의 데이터가 들어 있고,
# 각 값은 0이나 1 또는 2로 나타나는 것을 확인할 수 있다.

In [21]:
# 라벨의 이름은 다음과 같이 확인할 수 있다.

In [22]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

- setosa, versicolor, virginica의 순서대로 담겨 있다.   
> 0이라면 setosa,   
> 1이라면 versicolor,   
> 2라면 virginica   
> 를 나타낸다.

In [23]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

- **DESCR**ibe : 데이터셋의 설명이 담겨 있다.

In [24]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

- 각 feature에 대한 설명 호출

In [25]:
iris.filename

'/home/aiffel0042/anaconda3/lib/python3.7/site-packages/sklearn/datasets/data/iris.csv'

- 저장된 경로 호출