# 1. 데이터셋 준비 그리고 살펴보기

---

<img src="https://aiffelstaticprd.blob.core.windows.net/media/images/E-2-1.max-800x600_OI1jMZM.png">

데이터셋을 다루기 전에 이렇게 데이터셋의 정보를 먼저 확인하는 것은 중요합니다.     
데이터를 얼마나 이해하고 있느냐는 그 데이터를 활용한 결과와 성능에 중대한 요소가 되기 때문이죠.   

**따라서 어떤 데이터셋을 다루든, 그 데이터셋이 담고 있는 정보를 먼저 잘 확인하고 시작하는 것을 권해드립니다.**

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

print(type(dir(iris))) 
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

<class 'list'>


In [4]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [7]:
iris_data = iris.data

print(iris_data.shape) 

# shape는 배열의 형상정보를 출력 
# array shape information, in this case: 2D array
# 150 data, 4 informations

(150, 4)


In [8]:
iris_data[0]

# 0th index: array([sepal length, sepal width, petal length, petal width])

array([5.1, 3.5, 1.4, 0.2])

In [10]:
iris_label = iris.target
print(iris_label.shape)
iris_label

# iris 데이터의 target을 iris_label이라는 변수에 저장해 보았다.
# 그리고 출력했더니...

(150,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

길이와 형태를 확인하니 총 *150*개의 데이터가 들어있고,     
각 값은 *0, 1, 또는 2*로 나타나는 것을 확인할 수 있다...

In [12]:
iris.target_names                    

# 먼저 target_names로 라벨의 이름들을 알려줘
# 이 리스트 순서 그대로- 0이라면 setosa, 1이라면 versicolor, 2라면 virginica를 나타낸다.

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [13]:
print(iris.DESCR)   # 나머지 변수 알아보기

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [15]:
iris.feature_names      # feature_names에는 다음과 같이 4개의 각 feature에 대한 설명이 담겨있다.

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [17]:
iris.filename           # 아이리스 데이터셋 저장경로

'/Users/kyurishin/anaconda3/envs/aiffel/lib/python3.7/site-packages/sklearn/datasets/data/iris.csv'

# 2. 머신러닝 실습, 학습을 위한 문제지와 학습지 준비

---

<mark>pandas</mark>라는 이 라이브러리는 파이썬에서 **표 형태로 이루어진 2차원 배열 데이터를 다루는 데**에 가장 많이 쓰이는 도구입니다.    
표 데이터를 활용해서 *데이터 분석*을 하기도 하고, 또는 *대형 데이터의 여러 통계량을 다루기*에도 최적화가 되어있죠.

<mark>iris</mark> 데이터 또한 행과 열이 있는 2차원 데이터이므로 우리도 <mark>pandas</mark>를 활용해서 다뤄볼 것입니다.



In [19]:
import pandas as pd       # pandas는 코드에서 굉장히 많이 쓰이기 때문에 pd라는 약어로 많이 사용합니다.

print(pd.__version__)

1.1.1


In [20]:
# 붓꽃 데이터셋을 pandas가 제공하는 DataFrame 이라는 자료형으로 변환해 보기

iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


### DataFrame 을 만들면서 data에는 iris_data를 넣어주고, 각 컬럼에는 feature_names로 이름을 붙여주었습니다.    

#### 한 가지 더, 정답 데이터도 함께 있다면 데이터를 다루기 더 편리하겠죠. <mark>label</mark>이라는 컬럼을 추가해주겠습니다.

In [22]:
iris_df["label"] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


여기서 4가지의 feature 데이터들은 바로 머신러닝 모델이 풀어야 하는 문제지와 같습니다.
예를 들어, [5.1, 3.5, 1.4, 0.2]라는 문제가 주어진다면 모델은 0, 즉 setosa라는 답을 맞추어야 하는 것이죠.
따라서 0, 1, 2와 같이 표현된 label 데이터는 머신러닝 모델에게 정답지라고 할 수 있습니다.

정리하자면 다음과 같습니다:

- 문제지 : 머신러닝 모델에게 입력되는 데이터. feature라고 부르기도 한다. 변수 이름으로는 X를 많이 사용한다.
- 정답지 : 머신러닝 모델이 맞추어야 하는 데이터. label, 또는 target이라고 부르기도 한다. 변수 이름으로는 y를 많이 사용한다.

*여기서 <mark>feature, label, target</mark> 과 같은 용어들을 잘 기억해두길 바랍니다! 머신러닝에서는 아주 많이 쓰이는 기본 용어이니까요.

# 3. 머신러닝 학습과 실습 그리고 정확도 평가하기

---

#### 그럼 이제 pandas를 활용한 데이터 확인까지 했으니 바로 모델을 학습시켜보겠습니다.

머신러닝 모델을 학습시키려면 한 가지 장치가 필요합니다.
바로 학습에 사용하는 <mark>training dataset</mark>과 모델의 성능을 평가하는 데 사용하는-     
<mark>test dataset</mark>으로 데이터셋을 나누는 작업이 필요하죠.

우리에게는 150개의 데이터가 있지만, 이 150개를 모두 학습시키는 데에 사용해버리면 학습이 완료된 모델의 성능을 공정하게 평가할 수 없기 때문입니다.
데이터셋을 분리하는 것은 scikit-learn이 제공하는 <mark>train_test_split</mark> 이라는 함수로 간단하게 할 수 있습니다.

<mark>sklearn.model_selection</mark> 패키지의 <mark>train_test_split</mark>을 활용하여, 다음과 같이 trainig dataset과 test dataset을 간단히 분리해 봅시다.

In [32]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=7)

# 첫 번째 파라미터인 iris_data는 문제지, 즉 feature 입니다.
# 두 번째 iris_label은 모델이 맞추어야 하는 정답값, 즉 label입니다. 총 3가지 품종이 있었죠?
# 세 번째 인자인 test_size로는 test dataset의 크기를 조절할 수 있습니다. 0.2는 전체의 20%를 테스트 데이터로 사용하겠다는 것을 나타냅니다.
# 마지막으로 쓰인 random_state는 train데이터와 test데이터를 분리(split)하는데 적용되는 랜덤성을 결정합니다. 

print('X_train 개수:', len(X_train), '| X_test 개수:', len(X_test))

X_train 개수: 120 | X_test 개수: 30


X 데이터셋을 머신러닝 모델에 입력하고, 그에 따라 모델이 내뱉는 품종 예측 결과를 정답인 y와 비교하며 점차 정답을 맞추어나가도록 학습을 시킬 것입니다.
X와 y 뒤에 붙은 train과 test는 당연히 위에서 말했던 학습용 데이터와 테스트용 데이터를 뜻합니다.    

컴퓨터에서의 랜덤은 아무리 랜덤이라고 해도 특정 로직에 따라 결정되는 랜덤이기 때문에 완벽한 랜덤이라고 할 수 없습니다.    
그러한 랜덤을 조절할 수 있는 값이 바로 <mark>random_state</mark>, 또는 <mark>random_seed</mark>입니다.     
이 값이 같다면 코드는 항상 같은 랜덤 결과를 나타냅니다.    

랜덤인데 왜 같은 결과를 원하냐구요?     
내가 실험한 결과를 다른 사람의 컴퓨터에서도 재현가능(reproducible) 하게 하려면 같은 랜덤시드가 필요할 때가 있답니다.

In [25]:
X_train.shape, y_train.shape          # X_train부터 

((120, 4), (120,))

In [27]:
X_test.shape, y_test.shape            # y_test까지 만들어진 데이터셋을 확인

((30, 4), (30,))

총 150가지의 데이터 중 설정한 대로 20%의 데이터는 test 데이터셋에, 나머지 80%의 데이터는 train 데이터셋에 잘 들어갔습니다.

In [29]:
y_train, y_test

(array([2, 1, 0, 2, 1, 0, 0, 0, 0, 2, 2, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 0,
        2, 0, 2, 1, 1, 1, 0, 0, 0, 1, 2, 1, 1, 0, 2, 0, 0, 2, 2, 0, 2, 0,
        1, 2, 1, 0, 1, 0, 2, 2, 1, 0, 0, 1, 2, 0, 2, 2, 1, 0, 1, 0, 2, 2,
        0, 0, 2, 1, 2, 2, 1, 0, 0, 2, 0, 0, 1, 2, 2, 1, 1, 0, 2, 0, 0, 1,
        1, 2, 0, 1, 1, 2, 2, 1, 2, 0, 1, 1, 0, 0, 0, 1, 1, 0, 2, 2, 1, 2,
        0, 2, 1, 1, 0, 2, 1, 2, 1, 0]),
 array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
        1, 2, 2, 2, 1, 1, 2, 2]))

위에서 확인했던 <mark>label</mark>과는 다르게 **0, 1, 2**가 무작위로 섞여 있는 것을 확인할 수 있습니다.      
<mark>train</mark> 데이터와 <mark>test</mark> 데이터에 각 품종 카테고리가 균일하게 잘 섞일 수 있도록,     
<mark>train_test_split</mark> 함수가 데이터셋을 만들어냈다는 뜻이기도 하죠.

이제 정말 머신러닝 모델을 학습시키기 위한 모든 준비가 끝났습니다. 바로 모델 학습 단계로 넘어가보겠습니다!

- 분류 : 환자의 나이, 병력, 혈당 등을 입력받아 암의 양성/음성을 판정하는 문제
- 회귀 : 택시를 탄 시각, 내린 시각, 출발지, 도착지, 거리 등을 입력받아 택시 요금을 맞추는 문제

In [33]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
print(decision_tree._estimator_type)


classifier


In [38]:
decision_tree.fit(X_train, y_train)          # 학습하는 메서드의 이름이 fit

DecisionTreeClassifier(random_state=32)

여기서 눈여겨 볼 점은 학습하는 메서드의 이름이 <mark>fit</mark>이라는 점입니다.    
<mark>training dataset</mark> 으로 모델을 학습시킨다는 것은,        
달리 말하면 <mark>training dataset</mark>에 맞게 모델을 <mark>fitting</mark>, 즉 맞추는 것이라고 할 수 있습니다.    
<mark>training dataset</mark>에 있는 데이터들을 통해 어떠한 패턴을 파악하고, 그 패턴에 맞게 예측을 할 수 있도록 학습되기 때문입니다.    

즉, 다른 말로 하면 모델은 <mark>training dataset</mark>에 존재하지 않는 데이터에 대해서는 정확한 정답 카테고리가 무엇인지 알지 못합니다.
다만 <mark>training dataset</mark>을 통해 학습한 패턴으로 새로운 데이터가 어떤 카테고리에 속할지 예측할 뿐이죠.

그렇기 때문에 새로운 데이터에 대해서도 잘 맞출 수 있기 위해서는 <mark>training dataset</mark>이 어떻게 구성되어 있는지가 매우 중요합니다.
더 다양한, 더 일반화 된 데이터로 학습이 될수록 새로운 데이터에 대해서도 잘 맞출 수 있는 것이죠.

---

#### 그러면 학습이 완료되었으니 test 데이터로 예측을 해 보겠습니다.

In [40]:
y_pred = decision_tree.predict(X_test)
y_pred

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 2, 1, 0, 2, 0, 2, 2, 2, 0, 0, 1, 2,
       1, 1, 2, 2, 1, 1, 2, 2])

<mark>X_test</mark> 데이터에는 정답인 <mark>label</mark>이 없고 <mark>feature</mark> 데이터만 존재했습니다.    
따라서 학습이 완료된 <mark>decision_tree</mark> 모델에 <mark>X_test</mark> 데이터로 <mark>predict</mark>를 실행하면 모델이 예측한 <mark>y_pred</mark>을 얻게 됩니다.

모델은 총 30개의 데이터에 대해 [2, 1, ...] 라는 예측 결과를 내놓았군요.
실제 정답인 <mark>y_test</mark>와 비교해서 얼마나 맞았는지 확인해봅시다.



In [42]:
y_test

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 1, 1, 2, 2])

예측한 결과에 대한 수치를 조금 더 편리하게 확인할 수 있는 방법이 있습니다.     
<mark>scikit-learn</mark>에서 성능 평가에 대한 함수들이 모여있는 <mark>sklearn.metrics</mark> 패키지를 이용하면 되죠.

성능을 평가하는 방법에도 다양한 척도가 있는데, 그 중 일단 **정확도(Accuracy)**를 간단히 확인해 보겠습니다.

In [44]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9

우리의 모델은 **30개의 데이터**에 대해 예측을 했으니 그 중 맞은 것은 30 * 0.9 = **27개**라는 것을 역추적해 볼 수 있습니다.   
즉, 30개 중 27개는 옳은 카테고리로, 3개는 틀린 카테고리로 분류를 했나봅니다.

---
# 4. 같은 방법으로 다른 모델 활용하기

---

In [47]:
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris      
from sklearn.model_selection import train_test_split      
from sklearn.tree import DecisionTreeClassifier      
from sklearn.metrics import classification_report      

# (2) 데이터 준비
iris = load_iris()      
iris_data = iris.data      
iris_label = iris.target      

# (3) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data,            
                                                    iris_label,           
                                                    test_size=0.2,           
                                                    random_state=7)          

# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)      
decision_tree.fit(X_train, y_train)      
y_pred = decision_tree.predict(X_test)      

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30



이는 상위 모델들이 예측하는 편향된 결과보다,     
다양한 모델들의 결과를 반영함으로써 더 다양한 데이터에 대한 의사결정을 내릴 수 있게 합니다.    

이러한 이유로 RandomForest는 sklearn.ensemble 패키지 내에 들어있습니다. 다음과 같이 사용할 수 있습니다.

In [48]:
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(iris_data,      
                                                    iris_label,       
                                                    test_size=0.2,       
                                                    random_state=25)      

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.92      0.92      0.92        13
           2       0.88      0.88      0.88         8

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30

