# Iris(붓꽃) 예측모델

## 데이터셋 확인하기
### sckit-learn 내장 데이터셋 가져오기
- sckit-learn은 머신러닝 모델을 테스트하기 위한 데이터셋을 제공
    - 이런 데이터셋을 Toy dataset이라 함
- package : sklearn.datasets
- 함수 : load_xxxx()

In [6]:
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris() # 데이터를 메모리에 loading => Bunch -> Dictionary
type(iris)

sklearn.utils.Bunch

### scikit-learn 내장 데이터셋의 구성
- 구성
    - target_names : 예측하려는 값을 가진 문자열 배열
    - target : Label (출력 데이터)
    - data : Feature (입력 변수)
    - feature_names : 입력 변수 각 항목의 이름
    - DESCR : 데이터셋에 대한 설명

In [7]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [8]:
print(type(iris.data), iris.data.shape)

<class 'numpy.ndarray'> (150, 4)


### Feature 조회

In [9]:
iris.data[:3]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [10]:
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

### target(label) 조회

In [11]:
print(type(iris.target), iris.target.shape)
np.unique(iris.target, return_counts = True)
iris.target_names

<class 'numpy.ndarray'> (150,)


array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [12]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

### 데이터 셋을 DataFrame으로 구성

In [13]:
import pandas as pd

df = pd.DataFrame(iris.data, columns = iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [16]:
df['species'] = iris.target
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [15]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [17]:
df['species_2'] = df['species'].apply(lambda x : iris.target_names[x])

In [19]:
df.iloc[60:65]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_2
60,5.0,2.0,3.5,1.0,1,versicolor
61,5.9,3.0,4.2,1.5,1,versicolor
62,6.0,2.2,4.0,1.0,1,versicolor
63,6.1,2.9,4.7,1.4,1,versicolor
64,5.6,2.9,3.6,1.3,1,versicolor


- datafrmae/Series.apply(함수)
    - (dataframe) 함수에 DataFrame의 컬럼(Series)를 전달해 처리된 값을 모아 반환
    - (Series)함수에 원소들을 전달해서 처리된 값들을 모아서 반환
    - 일괄 처리시 사용하는 메소드

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   species            150 non-null    int32  
 5   species_2          150 non-null    object 
dtypes: float64(4), int32(1), object(1)
memory usage: 6.6+ KB


In [21]:
# 관계성 확인
df[df.columns[:-1]].corr()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
sepal length (cm),1.0,-0.11757,0.871754,0.817941,0.782561
sepal width (cm),-0.11757,1.0,-0.42844,-0.366126,-0.426658
petal length (cm),0.871754,-0.42844,1.0,0.962865,0.949035
petal width (cm),0.817941,-0.366126,0.962865,1.0,0.956547
species,0.782561,-0.426658,0.949035,0.956547,1.0


In [22]:
df[df.columns[:-1]].groupby('species').describe().T

Unnamed: 0,species,0,1,2
sepal length (cm),count,50.0,50.0,50.0
sepal length (cm),mean,5.006,5.936,6.588
sepal length (cm),std,0.35249,0.516171,0.63588
sepal length (cm),min,4.3,4.9,4.9
sepal length (cm),25%,4.8,5.6,6.225
sepal length (cm),50%,5.0,5.9,6.5
sepal length (cm),75%,5.2,6.3,6.9
sepal length (cm),max,5.8,7.0,7.9
sepal width (cm),count,50.0,50.0,50.0
sepal width (cm),mean,3.428,2.77,2.974


## 머신러닝을 이용한 예측
### 문제 정의
- 내가 발견한 Iris 꽃받침(Sepal)의 길이(length)와 폭(width)이 각각 5cm, 3.5cm이고 꽃의 꽃잎(Petal)의 길이와 폭은 각각 1.4cm, 0.25cm이다.
이 꽃은 Iris의 무슨 종 일까???

### 규칙기반으로 찾기
- Sepal의 길이 : 5cm, 폭 : 3.5cm
- Petal의 길이 : 1.4cm, 폭 : 0.25cm

In [23]:
df[(df['sepal length (cm)'] == 5) & (df['sepal width (cm)'] == 3.5)]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_2
40,5.0,3.5,1.3,0.3,0,setosa
43,5.0,3.5,1.6,0.6,0,setosa


## 머신러닝 적용
### 머신러닝으로 우리가 하려는 것
##### 프로그래머가 직접 규칙(패턴)을 만드는 대신 컴퓨터가 데이터를 학습하여 규칙을 자동으로 만들도록 하는 것

![image](https://velog.velcdn.com/images/kmk3058/post/3cd7034b-7dfd-4142-88c4-0688383106cf/image.png)

## 결정 트리(Decision Tree) 알고리즘을 이용한 분류
### 결정 트리 알고리즘 개요
- 독립 변수의 조건에 따라 종속 변수를 분리

![image](https://regenerativetoday.com/wp-content/uploads/2022/04/dt.png)

### 결정 트리 모델을 이용해 머신러닝 구현
1. import 모델
2. 모델 생성
3. 모델 학습시키기
4. 예측

#### 1. import 모델

In [26]:
from sklearn.tree import DecisionTreeClassifier

#### 2. 모델 생성

In [27]:
# 모델 객체 생성
tree = DecisionTreeClassifier(random_state = 0)

#### 3. 모델 학습 시키기

In [28]:
X = iris.data
y = iris.target
tree.fit(X, y)

DecisionTreeClassifier(random_state=0)

#### 4. 예측
- 내가 본 iris 꽃의 꽃잎 / 꽃받침의 길이, 너비를 재서 종류를 예측
- 꽃받침(Sepal)의 길이(length) : 5cm, 폭(width) : 3.5cm
- 꽃잎(Petal)의 길이(length) : 1.4cm, 폭(width) : 0.25cm

In [29]:
import numpy as np
new_X = np.array([[5.0, 3.5, 1.4, 0.25],[3.2, 1.5, 6.4, 3.25]])
new_X.shape

(2, 4)

In [30]:
# 추론할 꽃의 정보(Feature)를 넣어 모델의 predict()메소드를 호출. 추론 결과 클래스를 반환.
pred_y = tree.predict(new_X) 

In [31]:
print(pred_y) # class가 반환
print(iris.target_names[pred_y]) # class 이름

[0 2]
['setosa' 'virginica']


In [32]:
proba_y = tree.predict_proba(new_X)
print(proba_y)

[[1. 0. 0.]
 [0. 0. 1.]]


##### 모델을 최종 서비스에 적용하기 전 모델의 성능을 확인하는 작업이 필요

### 머신러닝 프로세스
![image](https://blog.kakaocdn.net/dn/I5BQH/btqHhPcwFT5/dcvZ4Ujp1rWXkTHrhy6hfk/img.png)

### 훈련 데이터셋과 평가(테스트) 데이터 분할
- 데이터 셋을 두개로 나눠 하나는 모델을 훈련할 때 다른 하나는 그 모델을 평가할 때 사용
- 보통 훈련 데이터와 테스트 데이터의 비율은 8:2 또는 7:3 정도로 나누고 데이터셋이 충분하면 6:4까지도 나눔

#### 데이터 셋 분할 시 주위사항
- 분류 문제의 경우 각 클래스가 같은 비율로 나누어야 한다

### scikit-learn의 train_test_split() 함수를 이용해 iris 데이터 셋 분할
- train_test_split() : 하나의 데이터 셋을 두개의 세트로 분할하는 함수 

In [33]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

import numpy as np

In [34]:
iris = load_iris()
X = iris.data
y = iris.target

In [35]:
X_train, X_test, y_train, y_test = train_test_split(X, # 전체데이터셋중 Features, input
                                                    y, # 전체데이터셋중 labels, output, target
                                                    test_size = 0.2, # 전체중 test set의 바율 (기본값: 0.25)
                                                    stratify = y, # 전체 데이터셋의 출력 클래스의 비율과 동일한 비율로 나눠지도록 한다.
                                                    # 분류 Dataset을 나눌때 필수(회귀는 하지 않음)
                                                    shuffle = True, # 데이터셋을 나누기 전에 섞는지(랜덤) 여부 : True-섞는다(기본값), False-안섞는다
                                                    random_state = 0
                                                    )
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)
print(X.shape, y.shape)

(120, 4) (30, 4) (120,) (30,)
(150, 4) (150,)


In [36]:
np.unique(y, return_counts = True) # 중복 되지 않는 값이 몇개 인지

(array([0, 1, 2]), array([50, 50, 50], dtype=int64))

In [38]:
np.unique(y_train, return_counts = True)

(array([0, 1, 2]), array([40, 40, 40], dtype=int64))

In [39]:
np.unique(y_test, return_counts = True)

(array([0, 1, 2]), array([10, 10, 10], dtype=int64))

### 모델 생성

In [40]:
tree = DecisionTreeClassifier(random_state = 0)

### 모델 학습

In [41]:
# train set을 이용해 학습
tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=0)

### 평가
- 머신러닝 평가지표 함수들은 sklearn.metrics 모듈에 있다
- 정확도(accuracy)
    - accuracy_score() 함수 이용
    - 전체 예측한 개수 중 맞춘 개수의 비율

In [42]:
a = [0, 0, 1, 1, 1]
b = [0, 0, 1, 1, 0]
accuracy_score(a, b) # 전체 중 몇개가 일치하는 지 비율(정답 비율)

0.8

In [43]:
pred_train = tree.predict(X_train)
pred_test = tree.predict(X_test)

In [44]:
print(pred_train.shape, y_train.shape)
pred_train[:5], y_train[:5]

(120,) (120,)


(array([0, 0, 0, 0, 1]), array([0, 0, 0, 0, 1]))

In [45]:
acc_train = accuracy_score(y_train, pred_train)
acc_test = accuracy_score(y_test, pred_test)

In [46]:
print(f"Train set 예측결과의 정확도 : {acc_train}") # 성능을 보고 둘의 관계를 보고 문제를 파악하기 위해 train의 정확도 파악
print(f"Test set 예측결과의 정확도 : {acc_test}") # 95% 이상이면 거의 안틀림

Train set 예측결과의 정확도 : 1.0
Test set 예측결과의 정확도 : 0.9666666666666667


In [48]:
new_X = np.array([[5.0, 3.5, 1.4, 0.25],[3.2, 1.5, 6.4, 3.25]])

tree.predict(new_X)

array([0, 2])

### 혼동행렬 (Confusion Matirx)
- 모델이 예측한 결과와 실제 정답간의 개수를 표로 제공
- 분류의 평가 지표로 사용
- sklearn.metrics 모듈의 confusion_matirx()함수 이용
- 결과 ndarray 구조
    - axis = 0의 index : 정답(실제)의 class
    - axis = 1의 index : 예측결과의 class
    - value : 개수(각 class별 정답 / 예측한 개수)

In [50]:
from sklearn.metrics import confusion_matrix

train_cm = confusion_matrix(y_train, pred_train)
test_cm = confusion_matrix(y_test, pred_test)

print(train_cm) # 틀린게 없음
print("=" * 20)
print(test_cm) # 틀림(정답이 2인 것을 1로 예측), 기준에 따라 다름

[[40  0  0]
 [ 0 40  0]
 [ 0  0 40]]
[[10  0  0]
 [ 0 10  0]
 [ 0  1  9]]
