# Iris(붓꽃) 예측모델
![image.png](attachment:image.png)

- 프랑스 국화
- 꽃말 : 좋은 소식, 잘 전해 주세요, 사랑의 메세지, 변덕스러움

## 머신러닝의 Helloworld

- 데이터 과학에서 Iris DataSet
    - 아이리스 품종 중 Setosa, Versicolor, Virginica 분류에 대한 [**로널드 피셔**](https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%84%90%EB%93%9C_%ED%94%BC%EC%85%94)의  1936년 논문에서 사용된 데이터 셋.
![image.png](attachment:image.png)



- 꽃받침(Sepal)과 꽃잎(Petal)의 길이 너비로 세개 품종을 분류
![image.png](attachment:image.png)

## 데이터셋 확인하기

### scikit-learn 내장 데이터셋 가져오기
- scikit-learn은 머신러닝 모델을 테스트 하기위한 데이터셋을 제공한다.
    - 이런 데이터셋을 Toy dataset이라고 한다.
- 패키지 : sklearn.datasets
- 함수   : load_xxxx()

In [1]:
from sklearn.datasets import load_iris
iris = load_iris()

In [2]:
type(iris)  #Bunch type: Dictionary 구현체

sklearn.utils._bunch.Bunch

### scikit-learn 내장 데이터셋의 구성
- scikit-learn의 dataset은 딕셔너리 구조의 Bunch 클래스 객체이다.
    - keys() 함수로 key값들을 조회
- 구성
    - **target_names**: 예측하려는 값(class)을 가진 문자열 배열
    - **target**: Label(출력데이터)
    - **data**: Feature(입력변수)
    - **feature_names**: 입력변수 각 항목의 이름
    - **DESCR**: 데이터셋에 대한 설명

In [3]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [16]:
iris['filename']

'iris.csv'

##### target 조회

In [15]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [6]:
# iris.target
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [7]:
iris.target_names  #ndarray: index-label(숫자label), value-label name

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [9]:
type(iris.target)

numpy.ndarray

In [10]:
iris.target.shape
# (150, )   (정답개수, )

(150,)

##### Feature 조회

In [5]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [12]:
type(iris.data)
iris.data.shape
# (150, 4)  (데이터개수, Feature의 개수)

(150, 4)

In [13]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [None]:
len(iris.feature_names)

## 위 데이터 셋을 판다스 데이터프레임으로 구성
- 데이터 프레임 생성 후 데이터 확인
![image.png](attachment:image.png)

In [None]:
# import pandas as pd
# df = pd.read_csv(iris['filename'], 
#                  header=0,
#                  names=['꽃받침_길이','꽃받침_너비','꽃잎_길이','꽃잎_너비','품종'])
# df.head()

In [19]:
import numpy as np
import pandas as pd
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target

In [23]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [25]:
iris_df['species_name'] = iris_df['species'].apply(lambda x:iris.target_names[x])

In [26]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


In [27]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_name
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica
149,5.9,3.0,5.1,1.8,2,virginica


In [28]:
iris_df.groupby('species').describe().T

Unnamed: 0,species,0,1,2
sepal length (cm),count,50.0,50.0,50.0
sepal length (cm),mean,5.006,5.936,6.588
sepal length (cm),std,0.35249,0.516171,0.63588
sepal length (cm),min,4.3,4.9,4.9
sepal length (cm),25%,4.8,5.6,6.225
sepal length (cm),50%,5.0,5.9,6.5
sepal length (cm),75%,5.2,6.3,6.9
sepal length (cm),max,5.8,7.0,7.9
sepal width (cm),count,50.0,50.0,50.0
sepal width (cm),mean,3.428,2.77,2.974


In [29]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   species            150 non-null    int32  
 5   species_name       150 non-null    object 
dtypes: float64(4), int32(1), object(1)
memory usage: 6.6+ KB


In [30]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


# 머신러닝을 이용한 예측

## 문제 정의
> 내가 발견한 Iris 꽃받침(Sepal)의 길이(length)와 폭(width)이 각각 5cm, 3.5cm이고 꽃의 꽃잎(Petal)의 길이와 폭은 각각 1.4cm, 0.25cm이 이었다. 이 꽃는 Iris의 무슨 종일까?

![image.png](attachment:image.png)

### 규칙기반으로 찾아보기

- 꽃받침(Sepal)의 길이(length): 5cm, 폭(width): 3.5cm
- 꽃잎(Petal) 의 길이(length): 1.4cm, 폭(width): 0.25cm

In [33]:
iris_df[iris_df['sepal length (cm)']==5]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_name
4,5.0,3.6,1.4,0.2,0,setosa
7,5.0,3.4,1.5,0.2,0,setosa
25,5.0,3.0,1.6,0.2,0,setosa
26,5.0,3.4,1.6,0.4,0,setosa
35,5.0,3.2,1.2,0.2,0,setosa
40,5.0,3.5,1.3,0.3,0,setosa
43,5.0,3.5,1.6,0.6,0,setosa
49,5.0,3.3,1.4,0.2,0,setosa
60,5.0,2.0,3.5,1.0,1,versicolor
93,5.0,2.3,3.3,1.0,1,versicolor


In [37]:
iris_df.loc[(iris_df['sepal length (cm)']==5) & (iris_df['sepal width (cm)']==3.5)] 

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_name
0,5.1,3.5,1.4,0.2,0,setosa
17,5.1,3.5,1.4,0.3,0,setosa
27,5.2,3.5,1.5,0.2,0,setosa
36,5.5,3.5,1.3,0.2,0,setosa
40,5.0,3.5,1.3,0.3,0,setosa
43,5.0,3.5,1.6,0.6,0,setosa


## 머신러닝 적용

### 머신러닝으로 우리가 하려는 것
<font size='4'><b> 프로그래머가 직접 규칙(패턴)을 만드는  대신 컴퓨터가 데이터를 학습하여 규칙을 자동으로 만들도록 하는 것.</b></font>

![image.png](attachment:image.png)

###  결정 트리(Decision Tree) 알고리즘을 이용한 분류
#### 결정 트리 알고리즘 개요
- 독립 변수의 조건에 따라 종속 변수를 분리 
- 머신러닝의 몇안되는 White box 모델
    - 결과에 대한 해석이 가능하다.
- 과적합(Overfitting)이 잘 일어나는 단점이 있다. 
- 랜덤 포레스트(Random Forest), Gradient Boosting, Adaptive boosting과 같은 Boosting 계열 앙상블이 결정트리를  기반으로 하고 있다

In [40]:
iris_df.loc[iris_df['sepal length (cm)'] > 5, 'species_name'].value_counts()

virginica     49
versicolor    47
setosa        22
Name: species_name, dtype: int64

![image.png](attachment:image.png)

<center>[참조]www.packtpub.com</center>

#### 결정트리 모델을 이용해 머신러닝 구현
1. import 모델
2. 모델 생성
3. 모델 학습시키기
4. 예측 

##### 1. import 모델

In [41]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier

##### 2. 모델생성 

In [42]:
# DecisionTreeClassifier 클래스의 객체를 생성 
tree_model = DecisionTreeClassifier(max_depth=2, random_state=0)

##### 3. 모델 학습 시키기

In [44]:
# 생성된 모델객체는 기본공식만 가지고 있다. => 학습을 시킨다.
# 학습: 기본공식을 내 데이터셋에 맞추는 작업.
tree_model.fit(iris.data, iris.target)  #fit(feature,  label)

##### 4. 예측
- 내가 본 iris 꽃의 꽃잎/꽃받침의 길이, 너비를 재서 종류를 예측한다. 

In [46]:
my_iris = np.array([[5, 3.5, 1.4, 0.25], [6.7, 3.0, 5.2, 2.2]]) 

result = tree_model.predict(my_iris)  #추론: 모델.predict(추론할 데이터의 feature)
print(result, iris.target_names[result])

[0 2] ['setosa' 'virginica']


In [47]:
tree_model.predict_proba(my_iris)   # 추론결과를 확률로 반환. ([1, 0, 0] => index가 label => 0번꽃일 확률이 1, 1번,2번꽃일 확률은 0)

# 분류예측: predict_proba()-각 class별 확률 반환, predict() - 확률이 가장 높은 class를 반환.

array([[1.        , 0.        , 0.        ],
       [0.        , 0.02173913, 0.97826087]])

# 그런데 이 결과가 맞을까?

- 모델이 추론한 결과가 맞다는 것을 어떻게 보증할 수 있을까?
- 모델을 최종 서비스에 적용하기 전에 모델의 성능을 확인하는 작업이 필요하다.

## 머신러닝 프로세스

![image.png](attachment:image.png)

### 훈련데이터셋과 평가(테스트)데이터 분할
- 위의 예는 우리가 만든 모델이 성능이 좋은 모델인지 나쁜 모델인지 알 수 없다.
- 전체 데이터 셋을 두개의 데이터셋으로 나눠 하나는 모델을 훈련할 때 사용하고 다른 하나는 그 모델을 평가할 때 사용한다.
- 보통 훈련데이터와 테스트데이터의 비율은 8:2 또는 7:3 정도로 나누는데 데이터셋이 충분하다면 6:4까지도 나눈다.

#### 데이터셋 분할시 주의
- 분류 문제의 경우 각 클래스(분류대상)가 같은 비율로 나뉘어야 한다. 

### scikit-learn의  train_test_split() 함수를 이용해 iris 데이터셋 분할

In [48]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [52]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [10]:
from sklearn.model_selection import train_test_split  # 하나의 데이터셋을 두 세트로 분할하는 함수
# 변수: Feature - X,   Label - y
#      훈련용 - train, 평가용 - test, 검증용 - val/validation
X_train, X_test, y_train, y_test = train_test_split(iris.data,   #Feature-input data-X
                                                    iris.target, #Label(Target)-output data-y
                                                    test_size=0.2, #test set의 비율 (train:0.8, test:0.2)
                                                    random_state=0,# random seed 값
#                                                     shuffle=True, #나누기 전에 섞을지 여부(True: 섞는다. -기본)
                                                    stratify = iris.target) # class별로 같은 비율로 나눠지도록 설정.(분류에서 필수.)
X_train.shape, X_test.shape, y_train.shape, y_test.shape                                               

((120, 4), (30, 4), (120,), (30,))

In [12]:
# stratify = iris.target 를 설정했기 때문에 원본데이터와 같은 비율로 나눠진다.
import numpy as np
print(np.unique(y_train, return_counts=True))
print(np.unique(y_test, return_counts=True))
print(np.unique(iris.target, return_counts=True))

(array([0, 1, 2]), array([40, 40, 40], dtype=int64))
(array([0, 1, 2]), array([10, 10, 10], dtype=int64))
(array([0, 1, 2]), array([50, 50, 50], dtype=int64))


### 모델생성

In [13]:
from sklearn.tree import DecisionTreeClassifier

tree_model = DecisionTreeClassifier(max_depth=2, random_state=0)

### 모델 학습

In [14]:
# 학습- train dataset 을 이용해서 학습
tree_model.fit(X_train, y_train) #(input-X, output-y)

### 평가
- 머신러닝 평가지표 함수들은 sklearn.metrics 모듈에 있다.
- accuracy(정확도)
    - 전체 데이터셋중 맞춘 개수의 비율

In [15]:
pred_train = tree_model.predict(X_train)  #Train dataset(train할 때 사용한 데이터셋)의 Feature를 가지고 예측
  
pred_test = tree_model.predict(X_test)     #Test dataset(새로운 데이터셋-train시 사용하지 않은 데이터셋)의 Feature를 가지고 예측

In [81]:
X_train.shape, pred_train.shape

((120, 4), (120,))

In [82]:
print(X_train[:5])
print('------')
print(pred_train[:5])
print('-------')
print(y_train[:5])

[[4.8 3.  1.4 0.3]
 [4.9 3.  1.4 0.2]
 [4.4 3.  1.3 0.2]
 [5.  3.4 1.5 0.2]
 [5.8 2.7 3.9 1.2]]
------
[0 0 0 0 1]
-------
[0 0 0 0 1]


In [16]:
from sklearn.metrics import accuracy_score  #정확도 계산 함수
#평가지표: 0 ~ 1사이 실수  

acc_train = accuracy_score(y_train, pred_train)  # (정답, 예측한결과)
acc_test = accuracy_score(y_test, pred_test)
print('훈련데이터셋 정확도: {}, 테스트데이터셋 정확도: {}'.format(acc_train, acc_test))

훈련데이터셋 정확도: 0.9666666666666667, 테스트데이터셋 정확도: 0.9333333333333333


- **혼동행렬 (Confusion Matrix)** 을 통해 확인
    - 모델이 예측한 결과와 실제 정답간의 개수를 표로 제공
    - 분류의 평가 지표로 사용된다.
    - axis=0: 실제(정답), axis=1: 예측

In [17]:
from sklearn.metrics import confusion_matrix
train_cm = confusion_matrix(y_train, pred_train) #(정답, 예측한결과)
print(train_cm.shape)
train_cm

(3, 3)


array([[40,  0,  0],
       [ 0, 39,  1],
       [ 0,  3, 37]], dtype=int64)

In [75]:
test_cm = confusion_matrix(y_test, pred_test)
test_cm

array([[10,  0,  0],
       [ 0, 10,  0],
       [ 0,  2,  8]], dtype=int64)

In [76]:
import pandas as pd
pred_train_cm = pd.DataFrame(train_cm, columns=[['예측', '예측', '예측'], iris.target_names], index=[['실제','실제','실제'], iris.target_names])
pred_train_cm

Unnamed: 0_level_0,Unnamed: 1_level_0,예측,예측,예측
Unnamed: 0_level_1,Unnamed: 1_level_1,setosa,versicolor,virginica
실제,setosa,40,0,0
실제,versicolor,0,39,1
실제,virginica,0,3,37


In [77]:
pred_test_cm = pd.DataFrame(test_cm, columns=[['예측', '예측', '예측'], iris.target_names], index=[['실제','실제','실제'], iris.target_names])
pred_test_cm

Unnamed: 0_level_0,Unnamed: 1_level_0,예측,예측,예측
Unnamed: 0_level_1,Unnamed: 1_level_1,setosa,versicolor,virginica
실제,setosa,10,0,0
실제,versicolor,0,10,0
실제,virginica,0,2,8
