## 데이터셋 확인하기

### scikit-learn 내장 데이터셋 가져오기
- scikit-learn은 머신러닝 모델을 테스트 하기위한 데이터셋을 제공한다.
    - 이런 데이터셋을 Toy dataset이라고 한다.
- 패키지 : sklearn.datasets
- 함수   : load_xxxx()

### scikit-learn 내장 데이터셋의 구성
- scikit-learn의 dataset은 딕셔너리 구조의 Bunch 클래스 객체이다.
    - keys() 함수로 key값들을 조회
- 구성
    - **target_names**: 예측하려는 값(class)을 가진 문자열 배열
    - **target**: Label(출력데이터)
    - **data**: Feature(입력변수)
    - **feature_names**: 입력변수 각 항목의 이름
    - **DESCR**: 데이터셋에 대한 설명

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()
print(type(iris))

<class 'sklearn.utils._bunch.Bunch'>


In [2]:
iris.keys() # Dataset 구성 key값들 조회

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [3]:
# 입력변수 조회
print(iris.data.shape) # (150:개수, 4:개별꽃의 특성-feature)
iris.data
# iris['data']


(150, 4)


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [4]:
# 입력변수명 조회
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [8]:
# 출력변수 조회
iris['target'], iris['target'].shape

(array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]),
 (150,))

In [6]:
# 출력 변수의 class의 의미 조회
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [9]:
# --- IRIS Dataset 설명 ---
print(iris['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988

The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fis

## 위 데이터 셋을 판다스 데이터프레임으로 구성
- 데이터 프레임 생성 후 데이터 확인
> - **dataframe/Series.apply(함수)**
>     - (dataframe) 함수에 DataFrame의 컬럼(Series)를 전달해서 처리된 값들을 모아 반환
>     - (Series) 함수에 원소들을 전달해서 처리된 값들을 모아서 반환
>     - 일괄처리시 사용하는 메소드

In [10]:
import pandas as pd

df = pd.DataFrame(
    iris['data'],   # X
    columns=iris['feature_names'] # 컬럼명으로 지정정
)
df['품종'] = iris['target']
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [11]:
df['품종2'] = df['품종'].apply(lambda i : iris['target_names'][i])
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),품종,품종2
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


In [12]:
df.iloc[40:60]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),품종,품종2
40,5.0,3.5,1.3,0.3,0,setosa
41,4.5,2.3,1.3,0.3,0,setosa
42,4.4,3.2,1.3,0.2,0,setosa
43,5.0,3.5,1.6,0.6,0,setosa
44,5.1,3.8,1.9,0.4,0,setosa
45,4.8,3.0,1.4,0.3,0,setosa
46,5.1,3.8,1.6,0.2,0,setosa
47,4.6,3.2,1.4,0.2,0,setosa
48,5.3,3.7,1.5,0.2,0,setosa
49,5.0,3.3,1.4,0.2,0,setosa


# 머신러닝을 이용한 예측

## 문제 정의
> 내가 발견한 Iris 꽃받침(Sepal)의 길이(length)와 폭(width)이 각각 5cm, 3.5cm이고 꽃의 꽃잎(Petal)의 길이와 폭은 각각 1.4cm, 0.25cm이 이었다. 이 꽃는 Iris의 무슨 종일까?

### 규칙기반으로 찾아보기
- 꽃받침(Sepal)의 길이(length): 5cm, 폭(width): 3.5cm
- 꽃잎(Petal) 의 길이(length): 1.4cm, 폭(width): 0.25cm

In [13]:
df[(df['sepal length (cm)'] == 5) & (df['sepal width (cm)'] ==  3.5)]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),품종,품종2
40,5.0,3.5,1.3,0.3,0,setosa
43,5.0,3.5,1.6,0.6,0,setosa


## 머신러닝 적용

### 머신러닝으로 우리가 하려는 것
<font size='4'><b> 프로그래머가 직접 규칙(패턴)을 만드는  대신 컴퓨터가 데이터를 학습하여 규칙을 자동으로 만들도록 하는 것.</b></font>

###  결정 트리(Decision Tree) 알고리즘을 이용한 분류
#### 결정 트리 알고리즘 개요
- 독립 변수의 조건에 따라 종속 변수를 분리 

#### 결정트리 모델을 이용해 머신러닝 구현
1. import 모델
2. 모델 생성
3. 모델 학습시키기
4. 예측 

##### 1. import 모델

In [14]:
from sklearn.tree import DecisionTreeClassifier
# xxxxxClassifier: 분류 모델.  xxxxxRegressor : 회귀

##### 2. 모델생성 

In [15]:
model = DecisionTreeClassifier()
model

##### 3. 모델 학습 시키기

In [16]:
# 모델을 내 데이터에 맞추는 작업 -> 학습/훈련
model.fit(iris['data'], iris['target']) # fit(X-input feature, y-output label/target)

##### 4. 예측
- 내가 본 iris 꽃의 꽃잎/꽃받침의 길이, 너비를 재서 종류를 예측한다. 

In [17]:
iris['data'][:3]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [18]:
import numpy as np
# 추론할 데이터셋은 학습 입력 데이터셋과 같은 형태로 만든다. (개수, feature수) -> (N, 4)
# 같은 형태로 넣어야 말귀를 알아듣겠지요 ~?
new_data = np.array([
    [5, 3.5, 1.4, 0.25], 
    [2, 2.2, 5.3, 2.2], 
    [1.2, 5, 3.2, 7.6]
])
print(new_data.shape)

pred = model.predict(new_data)  # 추론 : 학습한 데이터를 바탕으로 새로운 데이터를 추론.
print(pred)
print(iris['target_names'][pred])

(3, 4)
[0 2 1]
['setosa' 'virginica' 'versicolor']


# 그런데 이 결과가 맞을까?
- 모델이 추론한 결과가 맞다는 것을 어떻게 보증할 수 있을까?
- 모델을 최종 서비스에 적용하기 전에 모델의 성능을 확인하는 작업이 필요하다.

### 훈련데이터셋과 평가(테스트)데이터 분할
- 위의 예는 우리가 만든 모델이 성능이 좋은 모델인지 나쁜 모델인지 알 수 없다.
- 전체 데이터 셋을 두개의 데이터셋으로 나눠 하나는 모델을 훈련할 때 사용하고 다른 하나는 그 모델을 평가할 때 사용한다.
- 보통 훈련데이터와 테스트데이터의 비율은 8:2 또는 7:3 정도로 나누는데 데이터셋이 충분하다면 6:4까지도 나눈다.

#### 데이터셋 분할시 주의
- 분류 문제의 경우 각 클래스(분류대상)가 같은 비율로 나뉘어야 한다. 

### scikit-learn의  train_test_split() 함수를 이용해 iris 데이터셋 분할
-  train_test_split() : 하나의 데이터셋을 두개의 세트로 분할 하는 함수

In [34]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris['data'],   # input data (X)
    iris['target'], # output data (y)
    test_size=0.2 , # train/test 나눌 비율. test: 0.2, train: 1 - 0.2
    stratify=iris['target'], # (y) 분류 데이터셋일 경우 넣어주는 설정. iris['target'] 의 class 별 구성 비율과 동일한 비율로 나눈다.
    shuffle=True  # 나누기 전에 섞는다. (default:True)
)

In [35]:
print(iris['data'].shape, iris['target'].shape)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(150, 4) (150,)
(120, 4) (120,)
(30, 4) (30,)


### 모델생성

In [36]:
from sklearn.tree import DecisionTreeClassifier
model2 = DecisionTreeClassifier()

### 모델 학습

In [37]:
model2.fit(X_train, y_train)

### 평가
- 머신러닝 평가지표 함수들은 sklearn.metrics 모듈에 있다.
- 정확도(accuracy)
    - accuracy_score() 함수 이용    
    - 전체 예측한 개수 중 맞춘 개수의 비율

In [38]:
from sklearn.metrics import accuracy_score
# 모델을 이용해서 추론(예측)
pred_test = model2.predict(X_test)
print(pred_test.shape) # 모델이 추정한 결과.

# 정답, 추정결과를 넣어서 평가.
result = accuracy_score(y_test, pred_test)   #평가함수(정답, 모델추론론)
print("정확도:", result) # 정확도: 0 ~ 1 실수

(30,)
정확도: 0.9666666666666667


In [39]:
y_test

array([1, 0, 2, 0, 0, 2, 1, 1, 2, 0, 1, 0, 2, 2, 0, 1, 0, 2, 1, 0, 2, 2,
       1, 2, 1, 1, 2, 0, 1, 0])

In [40]:
pred_test

array([1, 0, 2, 0, 0, 2, 2, 1, 2, 0, 1, 0, 2, 2, 0, 1, 0, 2, 1, 0, 2, 2,
       1, 2, 1, 1, 2, 0, 1, 0])

In [41]:
new_data = np.array([
    [5, 3.5, 1.4, 0.25], 
    [2, 2.2, 5.3, 2.2], 
    [1.2, 5, 3.2, 7.6]
])
model2.predict(new_data)

array([0, 2, 2])

- **혼동행렬 (Confusion Matrix)** 을 통해 확인
    - 모델이 예측한 결과와 실제 정답간의 개수를 표로 제공
    - 분류의 평가 지표로 사용된다.
    - sklearn.metrics 모듈의 confusion_matrix() 함수 이용
    - 결과 ndarray 구조
        - axis=0의 index: 정답(실제)의 class 
        - axis=1의 index: 예측결과의 class
        - value: 개수(각 class별 정답/예측한 개수)

In [42]:
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, pred_test)

In [43]:
cm

array([[10,  0,  0],
       [ 0,  9,  1],
       [ 0,  0, 10]])