* # 붓꽃의 꽃잎, 꽃받침 길이를 사용하여 setosa, versicolor, virginica <br>세 가지 종류 중 어떤 것에 해당하는지를 확인하는 모델

* ### 데이터셋 호출, 필요한 데이터를 변수에 저장

In [1]:
# sklearn 라이브러리의 datasets 패키지에서 load_iris 함수를 호출 
from sklearn.datasets import load_iris

# 로드된 iris 데이터셋을 iris라는 변수에 저장
iris = load_iris()

# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함
print(dir(iris))

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']


In [2]:
# iris 데이터셋에 담긴 정보 종류 확인
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [3]:
# data를 따로 iris_data 변수에 저장
iris_data = iris.data

# shape는 배열의 형상정보를 출력
# 150개의 데이터가 각각 4개의 정보를 담고 있음
print(iris_data.shape) 

(150, 4)


In [4]:
# 150개의 데이터 중 첫 번째 데이터 출력 
# 순서대로 sepal length, sepal width, petal length, petal width를 나타냄
iris_data[0]

array([5.1, 3.5, 1.4, 0.2])

In [5]:
iris_label = iris.target
# keys에서 확인한 정보 중 target을 따로 iris_label 변수에 저장

print(iris_label.shape)
iris_label
# iris_data와 다르게 150개의 숫자만 가지고 있음

(150,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [6]:
iris.target_names
# keys에서 확인한 정보 중 target_names를 변수에 따로 저장하지 않고 호출
# iris_label이 가진 0,1,2의 이름 확인

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

* ### 데이터셋을 데이터프레임 자료형으로 변환, 변수에 저장

In [7]:
import pandas as pd
# pandas 라이브러리를 pd라는 변수로 호출

print(pd.__version__)
# pandas의 버전 확인

1.3.3


In [8]:
type(iris_data)
# iris_data의 데이터 타입은 numpy의 ndarray인 것을 확인할 수 있음

numpy.ndarray

In [9]:
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
# 150개 데이터가 각각 4개의 정보를 가지고 있던 iris_data를 iris.feature_names을 
# 컬럼 이름으로 하는 DataFrame 자료형으로 변환해서 iris_df 변수에 저장
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [10]:
iris_df["label"] = iris.target
# iris_df에 label이라는 컬럼을 새로 추가
# 150개의 숫자로 이루어져 있었던 iris.target을 label 컬럼에 채워넣기
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


* ### 데이터셋을 각각 학습(training)과 성능 평가(test)에 사용할 데이터셋으로 분리 

In [11]:
from sklearn.model_selection import train_test_split
# sklearn model_selection패키지의 train_test_split 함수를 호출

X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
# 나눠야 할 데이터(문제지, X): iris_data
# 데이터의 라벨(정답, y): iris_label
# iris_data와 iris_label를 각각 train:test = 8:2의 비율로 
# 분리한 후 X_train, X_test, y_train, y_test에 저장


print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))
# len은 배열의 길이를 출력

X_train 개수:  120 , X_test 개수:  30


In [12]:
X_train.shape, y_train.shape
# train의 구성 정보 확인

((120, 4), (120,))

In [13]:
X_test.shape, y_test.shape
# test의 구성 정보 확인

((30, 4), (30,))

In [14]:
y_train, y_test
# label이 잘 분리되었는지 확인

(array([2, 1, 0, 2, 1, 0, 0, 0, 0, 2, 2, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 0,
        2, 0, 2, 1, 1, 1, 0, 0, 0, 1, 2, 1, 1, 0, 2, 0, 0, 2, 2, 0, 2, 0,
        1, 2, 1, 0, 1, 0, 2, 2, 1, 0, 0, 1, 2, 0, 2, 2, 1, 0, 1, 0, 2, 2,
        0, 0, 2, 1, 2, 2, 1, 0, 0, 2, 0, 0, 1, 2, 2, 1, 1, 0, 2, 0, 0, 1,
        1, 2, 0, 1, 1, 2, 2, 1, 2, 0, 1, 1, 0, 0, 0, 1, 1, 0, 2, 2, 1, 2,
        0, 2, 1, 1, 0, 2, 1, 2, 1, 0]),
 array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
        1, 2, 2, 2, 1, 1, 2, 2]))

* ### 머신러닝 모델 Decision Tree(의사결정트리 모델) 호출, 학습

In [15]:
from sklearn.tree import DecisionTreeClassifier 
# sklearn.tree 패키지에서 의사결정트리 모델 호출

decision_tree = DecisionTreeClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정
print(decision_tree._estimator_type)

classifier


In [16]:
# 학습데이터 X_train, y_train을 의사결정나무 모델로 학습
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

In [17]:
# 테스트 데이터 X_test로 예측
y_pred = decision_tree.predict(X_test)
y_pred

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 2, 1, 0, 2, 0, 2, 2, 2, 0, 0, 1, 2,
       1, 1, 2, 2, 1, 1, 2, 2])

In [18]:
# 진짜 정답
y_test

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 1, 1, 2, 2])

In [19]:
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9

* ### 위에서 사용했던 Desicion 모델을 학습, 예측하는 과정을 간략화

In [20]:
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris #iris 데이터셋을 불러오는 코드
from sklearn.model_selection import train_test_split # 데이터를 train과 test dataset으로 나누어주는 함수 호출
from sklearn.tree import DecisionTreeClassifier # 의사결정트리 분류기를 사용하기 위해 불러오는 코드
from sklearn.metrics import classification_report # 분류 결과에 대한 시각화를 위해 쓰는 코드

# (2) 데이터 준비
iris = load_iris() #iris 데이터를 변수에 저장
iris_data = iris.data #iris 데이터의 data 컬럼을 분류, iris_data 변수에 저장
iris_label = iris.target #iris 데이터의 target컬럼을 분류, iris_label 변수에 저장

# (3) train, test 데이터 분리
#train_test_split()를 사용하여 X값, y값을 각각 train data와 test data로 나눔. 함수의 파라미터로 x,y가 들어가고
#test_size는 몇대몇으로 나눌지 정하는 옵션, random_state는 랜덤 패턴의 값을 지정함(어떤 값을 넣어도 무방)
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7) 
 

# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32) # 의사결정트리 분류기를 변수에 저장
decision_tree.fit(X_train, y_train) # 분류기에 x와 y의 훈련 데이터를 넣어 훈련시킴
y_pred = decision_tree.predict(X_test) # 훈련된 분류기에 X_test라는 테스트 데이터셋을 넣어 얼마나 예측했는지 확인

print(classification_report(y_test, y_pred)) # 결과를 지표로 확인하기 위해 classification_report 활용, y_test, y_pred 값을 넣어 확인

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30



* ### precicion(정밀도), recall(재현율), f1-score(정밀도와 재현율의 균형), support(클래스에 해당하는 데이터 개수)

* ### 머신러닝 모델 Random Forest호출, 학습
* ### Random Forest 모델은 Desicion Tree 모델 여러 개를 모아 놓은 것

In [21]:
from sklearn.ensemble import RandomForestClassifier #랜덤포레스트 분류기를 사용하기 위해 호출

X_train, X_test, y_train, y_test = train_test_split(iris_data, # iris 데이터의 data 컬럼
                                                    iris_label, # iris 데이터의 target 컬럼
                                                    test_size=0.2, # train data와 test data를 몇대몇으로 나눌지 정하는 옵션
                                                    random_state=21) # 랜덤 패턴의 값을 지정

random_forest = RandomForestClassifier(random_state=32) # 랜덤포레스트 분류기를 변수에 저장
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred)) # 결과 지표 확인

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.83      0.91        12
           2       0.78      1.00      0.88         7

    accuracy                           0.93        30
   macro avg       0.93      0.94      0.93        30
weighted avg       0.95      0.93      0.93        30



* ### precicion(정밀도), recall(재현율), f1-score(정밀도와 재현율의 균형), support(클래스에 해당하는 데이터 개수)

* ### 머신러닝 모델 SVM(Support Vector Machine) 호출, 학습
* ### 데이터를 두 개의 그룹으로 나누기 위해 최대한 멀리 떨어진 경계선을 찾는 모델

In [22]:
from sklearn import svm # Support Vector Machine을 사용하기 위해 호출
svm_model = svm.SVC() # 모델을 변수에 저장

print(svm_model._estimator_type) # 모델 타입 확인

classifier


In [23]:
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.91      0.83      0.87        12
           2       0.75      0.86      0.80         7

    accuracy                           0.90        30
   macro avg       0.89      0.90      0.89        30
weighted avg       0.91      0.90      0.90        30



* ### precicion(정밀도), recall(재현율), f1-score(정밀도와 재현율의 균형), support(클래스에 해당하는 데이터 개수)

* ### 머신러닝 모델 SGD Classifier 호출, 학습
* ### 데이터를 빠르게 여러 번 확인 후 예측을 개선하면서 학습하는 모델, 조금씩 업데이트

In [24]:
from sklearn.linear_model import SGDClassifier # 선형분류기 SGDClassifier을 사용하기 위해 호출
sgd_model = SGDClassifier() # 모델을 변수에 저장

print(sgd_model._estimator_type) # 모델 타입 확인

classifier


In [25]:
sgd_model.fit(X_train, y_train) # .fit()을 사용해서 훈련
y_pred = sgd_model.predict(X_test) # 모델에 test 데이터를 사용하여 예측
print(classification_report(y_test, y_pred)) # 결과 지표 확인

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.75      0.86        12
           2       0.70      1.00      0.82         7

    accuracy                           0.90        30
   macro avg       0.90      0.92      0.89        30
weighted avg       0.93      0.90      0.90        30



* ### precicion(정밀도), recall(재현율), f1-score(정밀도와 재현율의 균형), support(클래스에 해당하는 데이터 개수)

* ### 머신러닝 모델  Logistic Regression 호출, 학습
* ### 데이터를 0과 1 같은 두 가지 결과로 나누는 모델, 입력 값에 따라 확률 계산 후 어느 쪽에 속할지 예측

In [26]:
from sklearn.linear_model import LogisticRegression # 선형분류기 LogisticRegression을 사용하기 위해 호출
logistic_model = LogisticRegression() # 모델을 변수에 저장

print(logistic_model._estimator_type) # 모델 타입 확인

classifier


In [27]:
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.83      0.91        12
           2       0.78      1.00      0.88         7

    accuracy                           0.93        30
   macro avg       0.93      0.94      0.93        30
weighted avg       0.95      0.93      0.93        30



* ### precicion(정밀도), recall(재현율), f1-score(정밀도와 재현율의 균형), support(클래스에 해당하는 데이터 개수)