In [1]:
import os
from os.path import join
import copy
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd

import sklearn

import matplotlib.pyplot as plt

In [2]:
from sklearn.datasets import load_iris
iris=load_iris()

In [3]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988

The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fis

In [4]:
data=iris.data
label=iris.target
columns=iris.feature_names

In [5]:
data=pd.DataFrame(data, columns=columns)
data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
data.shape

(150, 4)

In [7]:
data.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Classification

1. Logistic Regression

In [11]:
#선형 회귀 모델에서 변형된 모델
#Odds라는 어떤 일이 발생할 상대적인 비율 개념을 사용해 선형 회귀식을 변형

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data, label, 
                                                    test_size=0.2, shuffle=True, stratify=label, random_state=2019)

##### 1) 모델 불러오기 및 정의하기

In [9]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

##### 2) 모델 학습하기 (훈련 데이터)

In [12]:
lr.fit(x_train, y_train)

##### 3) 결과 예측하기 (테스트 데이터)

In [13]:
y_pred=lr.predict(x_test)

In [14]:
lr.predict_proba(x_test) * 100 #100을 곱해 확률 -> 백분율로

#predict_proba: 각 클래스에 속할 확률을 반환하는 메소드
#1번째 클래스일 확률 67%, 2번째 클래스일 확률 91%, 3번째 클래스일 확률 79%

array([[7.61065336e+00, 9.15911833e+01, 7.98163343e-01],
       [2.17969513e+00, 9.54828749e+01, 2.33742993e+00],
       [2.12246623e-03, 4.36767357e+00, 9.56302040e+01],
       [5.61694502e-03, 9.28003289e+00, 9.07143502e+01],
       [1.31228116e-05, 6.08750531e-01, 9.93912363e+01],
       [9.84337867e+01, 1.56621062e+00, 2.72964627e-06],
       [9.76543790e+01, 2.34561299e+00, 7.97420595e-06],
       [9.72331831e+01, 2.76681104e+00, 5.81977809e-06],
       [9.68434410e+01, 3.15654376e+00, 1.52772377e-05],
       [9.83101213e+01, 1.68987387e+00, 4.82158513e-06],
       [2.19121283e+00, 9.26502597e+01, 5.15852747e+00],
       [9.85593246e+01, 1.44067227e+00, 3.14787246e-06],
       [1.70182517e-05, 4.43313399e-01, 9.95566696e+01],
       [3.86568886e-01, 8.77214209e+01, 1.18920103e+01],
       [9.13869274e-02, 3.95132727e+01, 6.03953404e+01],
       [7.65138819e-04, 2.16794169e+00, 9.78312932e+01],
       [9.61480342e+01, 3.85194959e+00, 1.61813423e-05],
       [1.15843573e+00, 7.56404

##### 4) 결과 살펴보기

In [15]:
from sklearn.metrics import accuracy_score #분류모델의 예측 결과와 실제 타겟값 사이의 정확도 계산. 모델의 성능을 평가하는데 주로 사용

In [16]:
print('로지스틱 회귀, 정확도 : {:.2f}%.format(accuracy_score(y_test, y_pred)*100')

로지스틱 회귀, 정확도 : {:.2f}%.format(accuracy_score(y_test, y_pred)*100


In [17]:
print('로지스틱 회귀, 계수(w) : {}, 절편(b) : {}'.format(lr.coef_, lr.intercept_))

로지스틱 회귀, 계수(w) : [[-0.42990007  0.82202254 -2.39517839 -0.96664464]
 [ 0.49022874 -0.30017957 -0.15948782 -0.91550624]
 [-0.06032867 -0.52184297  2.55466621  1.88215089]], 절편(b) : [  9.77762594   2.03311676 -11.8107427 ]


2. Support Vector Machine

##### 1) 모델 불러오기 및 정의하기

In [18]:
from sklearn.svm import SVC
svc = SVC()

##### 2) 모델 학습하기 (훈련 데이터)

In [19]:
svc.fit(x_train, y_train)

##### 3) 결과 예측하기 (테스트 데이터)

In [20]:
y_pred = svc.predict(x_test)

##### 4) 결과 살펴보기

In [21]:
print('서포트 벡터 머신, 정확도 : {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

서포트 벡터 머신, 정확도 : 96.67%


Decision Tree

불순도(Impurity, Entropy)

##### 1) 모델 불러오기 및 정의하기

In [26]:
#의사결정트리(Decision Tree)는 데이터의 불순도를 최소화하기 위해 트리를 분기

from sklearn.tree import DecisionTreeClassifier
dt=DecisionTreeClassifier(max_depth=5)

##### 2) 모델 학습하기 (훈련 데이터)

In [28]:
dt.fit(x_train, y_train)

##### 3) 결과 예측하기 (테스트 데이터)

In [29]:
y_pred=dt.predict(x_test)

##### 4) 결과 살펴보기

In [None]:
print('결정 트리, 정확도 : {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

#y_test와 y_pred를 비교하여 정확도를 계산
#일반적으로 분류에서는 Accuracy, 정확도를 평가 척도로 사용

Feature Importance

In [30]:
#의사 결정 트리 모델의 특성 중요도를 계산 -> 데이터프레임으로 변환
feature_importance = pd.DataFrame(dt.feature_importances_.reshape((1, -1)), columns=columns, index=['feature_importance'])
feature_importance

#feature_importances_: 의사 결정 트리 모델에서 각 특성의 중요도를 나타내는 속성

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
feature_importance,0.0075,0.03125,0.576272,0.384978


Random Forest

In [32]:
#의사 결정 트리=나무, 랜덤 포레스트=숲. 여러개의 트리를 만들고 앙상블하여 하나의 결과를 내는
#서로 다른 변수 셋으로 여러 트리를 생성. 여러개의 모델을 합치는 앙상블 기법 중 대표적인 예시

from sklearn.ensemble import RandomForestClassifier

#랜덤 포레스트 분류기 생성
rf=RandomForestClassifier(max_depth=5) #트리의 최대 깊이=5

rf.fit(x_train, y_train) #모델 학습
y_pred = rf.predict(x_test) #테스트 데이터에 대한 예측

#정확도 출력
print('랜덤 포레스트, 정확도 : {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))
#특성 중요도 확인. 여러개의 모델을 만들면서 좀 더 정확해짐
feature_importance = pd.DataFrame(rf.feature_importances_.reshape((1, -1)), columns=columns, index=['feature_importance'])
feature_importance

랜덤 포레스트, 정확도 : 96.67%


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
feature_importance,0.119323,0.02305,0.425096,0.432531


In [35]:
#랜덤 포레스트 모델의 테스트 데이터에 대한 정확도 계산
rf.score(x_test, y_test)

0.9666666666666667

Evalution

1. Accuracy (정확도)
- 모든 데이터에 대해 클래스 라벨을 얼마나 잘 맞췄는지를 계산

2. Confusion Natrix (혼동 행렬)
- 분류 모델의 성능을 평가하기 위해 사용 (TN/FP/FN/TP)

3. ROC Curve, AUC
- ROC Curve(Receiver-Operating Characteristic curve): 이진 분류 모델의 성능을 평가. 모델의 민감도와 특이도 사이의 관계를 시각화
- AUC(Area Under Curve): ROC곡선 아래 영역. ROC곡선의 성능을 하나의 숫자로 요약. 1에 가까울수록 좋은 모델을 의미

정확도, 정밀도, 민감도, AUC Score

In [36]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score
#정확도, 정밀도, 재현율, ROC 곡선 아래 영역(AUC; Area Under the Curve)

In [38]:
abalone_path = join('./abalone.txt')
column_path = join('./abalone_attributes.txt')

abalone_columns = list()
for l in open(column_path):
    abalone_columns.append(l.strip())

In [50]:
data = pd.read_csv(abalone_path, header=None, names=abalone_columns)
data.head()
data = data[data['Sex'] != 'I']
label = data['Sex'].map(lambda x : 0 if x == 'M' else 1)

del data['Sex']

#'M'을 0으로, 나머지를 1로 매핑하여 이진 분류를 위한 레이블을 생성하고, 'Sex' 열 삭제

In [51]:
x_train, x_test, y_train, y_test = train_test_split(data, label, stratify=label, random_state=2019)

In [52]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(max_depth=5) #랜덤 포레스트 분류기 생성. 각 트리의 최대 깊이=5
rf.fit(x_train, y_train)
y_pred =rf.predict(x_test) #테스트용 데이터 'x_test'에 대한 예측값 계산

In [53]:
print('Accuracy : {:.3f}'.format(accuracy_score(y_test, y_pred)))
print('Precision : {:.3f}'.format(precision_score(y_test, y_pred)))
print('Recall : {:.3f}'.format(recall_score(y_test, y_pred)))
print('AUC : {:.3f}'.format(roc_auc_score(y_test, y_pred)))

Accuracy : 0.547
Precision : 0.526
Recall : 0.183
AUC : 0.521
