# 통계 vs 머신러닝

<img src = "https://d1m75rqqgidzqn.cloudfront.net/2019/10/What-is-Machine-Learning-Machine-learning-model-vs-traditional-model.jpg"  width=700>

<img src = "https://www.datocms-assets.com/14946/1596797558-da-vs-ds-diagram.png" width = 600>

# 머신러닝 (지도학습)의 과정

<img src = "https://blogs.nvidia.com/wp-content/uploads/2018/07/Supervised_machine_learning_in_a_nutshell.svg_.png" width = 700>

# 사이킷런 라이브러리

<img src = "https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png">

- 공식 문서: https://scikit-learn.org/stable/index.html


- scikit = SciPy + Toolkit


- 한국어 버전 (1.1 버전): https://runebook.dev/ko/docs/scikit_learn/-index-

- 한국어 cheatsheet: https://www.facebook.com/groups/KerasKorea/posts/2304357519580200/

<img src = "https://scikit-learn.org/stable/_static/ml_map.png">

<img src = "https://t1.daumcdn.net/cfile/tistory/99DBBD385B7811A815?download">


#scikit-learn 버전 확인

- sklearn은 버전 확인이 중요하다
- 중간중간 업데이트가 많아서 버전 업데이트 안하면 에러날 수도 있음

In [None]:
import sklearn

In [None]:
sklearn.__version__

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns

# sklearn 내장 데이터
https://scikit-learn.org/stable/datasets.html

In [None]:
from sklearn import datasets

In [None]:
#toy datasets 목록

datasets.load_*?

In [None]:
# Real world datasets 목록

datasets.fetch_*?

# Iris (붓꽃) 데이터
<img src = "https://miro.medium.com/max/1400/0*SHhnoaaIm36pc1bd" width = 700>

<br>

- 설명: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

## 1.  **sample** (로우, 인스턴스, 관찰값): 150개
 - 클래스 당 50개

## 2.  **feature** (피처, 칼럼): 4개 

 - sepal length (꽃받침의 길이)
 - sepal width (꽃받침의 넓이)
 - petal lenth (꽃잎의 길이)
 - petal width (꽃잎의 넓이)

## 3. **class label** (타깃, 레이블, 정답): 3개

 1) Setosa
   <br> <img src = "https://www.plant-world-seeds.com/images/item_images/000/007/023/large_square/iris_baby_blue.jpg?1500653527" width = 200><br>
 2) Versicolour
   <br><img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/db/Iris_versicolor_4.jpg/1200px-Iris_versicolor_4.jpg" width = 200><br>
 3) Virginica
   <br><img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Iris_virginica_2.jpg/1200px-Iris_virginica_2.jpg" width = 200>

## 4. **attribute** (피처 + 타깃)

# 데이터 임포트

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

In [None]:
iris

In [None]:
from sklearn import datasets

iris = datasets.load_iris()

In [None]:
iris

In [None]:
iris.head(5) #오류 #Bunch 타입의 데이터이기 때문

In [None]:
type(iris) #Bunch #Dictionary-like object

In [None]:
type(iris.data)

In [None]:
type(iris.target)

In [None]:
iris.data #.data #피처별 샘플

In [None]:
iris.target #target #타깃 # 0 = setosa, 1 = versicolor, 2 = virginica

In [None]:
iris.feature_names #피처 이름

In [None]:
iris.target_names #타깃 이름 #클래스 레이블

In [None]:
print(iris.DESCR) #데이터 설명

In [None]:
iris.data.shape #샘플과 피처의 갯수

In [None]:
iris.target.shape #타깃의 갯수

# 데이터프레임으로 바꿔주기

In [None]:
df = pd.DataFrame(iris.data, columns = iris.feature_names)

df['target'] = iris.target 

df.head()

In [None]:
df2 = df.rename(columns={'sepal length (cm)' : 'sepal_length', 
                        'sepal width (cm)'  : 'sepal_width',
                        'petal length (cm)' : 'petal_length',
                        'petal width (cm)'  : 'petal_width'
                       })

In [None]:
df2.info()

In [None]:
df2.describe()

In [None]:
df2.groupby('target').agg(['mean', 'median'])

In [None]:
df2.to_csv('iris.csv') #내보내기

In [None]:
import seaborn as sns

iris = sns.load_dataset("iris")

print(iris.head())

# 시각화를 통한 데이터 살펴보기

In [None]:
df2.plot(x = "sepal_length", y = "petal_length", kind = "scatter")

In [None]:
# 박스 플랏

sns.boxplot(data = df2, x = "target", y = "petal_length")

In [None]:
# 박스 플랏

df2.boxplot(by = "target", 
            figsize=(13, 7.5))

In [None]:
# 패어 플랏 (pairplot)

sns.pairplot(df2, 
             hue = "target", 
             kind = 'scatter', 
             palette="tab10", 
             height = 2.5, 
             markers=["o", "s", "D"])

# palette 색 이름 : https://seaborn.pydata.org/tutorial/color_palettes.html?highlight=rocket

# training 데이터와 test 데이터의 램던한 분리 

- train_test_split(x,y)
 - x: 피처 (iris 데이터의 경우에는 iris.data)
 - y: 타깃 (iris 데이터의 경우에는 iris.target)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, 
                                                    iris.target, 
                                                    test_size = 0.25, 
                                                    random_state = 42, 
                                                    shuffle = True, 
                                                    stratify = iris.target)

# X_train = 훈련용 피처 데이터
# X_test = 테스트용 피처 데이터
# y_train = 훈련용 타깃 데이터
# y_test = 테스트용 타깃 데이터

#############

# test_size: 훈련 데이터 대비 테스트 데이터의 램덤 분할 (shuffle) 비율

# random_state: 동일한 데이터들이 매번 훈련 데이터와 테스트 데이터에 할당되도록 지정해주는 값. 
# 아무런 값을 입력해도 괜찮으나 보통 0과 42를 선호. 
# 타인과 공유시 모델의 재현 가능성 (reproducibility)을 담보해줌.

# shuffle: 랜덤하게 섞는다는 뜻. False일 경우 stratify 는 None 으로 설정해야.

# stratify: 층을 나눈다는 뜻. 값을 지정해줄 경우 타깃의 클래스 마다 동일한 비율로 분할. 데이터가 불균형하게 레이블링 되어 있을 경우 사용.  

In [None]:
X_train.shape

In [None]:
y_train.shape

In [None]:
X_test.shape

In [None]:
y_test.shape

In [None]:
38/112

In [None]:
#만약 Bunch 형태가 아닌 데이터프레임 형태의 데이터일 경우 X데이터와 y데이터 나누기

X_df = df2.iloc[:, :-1].values
y_df = df2.iloc[:, 4].values

X_df_train, X_df_test, y_df_train, y_df_test = train_test_split(X_df, 
                                                                y_df, 
                                                                test_size = 0.25, 
                                                                random_state = 42, 
                                                                shuffle = True)

In [None]:
X_df_train

In [None]:
X_df_train.shape

In [None]:
X_df_test.shape

In [None]:
y_df_train.shape

In [None]:
y_test.shape

##데이터간 차이와 왜곡를 줄이기 위한 피처 스케일링

### Standardization vs. Normalization
<img src = "https://lh3.googleusercontent.com/HYYaWfQLnk5HLW_rtRcSRmKwBFpn4VRSEigjoJgEYrt3CC-EZkVE38mijNpBZJOFUibaYL8SxA7YqrBT8ilDLftxzF4bHk5vBKfC9CzB42ccBq7vmOUDchh3mb9TjNRcP-Z3x4iD">

<img src = "https://storage.googleapis.com/algodailyrandomassets/curriculum/standvsnorm/comparison_graph.png">

### 방법 1) 표준정규분포화 (standardization) 

- 변형 후 값의 범위: [-무한대:+무한대] 
- 평균(μ) = 0, 표준편차(σ) = 1
- 해당 함수 (1): (x-mean())/std() 
- 해당 함수 (2): ss.zscore() 
- 해당 함수 (3): StandardScaler().fit_transform()
- 링크: https://rfriend.tistory.com/268

<img src = "https://t1.daumcdn.net/cfile/tistory/2428EB4658500BB61B">

### 방법 2) 최소 최대 `0~1` 범위 변환 (normalization) <br>
- 변형 후 값의 범위: [0:1]
- scaling individual samples to have unit norm
- 해당 함수: sklearn.preprocessing.MinMaxScaler() <br>
- 링크: https://rfriend.tistory.com/270

<img src = "https://t1.daumcdn.net/cfile/tistory/2741F74B5853FDA131">

### 방법 2) 이상치가 포함된 데이터의 중앙값과 IQR 를 이용한 표준화
- 해당 함수: StandardScaler().RobustScaler()
- 링크: https://rfriend.tistory.com/269

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F241197355852AE9003">



In [None]:
#데이터 분할 이후 권장

from sklearn.preprocessing import StandardScaler 

scaler = StandardScaler()
scaler.fit(X_train)

X_train_t = scaler.transform(X_train)
X_test_t = scaler.transform(X_test)

In [None]:
X_train #첫 훈련 데이터와 비교

In [None]:
sns.distplot(X_train_t)

In [None]:
print(X_train_t.min(), X_train_t.max(), format(X_train_t.mean(), 'f'))

In [None]:
X_test #첫 실험 데이터와 비교

In [None]:
print(X_test_t.min(), X_test_t.max(), format(X_test_t.mean(), 'f'))

In [None]:
sns.distplot(X_test_t)

#Classification - 분류 모델 만들기

## 로지스틱 회귀 분석

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
#모델 훈련 및 테스트

L_clf = LogisticRegression(random_state=42).fit(X_train, y_train) #로지스틱 모델  #classifier를 줄여서 clf로 흔히 표현

y_pred = L_clf.predict(X_test) #훈련된 모델에 테스트용 입력 데이터 넣어 예측값 생성

In [None]:
y_pred #예측된 값

In [None]:
y_test #실제 값

In [None]:
#분류 결과

from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

#support = 각 클래스의 실제 샘플 갯수

#macro avg = 각 클래스의 데이터 불균형을 고려하지 않은 평균 수치

#weighted avg = 각 클래스의 데이터 불균형을 고려한 평균 수치

<img src = "https://2.bp.blogspot.com/-uCi_IXC-5C0/W4lDTCG8SnI/AAAAAAAABIo/kxasPdWoA107m1qazYXvHsCy6Q9h1QBSwCEwYBhgL/s1600/xxx.png" width = 500>

<img src = "https://d3i71xaburhd42.cloudfront.net/e4817d541f3dd735621df62b1805c895195f8528/2-Table1-1.png" width = 500>

- Recall = True positive rate (TPR)
- Sensitivity = Recall = TPR
- Specificity = True negative rate (TNR)
- 1 - Specificity = False Positive rate (FPR)

<img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/1280px-Precisionrecall.svg.png" width = 350> <img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/5/5a/Sensitivity_and_specificity_1.01.svg/683px-Sensitivity_and_specificity_1.01.svg.png" width = 350>

In [None]:
#confusion matrix 출력

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

print(confusion_matrix(y_test, y_pred, labels = L_clf.classes_))

#y축 = 각 클래스의 실제 분류 결과
#x축 = 각 클래스의 예측 분류 결과


<img src = "https://i.stack.imgur.com/0yLu8.png">

In [None]:
#confusion matrix 시각화

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y_test, y_pred, labels = L_clf.classes_)

disp = ConfusionMatrixDisplay(confusion_matrix = cm,
                              display_labels = L_clf.classes_)

fig, ax = plt.subplots(figsize = (10,10))

disp.plot(ax = ax)

plt.show()

In [None]:
#accuracy만 출력할 경우

from sklearn.metrics import accuracy_score

print('accuracy :', format(accuracy_score(y_pred, y_test), '.4f'))

# 로지스틱 분류 모델의 여러 종류

- 로지스틱 (LR) 분류 = 여러 IV, 하나의 DV (binary)

- Multi class LR = 여러 IV, 하나의 DV (여러 클래스 중 하나를 선택)

- Multinomial LR = Multi class LR = Softmax 회귀

- Multi label LR = 여러 IV, 여러 DV (여러 클래스 중 여러 개 선택)

- Multi output LR = Multi label LR

- Multivariate LR = 여러 IV, 여러 DV

- Multivariable LR = 여러 IV, 하나의 DV

- Multiple LR = Multivariable 분류

## <일타 스캔들>은 스릴러? 로맨스? 아니면 둘다?

<img src = "https://post-phinf.pstatic.net/MjAxOTEyMTFfMTc1/MDAxNTc2MDUwNTczODUx.e3Hy3NXM1ZxhTIKwflWj9z1MSYmCpnldcFAUj_IgRcUg.hm2LBSAy0Johs5LSdVG3FfGQi6-fufnF_qzr_O9OyXEg.PNG/191203_SKB_%EB%B8%94%EB%A1%9C%EA%B7%B8_%EB%A1%9C%EB%A7%A8%EC%8A%A4%EB%A6%B4%EB%9F%AC.png?type=w1200" width = 700>




## `multi_class` parameter의 기본 설정은?

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

<img src = "https://images.slideplayer.com/24/7086332/slides/slide_25.jpg" width = 500>

<img src = "https://michael-fuchs-python.netlify.app/post/2019-11-15-multinomial-logistic-regression_files/p27s1.png" width = 500>

# 결정 경계선 시각화

- 1차원 결정 경계선 : 개별 피처의 값에 따른 클래스 구분
- 2차원 결정 경계선 : 2개 피처의 값에 따른 클래스 구분 

In [None]:
!pip install mlxtend --upgrade

#이후 Restart runtime 실행

In [None]:
import mlxtend

In [None]:
mlxtend.__version__

In [None]:
from mlxtend.plotting import plot_decision_regions

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns

### 1차원 결정 경계선 - 1개 피처만 시각화


In [None]:
# 데이터 구분

X1 = iris.data[:, 0] #sepal_length #1d 배열 상태
X1 = X1[:, None]     #1d 배열을 2d 배열로 변환 필요

y = iris.target

In [None]:
X1.ndim

In [None]:
# 다른 피처들도 동일한 구분

X2 = iris.data[:, 1] #sepal_width
X2 = X2[:, None]

X3 = iris.data[:, 2] #petal_length
X3 = X3[:, None]

X4 = iris.data[:, 3] #petal_width
X4 = X4[:, None]

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
#모델 훈련 

L_clf2 = LogisticRegression() 
L_clf2.fit(X1, y)

#시각화
ax = plot_decision_regions(X1, y, clf=L_clf2, legend=1)

plt.xlabel('sepal length')
plt.title('Decision Boundary - Logistic Regression - 1D')

#레전드
leg, labels = ax.get_legend_handles_labels()
ax.legend(leg, ['Setosa', 'Versicolor', 'Virginica'])

plt.show()

### 2차원 결정 경계선 - 2개 피처를 시각화

In [None]:
# 데이터 구분

X1 = iris.data[:, [0, 1]] #sepal_length & sepal_width의 경우

y = iris.target

In [None]:
#모델 훈련

L_clf = LogisticRegression() 
L_clf.fit(X1, y)

#시각화
ax = plot_decision_regions(X1, y, clf=L_clf, legend=1)

plt.xlabel('sepal length')
plt.ylabel('sepal_width')
plt.title('Decision Boundary - Logistic Regression - 2D')

#레전드
leg, labels = ax.get_legend_handles_labels()
ax.legend(leg, ['Setosa', 'Versicolor', 'Virginica'])

plt.show()

### ROC  커브

- TPR vs FPR의 비교를 통한 모델 성능 평가
- https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html
- [Source code](https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/metrics/_plot/roc_curve.py) 

## Binary-class 타깃(종속변수)을 통한 ROC 커브 그리기
- diabetes (당뇨병) 데이터

<img src = "https://www.cdc.gov/healthyweight/images/assessing/bmi-adult-fb-600x315.jpg?_=07167">

In [None]:
# 데이터 가져오기

import pandas as pd 

dia = pd.read_csv('/content/diabetes.csv')

dia.head(5)

In [None]:
#피처 (= X) 및 레이블 (= y) 할당

features = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'Age']
X = dia[features] 
y = dia.Outcome

In [None]:
#데이터 분할 (= training와 test 데이터로)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)

In [None]:
#모델 훈련

from sklearn.linear_model import LogisticRegression

L_clf2 = LogisticRegression()

L_clf2.fit(X_train, y_train)

#training 데이터로 예측 실행
y_pred2 = L_clf2.predict(X_test)

In [None]:
y_pred2 #예측된 결과

In [None]:
np.unique(y_pred2, return_counts=True) #예측된 결과

In [None]:
y_test #실제 결과

In [None]:
y_test.value_counts() #실제 결과

In [None]:
print('실제 test 데이터에 있는 레이블 :', y_test.values[0:30])
print('로지스틱 모델로 예측한 레이블   :', y_pred2[0:30])

In [None]:
#예측된 결과가 실제 결과를 얼마나 정확히 예측했는지 정확도 측정

from sklearn import metrics

print(metrics.accuracy_score(y_test, y_pred2))

In [None]:
#confusion matrix 구하기

metrics.confusion_matrix(y_test, y_pred2)

#y축 = 각 클래스의 실제 분류 결과
#x축 = 각 클래스의 예측 분류 결과

#37 = true positive [1,1]
#14 = false positive [0, 1]
#116 = true negative [0, 0]
#25 = true negative [1, 0]

<img src = "https://i.stack.imgur.com/0yLu8.png">

In [None]:
#confusion matrix 시각화

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y_test, y_pred2, labels = L_clf2.classes_)

disp = ConfusionMatrixDisplay(confusion_matrix = cm,
                              display_labels = L_clf2.classes_)

fig, ax = plt.subplots(figsize = (10,10))

disp.plot(ax = ax)

plt.show()

In [None]:
#confusion matrix 통해 TP, TN, FP, FN 구하기

TruePositive = cm[1,1]

FalsePositive = cm[0,1]

TrueNegative = cm[0,0]

FalseNegative = cm[1,0]

print("True Positive  :", TruePositive)

print("False Positive :", FalsePositive)

print("True Negative  :", TrueNegative)

print("False Negative :", FalseNegative)

In [None]:
TPR = TruePositive  / (TruePositive + FalseNegative)
print("True Positive Rate :", TPR)

FPR = FalsePositive  / (FalsePositive + TrueNegative)
print("False Positive Rate :", FPR)

In [None]:
#predict()와 predict_prob()의 차이

#predict() = 훈련된 모델을 test 데이터에 적용해 실제 타깃 값 (레이블)을 예측

#predict_prob() = 훈련된 모델을 test 데이터에 적용해 개별 test 데이터가 0과 1 두 클래스 중 각 클래스에 어떤 확률로 분류될지를 예측

print(L_clf2.predict(X_test)[0:5])
print("---")
print(L_clf2.predict_proba(X_test)[0:5])

"""
첫 row는 8.6%의 확률로 0 클래스, 91.4% 확률로 1 클래스 
두번째 row는 82.6% 확률로 0 클래스, 17.4% 확률로 1 클래스
이하 동일하게 해석

즉 분류 기준 (threshold) = 50%임
이 분류 기준을 높이거나 낮춤에 따라 TPR, FPR도 달라짐
"""


In [None]:
L_clf2.predict_proba(X_test)[:, 1] 

In [None]:
# 피처 양분화 (Feature binarization)
# 분류 기준을 바꾸기 (50%가 아닌 70%가 넘어야 1 클래스로 분류함)

from sklearn.preprocessing import binarize

y_pred2_prob = L_clf2.predict_proba(X_test) 

y_pred2_class = binarize(y_pred2_prob, threshold = 0.7)

In [None]:
y_pred2_prob

In [None]:
y_pred2_class

In [None]:
y_pred2_class[:, 0]

In [None]:
y_pred2_class[:, 1]

In [None]:
cm = confusion_matrix(y_test, y_pred2)
print(cm) #분류 기준이 50%일 때

In [None]:
import numpy as np
y_pred2_class=np.argmax(y_pred2_class, axis=1) #소수점 형태로 예측된 클래스 값을 정수 형태로 변환
y_pred2_class

In [None]:
y_test

In [None]:
cm2 = metrics.confusion_matrix(y_test, y_pred2_class)
print(cm2) #분류 기준이 70%일 때

#분류 기준을 40%로 바꾸면?

In [None]:
#roc.curve 함수 이용해 FPR, TPR 구하기

#https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html?highlight=roc_curve#sklearn.metrics.roc_curve

fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pred2_prob[:, 1], pos_label=1)

In [None]:
#roc_curve 결과값 살펴보기

metrics.roc_curve(y_test, y_pred2_prob[:, 1], pos_label=1)

In [None]:
#fpr, tpr, thresholds로 각각 할당하기

fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pred2_prob[:, 1], pos_label=1)

In [None]:
type(fpr)
type(tpr)
type(thresholds)

In [None]:
fpr

In [None]:
tpr

In [None]:
thresholds

In [None]:
# thresholds는 실제 ROC 커브 시각화에 쓰이지 않으므로 아래처럼 언더바로 '버림' 처리하기도 함

fpr, tpr, _ = metrics.roc_curve(y_test, y_pred2_prob[:, 1], pos_label=1) 

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(6,6))

plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1], 'k--', lw = 1) #랜덤 선택을 나타내는 검은색 점선

plt.xlim([-0.05, 1.0])
plt.ylim([0.0, 1.05])

plt.title('ROC curve - diabetes classification')
plt.xlabel('False Positive Rate (1 - Specificity)')
plt.ylabel('True Positive Rate (Sensitivity)')

plt.grid(True)

## AUC 구하기

In [None]:
#데이터 가져와서 피처와 타깃별로 나누기
import pandas as pd 
dia = pd.read_csv('/content/diabetes.csv')

#피처 (= X) 및 타깃 (= y) 할당
features = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'Age']
X = dia[features] 
y = dia.Outcome

#데이터 분할
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

#데이터 스케일링
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#모델 훈련 
from sklearn.linear_model import LogisticRegression
L_clf2 = LogisticRegression()
L_clf2.fit(X_train, y_train)

#모델 적용 후 test 데이터별 확률
y_pred2_prob = L_clf2.predict_proba(X_test) 

#AUC 계산
print(metrics.roc_auc_score(y_test, y_pred2_prob[:, 1]))

## Multi-class 타깃(종속변수)을 통한 ROC 커브 그리기
- Iris 데이터

In [None]:
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import label_binarize
from sklearn.metrics import roc_curve, auc
from sklearn.multiclass import OneVsRestClassifier
from itertools import cycle

# 데이터 가져와서 피처와 타깃별로 나누기
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 타깃을 binary하게
y = label_binarize(y, classes=[0, 1, 2])

In [None]:
# binary하게 잘 표기되었는지 y 확인하기
y

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

L_clf3 = OneVsRestClassifier(LogisticRegression()) 
#멀티 클래스 분류를 binary 클래스 분류 모델로 변환

y_score = L_clf3.fit(X_train, y_train).decision_function(X_test) 
#훈련데이터로 훈련시킨 모델을 테스트 데이터에 적용한 결과 
#decision boundary에서부터의 차이

In [None]:
y_score 

In [None]:
#ROC 커브 시각화
fpr = dict()
tpr = dict()
roc_auc = dict()
n_classes = y.shape[1]

for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])  
    roc_auc[i] = auc(fpr[i], tpr[i])

plt.figure(figsize=(6,6))

colors = cycle(["aqua", "darkorange", "cornflowerblue"])

for i, color in zip(range(n_classes), colors):
    plt.plot(fpr[i], tpr[i], color = color, lw = 1,
             label='ROC curve of class {0} (area = {1:0.2f})'
             ''.format(i, roc_auc[i]))

plt.plot([0, 1], [0, 1], 'k--', lw = 1) #랜덤 선택을 나타내는 검은색 점선

plt.xlim([-0.05, 1.0])
plt.ylim([0.0, 1.05])

plt.xlabel('False Positive Rate (1-Specificity)')
plt.ylabel('True Positive Rate (Sensitivity)')

plt.title('ROC Curve - Iris')
plt.legend(loc="lower right")

plt.show()

In [None]:
L_clf3.coef_

In [None]:
L_clf3.coef_[0]

In [None]:
#Class 0 (Setosa 종)의 피처별 중요도

importance = L_clf3.coef_[0]

#각 피쳐별 중요도

for i,v in enumerate(importance):
	print('피처: %0d, 중요도: %.5f' % (i,v))
 
#시각화

plt.figure(figsize=(8,4))
plt.bar([x for x in range(len(importance))], importance)

plt.xticks([0, 1, 2, 3],
           ['sepal length', 'sepal width', 'petal length', 'petal width'],
           rotation = 45)

plt.title("Feature Importance - Class 0 (Setosa)")
plt.show()

In [None]:
#2번째 방법 - 삭제 필요

>>> import scikitplot.plotters as skplt
>>> rf = RandomForestClassifier()
>>> rf.fit(X, y)
>>> skplt.plot_feature_importances(
...     rf, feature_names=['petal length', 'petal width',
...                        'sepal length', 'sepal width'])
<matplotlib.axes._subplots.AxesSubplot object at 0x7fe967d64490>
>>> plt.show()

# K-최근접 이웃 분류 모델 (K-nearest neighbors, KNN)

<img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/KnnClassification.svg/220px-KnnClassification.svg.png" width = 400>

In [None]:
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
import numpy as np

In [None]:
#데이터 가져와서 피처와 타깃별로 나누기
iris = datasets.load_iris()
X = iris.data
y = iris.target

#데이터 할당
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 12)

In [None]:
#데이터간 차이를 평균화하기 위한 피처 스케일링

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

K_clf = KNeighborsClassifier(n_neighbors = 5) #K = 5

K_clf.fit(X_train, y_train)

In [None]:
y_pred = K_clf.predict(X_test)

In [None]:
#confusion matrix 출력

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

print(confusion_matrix(y_test, y_pred, labels=K_clf.classes_))

#y축 = 각 클래스의 실제 분류 결과
#x축 = 각 클래스의 예측 분류 결과

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

In [None]:
#confusion matrix 시각화

cm = confusion_matrix(y_test, y_pred, labels=K_clf.classes_)

disp = ConfusionMatrixDisplay(confusion_matrix = cm,
                              display_labels = K_clf.classes_)

fig, ax = plt.subplots(figsize=(10,10))

disp.plot(ax=ax)

plt.show()

### K 결정하기

In [None]:
# K=1부터 30까지 에러 계산하기

error = []

for i in range(1, 31):
    knn = KNeighborsClassifier(n_neighbors = i)
    knn.fit(X_train, y_train)
    pred_i = knn.predict(X_test)
    error.append(np.mean(pred_i != y_test))

In [None]:
error

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(10, 7))

plt.plot(range(1, 30), error,
         color='blue', linestyle='solid', marker='D', markerfacecolor='red')

plt.title('Error by K')

plt.xlabel('K')

plt.ylabel('Average Error')

plt.show()

In [None]:
#accuracy만 출력할 경우

from sklearn.metrics import accuracy_score

acc = accuracy_score(y_pred,y_test)

print('accuracy :', format(acc, '.4f'))

In [None]:
acc_list = []

for i in range(10, 21):
    knn = KNeighborsClassifier(n_neighbors = i)
    knn.fit(X_train, y_train)
    pred_i = knn.predict(X_test)
    accu = accuracy_score(pred_i,y_test)
    acc_list.append(accu)

In [None]:
acc_list

In [None]:
plt.figure(figsize=(10, 7))

plt.plot(range(10, 21), acc_list, 
         color='blue', linestyle='solid', marker='D', markerfacecolor='red')

plt.title('Accuracy by K')

plt.xlabel('K')

plt.ylabel('Accuracy')

plt.show()

In [None]:
print("Maximum accuracy:", max(acc_list), "at K =", acc_list.index(max(acc_list)) + 10)