#5단원 머신러닝 주요 개념 (모델 활용 제외 5.5까지)

###5.1 회귀 평가지표 값들 구하기 (MAE,MSE,RMSE,MSLE,MSLE,R2)




In [16]:
import numpy as np
import pandas as pd
# MAE, MSE, MSLE, R2 임포트
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, r2_score

In [5]:
true = np.array([1, 2, 3, 2, 3, 5, 4, 6, 5, 6, 7, 8, 8]) # 실제값
preds = np.array([1, 1, 2, 2, 3, 4, 4, 5, 5, 7, 7, 6, 8]) # 예측값

###자주이용하는 회귀평가지표

In [6]:
#평균 절대 오차 :실제 타깃값과 예측 타깃값 차의 절댓값 평균
MAE = mean_absolute_error(true, preds) 

In [7]:
#평균 제곱 오차:실제 타깃값과 예측 타깃값 차의 제곱의 평균
MSE = mean_squared_error(true, preds)
#평균 제곱근 오차:MSE에 제곱근을 취한 값
RMSE = np.sqrt(MSE)

###log(x)가 아닌 log(x+1)를 취함
    ->log(x)를 취하면 0인 값은 음의 무한대가 나오기 때문에

In [8]:
#MSE에서 타깃값에 로그를 취한값
MSLE = mean_squared_log_error(true, preds)
#MSLE에 제곱근을 취한값
RMSLE = np.sqrt(mean_squared_log_error(true, preds))

In [9]:
#결정계수,(예측 타깃값의 분산/실제 타깃값의 분산),1에 가까울수록 모델성능 좋음
R2 = r2_score(true, preds)

In [10]:
# 출력
print(f'MAE:\t {MAE:.4f}')
print(f'MSE:\t {MSE:.4f}')
print(f'RMSE:\t {RMSE:.4f}')
print(f'MSLE:\t {MSLE:.4f}')
print(f'RMSLE:\t {RMSLE:.4f}')
print(f'R2:\t {R2:.4f}')

MAE:	 0.5385
MSE:	 0.6923
RMSE:	 0.8321
MSLE:	 0.0296
RMSLE:	 0.1721
R2:	 0.8617


###5.2 분류 평가지표

In [11]:
from sklearn.metrics import accuracy_score,precision_score,recall_score,confusion_matrix,f1_score,roc_auc_score

In [33]:
# 오차행렬 데이터
confusion_matrix_data = {'실제값': [1, 1, 1, 0,0,1,0,1,1],  # 실제값
                         '예측값': [1, 1, 0, 0,1,0,0,1,1]}  # 예측값

# confusion_matrix 함수를 사용하여 오차행렬 계산
confusion = confusion_matrix(confusion_matrix_data['실제값'], confusion_matrix_data['예측값'])

# 오차행렬을 데이터프레임으로 변환
df_confusion = pd.DataFrame(confusion, index=['실제(양성)', '실제(음성)'], columns=['예측(양성)', '예측(음성)'])

print("오차행렬:")
print(df_confusion)

오차행렬:
        예측(양성)  예측(음성)
실제(양성)       2       1
실제(음성)       2       4


###오차행렬 활용 평가지표

In [34]:
#(TP+TN)/전체값 : 예측값이 얼마나 일치하는지
accuracy = accuracy_score(confusion_matrix_data['실제값'], confusion_matrix_data['예측값'])

#TP/(TP+FP) : 긍정이라고 예측한 값중 진짜 긍정인 비율
precision = precision_score(confusion_matrix_data['실제값'], confusion_matrix_data['예측값'])

#(TP)/(TP+FN) : 실제 긍정인 값중 긍정으로 잘 예측한 비율
recall = recall_score(confusion_matrix_data['실제값'], confusion_matrix_data['예측값'])

#정밀도와 재현율을 조합
f1 = f1_score(confusion_matrix_data['실제값'], confusion_matrix_data['예측값'])

In [35]:
print('정확도:',accuracy)
print('정밀도:',precision)
print('재현율:',recall)
print('f1:',f1)

정확도: 0.6666666666666666
정밀도: 0.8
재현율: 0.6666666666666666
f1: 0.7272727272727272


###5.4 피처 스케일링
- min-max 정규화

In [None]:
import pandas as pd

height_weight_dict = {'키': [1.7, 1.5, 1.8], '몸무게': [75, 55, 60]}
df = pd.DataFrame(height_weight_dict, index=['광일', '혜성', '덕수'])

print(df)

      키  몸무게
광일  1.7   75
혜성  1.5   55
덕수  1.8   60


In [None]:
from sklearn.preprocessing import MinMaxScaler

# min-max 정규화 객체 생성
scaler = MinMaxScaler()

# min-max 정규화 적용
scaler.fit(df)
df_scaled = scaler.transform(df)

print(df_scaled)

[[0.66666667 1.        ]
 [0.         0.        ]
 [1.         0.25      ]]


In [None]:
# min-max 정규화 객체 생성
scaler = MinMaxScaler()

# min-max 정규화 적용
df_scaled = scaler.fit_transform(df)

print(df_scaled)

[[0.66666667 1.        ]
 [0.         0.        ]
 [1.         0.25      ]]


- 표준화

In [None]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# 표준화 적용
df_scaled = scaler.fit_transform(df)

print(df_scaled)

[[ 0.26726124  1.37281295]
 [-1.33630621 -0.98058068]
 [ 1.06904497 -0.39223227]]


###5.5 교차 검증
- 폴드 교차 검증

In [None]:
import numpy as np
from sklearn.model_selection import KFold

data = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

folds = KFold(n_splits=5, shuffle=False)

for train_idx, valid_idx in folds.split(data):
    print(f'훈련 데이터: {data[train_idx]}, 검증 데이터: {data[valid_idx]}')

훈련 데이터: [2 3 4 5 6 7 8 9], 검증 데이터: [0 1]
훈련 데이터: [0 1 4 5 6 7 8 9], 검증 데이터: [2 3]
훈련 데이터: [0 1 2 3 6 7 8 9], 검증 데이터: [4 5]
훈련 데이터: [0 1 2 3 4 5 8 9], 검증 데이터: [6 7]
훈련 데이터: [0 1 2 3 4 5 6 7], 검증 데이터: [8 9]


In [None]:
folds = KFold(n_splits=5, shuffle=True)

for train_idx, valid_idx in folds.split(data):
    print(f'훈련 데이터: {data[train_idx]}, 검증 데이터: {data[valid_idx]}')

훈련 데이터: [0 1 3 4 5 7 8 9], 검증 데이터: [2 6]
훈련 데이터: [2 3 4 5 6 7 8 9], 검증 데이터: [0 1]
훈련 데이터: [0 1 2 4 6 7 8 9], 검증 데이터: [3 5]
훈련 데이터: [0 1 2 3 4 5 6 9], 검증 데이터: [7 8]
훈련 데이터: [0 1 2 3 5 6 7 8], 검증 데이터: [4 9]


- 층화 K 폴드 교차 검증

In [None]:
y = np.array(['스팸']*5 + ['일반']*45)

folds = KFold(n_splits=5, shuffle=True) # K 폴드 교차 검증

for idx, (train_idx, valid_idx) in enumerate(folds.split(y)):
    print(f'Fold {idx+1} 검증 데이터 타깃 값:')
    print(y[valid_idx], '\n')

Fold 1 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 2 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 3 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 4 검증 데이터 타깃 값:
['일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 5 검증 데이터 타깃 값:
['스팸' '스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 



In [None]:
from sklearn.model_selection import StratifiedKFold

X = np.array(range(50))
y = np.array(['스팸']*5 + ['일반']*45)

folds = StratifiedKFold(n_splits=5) # '층화' K 폴드 교차 검증

for idx, (train_idx, valid_idx) in enumerate(folds.split(X, y)):
    print(f'Fold {idx+1} 검증 데이터 타깃 값:')
    print(y[valid_idx], '\n')

Fold 1 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 2 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 3 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 4 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

Fold 5 검증 데이터 타깃 값:
['스팸' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반' '일반'] 

