## 머신러닝 실습

### 로지스틱 회귀 분석

#### 개념이해
- 선형회귀로 구할 수 없는 분류
- S자 함수 사용(참or거짓) 분류
 
    <img src = "https://raw.githubusercontent.com/simwh123/bigdata-analysis-2024/main/images/ba015.png" width = "600">
    <!-- ![로지스틱회귀](https://raw.githubusercontent.com/simwh123/bigdata-analysis-2024/main/images/ba015.png) -->

##### 시그모이드(Sigmoid : S자형) 함수
$$
y = \frac{1}{1 + e^{ax + b}}
$$

##### 로지스텍회귀모델의 성능평가표
- 선형회귀 : MSE(평균제곱오류), RMSE(평균제곱의 제곱근 오류), R^2 score(분산비율)
- 로지스틱회귀 : 오차행렬에 기반한 정밀도, 재현율, F1스코어, ROC_AUC스코어
 
##### 오차행렬

<img src = "https://raw.githubusercontent.com/simwh123/bigdata-analysis-2024/main/images/ba016.png" width = "600">

- 정확도 : 정확하게 예측한 TN, TP를 전체 데이터로 나눈 값, accuracy_score, 오차행렬은 confusion_matrix 함수 사용

    $$정확도 =\frac {예측결과와 실제값이 동일한 건수}{전체데이터수} = \frac {(TN+TP)}{(TN+FP+FN+TP)}$$

- 정밀도 : 예측이 Positive값에서 참인 것(TP)의 비율, precision_score 함수

    $$정밀도 = \frac{TP}{(FP+TP)}$$

- 재현율 : 실제값이 positive인 것중 참인 것(TP)의 비율, recall_score 함수 사용

    $$재현율 = \frac{TP}{(FN+TP)}$$

- F1스코어 : 정밀도와 재현율을 결합한 평가지표, f1_score 함수

    $$F1스코어 = \frac{2}{\frac{1}{재현율}+\frac {1}{정밀도}} = 2\times \frac{정밀도*재현율}{정밀도+재현율}$$

- ROC(수신자 운영 곡선)기반 AUC(곡선 아래 면적)스코어 : FPR(실제 N인 데이터를 P로 거짓으로 예측한 비율), TPR(실제 P인 데이터를 참으로 예측한 비율(재현율)), roc_auc_score 함수 제공

    $$FPR = \frac{FP}{(FP+TN)}$$

## 분류분석

### 로지스틱 회귀분석

#### 데이터수집

##### 사이킷런 제공 유방암 진단 데이터

In [None]:
## 필요 라이브러리 사용등록
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# load_boston() 만 없어짐
from sklearn.datasets import load_breast_cancer

In [None]:
# 데이터 준비
bcancer = load_breast_cancer()

In [None]:
bcancer.feature_names

In [None]:
bcancer.data

In [None]:
bcancer.target

In [None]:
## DF 생성
dfBrCanner = pd.DataFrame(bcancer.data, columns=bcancer.feature_names)

In [None]:
dfBrCanner

In [None]:
# 종속변수 암판단결과 추가
dfBrCanner['result'] = bcancer.target

In [None]:
dfBrCanner

In [None]:
# null값 확인
dfBrCanner.isnull().sum()

In [None]:
## 사이킷런 필요라이브러리 사용등록
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()

In [None]:
## 특성으로 사용할 데이터의 평균이 0, 분산이 1이 되는 정규분포형태로 스케일링
## 로지스틱 회귀 모델에서 X축으로 사용하기 위해서
brCannerScaled = scaler.fit_transform(bcancer.data)

##### 로지스틱 회귀로 분석모델 구축
- LogisiticRegression

In [None]:
## 분석용 라이브러리 사용등록
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [None]:
## X(독립변수), Y(종속변수 / 악성|양성 결과값)
y = dfBrCanner['result']
X = brCannerScaled

In [None]:
# 훈련용데이터와 검증(평가)용 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3,random_state=0)

In [None]:
## 로지스틱 회귀 분석
model = LogisticRegression()

In [None]:
model.fit(X_train, y_train)

In [None]:
# 예측 시작
y_predict = model.predict(X_test)

##### 분석평가지표로 실제결과/예측결과 비교
- 정확도, 정밀도, 재현율, F1, ROC_AUC_Score

In [None]:
## 평가지표용 라이브러리 사용등록
from  sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score,roc_auc_score

In [None]:
## 1. 오차행렬(실제결과, 예측결과의 오차행렬을 결과)
## 171개 확인결과 0을 0으로 예측한게 60건,
## 0인데 1로 잘못예측한게 3건, 1을 1로 예측한게 107건
confusion_matrix(y_test, y_predict)

In [None]:
## 정확도부터 ROC기반AUC스코어까지
accuracy = accuracy_score(y_test, y_predict)
precision = precision_score(y_test, y_predict)
recall = recall_score(y_test, y_predict)
f1 = f1_score(y_test, y_predict)
roc_auc = roc_auc_score(y_test, y_predict)

In [None]:
f'정확도: {accuracy:.3f}, 정밀도: {precision:.3f}, 재현율: {recall:.3f}, F1:{f1:.3f}, ROC_AUC:{roc_auc:.3f}'

##### 결론
- 1/10으로 참, 거짓 등의 값을 판단할때는 로지스틱회귀를 사용할 것