In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

plt.rcParams['font.family'] = 'NanumGothic'

In [None]:
df = pd.read_csv('log_prepro.csv', index_col=0)
df.head()

Unnamed: 0,사고여부,연도,월,건축,토목,강원,경기,경남,경북,광주,...,log_경영평가액,log_기술능력평가액,log_신인도평가액,log_시공능력평가액_토목,log_시공능력평가액_건축,log_건설공사실적_토건,log_건설공사실적_토목,log_건설공사실적_건축,log_보유기술자수,log_cost
0,1,2020,3,1,0,0,0,0,0,0,...,0.0,9.011646,7.252054,9.856291,10.740475,10.538237,8.168486,10.440098,2.944439,5.01728
1,1,2020,2,0,1,0,0,0,1,0,...,9.388068,8.669571,5.42495,9.832314,9.534595,9.182249,8.860499,7.892078,2.833213,5.01728
2,1,2020,2,0,1,0,0,0,0,0,...,10.152922,10.247361,8.713911,11.447256,11.089973,10.821437,10.697701,8.670772,4.317488,5.01728
3,1,2020,4,0,1,0,0,0,0,0,...,9.245225,8.812546,6.383507,9.950991,9.900583,9.315511,8.178919,8.92864,2.944439,3.258097
4,1,2020,2,0,1,0,0,1,0,0,...,8.587092,9.202913,7.393878,10.089054,9.928765,9.411974,9.039552,8.244071,3.433987,5.525453


In [None]:
X = df.drop('사고여부', axis=1)
y = df['사고여부']

In [None]:
from sklearn.model_selection import train_test_split as tts
X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2, random_state=627)

### Basic model
    - k-NN
    - Decision Tree
    - Logistic Regression

#### k-NN
    - k : 거리 측정을 할 개수
    - weight
        + uniform : 모든 이웃(neighbor)이 의사결정 과정에 동동한 가중치를 갖음
        + distance : 거리 기준으로 이웃에 가중치를 부여(가까운 이웃에 더 많은 영향)
    - metric
        + euclidean : 유클리드 거리를 활용
        + manhattan, minkowski 거리 방식
<h2 align='center'>Manhattan Distance</h2>  

<p align='center'><img src='https://upload.wikimedia.org/wikipedia/commons/thumb/0/08/Manhattan_distance.svg/1920px-Manhattan_distance.svg.png', width=640></p>

<h2 align='center'>Minkowski Distance</h2>  
  
![minkowski distance](https://upload.wikimedia.org/wikipedia/commons/thumb/0/00/2D_unit_balls.svg/2880px-2D_unit_balls.svg.png)  

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)

#### Decistion Tree
    - criterion : 노드 분할의 품질을 측정하는 기준
        + gini : 임의로 선택한 요소를 잘못 분류할 확률을 측정
        + entropy : 데이터의 불순도 또는 무질서 수준을 측정
    - max_depth : 결정 트리의 최대 깊이(레벨 수)를 결정
        + 깊게 설정할 경우: 복잡한 패턴을 파악할 수 있으나 과적합 발생할 가능성이 높음
        + 복잡성을 제한하여 과적합을 방지할 수 있음
    - min_sample_split : 내부 노드를 분할할 때 사용하는 최소 샘플 수 설정
        + 값이 작을 수록 세분화된 분할이 포함된 더 복잡한 트리가 생성
        + 값을 키울 수록 일반화되고 과적합을 방지

<h3 align='center'>Decision Tree Example - Titanic</h3>
<p align='center'><img src='https://upload.wikimedia.org/wikipedia/commons/e/eb/Decision_Tree.jpg', width=640></p>

In [None]:
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier()

#### Logistic Regression
    - penalty : 모델에 적용할 규제(정규화) 유형 지정
        + L1: 계수 값을 0으로 축소하여 최소 특성(희소 특성) 생성 촉진
        + L2: 제곱 페널티(데이터 반응 민감도 감소)
    - C : 정규화(규제) 강도 조정
        + 값이 작을수록 강도가 높아져 모델을 단순화
        + 값이 클수록 정규화 강도가 낮아져 훈련 데이터에 더 가깝게 적용
    - solver : 모델을 최적화하는데 사용하는 알고리즘 지정
        + liblinear : 데이터셋의 크기가 작을 경우
        + lbfgs, sag, saga : 데이터셋의 크기가 클 경우
            * L-BFGS(Broyden-Fletcher-Goldfarb-Shanno): 회귀 모델의 최적 계수를 찾기 위한 역 헤시안행렬을 근사. 중소규모의 데이터셋에 적합
            * SAG(Stochastic Average Gradient) : 훈련 데이터의 각 샘플에 대한 손실 함수의 기울기를 계산, 평균 기울기 기반 계수 업데이트
            * SAGA( ~ Adaptive) : SAG의 향상형 버전. 대규모 데이터셋에 유용

<h2 align='center'>Logistic Regression</h2>

<p align='center'><img src='https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/2560px-Logistic-curve.svg.png', width=640></p>
    

In [None]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

#### Naive-Bayes
    - 베이즈 정리 기반 레이블에 대한 확률을 계산하여 반환
    - 조건부 확률을 계산하고 이를 바탕으로 예측
    - Gaussian NB : 정규분포(Gaussian Distribution)를 따른다고 가정하여 연산
    - Multinomial NB : 텍스트 분류에 사용되는 개별 기능에 적합
    - Bernoulli NB : 바이너리(이진)용 알고리즘

In [None]:
from sklearn.naive_bayes import GaussianNB
nb_cls = GaussianNB()

### Support Vector Machine
    - C : 분류에 대한 페널티를 제어
        + 값이 작을수록 마진(margin)이 커지지만 오차 허용 범위가 커짐
        + 값이 클수록 마진 범위가 좁아져 오차 허용 범위가 좁아짐
    - kernel : 알고리즘에 사용할 함수 유형을 결정. 선형 혹은 비선형 방식 선택
        + linear : 선형 모델
        + poly : 다항 함수 모델
        + rbf : 방사형 모델
        + sigmoid / 사용자 지정 커널
    - gamma : 결정 경계의 유연성을 제어
        + 모델의 알고리즘이 rbf, poly, sigmoid일 때 사용
        + 값이 작을수록 영향 반경이 커져 경계가 매끄럽고 마진이 넓어짐
        + 값이 커질수록 유연성이 높아지고 복잡한 패턴을 캡처할 수 있으나 과적합이 되기 쉬움
            * 값이 커지면 일반화가 어렵고 복잡성이 증가

In [None]:
from sklearn.svm import SVC
svm_cls = SVC()

### CV(Cross-Validation)을 자동으로 처리하는 모델의 파라미터
    - cv: fold의 개수나 유효성 검사 전략을 입력
        + 정수값 입력: fold의 갯수를 설정
        + 검사 전략 입력: KFold()와 같은 전략 입력
    - scoring: 성능 평가를 확인할 점수 측정 방법(metric) 지정
        + 분류 모델의 경우 - accuracy, recall, precision, f1_score, f1_macro, roc_auc
    - n_jobs: 병렬 작업 수 할당
        + -1 : 병렬 계산을 위한 모든 프로세서에 할당
        + 1 : 단일 스레드 실행
    - verbose: CV 진행중인 프로세스 출력

In [None]:
from sklearn.linear_model import LogisticRegressionCV
logreg_cv = LogisticRegressionCV(cv=10)

from sklearn.ensemble import RandomForestClassifierCV
rf_cv = RandomForestClassifierCV()

#### CV가 없는 모델의 경우 처리방법

In [None]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(knn, X_train, y_train, cv=10, scoring='f1_macro')

for fold, fs in enumerate(scores):
    print(f"Fold: {fold+1} F1 Score: {fs}")

mean_f1 = scores.mean()
print(f"Mean accuracy: {mean_f1:.3f}")

Fold: 1 F1 Score: 0.6068814751449483
Fold: 2 F1 Score: 0.5444823663253697
Fold: 3 F1 Score: 0.5510204081632654
Fold: 4 F1 Score: 0.541439205955335
Fold: 5 F1 Score: 0.5997712978845054
Fold: 6 F1 Score: 0.5429435399196427
Fold: 7 F1 Score: 0.5104541448119411
Fold: 8 F1 Score: 0.5754066721808657
Fold: 9 F1 Score: 0.5816608146574768
Fold: 10 F1 Score: 0.5527272727272727
Mean accuracy: 0.561


### 특성 중요도 파악
    - 모델의 훈련 이후 어떤 특성을 통해 패턴을 파악할 수 있었는지 각 특성에 대한 중요도를 파악할 수 있음
    - 특성 중요도를 확인할 수 있는 모델은 정해져있음
        + RandomForest
        + GradientBoost
        + ExtraTrees
        + XGBoost, LightGBM