In [2]:
# 라이브러리
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from lightgbm import LGBMClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [3]:
# 데이터 불러오기 ( train만 사용 )
final_train = pd.read_csv("./data/final_Feature/train_final.csv")

# 1. 최소 변수로 모델 성능 확인하기
- 이번 실험에서는 최소 변수를 사용하여 모델의 성능을 확인 후 새로운 변수를 추가하여 변화되는 모델의 수치를 확인한다.
- 변화가 많은 변수들을 모델이 더 잘 인식할 수 있도록 모델링을 계획하여 실행한다.

## 기초 모델 변수 목록
- Weather 날씨
- SurfaceCondition 노면상태
- Vehicle_count_user 사고에 포함된 차량 수
- Safety_used_yes_count 안전밸트 착용인원
- Safety_used_no_count 안전밸트 미착용 인원
- Persons 사고에 참여한 인원 수

In [4]:
# 변수 컬럼 저장하기
df = final_train[
    ["Weather", "SurfaceCondition", "Vehicle_count_user", "Safety_used_yes_count", "Safety_used_no_count", "Persons"]
    ].copy()

In [5]:
# 데이터 타입 확인
df.dtypes

Weather                   object
SurfaceCondition          object
Vehicle_count_user       float64
Safety_used_yes_count    float64
Safety_used_no_count     float64
Persons                  float64
dtype: object

In [6]:
# dtype 변경할 컬럼 선택
col = ["Weather", "SurfaceCondition"]

In [7]:
# category 타입으로 변환
df[col] = df[col].astype("category")

In [8]:
# Y-train 만들기
y_train = final_train['Gravity']

In [9]:
# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)


In [10]:
# LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.002253 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 77
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 6
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [11]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [12]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

AUC: 0.6066053988492044


In [13]:
# F1_score 확인
print("F1:", f1_score(y_val, y_pred, pos_label="Lethal"))

F1: 0.0036429872495446266


In [14]:
# confusion matrix (혼동행렬 확인)
print("confusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

confusion matrix : 
[[9016   16]
 [ 531    1]]


In [15]:
# Classification Report
print("Classification Report")
print(classification_report(y_val, y_pred, labels=["NonLethal", "Lethal"]))

Classification Report
              precision    recall  f1-score   support

   NonLethal       0.94      1.00      0.97      9032
      Lethal       0.06      0.00      0.00       532

    accuracy                           0.94      9564
   macro avg       0.50      0.50      0.49      9564
weighted avg       0.90      0.94      0.92      9564



In [16]:
# 타킷의 비율 확인
final_train["Gravity"].value_counts(normalize=True)

Gravity
NonLethal    0.944412
Lethal       0.055588
Name: proportion, dtype: float64

## 최소 모델 실험 결과
- 대부분 심각하지 않다고 구분하여 심각하다라고 구분한것은 단 한건에 불과하다.
- 이 데이터는 실제로도 NonLethal 비율이 약 94% Lethal 비율이 약 0.55 % 으로 모델 또한 NonLethal로 예측을 더 많이하는것을 확인할 수 있다.

# 2. 변수 추가하여 모델 실험하기
- 변수를 추가하거나 제거하는 실험을 통해 어떤 변수가 관계가 높은지 분석하는 단계이다.
- 종합적으로 관련이 높은 변수를 추가해도 모델이 잘 읽지 못한다면 성능 개선에 의미가 없다고 판단했다.
- 이번 실험에서는 어떤 변수가 영향이 있고 또는 성능을 저하시키는지 살펴보며 실험을 진행한다.

In [17]:
# 변수 컬럼 저장하기
df = final_train[
    ["Date", "Hour", "Weather", "SurfaceCondition", "Vehicle_count_user", "Safety_used_yes_count", "Safety_used_no_count", "Persons"]
    ].copy()

In [18]:
# 데이터 타입 확인
df.dtypes

Date                      object
Hour                      object
Weather                   object
SurfaceCondition          object
Vehicle_count_user       float64
Safety_used_yes_count    float64
Safety_used_no_count     float64
Persons                  float64
dtype: object

In [19]:
# dtype 변경할 컬럼 선택
col = ["Date", "Hour", "Weather", "SurfaceCondition"]

In [20]:
# category 타입으로 변환
df[col] = df[col].astype("category")

In [21]:
# Y-train 만들기
y_train = final_train['Gravity']

In [22]:
# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [23]:
# LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001133 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1390
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 8
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [24]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [25]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("F1:", f1_score(y_val, y_pred, pos_label="Lethal"))

AUC: 0.5485321197146986
F1: 0.03969465648854962


In [26]:
# confusion matrix (혼동행렬 확인)
print("confusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

confusion matrix : 
[[8922  110]
 [ 519   13]]


## Date, Hour 모델 실험 결과
- 이번에는 Lethal로 예측하는 경우가 상승하여 FP가 증가하고 FN이 감소하는 결과가 나타났다.
- 다만 TN이 감소하였으며 이는 Lethal로 구분하는 경우가 증가했다고 볼 수 있다.
- TP도 12건이 상승했지만 FP가 급 상승하면서 종합적인 성능이 많이 상승했다고 할 수 없다.

## Date, Hour 피처 엔지니어링 진행하기
- 현재 모델은 시간(Date, Hour) 데이터를 단순한 숫자 값으로만 인식하기 때문에 날짜가 가지는 의미나 시간의 개념을 충분히 이해하지 못하는 상태이다.
- 이에 따라 Date와 Hour 변수를 모델이 개념적으로 해석할 수 있도록 피처 엔지니어링을 수행하고 그 결과를 다시 한 번 분석한다.

### Date
- 월 단위의 변수 생성
- 요일 단위의 변수 생성
- 주말 여부 변수 생성

위 세개의 변수만 생성한 뒤 모델에 실험 결과를 확인한다.

In [27]:
# datetime으로 변환하기
final_train["Date_dt"] = pd.to_datetime(final_train["Date"], errors="coerce")

In [28]:
# 월 단위 컬럼 생성
final_train["month"] = final_train["Date_dt"].dt.month

# 요일 컬럼 생성
final_train["weekday"] = final_train["Date_dt"].dt.day_name().str[:3]

# 주말 여부 컬럼 생성
final_train["is_weekend"] = (final_train["weekday"].isin(["Sat", "Sun"]).astype(int))

In [29]:
final_train["is_weekend"]

0        0
1        0
2        0
3        1
4        0
        ..
47811    0
47812    1
47813    1
47814    1
47815    0
Name: is_weekend, Length: 47816, dtype: int64

In [30]:
# 변수 컬럼 저장하기
df = final_train[
    ["Hour", "Weather", "SurfaceCondition", "Vehicle_count_user", 
     "Safety_used_yes_count", "Safety_used_no_count", "Persons",
     "month", "weekday", "is_weekend"]
    ].copy()

In [31]:
# 데이터 타입 확인
df.dtypes

Hour                      object
Weather                   object
SurfaceCondition          object
Vehicle_count_user       float64
Safety_used_yes_count    float64
Safety_used_no_count     float64
Persons                  float64
month                      int32
weekday                   object
is_weekend                 int64
dtype: object

In [32]:
# dtype 변경할 컬럼 선택
col = ["Hour", "Weather", "SurfaceCondition", "weekday"]

In [33]:
# category 타입으로 변환
df[col] = df[col].astype("category")

In [34]:
# Y-train 만들기
y_train = final_train['Gravity']

In [35]:
# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [36]:
# exp_03_LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)


[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001637 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1053
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [37]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [38]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("F1:", f1_score(y_val, y_pred, pos_label="Lethal"))

AUC: 0.5730674810365151
F1: 0.01436265709156194


In [39]:
# confusion matrix (혼동행렬 확인)
print("confusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

confusion matrix : 
[[9011   21]
 [ 528    4]]


### Date 변수 생성 모델 실험 결과
- Date 기반 피처 엔지니어링 이후 TN은 증가하고 FP는 감소하여 NonLethal 사고에 대한 분류 안정성은 다소 개선된 것으로 확인되었다.
- 반면 FN은 초기 최소 모델과 유사한 수준으로 다시 증가하였으며 TP는 초기 모델 대비 소폭(3건) 증가하는 데 그쳤다.
- Date 정보가 Lethal 사고를 직접적으로 구분하는 강한 신호라기보다는 전반적인 분류 경계를 안정화하는 보조적 역할에 가까웠음을 시사한다.
- FN 감소 관점에서 Date 변수가 유의미한 영향을 주었다고 판단하기는 어렵다.


In [40]:
# 변수 컬럼 저장하기
df = final_train[
    ["Hour", "Weather", "SurfaceCondition", "Vehicle_count_user", 
     "Safety_used_yes_count", "Safety_used_no_count", "Persons",
     "month", "weekday"]
    ].copy()

In [41]:
# dtype 변경할 컬럼 선택
col = ["Hour", "Weather", "SurfaceCondition", "weekday"]

In [42]:
# category 타입으로 변환
df[col] = df[col].astype("category")

In [43]:
# Y-train 만들기
y_train = final_train['Gravity']

In [44]:
# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [45]:
# exp_03_LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001077 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1051
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 9
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [46]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [47]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("F1:", f1_score(y_val, y_pred, pos_label="Lethal"))

AUC: 0.5784800450528447
F1: 0.02857142857142857


In [48]:
# confusion matrix (혼동행렬 확인)
print("confusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

confusion matrix : 
[[9012   20]
 [ 524    8]]


### is_weekend 변수 제거하고 실험

In [49]:
# 변수 컬럼 저장하기
df = final_train[
    ["Hour", "Weather", "SurfaceCondition", "Vehicle_count_user", 
     "Safety_used_yes_count", "Safety_used_no_count", "Persons",
     "month", "weekday"]
    ].copy()

In [50]:
# dtype 변경할 컬럼 선택
col = ["Hour", "Weather", "SurfaceCondition", "weekday"]

# category 타입으로 변환
df[col] = df[col].astype("category")

In [51]:
# Y-train 만들기
y_train = final_train['Gravity']

In [52]:
# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [53]:
# exp_04_LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001365 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1051
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 9
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [54]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [55]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("\nF1:", f1_score(y_val, y_pred, pos_label="Lethal"))

# confusion matrix (혼동행렬 확인)
print("\nconfusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

AUC: 0.5784800450528447

F1: 0.02857142857142857

confusion matrix : 
[[9012   20]
 [ 524    8]]


### is_weekend 변수 제거 결과
- 생성한 is_weekend 변수를 포함한 모델과 is_weekend를 제거 한 모델과 비교시 AUC와 F1-score가 모두 개선되는 현상이 관찰되었다.
- 요일 변수와 중복 신호이며 Lethal 사고를 직접적으로 구분에 제한적인 설명력을 가졌다고 볼 수 있다.
- 위와 같은 이유로 모델의 판단을 불안정하게 만드는 요일으로 작용했을 가능성이 있다.
- Date관련 최종 모델에서는 **is_weekend 변수를 제외**하고 "month", "weekday" 변수만 사용한다.

### Hour
- 시간만 추출한 변수 생성 (hour_int)
- 시간대 그룹 변수 생성
  - MorningRush (출근시간대)
  - Daytime (낮 시간)
  - EveningRush (퇴근시간대)
  - Night (밤 시간)
  - LateNight (밤-새벽시간대)

### hour_int 변수 생성 후 실험

In [56]:
# timedelta로 변환
final_train["Hour"] = pd.to_timedelta(final_train["Hour"], errors="coerce")

In [57]:
# 시(hour)만 추출 (0~23)
final_train["hour_int"] = (final_train["Hour"].dt.total_seconds() // 3600).astype("Int64")

In [58]:
# 변수 컬럼 저장하기
df = final_train[
    ["hour_int", "Weather", "SurfaceCondition", "Vehicle_count_user", 
     "Safety_used_yes_count", "Safety_used_no_count", "Persons",
     "month", "weekday"]
    ].copy()

In [60]:
# dtype 변경할 컬럼 선택
col = ["Weather", "SurfaceCondition", "weekday"]

# category 타입으로 변환
df[col] = df[col].astype("category")

In [63]:
# dtype 조회
df.dtypes

hour_int                    Int64
Weather                  category
SurfaceCondition         category
Vehicle_count_user        float64
Safety_used_yes_count     float64
Safety_used_no_count      float64
Persons                   float64
month                       int32
weekday                  category
dtype: object

In [61]:
# Y-train 만들기
y_train = final_train['Gravity']

In [64]:
# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [65]:
# exp_05_LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001290 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 122
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 9
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [66]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [67]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("\nF1:", f1_score(y_val, y_pred, pos_label="Lethal"))

# confusion matrix (혼동행렬 확인)
print("\nconfusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

AUC: 0.5995431032186312

F1: 0.010889292196007259

confusion matrix : 
[[9016   16]
 [ 529    3]]


### 시간대 그룹 변수 생성 후 실험

In [86]:
# 시간 그룹 생성 함수
def hour_group(h):
    if pd.isna(h):
        return pd.NA
    h = int(h)
    if 7 <= h <= 9:
        return "MorningRush"
    elif 10 <= h <= 16:
        return "Daytime"
    elif 17 <= h <= 19:
        return "EveningRush"
    elif 20 <= h <= 23:
        return "Night"
    else:
        return "LateNight"

final_train["hour_group"] = final_train["hour_int"].apply(hour_group)

In [87]:
# 변수 컬럼 저장하기
df = final_train[
    ["hour_int","hour_group", "Weather", "SurfaceCondition", "Vehicle_count_user", 
     "Safety_used_yes_count", "Safety_used_no_count", "Persons",
     "month", "weekday"]
    ].copy()

In [88]:
# dtype 변경할 컬럼 선택
col = ["hour_group","Weather", "SurfaceCondition", "weekday"]

# category 타입으로 변환
df[col] = df[col].astype("category")

In [89]:
# dtype 조회
df.dtypes

hour_int                    Int64
hour_group               category
Weather                  category
SurfaceCondition         category
Vehicle_count_user        float64
Safety_used_yes_count     float64
Safety_used_no_count      float64
Persons                   float64
month                       int32
weekday                  category
dtype: object

In [90]:
# Y-train 만들기
y_train = final_train['Gravity']

# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [91]:
# exp_06_LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001566 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 128
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [92]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [85]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("\nF1:", f1_score(y_val, y_pred, pos_label="Lethal"))

# confusion matrix (혼동행렬 확인)
print("\nconfusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

AUC: 0.5976394706873472

F1: 0.018083182640144666

confusion matrix : 
[[9016   16]
 [ 527    5]]


### 시간대 그룹 변수만 사용하여 실험, 시간 추출 변수 제외

In [93]:
# 변수 컬럼 저장하기
df = final_train[
    ["hour_group", "Weather", "SurfaceCondition", "Vehicle_count_user", 
     "Safety_used_yes_count", "Safety_used_no_count", "Persons",
     "month", "weekday"]
    ].copy()

In [94]:
# dtype 변경할 컬럼 선택
col = ["hour_group","Weather", "SurfaceCondition", "weekday"]

# category 타입으로 변환
df[col] = df[col].astype("category")

In [96]:
# Y-train 만들기
y_train = final_train['Gravity']

# 변수 분할

X = df
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [97]:
# exp_07_LightGBM 학습
model = LGBMClassifier(n_estimators=500,      
                       learning_rate=0.05,    
                       random_state=42)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001185 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 104
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 9
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [98]:
# 예측 확률 확인
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [99]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

# F1_score 확인
print("\nF1:", f1_score(y_val, y_pred, pos_label="Lethal"))

# confusion matrix (혼동행렬 확인)
print("\nconfusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

AUC: 0.6000874293239742

F1: 0.025089605734767026

confusion matrix : 
[[9013   19]
 [ 525    7]]
