# 목표

1차 모델 학습 결과 치명 사고(Lethal)를 비치명 사고(NonLethal)로 예측하는 False Negative(FN) 사례가 다수 발생하였다.    
본 노트북은 이러한 FN 오류의 원인을 분석하고 이를 기반으로 피처를 재구성하여 모델 성능을 개선하는 것을 목표로 한다.

**분석 및 개선 방향**

- 치명인데 비치명으로 구분한 FN의 비율과, 치명을 치명으로 잘 구분한 TP의 비율을 확인한다.
- 실제 치명사고 집단을 기준으로 모델이 이를 정확히 탐지한 사례(TP)와 놓친 사례(FN)의 비율을 비교 분석한다.

In [1]:
# 라이브러리
import pandas as pd
import numpy as np

In [2]:
# 파일 불러오기
fn_df = pd.read_pickle("./data/fn_tp_pkl/fn_cases.pkl")
tp_df = pd.read_pickle("./data/fn_tp_pkl/tp_cases.pkl")

In [3]:
# 데이터 확인
fn_df.head(3)

Unnamed: 0,Date,Hour,Light,Department,Commune,InAgglomeration,IntersectionType,Weather,CollisionType,Latitude,...,Maneuver_SameDirectionOrLane,Maneuver_Stopped,Maneuver_SwerveToLeft,Maneuver_SwerveToRight,Maneuver_TurnToLeft,Maneuver_TurnToRight,Maneuver_UTurnInLane,Maneuver_WrongWay,y_true,y_pred
35828,530,16,Daylight,940,81,Yes,NoIntersection,Normal,Other,48.790898,...,0,0,0,0,0,0,0,0,Lethal,NonLethal
17029,924,15,Daylight,600,203,No,T-type,Normal,2Vehicles-Side,49.236875,...,0,0,0,0,1,0,0,0,Lethal,NonLethal
10705,1022,17,Daylight,450,300,Yes,NoIntersection,Normal,Other,47.839047,...,0,0,0,0,0,0,0,0,Lethal,NonLethal


In [4]:
# 데이터 확인
tp_df.head(3)

Unnamed: 0,Date,Hour,Light,Department,Commune,InAgglomeration,IntersectionType,Weather,CollisionType,Latitude,...,Maneuver_SameDirectionOrLane,Maneuver_Stopped,Maneuver_SwerveToLeft,Maneuver_SwerveToRight,Maneuver_TurnToLeft,Maneuver_TurnToRight,Maneuver_UTurnInLane,Maneuver_WrongWay,y_true,y_pred
14179,624,8,Daylight,630,239,No,NoIntersection,Normal,Other,45.682349,...,0,0,0,0,0,0,0,0,Lethal,Lethal
14014,922,5,NightNoStreetLight,550,452,No,NoIntersection,Normal,Other,48.621856,...,0,0,1,0,0,0,0,0,Lethal,Lethal
9879,1003,15,Daylight,400,303,No,NoIntersection,Normal,Other,44.148309,...,0,0,0,0,0,0,0,0,Lethal,Lethal


# 1. FN / TP 분포 비교를 위한 테이블 병합

In [5]:
# 분석용 라벨 붙이기
fn_df["pred_result"] = "FN"
tp_df["pred_result"] = "TP"

In [6]:
# FN + TP merge
df_lethal = pd.concat([fn_df, tp_df], axis=0).reset_index(drop=True)

In [7]:
# 결과 확인
df_lethal.head(3)

Unnamed: 0,Date,Hour,Light,Department,Commune,InAgglomeration,IntersectionType,Weather,CollisionType,Latitude,...,Maneuver_Stopped,Maneuver_SwerveToLeft,Maneuver_SwerveToRight,Maneuver_TurnToLeft,Maneuver_TurnToRight,Maneuver_UTurnInLane,Maneuver_WrongWay,y_true,y_pred,pred_result
0,530,16,Daylight,940,81,Yes,NoIntersection,Normal,Other,48.790898,...,0,0,0,0,0,0,0,Lethal,NonLethal,FN
1,924,15,Daylight,600,203,No,T-type,Normal,2Vehicles-Side,49.236875,...,0,0,0,1,0,0,0,Lethal,NonLethal,FN
2,1022,17,Daylight,450,300,Yes,NoIntersection,Normal,Other,47.839047,...,0,0,0,0,0,0,0,Lethal,NonLethal,FN


# 2. 시간, 날짜 관련 분석하기

## 1) Date

- 월별 FN 비율은 0.91 ~ 1.00 사이로 특정 월만 튀지 않았다.
- 표본 수도 극단적으로 적은 달이 없어 왜곡된 상황이 아니였다.
- 결론 : 치명 사고를 놓치는 현상은 특정 월에 집중되어 있지 않고 연중 전반적으로 고르게 발생하였다.

In [8]:
# month 컬럼 생성
df_lethal["month"] = (
    df_lethal["Date"]
    .astype(str)
    .str[:2]
)

In [9]:
# 월별 FN 비율 계산 (FN rate = FN / (FN + TP))

fn_rate_by_month = (
    df_lethal
    .groupby("month")["pred_result"]
    .agg(total_samples = "count",
        fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_month

Unnamed: 0_level_0,total_samples,fn_rate
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,37,0.945946
2,33,0.939394
3,36,0.972222
4,51,0.980392
5,40,0.95
6,53,0.981132
7,57,0.929825
8,36,0.944444
9,51,0.941176
10,44,0.954545


## 2) Hour
- FN rate가 대부분 시간대에서 0.9 이상
- 시간대별 차이가 의미적으로 크지 않다.
- 표본 수 시간대별로 차이가 크지 않다.
- 결과 : 치명 사고를 놓치는 문제는 특정 시간대의 문제라고 보기 어렵다.

In [10]:
# 월별 FN 비율 계산 (FN rate = FN / (FN + TP))

fn_rate_by_Hour = (
    df_lethal
    .groupby("Hour")["pred_result"]
    .agg(total_samples = "count", 
         fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_Hour

Unnamed: 0_level_0,total_samples,fn_rate
Hour,Unnamed: 1_level_1,Unnamed: 2_level_1
0,15,0.933333
1,13,0.923077
2,8,1.0
3,9,0.777778
4,7,1.0
5,15,0.866667
6,19,1.0
7,21,0.952381
8,33,0.939394
9,21,0.904762


## 3) Date × Hour 분석

단일 시간 변수(Date, Hour) 기반 분석에서는 유의미한 FN 패턴을 발견하기 어려웠다.    
변수 요일과 시간대를 결합한 결과 주말 출근 시간, 평일 오전 시간 FN이 집중되는 현상이 관찰되었다.     
이에 따라 원본 시간 변수는 제거하고 주말 여부 및 시간대 그룹 기반 파생 변수를 생성하여 모델이 일상적 행동 맥락 속의 위험 패턴을 학습한 후 결과를 살펴본다.

In [11]:
# 날짜 요일별 구분하기

# MMDD → YYYYMMDD 문자열로 복원
df_lethal["Date_str"] = df_lethal["Date"].astype(str).str.zfill(4)
df_lethal["Date_2018"] = "2018" + df_lethal["Date_str"]

# datetime 변환
df_lethal["Date_dt"] = pd.to_datetime(
    df_lethal["Date_2018"],
    format="%Y%m%d",
    errors="coerce"
)

# weekday 생성
df_lethal["weekday"] = df_lethal["Date_dt"].dt.weekday

# 요일 이름 변수
df_lethal["weekday_name"] = df_lethal["Date_dt"].dt.day_name()

In [12]:
df_lethal[["Date", "Date_2018", "Date_dt", "weekday", "weekday_name"]].head(10)

Unnamed: 0,Date,Date_2018,Date_dt,weekday,weekday_name
0,530,20180530,2018-05-30,2,Wednesday
1,924,20180924,2018-09-24,0,Monday
2,1022,20181022,2018-10-22,0,Monday
3,619,20180619,2018-06-19,1,Tuesday
4,903,20180903,2018-09-03,0,Monday
5,1023,20181023,2018-10-23,1,Tuesday
6,514,20180514,2018-05-14,0,Monday
7,525,20180525,2018-05-25,4,Friday
8,702,20180702,2018-07-02,0,Monday
9,921,20180921,2018-09-21,4,Friday


In [13]:
df_lethal["weekday_name"].value_counts()

weekday_name
Friday       88
Saturday     84
Thursday     80
Sunday       80
Tuesday      69
Monday       67
Wednesday    64
Name: count, dtype: int64

In [14]:
# Hour 구간화
def hour_group(h):
    if 0 <= h <= 5:
        return "LateNight"
    elif 6 <= h <= 9:
        return "MorningRush"
    elif 10 <= h <= 15:
        return "Daytime"
    elif 16 <= h <= 19:
        return "EveningRush"
    else:
        return "Night"

df_lethal["hour_group"] = df_lethal["Hour"].apply(hour_group)

In [15]:
# 요일 × 시간대 FN 분석

total_fn = (df_lethal["pred_result"] == "FN").sum()

fn_by_time = (
    df_lethal
    .groupby(["weekday_name", "hour_group"])["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
    .sort_values("fn_share", ascending=False)
)

fn_by_time

Unnamed: 0_level_0,Unnamed: 1_level_0,total_samples,fn_count,fn_rate,fn_share
weekday_name,hour_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Saturday,EveningRush,27,27,1.0,0.053045
Tuesday,Daytime,26,26,1.0,0.051081
Friday,Daytime,25,24,0.96,0.047151
Thursday,Daytime,23,23,1.0,0.045187
Thursday,EveningRush,22,22,1.0,0.043222
Monday,Daytime,22,22,1.0,0.043222
Friday,EveningRush,23,22,0.956522,0.043222
Saturday,Daytime,21,21,1.0,0.041257
Wednesday,EveningRush,21,21,1.0,0.041257
Sunday,EveningRush,20,20,1.0,0.039293


## 4) Date × Hour 파생 변수 모델 학습하기

- Hour를 행동 단위로 그룹화한 `hour_group` 변수 사용
- 날짜 정보를 보완하여 생성한 `weekday_name` 변수 사용
- 주중/주말 구분을 위한 `is_weekend` 변수 사용
- 동일한 설정의 LightGBM 모델을 적용하여, 시간 파생 변수 적용 전후의 FN 변화를 비교 분석한다.

In [16]:
# 데이터 불러오기
final_train = pd.read_csv("./data/final_Feature/train_final.csv")

In [17]:
# 데이터 확인
final_train.head(3)

Unnamed: 0,AccidentId,Gravity,Date,Hour,Light,Department,Commune,InAgglomeration,IntersectionType,Weather,...,Maneuver_PassRight,Maneuver_Reverse,Maneuver_SameDirectionOrLane,Maneuver_Stopped,Maneuver_SwerveToLeft,Maneuver_SwerveToRight,Maneuver_TurnToLeft,Maneuver_TurnToRight,Maneuver_UTurnInLane,Maneuver_WrongWay
0,201800000001,NonLethal,2018-01-24,0 days 15:05:00,Daylight,590,5,No,Y-type,Normal,...,0,0,0,0,0,0,1,0,0,0
1,201800000002,NonLethal,2018-02-12,0 days 10:15:00,Daylight,590,11,Yes,Square,VeryGood,...,0,0,0,0,0,0,0,0,0,0
2,201800000003,NonLethal,2018-04-03,0 days 11:35:00,Daylight,590,477,Yes,T-type,Normal,...,0,0,0,0,0,0,1,0,0,0


In [18]:
# Date: datetime 변환하기
final_train["Date_dt"] = pd.to_datetime(final_train["Date"], errors="coerce")

In [19]:
# weekday_name (요일 이름)생성
final_train["weekday_name"] = final_train["Date_dt"].dt.day_name()

In [20]:
# is_weekend (주말 여부) 생성
final_train["is_weekend"] = (final_train["Date_dt"].dt.weekday >= 5).astype(int)

In [21]:
# 시간만 추출하기
# timedelta로 변환
final_train["Hour_td"] = pd.to_timedelta(final_train["Hour"], errors="coerce")

In [22]:
# 시(hour)만 추출 (0~23)
final_train["hour_int"] = (final_train["Hour_td"].dt.total_seconds() // 3600).astype("Int64")

In [23]:
# 시간 그룹 생성
def hour_group(h):
    if pd.isna(h):
        return pd.NA
    h = int(h)
    if 6 <= h <= 9:
        return "MorningRush"
    elif 10 <= h <= 15:
        return "Daytime"
    elif 16 <= h <= 19:
        return "EveningRush"
    elif 20 <= h <= 23:
        return "Night"
    else:
        return "LateNight"

final_train["hour_group"] = final_train["hour_int"].apply(hour_group)

In [24]:
# 생성 된 데이터 확인
final_train[["Date", "Date_dt", "weekday_name", "is_weekend", "Hour", "hour_int", "hour_group"]].head(10)

Unnamed: 0,Date,Date_dt,weekday_name,is_weekend,Hour,hour_int,hour_group
0,2018-01-24,2018-01-24,Wednesday,0,0 days 15:05:00,15,Daytime
1,2018-02-12,2018-02-12,Monday,0,0 days 10:15:00,10,Daytime
2,2018-04-03,2018-04-03,Tuesday,0,0 days 11:35:00,11,Daytime
3,2018-05-05,2018-05-05,Saturday,1,0 days 17:35:00,17,EveningRush
4,2018-11-30,2018-11-30,Friday,0,0 days 17:15:00,17,EveningRush
5,2018-02-18,2018-02-18,Sunday,1,0 days 15:57:00,15,Daytime
6,2018-05-28,2018-05-28,Monday,0,0 days 18:30:00,18,EveningRush
7,2018-05-31,2018-05-31,Thursday,0,0 days 04:30:00,4,LateNight
8,2018-06-15,2018-06-15,Friday,0,0 days 08:45:00,8,MorningRush
9,2018-07-19,2018-07-19,Thursday,0,0 days 10:22:00,10,Daytime


## 5) 모델에 학습할 df_train 생성

In [25]:
# 라이브러리 불러오기
from sklearn.model_selection import train_test_split

In [26]:
# 제거할 컬럼 정의
drop_cols = [
    "Date",
    "Hour",
    "Date_dt",
    "Hour_td",
    "hour_int",
    "AccidentId",
    "Gravity",
    "PostalAddress",
    "GPSCode"
]

In [27]:
# 학습용 df_train 생성
df_train = final_train.drop(columns=drop_cols)

In [28]:
# object 변수 선택
cols = [
    "Light", "InAgglomeration", "IntersectionType", "Weather",
    "CollisionType", "RoadType", "RoadLetter", "Circulation", "SpecialLane",
    "Slope", "Layout", "SurfaceCondition", "Infrastructure", "Localization",
    "weekday_name", "hour_group"
]

# category 타입으로 변환
df_train[cols] = df_train[cols].astype("category")

In [29]:
# 타깃 변수 분리
y_train = final_train["Gravity"]

In [30]:
# 변수 분할

X = df_train
y = y_train

X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

## 6) 모델 학습 LightGBM

In [31]:
# 라이브러리 불러오기

from lightgbm import LGBMClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [32]:
# 모델 학습
model = LGBMClassifier(
    n_estimators=500,      
    learning_rate=0.05,    
    random_state=42
)

model.fit(X_tr, y_tr)

[LightGBM] [Info] Number of positive: 36126, number of negative: 2126
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.009838 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 3071
[LightGBM] [Info] Number of data points in the train set: 38252, number of used features: 137
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.944421 -> initscore=2.832771
[LightGBM] [Info] Start training from score 2.832771


0,1,2
,boosting_type,'gbdt'
,num_leaves,31
,max_depth,-1
,learning_rate,0.05
,n_estimators,500
,subsample_for_bin,200000
,objective,
,class_weight,
,min_split_gain,0.0
,min_child_weight,0.001


In [33]:
# 예측 확률
y_proba = model.predict_proba(X_val)[:, 1]

# 이진 예측
y_pred = model.predict(X_val)

In [34]:
# AUC 확인
print("AUC:", roc_auc_score(y_val, y_proba))

AUC: 0.8262304204932172


In [35]:
# F1_score 확인
print("F1:", f1_score(y_val, y_pred, pos_label="Lethal"))

F1: 0.11705685618729098


In [36]:
# confusion matrix (혼동행렬 확인)
print("confusion matrix : ")
print(confusion_matrix(y_val, y_pred, labels=["NonLethal", "Lethal"]))

confusion matrix : 
[[9001   31]
 [ 497   35]]


In [37]:
# Classification Report
print("Classification Report")
print(classification_report(y_val, y_pred, labels=["NonLethal", "Lethal"]))

Classification Report
              precision    recall  f1-score   support

   NonLethal       0.95      1.00      0.97      9032
      Lethal       0.53      0.07      0.12       532

    accuracy                           0.94      9564
   macro avg       0.74      0.53      0.54      9564
weighted avg       0.92      0.94      0.92      9564



## 7) 시간·날짜 구간화 결과

FN 분석 결과 주말 출근 시간대와 평일 오전 시간대에서 FN 비율과 표본 분포가 상대적으로 높게 나타났으며    
이를 바탕으로 시간대 구간화(`hour_group`)와 주중·주말 구분, 요일 변수에 대한 피처 엔지니어링을 수행하였다.

모델 실험 결과 FN, FP의 감소 효과가 나타났으며 이에 따라 F1-score와 AUC 지표가 전반적으로 개선되었다.     
이는 시간 파생 변수가 위험 상황을 직접적으로 탐지하기보다는 실제로 심각하지 않은 사례를 보다 일관되고 안정적으로 구분하는 데 기여했음을 의미한다.

모델은 여전히 해당 시간대를 ‘상대적으로 안전한 구간’으로 판단하는 경향을 보이지만 그 판단의 신뢰도와 일관성은 이전보다 향상되었다.
다음 단계에서는 치명 사고에 대한 탐지율 개선을 목표로 기상 조건 및 도로 환경 변수 등을 중심으로 추가적인 피처 엔지니어링을 진행한다.


# 3. 날씨, 조명 분석하기

## 1) Weather
- 대부분의 날씨 조건에서 FN rate는 0.90~1.00 범위로 나타난다.
- Normal 날씨의 표본 수가 가장 크며, 그 외 날씨 조건에서도 FN 비율은 전반적으로 유사하다.
- Other, SnowOrHail, StrongWindOrStorm 등 일부 날씨 조건은 표본 수가 매우 적어 해당 조건에 대한 해석에는 주의가 필요하다
- 결론 : 날씨 변수만으로는 사고 심각도를 충분히 구분하지 못하고 있음을 의미하며 치명 사고 탐지에 있어 주요한 분별 기준으로 작동하지 않는 것으로 판단된다.

In [38]:
# 월별 FN 비율 계산 (FN rate = FN / (FN + TP))

fn_rate_by_Weather = (
    df_lethal
    .groupby("Weather")["pred_result"]
    .agg(total_samples = "count", 
         fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_Weather

  .groupby("Weather")["pred_result"]


Unnamed: 0_level_0,total_samples,fn_rate
Weather,Unnamed: 1_level_1,Unnamed: 2_level_1
FogOrSmoke,11,1.0
HeavyRain,18,1.0
LightRain,43,0.976744
Normal,415,0.956627
Other,5,0.8
Overcast,20,0.85
SnowOrHail,5,1.0
StrongWindOrStorm,1,1.0
VeryGood,14,1.0


## 2) Light
- 조명 조건에서 FN rate는 0.88~1.00 범위로 나타난다.
- Daylight의 표본 수가 가장 많으며 NightStreetlightsOff 등 일부 조명 조건은 표본 수가 매우 적어 해석에 주의가 필요하다.
- 일반적인 조명 환경에서도 치명 사고를 비치명으로 오분류하는 비율이 높게 나타난다.
- 결론 : 조명 조건 역시 치명 사고 탐지에 있어 명확한 분별 기준으로 작동하지 않는 것으로 판단된다.

In [39]:
# 월별 FN 비율 계산 (FN rate = FN / (FN + TP))

fn_rate_by_Light = (
    df_lethal
    .groupby("Light")["pred_result"]
    .agg(total_samples = "count", 
         fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_Light

  .groupby("Light")["pred_result"]


Unnamed: 0_level_0,total_samples,fn_rate
Light,Unnamed: 1_level_1,Unnamed: 2_level_1
Daylight,320,0.965625
NightNoStreetLight,124,0.903226
NightStreelightsOff,6,1.0
NightStreelightsOn,41,1.0
TwilightOrDawn,41,1.0


## 3) Weather × Light 분석
- 분석 목적 : 시간 변수로는 설명되지 않았던 FN이 시야 및 환경 조건에서 구조적으로 나타나는지 확인

**결과 :**     
치명 사고에 대한 FN의 절대 다수는 ‘Normal’ 기상 조건과 ‘Daylight’ 조명 환경에서 발생하는 것으로 나타났다.     
비·안개·눈 등 직관적으로 위험해 보이는 기상 조건에서는 FN 비율이 높게 나타났으나 표본 수가 매우 제한적이어서 전체 FN에 미치는 영향은 크지 않았다.     
이는 치명 사고에 대한 FN이 극단적인 환경 조건보다는 시간·기상·조명 모두 정상으로 인식되는 상황에서 발생하는 예외적 사고에 집중되어 있음을 시사한다.

본 단계에서는 모델 튜닝을 추가로 수행하지 않고 다음 단계에서 도로 구조 및 사고 상황 변수에 대한 분석을 진행한다.

In [40]:
# Weather × Light FN 분석

fn_weather_light = (
    df_lethal
    .groupby(["Weather", "Light"])["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
    .sort_values("fn_share", ascending=False)
)

fn_weather_light

  .groupby(["Weather", "Light"])["pred_result"]


Unnamed: 0_level_0,Unnamed: 1_level_0,total_samples,fn_count,fn_rate,fn_share
Weather,Light,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Normal,Daylight,263,255.0,0.969582,0.500982
Normal,NightNoStreetLight,88,78.0,0.886364,0.153242
Normal,NightStreelightsOn,32,32.0,1.0,0.062868
Normal,TwilightOrDawn,27,27.0,1.0,0.053045
LightRain,NightNoStreetLight,19,19.0,1.0,0.037328
LightRain,Daylight,15,14.0,0.933333,0.027505
VeryGood,Daylight,12,12.0,1.0,0.023576
Overcast,Daylight,12,10.0,0.833333,0.019646
HeavyRain,Daylight,8,8.0,1.0,0.015717
LightRain,TwilightOrDawn,5,5.0,1.0,0.009823


# 4. 도로 구조 분석

## 1) Slope

In [41]:
fn_rate_by_Slope = (
    df_lethal
    .groupby("Slope")["pred_result"]
    .agg(total_samples = "count", 
         fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_Slope

  .groupby("Slope")["pred_result"]


Unnamed: 0_level_0,total_samples,fn_rate
Slope,Unnamed: 1_level_1,Unnamed: 2_level_1
BottomHill,16,0.9375
Flat,380,0.955263
TopHill,21,0.904762
Unknown,5,1.0
Uphill,110,0.972727


## 2) Layout

In [42]:
fn_rate_by_Layout = (
    df_lethal
    .groupby("Layout")["pred_result"]
    .agg(total_samples = "count", 
         fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_Layout

  .groupby("Layout")["pred_result"]


Unnamed: 0_level_0,total_samples,fn_rate
Layout,Unnamed: 1_level_1,Unnamed: 2_level_1
LeftCurve,68,0.955882
Missing,56,0.982143
RightCurve,74,0.959459
S-Shape,10,0.9
Straight,318,0.95283
Unknown,6,1.0


## 3) SurfaceCondition

In [43]:
fn_rate_by_SurfaceCondition = (
    df_lethal
    .groupby("SurfaceCondition")["pred_result"]
    .agg(total_samples = "count", 
         fn_rate=lambda x: (x == "FN").mean())
    .sort_index()
)

fn_rate_by_SurfaceCondition

  .groupby("SurfaceCondition")["pred_result"]


Unnamed: 0_level_0,total_samples,fn_rate
SurfaceCondition,Unnamed: 1_level_1,Unnamed: 2_level_1
Flooded,2,1.0
Ice,5,1.0
Missing,45,0.911111
Mud,0,
Normal,381,0.950131
Oil,0,
Other,2,1.0
Puddles,2,1.0
Snow,2,1.0
Unknown,11,1.0


## 4) Slope × SurfaceCondition

Slope와 SurfaceCondition 결합 분석 결과    
치명 사고에 대한 FN은 평지 및 정상 노면과 같이 직관적으로 위험 신호가 약한 도로 구조에서 대부분 발생하는 것으로 나타났다.    
젖은 노면이나 경사 구간에서도 FN 비율은 높게 나타났으나 표본 수가 제한적이어서 전체 FN에 미치는 영향은 상대적으로 작았다.     
이는 치명 사고에 대한 FN이 단일 도로 상태 변수로 설명되기보다는 도로 구조와 운전자 행동 또는 사고 상황 변수의 결합을 통해 발생할 가능성이 높음을 시사한다.

In [44]:
# 경사도와 도로 표면 분석
fn_slope_surface = (
    df_lethal
    .groupby(["Slope", "SurfaceCondition"])["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
    .sort_values("fn_share", ascending=False)
)

fn_slope_surface

  .groupby(["Slope", "SurfaceCondition"])["pred_result"]


Unnamed: 0_level_0,Unnamed: 1_level_0,total_samples,fn_count,fn_rate,fn_share
Slope,SurfaceCondition,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Flat,Normal,269,255.0,0.947955,0.500982
Uphill,Normal,84,82.0,0.97619,0.1611
Flat,Wet,63,63.0,1.0,0.123772
Flat,Missing,34,31.0,0.911765,0.060904
Uphill,Wet,14,14.0,1.0,0.027505
TopHill,Normal,15,13.0,0.866667,0.02554
BottomHill,Normal,12,11.0,0.916667,0.021611
Flat,Unknown,6,6.0,1.0,0.011788
Uphill,Missing,6,5.0,0.833333,0.009823
Flat,Ice,4,4.0,1.0,0.007859


## 5) Layout × SurfaceCondition

Layout × SurfaceCondition 결합 분석 결과 FN은 직선 및 곡선 도로 모두에서 정상 노면 조건일 때 가장 많이 발생하는 것으로 나타났다.     
도로 형상이나 노면 상태가 직관적으로 위험해 보이지 않는 상황에서도 치명 사고가 발생하며 해당 조건에서 모델이 위험 신호를 충분히 인식하지 못하고 있음을 의미한다.    
따라서 치명 사고에 대한 FN은 도로 구조나 환경 변수보다는 사고 상황 및 운전자 행동 변수와의 결합을 통해 설명될 가능성이 높다.


In [45]:
fn_layout_surface = (
    df_lethal
    .groupby(["Layout", "SurfaceCondition"])["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
    .sort_values("fn_share", ascending=False)
)

fn_layout_surface

  .groupby(["Layout", "SurfaceCondition"])["pred_result"]


Unnamed: 0_level_0,Unnamed: 1_level_0,total_samples,fn_count,fn_rate,fn_share
Layout,SurfaceCondition,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Straight,Normal,229,215.0,0.938865,0.422397
RightCurve,Normal,61,59.0,0.967213,0.115914
Straight,Wet,51,51.0,1.000000,0.100196
LeftCurve,Normal,44,42.0,0.954545,0.082515
Missing,Normal,36,36.0,1.000000,0.070727
...,...,...,...,...,...
Unknown,Mud,0,,,
Unknown,Oil,0,,,
Unknown,Other,0,,,
Unknown,Puddles,0,,,


# 5. 인물 변수 분석

### FN 분석을 위한 최소 구간화

In [46]:
# persons
df_lethal["persons_group"] = pd.cut(
    df_lethal["Persons"],
    bins=[0, 1, 2, 100],
    labels=["1", "2", "3+"]
)

In [47]:
# Drivers
df_lethal["drivers_group"] = (
    df_lethal["Drivers"] > 1
).map({True: "multi", False: "single"})

In [48]:
# Passengers
df_lethal["has_passenger"] = (df_lethal["Passengers"] > 0).astype(int)

In [49]:
# Pedestrian
df_lethal["has_pedestrian"] = (df_lethal["Pedestrian"] > 0).astype(int)

### 1) Pedestrian

- 보행자가 포함되지 않은 사고(has_pedestrian=0) 에서 FN이 거의 전부 발생했다.
- 모델은 보행자 사고가 아닌 치명 사고를 거의 탐지하지 못하고 있음을 의미한다.
- 보행자 존재 여부 자체는 FN을 줄이는 신호로 활용되지 못하고 있다.

In [50]:
total_fn = (df_lethal["pred_result"] == "FN").sum()

fn_pedestrian = (
    df_lethal
    .groupby("has_pedestrian")["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
)

fn_pedestrian

Unnamed: 0_level_0,total_samples,fn_count,fn_rate,fn_share
has_pedestrian,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,454,436,0.960352,0.856582
1,78,73,0.935897,0.143418


### 2) person

- 모든 FN이 특정 인원 구간으로 나뉘지 않고 실질적으로 집계되지 않았다.
- 현재 FN 데이터에서 Persons 변수가 분별력을 거의 갖지 못함을 의미한다.
- 인원 수 단독으로는 치명 사고 오탐지를 설명하지 못한다.

In [51]:
fn_persons = (
    df_lethal
    .groupby("persons_group")["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
    .sort_values("fn_share", ascending=False)
)

fn_persons

  .groupby("persons_group")["pred_result"]


Unnamed: 0_level_0,total_samples,fn_count,fn_rate,fn_share
persons_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,225,213,0.946667,0.418468
3+,159,155,0.974843,0.304519
1,148,141,0.952703,0.277014


## 3) drivers

- 단일 운전자 사고(single) 에서 FN이 100% 발생했다.
- 다중 운전자 사고는 FN 분석 대상에 거의 포함되지 않았다.
- 모델은 단일 운전자 사고의 치명성을 구조적으로 과소평가하고 있다.

In [52]:
fn_drivers = (
    df_lethal
    .groupby("drivers_group")["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
)

fn_drivers

Unnamed: 0_level_0,total_samples,fn_count,fn_rate,fn_share
drivers_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
multi,250,242,0.968,0.475442
single,282,267,0.946809,0.524558


## 4) passenger

- 동승자가 없는 사고(has_passenger=0) 에서 FN이 전부 발생했다.
- 동승자 존재 여부가 없을수록 모델은 사고를 비치명으로 판단하는 경향이 강하다.
- 결과적으로 단독 운전자·단독 탑승 사고에 취약한 구조가 드러난다.

In [53]:
fn_passenger = (
    df_lethal
    .groupby("has_passenger")["pred_result"]
    .agg(
        total_samples="count",
        fn_count=lambda x: (x == "FN").sum(),
        fn_rate=lambda x: (x == "FN").mean()
    )
    .assign(fn_share=lambda df: df["fn_count"] / total_fn)
)

fn_passenger

Unnamed: 0_level_0,total_samples,fn_count,fn_rate,fn_share
has_passenger,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,360,341,0.947222,0.669941
1,172,168,0.976744,0.330059


# 결과 및 결론

**FN을 전반적으로 분석한 결과 모델은 대부분 안전하다고 판단되거나 사고 구조가 단순하게 나타나는 조건에서**     
**치명 사고 신호를 충분히 포착하지 못해 FN이 집중되는 경향이 확인되었다.** 

**반면 날짜와 시간 변수를 활용해 피처 엔지니어링을 적용했을 때 FP가 감소하고 TN이 증가하여**     
**비치명 사고를 더 안정적으로 구분하는 방향으로 성능이 개선되는 것을 확인하였다.** 

**이러한 결과를 바탕으로 다음 단계에서는 별도의 노트북에서 2차 피처 엔지니어링을 수행하여**     
**평범하거나 안전해 보이는 조건에서도 치명 사고를 구분할 수 있는 신호 조합을 강화하고 1차 모델과 비교하며 변화된 오류 유형을 기록할 예정이다.**