In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
import os

# 한글 폰트
sns.set_style("whitegrid")
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams["font.family"] = "AppleGothic"  

# 전처리 된 데이터 불러오기
X_train = joblib.load('../output/X_train.pkl')
y_train = joblib.load('../output/y_train.pkl')

train = X_train.copy()
train['target'] = y_train
print(train.columns)


In [None]:
# 상관관계 분석 히트맵
numeric_cols = train.select_dtypes(include=["number"])

plt.figure(figsize=(12, 8))
sns.heatmap(numeric_cols.corr(), annot=True, fmt=".2f", cmap="coolwarm")
plt.title("수치형 변수 간 상관관계")
plt.show()

In [None]:
# road_rating별 평균 속도
plt.figure(figsize=(8, 5))
sns.boxplot(data=train, x="road_rating", y="target")
plt.title("도로 등급별 평균 속도 분포")
plt.show()

In [None]:
# lane_count별 평균 속도
plt.figure(figsize=(8, 5))
sns.boxplot(data=train, x="lane_count", y="target")
plt.title("차로 수(lane_count)별 평균 속도 분포")
plt.show()

In [None]:
# base_hour vs 평균 속도 시계열 그래프 (시간대별 분석)
if "base_hour" in train.columns:
    plt.figure(figsize=(10, 5))
    sns.lineplot(data=train, x="base_hour", y="target", ci=None)
    plt.title("시간대(base_hour)별 평균 속도")
    plt.xlabel("시간대")
    plt.ylabel("평균 속도")
    plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# season 문자열 매핑
season_map = {0: 'spring', 1: 'summer', 2: 'fall', 3: 'winter'}
X_train['season_label'] = X_train['season'].map(season_map)

In [None]:
# 계절별 평균 속도 분포
plt.figure(figsize=(8, 5))
sns.boxplot(data=X_train, x="season_label", y=y_train)
plt.title("계절별 평균 속도 분포")
plt.show()

In [None]:
import pandas as pd

plot_df = X_train.copy()
plot_df['target'] = y_train.values

# 시각화용 시간대 매핑
plot_df['time_type_label'] = plot_df['time_type'].map({0: 'commute', 1: 'late_night', 2: 'normal'})

# 결측치
print("Null values:", plot_df[['time_type_label', 'target']].isnull().sum())

In [None]:
# 시간대 구간화 (출퇴근/심야/일반)
plot_df['time_type'] = plot_df['base_hour'].apply(lambda x:
    'commute' if x in [7,8,17,18] else (
    'late_night' if x in [0,1,2,3,4,5] else 'normal')
)

# 시각화용 라벨
plot_df['time_type_label'] = plot_df['time_type'].map({
    'commute': '출퇴근시간',
    'late_night': '심야시간',
    'normal': '일반시간'
})

In [None]:
# 시간대별 평균 속도 분포
available_order = plot_df['time_type_label'].dropna().unique().tolist()

plt.figure(figsize=(8, 5))
sns.boxplot(data=plot_df, x="time_type_label", y="target", order=available_order)
plt.title("시간대별 평균 속도 분포")
plt.show()