# 데이터셋 설명

- train.csv
    - ID : 대구에서 발생한 교통사고의 고유 ID
    - 2019년부터 2021년까지의 교통사고 데이터로 구성
    - 해당 사고가 발생한 당시의 시공간 정보와 사고 관련 정보 포함
    - ECLO : 인명피해 심각도


- test.csv
    - ID : 대구에서 발생한 교통사고의 고유 ID
    - 2022년도의 교통사고 데이터로 구성
    - 추론 시점에서 획득할 수 있는 정보로 구성

# 문제 설명
- train 데이터셋을 활용하여 학습하고, test 데이터셋의 `ECLO`(인명 피해 심각도)를 예측합니다.

# Load dataset

In [None]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 구글 드라이브 연결
from google.colab import drive
drive.mount("/content/data")

Drive already mounted at /content/data; to attempt to forcibly remount, call drive.mount("/content/data", force_remount=True).


In [None]:
# 딕셔너리를 간편하게 사용하는 것을 도와준다. 모델 class 처럼 사용 가능
# dot을 이용해 객체를 불러 사용. JSON 다룰때 유용.
import easydict
args = easydict.EasyDict()

# path
args.default_path = "/content/data/MyDrive/Playdata/Competitions/ML/DG/Data/" # 메인 경로
args.train_path = args.default_path + "train.csv" # train 데이터 경로
args.test_path = args.default_path + "test.csv" # train 데이터 경로

args.default_submission_path = args.default_path + "sample_submission.csv" # 예측결과(제출파일) 경로
args.result_path = "/content/data/MyDrive/Playdata/Competitions/ML/DG/Result/baseLine_result.csv"

# 데이터 분석을 위한 변수들
# # 난수 생성 제어 => 같은 코드를 실행해도 동일한 결과를 얻기 위해서 설정
# 데이터 분할 및 모델 초기화 때 유용.
args.random_state = 42
args.results = [] # 결과 저장 리스트

In [None]:
train = pd.read_csv(args.train_path).copy()
test = pd.read_csv(args.test_path).copy()
ss = pd.read_csv(args.default_submission_path)

# Data validation

- 유효성 검증 함수 생성

In [None]:
def making_val_table(df):
    '''입력받은 데이터셋의 유효성 검증을 위한 요약 테이블'''
    # dtypes
    df_dtypes = df.dtypes

    # nunique
    df_nunique = df.nunique()

    # null_values
    df_nan = df.isna().sum()

    val_table = pd.concat([df_dtypes, df_nunique, df_nan], axis=1)
    val_table.columns = ['dtype', 'nunique', 'nan']

    return val_table.reset_index()

**특이사항**

- `ID` 컬럼은 unique 값으로 학습에 불필요하므로 제거합니다.
- `사고일시` 컬럼이 object로 되어 있어 datetime으로 변환이 필요합니다.

- train과 test 데이터셋 간의 컬럼 수가 서로 다릅니다.
    - test 데이터의 컬럼만을 사용하여 train 데이터를 학습합니다.
- `기상상태`, `시군구` 컬럼의 고유값 수(nunique)가 서로 다릅니다.
    - 고유값이 서로 다른 경우 test 데이터의 예측 값 생성 시 에러가 발생할 수 있습니다.
    - 두 컬럼의 고유값 수가 다르므로 제거합니다.
    - 현재 노트는 베이스라인 모델을 위한 노트로, 이후 본 분석에서는 train 데이터의 나머지 컬럼들과 주어진 외부 데이터들을 이용하여 추가 분석을 진행할 예정입니다.
    

| 구분|train|test |
|---|---|---|
| 컬럼 수 |23개 | 8개 |
| 기상상태 nunique | 6개 | 5개 |
| 시군구 nunique | 199개 | 192개 |

In [None]:
# 기상상태, 시군구 데이터의 unique 값이 각각 7vs6, 199vs 192로 다르다
train_info = making_val_table(train)
test_info = making_val_table(test)

pd.merge(left=train_info, right=test_info, on='index',
         how='left', suffixes=('_train','_test')).set_index('index')

Unnamed: 0_level_0,dtype_train,nunique_train,nan_train,dtype_test,nunique_test,nan_test
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ID,object,39609,0,object,10963.0,0.0
사고일시,object,18057,0,object,5548.0,0.0
요일,object,7,0,object,7.0,0.0
기상상태,object,6,0,object,5.0,0.0
시군구,object,199,0,object,192.0,0.0
도로형태,object,11,0,object,11.0,0.0
노면상태,object,6,0,object,6.0,0.0
사고유형,object,3,0,object,3.0,0.0
사고유형 - 세부분류,object,14,0,,,
법규위반,object,11,0,,,


# Feature engineering

**전처리 과정**
- train, test 데이터셋 간의 컬럼 동기화
- `사고일시` 컬럼 datetime으로 변환 후
    - `월`, `일`, `시` 컬럼생성, 년도데이터는 제거
- `ID`,`사고일시`, `기상상태`, `시군구` 컬럼 제거
- one-hot encoding 실시

- train, test 데이터셋의 컬럼 동기화 실시

In [None]:
# target 변수 지정
y_train = train['ECLO']

# train, test 데이터간 컬럼 동기화
cols = test.columns
X_train = train[cols]
X_test = test

- 기타 전처리함수 생성

In [None]:
def feat_eng(df):
    # datetime 변환
    df['사고일시'] = pd.to_datetime(df['사고일시'])

    # 월,일,시 컬럼 생성
    df['월'] = df['사고일시'].dt.month
    df['일'] = df['사고일시'].dt.day
    df['시'] = df['사고일시'].dt.hour

    # 불필요 컬럼 제거
    subs = ['ID','사고일시','기상상태','시군구']
    df = df.drop(subs, axis=1)

    # one-hot encoding 실시
    df = pd.get_dummies(df)

    return df

- train, test 전처리 실시

In [None]:
X_train_eng = feat_eng(X_train)
X_test_eng = feat_eng(X_test)

- 전처리 후 shape 확인

In [None]:
print(f'X_train 데이터 shape : {X_train_eng.shape}')
print(f'y_train 데이터 shape : {y_train.shape}')
print()
print(f'X_test 데이터 shape : {X_test_eng.shape}')

X_train 데이터 shape : (39609, 30)
y_train 데이터 shape : (39609,)

X_test 데이터 shape : (10963, 30)


# Modeling

- 검증을 위한 데이터 분리

In [None]:
# from sklearn.model_selection import train_test_split
# X_train, X_val, y_train, y_val = train_test_split(X_train_eng, y_train , test_size=0.2, random_state=42)

- 랜덤포테스트 회귀모델 학습 진행

In [None]:
# from sklearn.ensemble import RandomForestRegressor

# rf = RandomForestRegressor(random_state=42)
# rf.fit(X_train, y_train)

# y_train_pred = rf.predict(X_train)
# y_val_pred = rf.predict(X_val)

## Pycaret

In [None]:
!pip install pycaret

Collecting pycaret
  Downloading pycaret-3.2.0-py3-none-any.whl (484 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m484.7/484.7 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting category-encoders>=2.4.0 (from pycaret)
  Downloading category_encoders-2.6.3-py2.py3-none-any.whl (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/81.9 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
Collecting deprecation>=2.1.0 (from pycaret)
  Downloading deprecation-2.1.0-py2.py3-none-any.whl (11 kB)
Collecting kaleido>=0.2.1 (from pycaret)
  Downloading kaleido-0.2.1-py2.py3-none-manylinux1_x86_64.whl (79.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m
Collecting matplotlib<=3.6,>=3.3.0 (from pycaret)
  Downloading matplotlib-3.6.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (11.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.8/1

In [None]:
from pycaret.regression import *

In [None]:
setup_reg = setup(data = X_train_eng, target="ECLO", train_size=0.8, session_id=42)

# Evaluation

- 문제에서 제시한 RMSLE 지표를 이용한 평가 진행

In [None]:
from sklearn.metrics import mean_squared_log_error

rmsle_train = np.sqrt(mean_squared_log_error(y_train, y_train_pred))
rmsle_val = np.sqrt(mean_squared_log_error(y_val, y_val_pred))

In [None]:
print('train rmsle :', rmsle_train)
print('val rmsle :', rmsle_val)

# Submission

- test 데이터셋에 대한 예측값 생성

In [None]:
y_pred = rf.predict(X_test_eng)
y_pred

- 제출 파일형식으로 변환 후 제출 파일 생성

In [None]:
ss['ECLO'] = y_pred
ss.head()

In [None]:
# OUTPUT_PATH = './output/'
ss.to_csv(agrs.result_path, index=False)