In [69]:
import pandas as pd
import numpy as np
import seaborn as sns
from datetime import datetime
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 한글 문제
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':  # 맥OS
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':  # 윈도우
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system...  sorry~~~')

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 17,8

import warnings
warnings.filterwarnings(action='ignore')

# **대구 교통 사고 피해 예측 AI 경진대회 Baseline Code**

## **Fixed Random Seed**  

seed 값에 의해 동일한 코드를 사용해도 결과가 다를 수 있기에, 동일한 결과를 위해 seed 값을 고정시킵니다

In [70]:
import os
import random
import numpy as np

def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

seed_everything(42)

## **데이터 불러오기 및 상위행 확인**  

train.csv, test.csv 파일을 로드하여 상위행을 출력해 봅시다

In [71]:
import pandas as pd
from datetime import datetime

train = pd.read_csv('./open/train.csv', encoding = "utf-8", low_memory=False)
test = pd.read_csv('./open/test.csv', encoding = "utf-8", low_memory=False)

display(train.head())
display(test.tail())

Unnamed: 0,ID,사고일시,요일,기상상태,시군구,도로형태,노면상태,사고유형,사고유형 - 세부분류,법규위반,...,가해운전자 상해정도,피해운전자 차종,피해운전자 성별,피해운전자 연령,피해운전자 상해정도,사망자수,중상자수,경상자수,부상자수,ECLO
0,ACCIDENT_00000,2019-01-01 00,화요일,맑음,대구광역시 중구 대신동,단일로 - 기타,건조,차대사람,길가장자리구역통행중,안전운전불이행,...,상해없음,보행자,여,70세,중상,0,1,0,0,5
1,ACCIDENT_00001,2019-01-01 00,화요일,흐림,대구광역시 달서구 감삼동,단일로 - 기타,건조,차대사람,보도통행중,기타,...,상해없음,보행자,남,61세,경상,0,0,1,0,3
2,ACCIDENT_00002,2019-01-01 01,화요일,맑음,대구광역시 수성구 두산동,단일로 - 기타,건조,차대사람,차도통행중,안전운전불이행,...,상해없음,보행자,남,38세,경상,0,0,1,0,3
3,ACCIDENT_00003,2019-01-01 02,화요일,맑음,대구광역시 북구 복현동,단일로 - 기타,건조,차대차,추돌,안전운전불이행,...,상해없음,승용,남,36세,중상,0,1,0,0,5
4,ACCIDENT_00004,2019-01-01 04,화요일,맑음,대구광역시 동구 신암동,단일로 - 기타,건조,차대차,추돌,안전운전불이행,...,상해없음,승용,남,52세,경상,0,0,1,0,3


Unnamed: 0,ID,사고일시,요일,기상상태,시군구,도로형태,노면상태,사고유형
10958,ACCIDENT_50567,2022-12-31 18,토요일,맑음,대구광역시 남구 대명동,단일로 - 터널,건조,차대차
10959,ACCIDENT_50568,2022-12-31 18,토요일,맑음,대구광역시 수성구 시지동,단일로 - 기타,건조,차대차
10960,ACCIDENT_50569,2022-12-31 20,토요일,맑음,대구광역시 수성구 연호동,단일로 - 기타,건조,차대차
10961,ACCIDENT_50570,2022-12-31 20,토요일,맑음,대구광역시 수성구 범물동,교차로 - 교차로부근,건조,차대차
10962,ACCIDENT_50571,2022-12-31 21,토요일,맑음,대구광역시 동구 효목동,교차로 - 교차로부근,건조,차대차


## **train, test 데이터 기간 확인하기**  

학습(train) 데이터의 기간과 예측 대상이 되는 test 데이터의 기간을 살펴 봅니다

In [72]:
display(f"train : {train.iloc[0]['사고일시']} ~ {train.iloc[-1]['사고일시']}")
display(f"test : {test.iloc[0]['사고일시']} ~ {test.iloc[-1]['사고일시']}")

'train : 2019-01-01 00 ~ 2021-12-31 23'

'test : 2022-01-01 01 ~ 2022-12-31 21'

### Data Info

In [73]:
#'사고일시' 데이터 타입을 object -> datetime으로  바꾸기
train['사고일시'] = pd.to_datetime(train['사고일시'])
test['사고일시'] = pd.to_datetime(test['사고일시'])

### 날짜 데이터 파싱하기

In [74]:
train['year'] = train.사고일시.dt.year
train['month'] = train.사고일시.dt.month
train['day'] = train.사고일시.dt.day
train['hour'] = train.사고일시.dt.hour

In [75]:
test['year'] = test.사고일시.dt.year
test['month'] = test.사고일시.dt.month
test['day'] = test.사고일시.dt.day
test['hour'] = test.사고일시.dt.hour

### - train과 test 데이터셋의  컬럼 수가 서로 다름
    - ID, 사고일시, 요일, 기상상태, 시군구, 도로형태, 노면상태, 사고유형

In [76]:
display(train['요일'].unique())
display(test['요일'].unique())

array(['화요일', '수요일', '목요일', '금요일', '토요일', '일요일', '월요일'], dtype=object)

array(['토요일', '일요일', '월요일', '화요일', '수요일', '목요일', '금요일'], dtype=object)

In [77]:
display(train['기상상태'].unique())
display(test['기상상태'].unique())

array(['맑음', '흐림', '기타', '비', '안개', '눈'], dtype=object)

array(['맑음', '흐림', '기타', '비', '눈'], dtype=object)

***- test에는 기상상태-'안개' 없음***

In [78]:
display(train['시군구'].unique())
display(test['시군구'].unique())

array(['대구광역시 중구 대신동', '대구광역시 달서구 감삼동', '대구광역시 수성구 두산동', '대구광역시 북구 복현동',
       '대구광역시 동구 신암동', '대구광역시 수성구 지산동', '대구광역시 달서구 상인동', '대구광역시 북구 태전동',
       '대구광역시 동구 지묘동', '대구광역시 서구 평리동', '대구광역시 동구 신기동', '대구광역시 서구 상리동',
       '대구광역시 달서구 월성동', '대구광역시 수성구 황금동', '대구광역시 북구 구암동', '대구광역시 동구 신천동',
       '대구광역시 수성구 만촌동', '대구광역시 중구 남산동', '대구광역시 서구 비산동', '대구광역시 북구 침산동',
       '대구광역시 달서구 두류동', '대구광역시 수성구 신매동', '대구광역시 달서구 대곡동', '대구광역시 달성군 유가읍',
       '대구광역시 달성군 논공읍', '대구광역시 동구 율하동', '대구광역시 수성구 시지동', '대구광역시 동구 봉무동',
       '대구광역시 달성군 다사읍', '대구광역시 중구 동산동', '대구광역시 서구 이현동', '대구광역시 남구 이천동',
       '대구광역시 수성구 수성동4가', '대구광역시 북구 노원동3가', '대구광역시 북구 서변동',
       '대구광역시 북구 관음동', '대구광역시 북구 학정동', '대구광역시 수성구 파동', '대구광역시 수성구 상동',
       '대구광역시 달서구 이곡동', '대구광역시 동구 효목동', '대구광역시 북구 읍내동', '대구광역시 중구 남성로',
       '대구광역시 달서구 죽전동', '대구광역시 남구 대명동', '대구광역시 북구 동천동', '대구광역시 동구 지저동',
       '대구광역시 북구 사수동', '대구광역시 중구 덕산동', '대구광역시 달서구 본리동', '대구광역시 동구 용계동',
       '대구광역시 수성구 범어동', '대구광역시 달서구 신당동', '대구광역시 달서구 성당동', '대구광역시 달서구 용산

array(['대구광역시 수성구 상동', '대구광역시 수성구 지산동', '대구광역시 수성구 수성동2가',
       '대구광역시 수성구 신매동', '대구광역시 달서구 감삼동', '대구광역시 중구 달성동', '대구광역시 동구 신암동',
       '대구광역시 서구 평리동', '대구광역시 달서구 송현동', '대구광역시 달서구 두류동', '대구광역시 북구 매천동',
       '대구광역시 달서구 상인동', '대구광역시 달서구 진천동', '대구광역시 중구 삼덕동1가', '대구광역시 중구 동문동',
       '대구광역시 달서구 성당동', '대구광역시 북구 동천동', '대구광역시 북구 태전동', '대구광역시 남구 대명동',
       '대구광역시 달서구 대곡동', '대구광역시 북구 복현동', '대구광역시 달서구 본리동', '대구광역시 수성구 범어동',
       '대구광역시 수성구 황금동', '대구광역시 달서구 호산동', '대구광역시 중구 동인동1가', '대구광역시 남구 이천동',
       '대구광역시 달성군 유가읍', '대구광역시 달서구 월암동', '대구광역시 북구 동호동', '대구광역시 달서구 죽전동',
       '대구광역시 달서구 본동', '대구광역시 달서구 도원동', '대구광역시 달성군 다사읍', '대구광역시 달서구 용산동',
       '대구광역시 달서구 유천동', '대구광역시 북구 산격동', '대구광역시 달서구 파호동', '대구광역시 동구 효목동',
       '대구광역시 북구 고성동3가', '대구광역시 중구 남산동', '대구광역시 동구 지묘동', '대구광역시 달성군 하빈면',
       '대구광역시 서구 내당동', '대구광역시 수성구 매호동', '대구광역시 북구 침산동', '대구광역시 동구 신천동',
       '대구광역시 동구 방촌동', '대구광역시 수성구 두산동', '대구광역시 달성군 구지면', '대구광역시 달서구 대천동',
       '대구광역시 달서구 월성동', '대구광역시 달성군 화원읍', '대구광역시 북구 고성동2가',

In [79]:
display(train['도로형태'].unique())
display(test['도로형태'].unique())

array(['단일로 - 기타', '교차로 - 교차로안', '기타 - 기타', '단일로 - 터널', '단일로 - 지하차도(도로)내',
       '단일로 - 교량', '교차로 - 교차로횡단보도내', '주차장 - 주차장', '교차로 - 교차로부근',
       '단일로 - 고가도로위', '미분류 - 미분류'], dtype=object)

array(['교차로 - 교차로안', '단일로 - 기타', '교차로 - 교차로횡단보도내', '교차로 - 교차로부근',
       '단일로 - 지하차도(도로)내', '기타 - 기타', '단일로 - 교량', '단일로 - 고가도로위',
       '주차장 - 주차장', '단일로 - 터널', '미분류 - 미분류'], dtype=object)

In [80]:
display(train['노면상태'].unique())
display(test['노면상태'].unique())

array(['건조', '젖음/습기', '서리/결빙', '기타', '침수', '적설'], dtype=object)

array(['건조', '젖음/습기', '서리/결빙', '기타', '침수', '적설'], dtype=object)

In [81]:
display(train['사고유형'].unique())
display(test['사고유형'].unique())

array(['차대사람', '차대차', '차량단독'], dtype=object)

array(['차대사람', '차대차', '차량단독'], dtype=object)

## **데이터 전처리**  

현재 '사고일시', '시군구', '도로형태' 컬럼은 반복되는 패턴으로 여러 정보를 포함하고 있습니다
이런 반복되는 패턴을 일반화하면 pandas에서 제공하는 str.extract를 통해 한 번에 추출 가능합니다  

## **파생 변수 생성 1 : 날짜, 시간정보 생성**

'사고일시' 컬럼으로 부터 연도, 월, 일, 시간 정보 추출 및 변환 합니다

In [82]:
import pandas as pd
from datetime import datetime

train = pd.read_csv('./open/train.csv',encoding = "utf-8", low_memory=False)
test = pd.read_csv('./open/test.csv', encoding = "utf-8", low_memory=False)

display(train.head())
display(test.tail())

Unnamed: 0,ID,사고일시,요일,기상상태,시군구,도로형태,노면상태,사고유형,사고유형 - 세부분류,법규위반,...,가해운전자 상해정도,피해운전자 차종,피해운전자 성별,피해운전자 연령,피해운전자 상해정도,사망자수,중상자수,경상자수,부상자수,ECLO
0,ACCIDENT_00000,2019-01-01 00,화요일,맑음,대구광역시 중구 대신동,단일로 - 기타,건조,차대사람,길가장자리구역통행중,안전운전불이행,...,상해없음,보행자,여,70세,중상,0,1,0,0,5
1,ACCIDENT_00001,2019-01-01 00,화요일,흐림,대구광역시 달서구 감삼동,단일로 - 기타,건조,차대사람,보도통행중,기타,...,상해없음,보행자,남,61세,경상,0,0,1,0,3
2,ACCIDENT_00002,2019-01-01 01,화요일,맑음,대구광역시 수성구 두산동,단일로 - 기타,건조,차대사람,차도통행중,안전운전불이행,...,상해없음,보행자,남,38세,경상,0,0,1,0,3
3,ACCIDENT_00003,2019-01-01 02,화요일,맑음,대구광역시 북구 복현동,단일로 - 기타,건조,차대차,추돌,안전운전불이행,...,상해없음,승용,남,36세,중상,0,1,0,0,5
4,ACCIDENT_00004,2019-01-01 04,화요일,맑음,대구광역시 동구 신암동,단일로 - 기타,건조,차대차,추돌,안전운전불이행,...,상해없음,승용,남,52세,경상,0,0,1,0,3


Unnamed: 0,ID,사고일시,요일,기상상태,시군구,도로형태,노면상태,사고유형
10958,ACCIDENT_50567,2022-12-31 18,토요일,맑음,대구광역시 남구 대명동,단일로 - 터널,건조,차대차
10959,ACCIDENT_50568,2022-12-31 18,토요일,맑음,대구광역시 수성구 시지동,단일로 - 기타,건조,차대차
10960,ACCIDENT_50569,2022-12-31 20,토요일,맑음,대구광역시 수성구 연호동,단일로 - 기타,건조,차대차
10961,ACCIDENT_50570,2022-12-31 20,토요일,맑음,대구광역시 수성구 범물동,교차로 - 교차로부근,건조,차대차
10962,ACCIDENT_50571,2022-12-31 21,토요일,맑음,대구광역시 동구 효목동,교차로 - 교차로부근,건조,차대차


In [83]:
train_df = train.copy()
test_df = test.copy()

time_pattern = r'(\d{4})-(\d{1,2})-(\d{1,2}) (\d{1,2})'

train_df[['연', '월', '일', '시간']] = train['사고일시'].str.extract(time_pattern)
train_df[['연', '월', '일', '시간']] = train_df[['연', '월', '일', '시간']].apply(pd.to_numeric) # 추출된 문자열을 수치화해줍니다
train_df = train_df.drop(columns=['사고일시']) # 정보 추출이 완료된 '사고일시' 컬럼은 제거합니다

# 해당 과정을 test_x에 대해서도 반복해줍니다
test_df[['연', '월', '일', '시간']] = test['사고일시'].str.extract(time_pattern)
test_df[['연', '월', '일', '시간']] = test_df[['연', '월', '일', '시간']].apply(pd.to_numeric)
test_df = test_df.drop(columns=['사고일시'])

display(f"columns of train_df : {train_df.columns}")
display(f"columns of test_df : {test_df.columns}")

"columns of train_df : Index(['ID', '요일', '기상상태', '시군구', '도로형태', '노면상태', '사고유형', '사고유형 - 세부분류',\n       '법규위반', '가해운전자 차종', '가해운전자 성별', '가해운전자 연령', '가해운전자 상해정도', '피해운전자 차종',\n       '피해운전자 성별', '피해운전자 연령', '피해운전자 상해정도', '사망자수', '중상자수', '경상자수', '부상자수',\n       'ECLO', '연', '월', '일', '시간'],\n      dtype='object')"

"columns of test_df : Index(['ID', '요일', '기상상태', '시군구', '도로형태', '노면상태', '사고유형', '연', '월', '일', '시간'], dtype='object')"

## **파생 변수 생성 2 : 공간(위치) 정보 생성**

'시군구' 컬럼으로부터 의미 있는 공산 정보를 추출 및 변환 합니다

In [84]:
location_pattern = r'(\S+) (\S+) (\S+)'

train_df[['도시', '구', '동']] = train['시군구'].str.extract(location_pattern)
train_df = train_df.drop(columns=['시군구'])

test_df[['도시', '구', '동']] = test['시군구'].str.extract(location_pattern)
test_df = test_df.drop(columns=['시군구'])

display(f"columns of train_df : {train_df.columns}")
display(f"columns of test_df : {test_df.columns}")

"columns of train_df : Index(['ID', '요일', '기상상태', '도로형태', '노면상태', '사고유형', '사고유형 - 세부분류', '법규위반',\n       '가해운전자 차종', '가해운전자 성별', '가해운전자 연령', '가해운전자 상해정도', '피해운전자 차종',\n       '피해운전자 성별', '피해운전자 연령', '피해운전자 상해정도', '사망자수', '중상자수', '경상자수', '부상자수',\n       'ECLO', '연', '월', '일', '시간', '도시', '구', '동'],\n      dtype='object')"

"columns of test_df : Index(['ID', '요일', '기상상태', '도로형태', '노면상태', '사고유형', '연', '월', '일', '시간', '도시',\n       '구', '동'],\n      dtype='object')"

## **파생 변수 추출 3 : 도로 형태 정보 추출**  

'도로형태' 컬럼은 '단일로 - 기타'와 같은 패턴으로 구성되어 있습니다. 이를 두종류의 독립된 정보로 보고 두개의 컬럼으로 분리하여 생성합니다.

In [85]:
road_pattern = r'(.+) - (.+)'

train_df[['도로형태1', '도로형태2']] = train['도로형태'].str.extract(road_pattern)
train_df = train_df.drop(columns=['도로형태'])

test_df[['도로형태1', '도로형태2']] = test['도로형태'].str.extract(road_pattern)
test_df = test_df.drop(columns=['도로형태'])

display(f"columns of train_df : {train_df.columns}")
display(f"columns of test_df : {test_df.columns}")

"columns of train_df : Index(['ID', '요일', '기상상태', '노면상태', '사고유형', '사고유형 - 세부분류', '법규위반', '가해운전자 차종',\n       '가해운전자 성별', '가해운전자 연령', '가해운전자 상해정도', '피해운전자 차종', '피해운전자 성별',\n       '피해운전자 연령', '피해운전자 상해정도', '사망자수', '중상자수', '경상자수', '부상자수', 'ECLO', '연',\n       '월', '일', '시간', '도시', '구', '동', '도로형태1', '도로형태2'],\n      dtype='object')"

"columns of test_df : Index(['ID', '요일', '기상상태', '노면상태', '사고유형', '연', '월', '일', '시간', '도시', '구', '동',\n       '도로형태1', '도로형태2'],\n      dtype='object')"

## train, test 컬럼 수 맞추기

test에 있는 컬럼들만 사용하여 train 데이터를 구성했습니다.

In [86]:
train_df= train_df[['ID','요일','기상상태','노면상태', '사고유형', '연', '월', '일', '시간', '도시', '구','동', '도로형태1', '도로형태2']]
train_df

Unnamed: 0,ID,요일,기상상태,노면상태,사고유형,연,월,일,시간,도시,구,동,도로형태1,도로형태2
0,ACCIDENT_00000,화요일,맑음,건조,차대사람,2019,1,1,0,대구광역시,중구,대신동,단일로,기타
1,ACCIDENT_00001,화요일,흐림,건조,차대사람,2019,1,1,0,대구광역시,달서구,감삼동,단일로,기타
2,ACCIDENT_00002,화요일,맑음,건조,차대사람,2019,1,1,1,대구광역시,수성구,두산동,단일로,기타
3,ACCIDENT_00003,화요일,맑음,건조,차대차,2019,1,1,2,대구광역시,북구,복현동,단일로,기타
4,ACCIDENT_00004,화요일,맑음,건조,차대차,2019,1,1,4,대구광역시,동구,신암동,단일로,기타
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39604,ACCIDENT_39604,금요일,맑음,건조,차대차,2021,12,31,19,대구광역시,수성구,수성동3가,교차로,교차로안
39605,ACCIDENT_39605,금요일,맑음,건조,차대차,2021,12,31,19,대구광역시,달서구,상인동,단일로,기타
39606,ACCIDENT_39606,금요일,맑음,건조,차대차,2021,12,31,21,대구광역시,달서구,월성동,교차로,교차로안
39607,ACCIDENT_39607,금요일,맑음,건조,차대차,2021,12,31,22,대구광역시,달서구,장동,기타,기타


## **전처리 결과 확인**

지금까지 전처리한 결과를 확인해 봅시다

In [87]:
display(train_df.head())
display(test_df.head())

Unnamed: 0,ID,요일,기상상태,노면상태,사고유형,연,월,일,시간,도시,구,동,도로형태1,도로형태2
0,ACCIDENT_00000,화요일,맑음,건조,차대사람,2019,1,1,0,대구광역시,중구,대신동,단일로,기타
1,ACCIDENT_00001,화요일,흐림,건조,차대사람,2019,1,1,0,대구광역시,달서구,감삼동,단일로,기타
2,ACCIDENT_00002,화요일,맑음,건조,차대사람,2019,1,1,1,대구광역시,수성구,두산동,단일로,기타
3,ACCIDENT_00003,화요일,맑음,건조,차대차,2019,1,1,2,대구광역시,북구,복현동,단일로,기타
4,ACCIDENT_00004,화요일,맑음,건조,차대차,2019,1,1,4,대구광역시,동구,신암동,단일로,기타


Unnamed: 0,ID,요일,기상상태,노면상태,사고유형,연,월,일,시간,도시,구,동,도로형태1,도로형태2
0,ACCIDENT_39609,토요일,맑음,건조,차대사람,2022,1,1,1,대구광역시,수성구,상동,교차로,교차로안
1,ACCIDENT_39610,토요일,맑음,건조,차대사람,2022,1,1,1,대구광역시,수성구,지산동,단일로,기타
2,ACCIDENT_39611,토요일,맑음,건조,차대차,2022,1,1,4,대구광역시,수성구,수성동2가,교차로,교차로안
3,ACCIDENT_39612,토요일,맑음,건조,차대차,2022,1,1,4,대구광역시,수성구,신매동,단일로,기타
4,ACCIDENT_39613,토요일,맑음,건조,차대차,2022,1,1,6,대구광역시,달서구,감삼동,교차로,교차로안


In [88]:
display(train_df.info())
display(test_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39609 entries, 0 to 39608
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      39609 non-null  object
 1   요일      39609 non-null  object
 2   기상상태    39609 non-null  object
 3   노면상태    39609 non-null  object
 4   사고유형    39609 non-null  object
 5   연       39609 non-null  int64 
 6   월       39609 non-null  int64 
 7   일       39609 non-null  int64 
 8   시간      39609 non-null  int64 
 9   도시      39609 non-null  object
 10  구       39609 non-null  object
 11  동       39609 non-null  object
 12  도로형태1   39609 non-null  object
 13  도로형태2   39609 non-null  object
dtypes: int64(4), object(10)
memory usage: 4.2+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10963 entries, 0 to 10962
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      10963 non-null  object
 1   요일      10963 non-null  object
 2   기상상태    10963 non-null  object
 3   노면상태    10963 non-null  object
 4   사고유형    10963 non-null  object
 5   연       10963 non-null  int64 
 6   월       10963 non-null  int64 
 7   일       10963 non-null  int64 
 8   시간      10963 non-null  int64 
 9   도시      10963 non-null  object
 10  구       10963 non-null  object
 11  동       10963 non-null  object
 12  도로형태1   10963 non-null  object
 13  도로형태2   10963 non-null  object
dtypes: int64(4), object(10)
memory usage: 1.2+ MB


None

## 전처리를 위해 train과 test 데이터 합치기

In [89]:
# 전처리를 위해 train과 test 데이터 합치기
data = pd.concat([train_df, test_df], sort=False)
data_label_enco = data.copy()
data_onehot_enco = data.copy()

# **------------------------------------------------------**

## ✔️Encoding

# **1. 노면상태, 사고유형 엔코딩**

In [90]:
# "사고유형" 및 "노면상태" 컬럼을 원-핫 인코딩
data_onehot_enco = pd.get_dummies(data, columns=['사고유형', '노면상태'])

# **2. 도로유형 엔코딩**

In [91]:
from sklearn.preprocessing import OneHotEncoder

data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['도로형태1', '도로형태2'])

# **3. 구,동 엔코딩**

In [92]:
data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['구', '동'])



In [93]:
data_onehot_enco

Unnamed: 0,ID,요일,기상상태,연,월,일,시간,도시,사고유형_차대사람,사고유형_차대차,...,동_하서동,동_학정동,동_향촌동,동_현풍읍,동_호림동,동_호산동,동_화원읍,동_화전동,동_황금동,동_효목동
0,ACCIDENT_00000,화요일,맑음,2019,1,1,0,대구광역시,True,False,...,False,False,False,False,False,False,False,False,False,False
1,ACCIDENT_00001,화요일,흐림,2019,1,1,0,대구광역시,True,False,...,False,False,False,False,False,False,False,False,False,False
2,ACCIDENT_00002,화요일,맑음,2019,1,1,1,대구광역시,True,False,...,False,False,False,False,False,False,False,False,False,False
3,ACCIDENT_00003,화요일,맑음,2019,1,1,2,대구광역시,False,True,...,False,False,False,False,False,False,False,False,False,False
4,ACCIDENT_00004,화요일,맑음,2019,1,1,4,대구광역시,False,True,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10958,ACCIDENT_50567,토요일,맑음,2022,12,31,18,대구광역시,False,True,...,False,False,False,False,False,False,False,False,False,False
10959,ACCIDENT_50568,토요일,맑음,2022,12,31,18,대구광역시,False,True,...,False,False,False,False,False,False,False,False,False,False
10960,ACCIDENT_50569,토요일,맑음,2022,12,31,20,대구광역시,False,True,...,False,False,False,False,False,False,False,False,False,False
10961,ACCIDENT_50570,토요일,맑음,2022,12,31,20,대구광역시,False,True,...,False,False,False,False,False,False,False,False,False,False


# **4. 연,월,시 원핫인코딩**


In [94]:
# 연도의 one-hot encoding 및 확인
data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['연'])

In [95]:
# 월의 one-hot encoding 및 확인
data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['월'])
data_onehot_enco.info()

<class 'pandas.core.frame.DataFrame'>
Index: 50572 entries, 0 to 10962
Columns: 250 entries, ID to 월_12
dtypes: bool(244), int64(2), object(4)
memory usage: 14.5+ MB


In [96]:
# 시간의 one-hot encoding 및 확인
data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['시간'])
data_onehot_enco.info()

<class 'pandas.core.frame.DataFrame'>
Index: 50572 entries, 0 to 10962
Columns: 273 entries, ID to 시간_23
dtypes: bool(268), int64(1), object(4)
memory usage: 15.2+ MB


# **5. 요일, 기상 엔코딩**


In [97]:
data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['요일'])
data_onehot_enco.info()

<class 'pandas.core.frame.DataFrame'>
Index: 50572 entries, 0 to 10962
Columns: 279 entries, ID to 요일_화요일
dtypes: bool(275), int64(1), object(3)
memory usage: 15.2+ MB


**가독성 위해 컬럼 순서 원래 순서와 맞춰 정렬**

In [98]:
# 요일 컬럼 순서 변경 (75번부터 80번 컬럼)
desired_order = ['요일_월요일', '요일_화요일', '요일_수요일', '요일_목요일', '요일_금요일', '요일_토요일', '요일_일요일']
data_onehot_enco = data_onehot_enco[ [col for col in data_onehot_enco.columns if col not in desired_order] + desired_order]


In [99]:
data_onehot_enco = pd.get_dummies(data_onehot_enco, columns=['기상상태'])

# **------------------------------------------------------**

### 통합된 데이터 세트(data)를 다시 train과 test 세트로 분리
- 합쳐둔 data 날짜에 맞춰서 다시 train_new, test_new로 분리하기

In [100]:
data_onehot_enco.info()

<class 'pandas.core.frame.DataFrame'>
Index: 50572 entries, 0 to 10962
Columns: 284 entries, ID to 기상상태_흐림
dtypes: bool(281), int64(1), object(2)
memory usage: 15.1+ MB


In [101]:
# train_new = data_onehot_enco[data_onehot_enco['연'].isin([2019, 2020, 2021])]
# test_new = data_onehot_enco[data_onehot_enco['연'] == 2022]

train_new  = data_onehot_enco[:len(train)]
test_new = data_onehot_enco[len(train):]
# 이렇게 하는 방법도 있음

In [102]:
train_new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 39609 entries, 0 to 39608
Columns: 284 entries, ID to 기상상태_흐림
dtypes: bool(281), int64(1), object(2)
memory usage: 11.8+ MB


In [103]:
test_new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10963 entries, 0 to 10962
Columns: 284 entries, ID to 기상상태_흐림
dtypes: bool(281), int64(1), object(2)
memory usage: 3.3+ MB


### 학습시킬 feature 선택하기 

In [104]:
train_new.columns

Index(['ID', '일', '도시', '사고유형_차대사람', '사고유형_차대차', '사고유형_차량단독', '노면상태_건조',
       '노면상태_기타', '노면상태_서리/결빙', '노면상태_적설',
       ...
       '요일_목요일', '요일_금요일', '요일_토요일', '요일_일요일', '기상상태_기타', '기상상태_눈', '기상상태_맑음',
       '기상상태_비', '기상상태_안개', '기상상태_흐림'],
      dtype='object', length=284)

In [105]:
test_new.columns

Index(['ID', '일', '도시', '사고유형_차대사람', '사고유형_차대차', '사고유형_차량단독', '노면상태_건조',
       '노면상태_기타', '노면상태_서리/결빙', '노면상태_적설',
       ...
       '요일_목요일', '요일_금요일', '요일_토요일', '요일_일요일', '기상상태_기타', '기상상태_눈', '기상상태_맑음',
       '기상상태_비', '기상상태_안개', '기상상태_흐림'],
      dtype='object', length=284)

In [106]:
feature =['요일','기상상태','노면상태','사고유형','연','월','시간', '구', '동', '도로형태1', '도로형태2'] 
#예측에 넣을 feature추가하기

### (참고) train, test 데이터의 독립변수, 종속 변수 분리
- [예측에 모든 컬럼 사용하는 법, 내가 고른 컬럼만 사용하는 법] 중에 원하는 방법으로 사용하기!!

In [107]:
# # 예측에 모든 컬럼 사용하는 법.
X_test = test_new.drop(columns=['ID', '도시', '일']).copy()
X_train = train_new[X_test.columns].copy()

y_train = train['ECLO'].copy()

In [108]:
# # 예측에 내가 고른 컬럼만 사용하는 법.
# X_train = train_new[feature]
# X_test = test_new[feature]

# y_train = train['ECLO'].copy()

In [109]:
X_train.shape

(39609, 281)

In [110]:
y_train.shape

(39609,)

In [111]:
X_test.shape

(10963, 281)

### (참고) 데이터 분할

- 주어진 데이터셋이 이미 훈련용(train)과 테스트용(test)으로 나뉘어져 있으므로 train_test_split 함수를 사용하여 데이터를 분할할 필요 없음!
- 그렇지만, 훈련데이터를 더 작은 훈련 세트(train set)와 검증 세트(validation set)로 나누는 것은 필요함.
> - train data set의 피쳐를 X, 타겟을 y로 분리
> - train data set를 훈련(train)과 검증(valid)로 나눈다.
> - train:valid= 7:3 로 나누어 본다
>> - 훈련 세트(train set): 모델을 훈련하는 데 사용됩니다.
>> - 검증 세트(validation set): 모델을 튜닝하고 성능을 평가하는 데 사용됩니다. 이를 통해 모델이 훈련 데이터에 과적합되지 않고 다른 데이터에 대해서도 일반화될 수 있는지 확인할 수 있습니다.
> - 대회에서는 주어진 테스트 데이터가 숨겨져 있으므로 모델을 평가하려면 모델의 예측을 검증 세트에 대해 평가하고, 최종적으로는 테스트 데이터에 대한 예측을 제출해야 합니다.

In [112]:
from sklearn.model_selection import train_test_split 

#train data set를 train과 validation data set로 나누기
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.3, random_state=42)

In [113]:
# 데이터 사이즈 확인
print("Size of X_train is:{}\nSize of y_train is:{}\nSize of X_valid is:{}\nSize of Y_valid is:{}\n".format(
    X_train.shape,y_train.shape,X_valid.shape,y_valid.shape))

Size of X_train is:(27726, 281)
Size of y_train is:(27726,)
Size of X_valid is:(11883, 281)
Size of Y_valid is:(11883,)



## Model 구현

- Logistic Regression, Decision Tree, Random Forest Classifier, KNN, ......

## Model Train & Prediction

**모델 적용**
- 선택한 모델로 test 결과 저장하기
- 검증 데이터세트의 정확도가 높은 모델을 채택!

In [114]:
# #변수 이름 선택한 모델명으로 설정하기!!!

# from sklearn.tree import DecisionTreeRegressor
# dtr = DecisionTreeRegressor()
# dtr.fit(X_train, y_train)

# prediction_dtr= dtr.predict(X_test)
# prediction_dtr

### - DecisionTreeRegressor

In [115]:
from sklearn.tree import DecisionTreeRegressor

dtr = DecisionTreeRegressor(random_state=42)

#### 최적의 하이퍼파라미터 검색

In [116]:
from sklearn.model_selection import GridSearchCV

param_grid = {
             'max_depth': [None, 5, 10, 15],
             'min_samples_split': [2, 5, 10],
             'min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(dtr, param_grid, cv=5, scoring='neg_mean_squared_log_error')
grid_search.fit(X_train, y_train)

# 최적 하이퍼파라미터
best_params = grid_search.best_params_

# 최적 모델 
best_dtr = grid_search.best_estimator_

print("최적 하이퍼파라미터:", best_params)

최적 하이퍼파라미터: {'max_depth': 5, 'min_samples_leaf': 1, 'min_samples_split': 2}


#### 특성 중요도 확인

In [117]:
feature_names = X_train.columns  

# 특성 중요도 및 피처명 출력
for feature_name, importance in zip(feature_names, best_dtr.feature_importances_):
    print(f"특성명: {feature_name}, 중요도: {importance}")

특성명: 사고유형_차대사람, 중요도: 0.0
특성명: 사고유형_차대차, 중요도: 0.3625501249704568
특성명: 사고유형_차량단독, 중요도: 0.0
특성명: 노면상태_건조, 중요도: 0.0
특성명: 노면상태_기타, 중요도: 0.0
특성명: 노면상태_서리/결빙, 중요도: 0.0
특성명: 노면상태_적설, 중요도: 0.0
특성명: 노면상태_젖음/습기, 중요도: 0.0
특성명: 노면상태_침수, 중요도: 0.0
특성명: 도로형태1_교차로, 중요도: 0.0
특성명: 도로형태1_기타, 중요도: 0.0
특성명: 도로형태1_단일로, 중요도: 0.0
특성명: 도로형태1_미분류, 중요도: 0.0
특성명: 도로형태1_주차장, 중요도: 0.0
특성명: 도로형태2_고가도로위, 중요도: 0.0
특성명: 도로형태2_교량, 중요도: 0.0
특성명: 도로형태2_교차로부근, 중요도: 0.0
특성명: 도로형태2_교차로안, 중요도: 0.0
특성명: 도로형태2_교차로횡단보도내, 중요도: 0.01848371089127744
특성명: 도로형태2_기타, 중요도: 0.0
특성명: 도로형태2_미분류, 중요도: 0.0
특성명: 도로형태2_주차장, 중요도: 0.0
특성명: 도로형태2_지하차도(도로)내, 중요도: 0.0
특성명: 도로형태2_터널, 중요도: 0.0
특성명: 구_남구, 중요도: 0.0
특성명: 구_달서구, 중요도: 0.0
특성명: 구_달성군, 중요도: 0.0
특성명: 구_동구, 중요도: 0.0
특성명: 구_북구, 중요도: 0.0
특성명: 구_서구, 중요도: 0.0
특성명: 구_수성구, 중요도: 0.0
특성명: 구_중구, 중요도: 0.0
특성명: 동_가창면, 중요도: 0.0
특성명: 동_가천동, 중요도: 0.0
특성명: 동_각산동, 중요도: 0.0
특성명: 동_갈산동, 중요도: 0.0
특성명: 동_감삼동, 중요도: 0.0
특성명: 동_검단동, 중요도: 0.0
특성명: 동_검사동, 중요도: 0.0
특성명: 동_계산동1가, 중요도: 0.0
특성명: 동_계산동2가, 중요도: 0.0442321812

#### 예측

In [118]:
y_train_pred = best_dtr.predict(X_train)
y_val_pred = best_dtr.predict(X_valid)

print('훈련 데이터 예측값 : ', y_train_pred)
print('검증 데이터 예측값 : ', y_val_pred)

훈련 데이터 예측값 :  [3.81293387 3.81293387 5.50366854 ... 3.81293387 5.50366854 3.81293387]
검증 데이터 예측값 :  [3.81293387 5.50366854 4.89672924 ... 5.50366854 4.89672924 3.81293387]


### 평가

### (참고) 평가함수 -RMSLE

리더보드 제출 전 RMSLE 점수 계산해볼 수 있는 코드입니다. 실제 점수와는 조금 다를수 있어요!

In [119]:
# from sklearn.metrics import mean_squared_log_error
# # RMSLE 계산
# rmsle = mean_squared_log_error(y_test, y_pred, squared=False)

# # 결과 출력
# print(f'RMSLE: {rmsle}')

In [120]:
from sklearn.metrics import mean_squared_error,mean_absolute_error
#  1. RMSLE 작성
def rmsle(pred, actual):
    log_pred = np.log1p(pred) 
    log_actual = np.log1p(actual)
    squared_error = (log_pred-log_actual)**2   
    rmsle = np.sqrt(np.mean(squared_error))
    return rmsle
#  2. RMSE 작성
def rmse(pred, actual):
    return np.sqrt(mean_squared_error(pred, actual))
#  3. MAE 작성
def mae(pred, actual):
    return mean_absolute_error(pred, actual)

In [121]:
def evaluate_regr(pred, actual):
    rmsle_val=rmsle(pred, actual)
    rmsl_val=rmse(pred, actual)
    mae_val=mae(pred, actual)
    print('RMSLE: {:.3f}, RMSE: {:.3f}, MAE: {:.3f}'.format(rmsle_val, rmsl_val, mae_val))

In [122]:
evaluate_regr(y_train, y_train_pred)

RMSLE: 0.458, RMSE: 3.140, MAE: 2.138


In [123]:
evaluate_regr(y_valid, y_val_pred) 

RMSLE: 0.465, RMSE: 3.139, MAE: 2.154


In [124]:
from sklearn.metrics import mean_squared_log_error, r2_score

# 훈련 데이터와 검증 데이터의 RMSLE 계산
# 점수가 낮을수록 정확도가 높다.
dtr_rmsle_train = np.sqrt(mean_squared_log_error(y_train, y_train_pred))
dtr_rmsle_val = np.sqrt(mean_squared_log_error(y_valid, y_val_pred))

# 훈련 데이터와 검증 데이터의 R2 계산
# 0~1 사이로 1에 수렴할 때 가장 적합하다.
dtr_r2_train = r2_score(y_train, y_train_pred)
dtr_r2_val = r2_score(y_valid, y_val_pred)

# 결과 출력
print("훈련 데이터의 RMSLE : ", dtr_rmsle_train)
print("검증 데이터의 RMSLE : ", dtr_rmsle_val)
print("훈련 데이터의 R2 : ", dtr_r2_train)
print("검증 데이터의 R2 : ", dtr_r2_val)

훈련 데이터의 RMSLE :  0.4578255478303291
검증 데이터의 RMSLE :  0.46525019437630505
훈련 데이터의 R2 :  0.0528840875497234
검증 데이터의 R2 :  0.013600634953768398


#### 학습

In [125]:
best_dtr.fit(X_train, y_train)

### test 예측

In [126]:
prediction_dtr = best_dtr.predict(X_test)

print(prediction_dtr)

[3.81293387 3.81293387 4.89672924 ... 4.89672924 4.89672924 4.89672924]


### Submission

In [127]:
##형식 복붙해서 사용하시는 모델에 맞춰서 저장해주세요!
# sample_submission = pd.read_csv('open/sample_submission.csv')
# 모델이름_submission = sample_submission.copy()
# 모델이름_submission['ECLO'] = prediction_모델이름
# 모델이름_submission


# 모델이름_submission.to_csv('모델이름_submission.csv')

In [128]:
sample_submission = pd.read_csv('open/sample_submission.csv')
sample_submission

Unnamed: 0,ID,ECLO
0,ACCIDENT_39609,0
1,ACCIDENT_39610,0
2,ACCIDENT_39611,0
3,ACCIDENT_39612,0
4,ACCIDENT_39613,0
...,...,...
10958,ACCIDENT_50567,0
10959,ACCIDENT_50568,0
10960,ACCIDENT_50569,0
10961,ACCIDENT_50570,0


In [129]:
# 위코드 해서 안되면 아래꺼 써보기...
# sample_submission = pd.read_csv('open/sample_submission.csv', index_col=0)
# sample_submission

In [130]:
DecisionTree_submission = sample_submission.copy()
DecisionTree_submission['ECLO'] = prediction_dtr
DecisionTree_submission

Unnamed: 0,ID,ECLO
0,ACCIDENT_39609,3.812934
1,ACCIDENT_39610,3.812934
2,ACCIDENT_39611,4.896729
3,ACCIDENT_39612,4.896729
4,ACCIDENT_39613,4.896729
...,...,...
10958,ACCIDENT_50567,4.896729
10959,ACCIDENT_50568,4.896729
10960,ACCIDENT_50569,4.896729
10961,ACCIDENT_50570,4.896729


In [131]:
DecisionTree_submission.to_csv('DecisionTree(onehot)_submission.csv')