# 장애인콜택시 대기시간 예측
## 단계3. 모델링

## 0.미션

* 1.시계열 데이터에 맞는 전처리
    * 데이터가 2015 ~ 2022년까지 데이터 입니다.
    * 이 중 2022년 10월 ~ 2022년 12월까지(3개월)의 데이터는 성능 검증용으로 사용합니다.
    * 나머지 데이터를 이용하여 학습 및 튜닝을 수행합니다.
    * 이를 위한 데이터 전처리를 수행하시오.
* 2.모델 최적화
    * 머신러닝 
        * 알고리즘 중 3가지 이상을 선정하여 모델링을 수행합니다.
        * 각각 알고리즘에 맞는 튜닝 방법으로 최적의 모델을 만듭니다.
    
    * 성능 평가
        * 시계열 그래프로 모델의 실제값과 예측값을 시각화하여 비교합니다.
        * 성능 지표 (MAE, MAPE) 를 사용해 가장 성능이 높은 모델을 선정합니다.
        * 성능 가이드
            * MAE : 4 ~ 6
            * MAPE : 0.09~0.14

## 1.환경설정

* 세부 요구사항
    - 경로 설정 : 다음의 두가지 방법 중 하나를 선택하여 폴더를 준비하고 데이터를 로딩하시오.
        * 1) 로컬 수행(Ananconda)
            * 제공된 압축파일을 다운받아 압축을 풀고
            * anaconda의 root directory(보통 C:/Users/< ID > 에 project 폴더를 만들고, 복사해 넣습니다.
        * 2) 구글콜랩
            * 구글 드라이브 바로 밑에 project 폴더를 만들고, 
            * 데이터 파일을 복사해 넣습니다.
    - 라이브러리 설치 및 로딩
        * requirements.txt 파일로 부터 라이브러리 설치
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다. 
        * 필요하다고 판단되는 라이브러리를 추가하세요.


### (1) 경로 설정

#### 1) 로컬 수행(Anaconda)
* project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

In [None]:
# path = 'C:/Users/User/project/'

#### 2) 구글 콜랩 수행

* 구글 드라이브 연결

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
# path = '/content/drive/MyDrive/project/'

### (2) 라이브러리 설치 및 불러오기

#### 1) 설치

* requirements.txt 파일을 아래 위치에 두고 다음 코드를 실행하시오.
    * 로컬 : 다음 코드셀 실행
    * 구글콜랩 : requirements.txt 파일을 왼쪽 [파일]탭에 복사해 넣고 다음 코드셀 실행

In [None]:
# !pip install -r requirements.txt

#### 2) 라이브러리 로딩

* **세부 요구사항**
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다.
    - 필요하다고 판단되는 라이브러리를 추가하세요.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import joblib

# 필요하다고 판단되는 라이브러리를 추가하세요.

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import *
from sklearn.preprocessing import MinMaxScaler

### (3) 데이터 불러오기
* 주어진 데이터셋
    * [2.탐색적 데이터분석] 단계에서 저장한 파일 : data2.pkl


In [2]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
data = joblib.load('./data2.pkl')
data.head()

Unnamed: 0,Date,weekday,month,year,humidity_min(%),holiday,mean_time_7days,board_rate,taxi_rate,quarter,next_mean_time
0,2015-01-01,Friday,1.0,2015.0,28.0,0.0,23.2,0.903226,0.208211,1,17.2
1,2015-01-02,Saturday,1.0,2015.0,37.0,0.0,20.2,0.898987,0.132996,1,26.2
2,2015-01-03,Sunday,1.0,2015.0,58.0,0.0,22.2,0.918689,0.12682,1,24.5
3,2015-01-04,Monday,1.0,2015.0,52.0,0.0,22.775,0.927096,0.119077,1,26.2
4,2015-01-05,Tuesday,1.0,2015.0,29.0,0.0,23.46,0.877647,0.099059,1,23.6


## 2.데이터 준비
* **세부요구사항**
    * NaN에 대한 조치를 수행하시오.
        * rolling 혹은 shift로 발생된 초기 행의 NaN은 삭제해도 무방합니다.
    * 가변수화 : 범주형에 대해서 가변수화를 수행합니다.
    * 데이터분할
        * 시계열 데이터 특성에 맞게 분할합니다.
        * 마지막 91일(3개월) 데이터를 검증셋으로 사용합니다.

### (1) NA 조치

In [3]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
data.isna().sum() # 없어


Date               0
weekday            0
month              0
year               0
humidity_min(%)    0
holiday            0
mean_time_7days    0
board_rate         0
taxi_rate          0
quarter            0
next_mean_time     0
dtype: int64

### (2) 가변수화

In [6]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
dumm_cols = ['quarter', 'weekday']
df = pd.get_dummies(data, columns =dumm_cols, drop_first=True, dtype=int)
list(df)

['Date',
 'month',
 'year',
 'humidity_min(%)',
 'holiday',
 'mean_time_7days',
 'board_rate',
 'taxi_rate',
 'next_mean_time',
 'quarter_2',
 'quarter_3',
 'quarter_4',
 'weekday_Monday',
 'weekday_Saturday',
 'weekday_Sunday',
 'weekday_Thursday',
 'weekday_Tuesday',
 'weekday_Wednesday']

In [17]:
df.set_index('Date', inplace=True)
df.head(2)

Unnamed: 0_level_0,month,year,humidity_min(%),holiday,mean_time_7days,board_rate,taxi_rate,next_mean_time,quarter_2,quarter_3,quarter_4,weekday_Monday,weekday_Saturday,weekday_Sunday,weekday_Thursday,weekday_Tuesday,weekday_Wednesday
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2015-01-01,1.0,2015.0,28.0,0.0,23.2,0.903226,0.208211,17.2,0,0,0,0,0,0,0,0,0
2015-01-02,1.0,2015.0,37.0,0.0,20.2,0.898987,0.132996,26.2,0,0,0,0,1,0,0,0,0


### (3) 데이터분할
* **세부요구사항**
    * 마지막 91일 간의 데이터를 검증 셋으로 만듭니다. (2022-10-01 ~ )
    * 이 기간의 날짜 리스트를 별도로 저장하여, 모델 검증시 시각화할 때 활용합니다.

In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.



#### 1) x, y 나누기

In [18]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
# x와 y 분리
target = 'next_mean_time'
X = df.drop(target, axis=1)
y = df.loc[:,target]

#### 2) train : validation 나누기
* 힌트 : train_test_split(  ,   ,  test_size = 91, shuffle = False) 

In [19]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=91, shuffle=False)


In [20]:
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(2831, 16) (2831,)
(91, 16) (91,)


In [21]:
X_train.head(2)

Unnamed: 0_level_0,month,year,humidity_min(%),holiday,mean_time_7days,board_rate,taxi_rate,quarter_2,quarter_3,quarter_4,weekday_Monday,weekday_Saturday,weekday_Sunday,weekday_Thursday,weekday_Tuesday,weekday_Wednesday
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2015-01-01,1.0,2015.0,28.0,0.0,23.2,0.903226,0.208211,0,0,0,0,0,0,0,0,0
2015-01-02,1.0,2015.0,37.0,0.0,20.2,0.898987,0.132996,0,0,0,0,1,0,0,0,0


### (4) Scaling
* KNN, SVM 알고리즘을 적용하기 위해서는 스케일링을 해야 합니다.

In [22]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
# MinMaxScaler()
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [24]:
X_train

array([[0.        , 0.        , 0.23076923, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.32967033, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.56043956, ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.72727273, 1.        , 0.31868132, ..., 1.        , 0.        ,
        0.        ],
       [0.72727273, 1.        , 0.32967033, ..., 0.        , 0.        ,
        0.        ],
       [0.81818182, 1.        , 0.30769231, ..., 0.        , 0.        ,
        0.        ]])

## 3.모델링
* **세부요구사항**
    * 머신러닝 알고리즘 중 3가지 이상을 사용하여 모델을 만들고 튜닝을 수행합니다.
    * 성능 측정은 MAE, MAPE로 수행합니다.
    * 모델링 후 실제값과 예측값을 시각화(라인차트)하여 분석합니다.

In [None]:
# def pred_plot(y_val, pred, date):
#     plt.figure(figsize = (18,6))
#     sns.lineplot(x=date, y = y_val.values, label = 'actual value', marker = 'o')
#     sns.lineplot(x=date, y = pred, label = 'predicted value', marker = 'o')
#     plt.ylim(0,60)
#     plt.grid()
#     plt.show()

### (1) 머신러닝

#### 1) LinearRegression

In [30]:
def cv_check(model, cv):
    cv_score = cross_val_score(
    model,
    X_train,
    y_train,
    cv=10,
    )
    print(cv_score)
    print(cv_score.mean())

In [31]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
# 모델 불러오기
model = LinearRegression()

# 검증
cv_check(model, 10)

[0.28961571 0.08976209 0.09991528 0.44572955 0.26289274 0.44882281
 0.77722405 0.44723093 0.54205029 0.62601656]
0.40292599879344876


In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.



#### 2) KNN

In [33]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
from sklearn.neighbors import KNeighborsRegressor
model = KNeighborsRegressor()
cv_check(model, 10)

[-0.06334071  0.24273233  0.25949614  0.36746747  0.20617285  0.33283329
  0.61237934 -0.52522576  0.39746249  0.16575507]
0.19957325148191135


In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.



#### 3) Decision_Tree

In [36]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(max_depth=5)
cv_check(model, 10)


[ 0.27312994 -0.1054908   0.08659     0.4802837   0.11967232 -0.83233291
  0.78253662  0.52498585  0.49371302  0.52688325]
0.23499709898270632


In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.



#### 4) RandomForest

In [37]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(max_depth=5)
cv_check(model, 10)

[ 0.33678722  0.29896584  0.27344554  0.49267206  0.25863492 -0.09559379
  0.79282353  0.59255471  0.67135165  0.67552642]
0.42971681064223066


In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.



#### 4) XGB

In [38]:
from xgboost import XGBRegressor
model = XGBRegressor(max_depth=5)
cv_check(model,10)

[0.08799847 0.24940298 0.23102443 0.49644521 0.21762598 0.21953771
 0.77606961 0.56842047 0.61467421 0.67644128]
0.41376403464912925


#### 5) LGBM

## 3.모델별 비교
* **세부요구사항**
    * 모델링 단계에서 생성한 모든 모델의 성능을 하나로 모아서 비교합니다.
    * 가장 성능이 높은 모델을 선정합니다.

In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.



In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.

