[View in Colaboratory](https://colab.research.google.com/github/RayleighKim/M09_Intro_To_Regression/blob/master/Hackathon0_Bike_Sharing.ipynb)

# Hackathon 0

## Regression Problem

### Your name :     

### Kaggle Link :
* [Bike-sharing Demand](https://www.kaggle.com/c/bike-sharing-demand)


#### 문제를 정의할 것
* 무엇을 할지
* 왜 하는 것인지

#### 목표 ( 최소한 둘 중 하나를 만족할 것 )
* 예측 성능이 좋을 것
* 설명이 용이할 것

#### 조건
* Feature Engineering을 통해 여러 변수들을 만들 것 : Pandas의 Rolling 기능을 적극 활용하라.
* 어떤 모델을 가져다가 써도 좋다. 우리가 배운 것들은 다음과 같다.
    * Linear Regression
    * ANN (권장)
    * Random Forest
    * KNN
* 모델 사용 법들은 실습 파일들을 적극적으로 참고할 것!


---------------
Rayleigh Kim @ D:plus


In [0]:
'''
matplolib inline 명령어를 통해서
matplot으로 그리는 플롯들을 주피터 노트북 내에서 볼 수 있게 해준다.
포맷을 retina로 바꾸면 그래프의 화질이 훨씬 좋아진다.
'''
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

'''
라이브러리들을 불러오자.
'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

'''
사이킷런의 라이브러리들을 미리 불러두는 것도 좋지만,
세부적인 메쏘드가 너무 많아서 필요한것만 불러오도록 할 것이다.
'''


## Data Loading

In [0]:
data_path = 'https://raw.githubusercontent.com/RayleighKim/Example_datasets/master/Bike-Sharing-Dataset/hour.csv'
rides = pd.read_csv(data_path)

In [0]:
# # hour.csv 파일을 불러오자
# from google.colab import files
# files.upload()

In [0]:
# rides = pd.read_csv('hour.csv')

In [0]:
rides.head()

In [0]:
rides.dtypes

In [0]:
rides[:24*10].plot(x='dteday', y='cnt')

## Your Feature Engineering!

상상하라! 어려운 HyperParameter tuning보다도 중요한 부분이다!

이곳에 Feature Engineering 할 것을 계획할 것.
* ex> 과거 4일간의 cnt 평균을 사용할 것이다.
* ex> 과거 10일간의 max값을 활용할 것이다.


**Pandas Rolling 기능 사용시 주의**
* min_periods 를 적절히 활용할 것
* shift를 적절히 활용할 것. : **사용하지 않으면 정답으로 정답을 예측하는 사태가 벌어질 수 있다.**

In [0]:
# Your Final Features

print(rides.columns)
rides.dtypes

## Dummy Variable and Drop

더미로 만들 것들은 더미로 만들어두자

그리고, 버릴 것을 버리자!

**주의**

자전거 대여량은 

cnt = casual + registered 로 이루어져 있다.

Target으로 셋 중 하나를 선택하고 나머지는 버릴 것!

In [0]:
### Your code
### Example : dummy_fields = ['season', 'mnth']
# dummy_fields = ## Your Code

for each in dummy_fields:
    dummies = pd.get_dummies(rides[each], prefix=each, drop_first=False)
    rides = pd.concat([rides, dummies], axis=1)

fields_to_drop = ## Your Code
data = rides.drop(fields_to_drop, axis=1)
data.head()

## Scaling Variables

In [0]:
data.dtypes

In [0]:
### Your Code
### Example : quant_features = ['cnt', 'temp' ]
quant_features = ### Your Code

# Store scalings in a dictionary so we can convert back later
scaled_features = {}
for each in quant_features:
    mean, std = data[each].mean(), data[each].std()
    scaled_features[each] = [mean, std]
    data.loc[:, each] = (data[each] - mean)/std

In [0]:
'''
위에서 쓰인 Dictionary 잠깐 짚어보기.
Dictionary의 각각의 원소는 key : value 쌍으로 되어 있다.
'''

scaled_features

## Splitting the data into training, testing, and validation sets

In [0]:
test_data = data[-21*24:]
val_data = data[-81*24:-21*24]
train_data = data[:-81*24]

### Your Code
### Example > target_fields = ['cnt']

target_fields =  ## Your Code


test_features, test_targets = test_data.drop(target_fields, axis=1), test_data[target_fields]
val_features, val_targets = val_data.drop(target_fields, axis=1), val_data[target_fields]
train_features, train_targets = train_data.drop(target_fields, axis=1), train_data[target_fields]

train_targets.head()

### Pandas Dataframe to Numpy array

생략. 싸이킷런만 활용할 것.

```
if 나는 이미 Tensorflow를 사용할 줄 알아! :
    아래의 셀을 수정하여 사용
```

In [0]:
# test_features, test_targets = test_features.values, test_targets.values
# val_features, val_targets = val_features.values, val_targets.values
# train_features, train_targets = train_features.values, train_targets.values

# # 우리는 타겟 중 첫번째 컬럼(cnt)만 사용할 것이다.
# test_cnt = test_targets[:,0]
# val_cnt = val_targets[:,0]
# train_cnt = train_targets[:,0]


# print(train_targets, train_cnt)

## Modeling!

아래의 셀들을 적극 수정하며 사용할 것.

여러 모델들을 만들어 동시에 비교해보아도 좋다.

**모델 선택을 할 때 test set을 이용하지 말 것**

In [0]:
import time # 학습시간 측정용

# Your Code
# 사용할 모델들을 불러와서 사용할 것!

from sklearn.metrics import mean_squared_error, r2_score

In [0]:
# 모델 준비
reg_model = ## Your Code Here


# 모델 training
# Test셋의 첫번째 컬럼(cnt)만 사용할 것이다. 
start_time = time.clock()
reg_model.fit(train_features, train_targets)
end_time = time.clock()

print('----  {0:.5f}sec, training complete  ----'.format(end_time-start_time))

# Training & Validation set에서의 예측값 준비
train_pred, val_pred = reg_model.predict(train_features), reg_model.predict(val_features)

In [0]:
# Training & Validation set에서의 성능 확인

print("Mean Squared Error on Training set : {0:.5f}".format(mean_squared_error(train_targets, train_pred)  ))
print("Mean Squared Error on Validation set : {0:.5f}".format(mean_squared_error(val_targets, val_pred)  ))

print("R-squared Score on Training set : {0:.5f}".format(r2_score(train_targets, train_pred)))
print("R-squared Score on Validation set : {0:.5f}".format(r2_score(val_targets, val_pred)))

### Check out on Test set

Golden rule : Test set을 모델 학습에 사용하지 말지어다.

In [0]:
simple_predictions = reg_model.predict(test_features)

fig, ax = plt.subplots(figsize=(10,5))

# 예측값도 Scaling 되어 있으므로 그것을 원래대로 되돌려주는 과정
# ex> scaled_features['cnt']
mean, std = scaled_features[### Your Code Here]

ax.plot((simple_predictions)*std+mean, label = 'Simple_Prediction')
ax.plot((test_targets)*std+mean, label = 'Real')
ax.set_xlim(right = len(simple_predictions))
ax.legend()

dates = pd.to_datetime(rides.iloc[test_data.index]['dteday'])
dates = dates.apply(lambda d: d.strftime('%b %d'))
ax.set_xticks(np.arange(len(dates))[12::24])
_ = ax.set_xticklabels(dates[12::24], rotation=45)

print("Mean Squared Error on Test set : {0:.5f}".format(mean_squared_error(test_targets, simple_predictions)  ))
print("R-squared Score on Test set : {0:.5f}".format(r2_score(test_targets, simple_predictions)))