# Objective of the notebook :
이 노트에서 우리는 선정한 데이터(Bike Sharing Demand)를 탐색하고 이해 할 것입니다. 그 후, sklearn의 Regression 모델을 적용할 것입니다.

# Objective of the competition: 
이 경쟁에서 우리는 시간대별 자전거 대여 수요를 예측하기 위해 워싱턴 DC의 Capital Bikeshare에서 2년간 시간대별 자전거 대여 데이터와 과거 기상데이터를 결합한 데이터를 분석할 것입니다.

# About the dataset: [Bike Sharing Demand](https://www.kaggle.com/c/bike-sharing-demand)

## Source:
이 데이터셋은 [Capital Bikeshare](https://www.capitalbikeshare.com/)의 데이터를 사용해서 Hadi Fanaee Tork에 의해서 제공되었습니다.<br>
데이터셋의 호스팅 : [UCI machine learning repository](http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)

*Fanaee-T, Hadi, and Gama, Joao, Event labeling combining ensemble detectors and background knowledge, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg.*

## Infomation:

**Bike sharing systems** : 자전거 대여 및 반납, 회원 가입 절차가 도시 전역의 키오스크(자전거 터미널) 위치 네트워크를 통해 자동화되는 자전거 대여 방법

이 시스템을 사용하여 사람들은 자전거가 필요한 곳에서 자전거를 빌려 다른 곳에 반납을 할 수 있습니다.<br>
현재 전 세계에는 500개가 넘는 Bike sharing system이 있습니다.

**Capital Bikeshare** :

Capital Bikeshare는 워싱턴 DC를 위한 Bike sharing system입니다. 6개 관할지역에 4,300개의 자전거와 500개이상의 자전거 station(대여/반납)을 가지고 있습니다.

- 대여 가격
![price](./img/price.jpg)

- 대여/반납 절차
![procedure](./img/procedure.jpg)

- 자전거 터미널(station) 위치
![station_loc](./img/station_loc.jpg)

- 자전거 터미널(station) 실물
![station](./img/station.jpg)

- instagram의 Capital Bikeshare 자전거
![bike](./img/bike.jpg)

## Data:
우리는 2개의 데이터셋(`day.csv, hour.csv`)을 제공받았고 이 중 시간대별 자전거 대여 수의 데이터를 사용할 것입니다.

In [1]:
import pandas as pd

In [3]:
bike_day_df = pd.read_csv("./Bike-Sharing-Dataset/day.csv")

In [4]:
bike_hour_df = pd.read_csv("./Bike-Sharing-Dataset/hour.csv")

In [22]:
bike_day_df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


In [24]:
bike_day_df.tail()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
726,727,2012-12-27,1,1,12,0,4,1,2,0.254167,0.226642,0.652917,0.350133,247,1867,2114
727,728,2012-12-28,1,1,12,0,5,1,2,0.253333,0.255046,0.59,0.155471,644,2451,3095
728,729,2012-12-29,1,1,12,0,6,0,2,0.253333,0.2424,0.752917,0.124383,159,1182,1341
729,730,2012-12-30,1,1,12,0,0,0,1,0.255833,0.2317,0.483333,0.350754,364,1432,1796
730,731,2012-12-31,1,1,12,0,1,1,2,0.215833,0.223487,0.5775,0.154846,439,2290,2729


In [21]:
bike_hour_df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


| 열         | 의미      | 비고                                                                                                                                                                                             | 척도     |
|-------------|-----------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------|
|instant          | record index      |       |     |
| dteday    | 날짜      | YYYY-MM-DD 형식 |순서척도 |
| season      | 계절      | 1 = spring, 2 = summer, 3 = fall, 4 = winter          | 명목척도 |
| yr      | 연도      | 0: 2011, 1:2012         | 명목척도 |
| mnth      | 월      |  1 ~ 12       | 순서척도 |
| hr      | 시간      |  0 ~ 23          | 순서척도 |
| holiday     | 휴일      | 0=휴일 아님,1=휴일 (단 주말은 휴일로 분류하지 않는다. 주말 : holiday=0, working day=0)                                                                                                           | 명목척도 |
| workingday | 평일      | 0=평일 아님, 1=평일(월,화,수,목,금)                                                                                                                                                              | 명목척도 |
| wheathersit    | 날씨      | 1: 맑음, 구름 약간   2: 안개+흐림, 안개+구름 약간, 안개, 흐림   3: 가벼운 눈, 가벼운 비, 뇌우, 흩어진 구름  4: 폭우, 우박, 뇌우+안개, 눈+안개                                                    | 명목척도 |
|temp        |온도      |섭씨로 표준화 된 온도. 값은 (현재온도-최저온도) / (최고온도-최저온도), 최저온도 = -8, 최고온도 = +39                                                                                                                                                                                        | 비척도   |
| atemp       | 체감 온도 |섭씨로 표준화 된 체감온도. 값은 (현재온도-최저온도) / (최고온도-최저온도), 최저온도 = -16, 최고온도 = +50                                                                                                                                                                                         | 비척도   |
| hum    | 습도(humidity)      | 100(최대습도)으로 나누어서 표준화된 습도                                                                                                                                                                                             | 비척도   |
| windspeed   | 풍속      | 67(최대풍속)으로 나누어서 표준화된 풍속                                                                                                                                                                                             |비척도   |
| casual      | 비등록    |등록하지 않은 사용자들의 렌탈 수                                                                                                                                                                 | 비척도   |
| registered  |등록      | 등록된 사용자들의 렌탈 수                                                                                                                                                                        | 비척도   |
| count       | 총 대여수 |Target, 총 대여수 (비등록+등록)                                                                                                                                                                  | 비척도   |

In [5]:
bike_hour_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
instant       17379 non-null int64
dteday        17379 non-null object
season        17379 non-null int64
yr            17379 non-null int64
mnth          17379 non-null int64
hr            17379 non-null int64
holiday       17379 non-null int64
weekday       17379 non-null int64
workingday    17379 non-null int64
weathersit    17379 non-null int64
temp          17379 non-null float64
atemp         17379 non-null float64
hum           17379 non-null float64
windspeed     17379 non-null float64
casual        17379 non-null int64
registered    17379 non-null int64
cnt           17379 non-null int64
dtypes: float64(4), int64(12), object(1)
memory usage: 2.3+ MB


### Target Variable:

타겟 변수는 cnt(자전거의 총 대여수)로 지정하여 분석을 할 것입이다.

## Data Visualization:
kaggle에서 kernel에 의해 시간대별로 자전거 대여 수가 시각화된 그래프를 볼 수있다.

https://www.kaggle.com/h19881812/data-vizualization/output

## 분석을 통해 얻을수 있는 가치

Bike sharing system에서 가장 중요한 문제는 효율적인 대여와 공급일 것입니다.
이번 분석에서 비록 한정적인 데이터(시간과 기상에 대한)로 자전거의 대여 수를 예측하지만 자전거 이용의 특성상 시간과 기상요인의 영향이 크기 때문에 이러한 데이터로 예측 모델을 만든다면 향후 분석에 활용가능할 것으로 판단되어 이 데이터를 선정하였습니다.
- Capital Bikeshare에서 station의 위치에 대한 데이터를 이용하여 분석을 한다면 대여의 수요가 많은 station(터미널)에 미리 예측한 수의 자전거를 배치하여 자전거의 공급과 수요가 효율적으로 될 것입니다. 또한 새로 만들어질 station의 자전거 보관 수를 예측하여 짓는다면 가장 효율적인 공급이 이루어 질것입니다.
- 우리나라에서도 Bike sharing system의 활성화가 이루어지고 있습니다. 대표적인 Bike sharing system는 서울시의 따릉이, 창원에 누비자가 있고 더 많은 지역으로 확대되고 있습니다. 우리나라의 Bike sharing system의 데이터로 분석을 한다면 우리나라에서 실제 적용가능한 예측 모델을 만들 수 있을 것입니다.