# Bike Sharig

In [55]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split

In [2]:
train = pd.read_csv('./train.csv', parse_dates=['datetime']) # 시간을 시간 자료형으로 불러오기
test = pd.read_csv('./test.csv', parse_dates=['datetime'])
sub = pd.read_csv('./sampleSubmission.csv')

train.shape, test.shape, sub.shape

((10886, 12), (6493, 9), (6493, 2))

In [3]:
train.shape, test.shape, sub.shape

((10886, 12), (6493, 9), (6493, 2))

In [68]:
# f_names = ['temp', 'atemp']
f_names = ['season','weather','temp']
X_tr_all = train[f_names]
y_tr_all = train['count']

last_X_test = test[f_names]

In [69]:
from sklearn.model_selection import train_test_split

In [70]:
X_train, X_test, y_train, y_test = train_test_split(X_tr_all,
                                                   y_tr_all,
                                                   test_size=.3,
                                                   random_state=77)

In [71]:
from sklearn.linear_model import LinearRegression

In [72]:
model = LinearRegression()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 결정계수 : {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수 : {:.3f}".format(model.score(X_test, y_test)))

model.predict(X_test)         # 예측(새로운 데이터로)

학습용 세트 결정계수 : 0.175
테스트 세트 결정계수 : 0.163


array([207.35014841, 159.81017357, 235.16616427, ..., 145.59903806,
       182.62193532,  53.83291236])

In [10]:
print( model.coef_ )         # 모델(선형회귀의 계수)
print( model.intercept_)     # 모델(선형 회귀의 교차점)

[8.18286924 0.99950771]
3.881202374195226


In [11]:
pred = model.predict(last_X_test)   # 예측
sub['count'] = pred
sub

Unnamed: 0,datetime,count
0,2011-01-20 00:00:00,102.469994
1,2011-01-20 01:00:00,104.738876
2,2011-01-20 02:00:00,104.738876
3,2011-01-20 03:00:00,103.984248
4,2011-01-20 04:00:00,103.984248
...,...,...
6488,2012-12-31 19:00:00,103.984248
6489,2012-12-31 20:00:00,103.984248
6490,2012-12-31 21:00:00,103.984248
6491,2012-12-31 22:00:00,104.738876


In [12]:
# 처음 만는 제출용 csv 파일, 행번호를 없애기
sub.to_csv("firstsubmission.csv", index=False)

### 모델 피처 추가해서 평가해보기

In [13]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp', 
           'atemp', 'humidity', 'windspeed']
X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 
last_X_test = test[f_names]       # 테스트 데이터의 변수 선택 

y_tr_all = train['count']

In [14]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [15]:
model = LinearRegression()
model.fit(X_train, y_train)

# 결정계수 확인
print("학습용 세트 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 결정계수: 0.262
테스트 세트 결정계수: 0.257


In [None]:
# mse 값 출력 (추가)
from sklearn.metrics import mean_squared_error

mean_squared_error(pred, y_test)

### 몇개의 피처를 상호간의 연산을 통해 여러개의 피처 만들기

In [20]:
from sklearn.preprocessing import PolynomialFeatures

In [21]:
sel = ['season','weather','temp']

X_tr = train[sel]
y = train['count']

train_X_test = test[sel]

In [22]:
ex_X_tr = PolynomialFeatures(degree=2, include_bias=False).fit_transform(X_tr)

X_tr.shape, ex_X_tr.shape


((10886, 3), (10886, 9))

In [24]:
ex_X2_tr = PolynomialFeatures(degree=3, include_bias=False).fit_transform(X_tr)

X_tr.shape, ex_X2_tr.shape

((10886, 3), (10886, 19))

In [25]:
X_train, X_test, y_train, y_test = train_test_split(ex_X_tr, y, test_size=0.3, random_state = 77)

In [26]:
model = LinearRegression()
model.fit(X_train, y_train)

# 결정계수 확인
print("학습용 세트 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 결정계수: 0.199
테스트 세트 결정계수: 0.182


- 3개의 피처의 모델에 비해 성능이 개선되었다. (9개의 피처를 사용)

```
학습용 세트 결정계수 : 0.175
테스트 세트 결정계수 : 0.163
```

### 기존의 8개의 피처의 성능
```
 학습용 세트 결정계수 : 0.262
 테스트 세트 결정계수 : 0.257
 ```

### 8개의 피처에 다항회귀를 통한 피처 생성 후, 성능 확인해보기

In [40]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp', 
           'atemp', 'humidity', 'windspeed']
X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 
last_X_test = test[f_names]       # 테스트 데이터의 변수 선택 

y_tr_all = train['count']

In [49]:
X_train, X_test, y_train, y_test = train_test_split(ex_X_tr, 
                                                    y,
                                                    test_size=0.3,
                                                    random_state=77)

In [50]:
# degree = 2
ex_X_tr = PolynomialFeatures(degree=3, include_bias=False).fit_transform(X_tr_all)

X_tr_all.shape, ex_X_tr.shape

((10886, 8), (10886, 164))

In [51]:
model = LinearRegression()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.338
테스트 세트 정확도: 0.326


In [52]:
# degree=3일때가 degree=2일 때보다 성능이 좀 더 좋아졌다.

In [57]:
#model = DecisionTreeRegressor()
model = RandomForestRegressor()
model.fit(X_train, y_train)

print("학습용 세트 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.856
테스트 세트 정확도: 0.300


### 정규화

In [58]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import PolynomialFeatures

In [59]:
train.columns

Index(['datetime', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count'],
      dtype='object')

In [60]:
sel = ['season','weather','temp']

X_tr_all = train[sel]

In [61]:
X_tr_all.describe()

Unnamed: 0,season,weather,temp
count,10886.0,10886.0,10886.0
mean,2.506614,1.418427,20.23086
std,1.116174,0.633839,7.79159
min,1.0,1.0,0.82
25%,2.0,1.0,13.94
50%,3.0,1.0,20.5
75%,4.0,2.0,26.24
max,4.0,4.0,41.0


In [63]:
X_train, X_test, y_train, y_test = train_test_split(X_tr_all,
                                                    y_tr_all,
                                                   test_size=0.3,
                                                   random_state=77)

In [64]:
scaler = MinMaxScaler().fit(X_train)
nor_X_tr_all = scaler.transform(X_tr_all)
y_tr_all = train['count']

last_X_test = test[sel]

In [65]:
from sklearn.linear_model import LinearRegression

In [66]:
model = LinearRegression()
model.fit(X_train, y_train)

In [73]:
print("학습용 세트 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 결정계수: 0.175
테스트 세트 결정계수: 0.163


- 위의 경우 정규와 전 / 후로 개선된 것은 없다...