In [28]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

train = pd.read_csv("./bike_data/train.csv", parse_dates=['datetime'])
test = pd.read_csv("./bike_data/test.csv", parse_dates=['datetime'])
sub = pd.read_csv("./bike_data/sampleSubmission.csv")

train.shape, test.shape, sub.shape

((10886, 12), (6493, 9), (6493, 2))

In [29]:
f_names = ['temp', 'atemp']
X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 
y_tr_all = train['count']         # 학습용 데이터의 레이블 변수 선택

last_X_test = test[f_names]       # 최종 예측. 테스트 데이터의 변수 선택 

In [30]:
from sklearn.model_selection import train_test_split

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [32]:
from sklearn.linear_model import LinearRegression

In [33]:
model = LinearRegression()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 결정계수 : {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수 : {:.3f}".format(model.score(X_test, y_test)))

model.predict(X_test)         # 예측(새로운 데이터로)


학습용 세트 결정계수 : 0.159
테스트 세트 결정계수 : 0.146


array([235.46986679, 151.05560946, 218.26182702, ..., 133.09294136,
       151.05560946,  82.34013525])

In [34]:
print( model.coef_ )         # 모델(선형회귀의 계수)
print( model.intercept_)     # 모델(선형 회귀의 교차점)

[8.18286924 0.99950771]
3.8812023741951123


In [35]:
pred = model.predict(last_X_test)   # 예측
sub['count'] = pred
sub

Unnamed: 0,datetime,count
0,2011-01-20 00:00:00,102.469994
1,2011-01-20 01:00:00,104.738876
2,2011-01-20 02:00:00,104.738876
3,2011-01-20 03:00:00,103.984248
4,2011-01-20 04:00:00,103.984248
...,...,...
6488,2012-12-31 19:00:00,103.984248
6489,2012-12-31 20:00:00,103.984248
6490,2012-12-31 21:00:00,103.984248
6491,2012-12-31 22:00:00,104.738876


In [36]:
# 처음 만는 제출용 csv 파일, 행번호를 없애기
sub.to_csv("firstsubmission.csv", index=False)

In [37]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp', 
           'atemp', 'humidity', 'windspeed']
X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 
last_X_test = test[f_names]       # 테스트 데이터의 변수 선택 

y_tr_all = train['count']

In [38]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [39]:
model = LinearRegression()
model.fit(X_train, y_train)

# 결정계수 확인
print("학습용 세트 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 결정계수: 0.262
테스트 세트 결정계수: 0.257


In [40]:
from sklearn.preprocessing import PolynomialFeatures

ex_X_tr = PolynomialFeatures(degree=2, include_bias=False).fit_transform(X_tr_all)

X_tr_all.shape, ex_X_tr.shape

((10886, 8), (10886, 44))

In [41]:
## X_train, X_test, y_train, y_test = train_test_split(ex_X_tr, 


In [42]:
model = LinearRegression()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.262
테스트 세트 정확도: 0.257


## 정규화

In [43]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import PolynomialFeatures

In [44]:
train.columns

Index(['datetime', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count'],
      dtype='object')

In [45]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed']

X_tr = train[f_names]         # 학습용 데이터의 변수 선택 
y = train['count']

last_X_test = test[f_names]       # 테스트 데이터의 변수 선택

In [46]:
scaler = MinMaxScaler().fit(X_tr_all)
nor_X_tr_all = scaler.transform(X_tr_all)
y_tr_all = train['count']

last_X_test = test[f_names]       # 테스트 데이터의 변수 선택

In [47]:
X_train, X_test, y_train, y_test = train_test_split(nor_X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [48]:
model = LinearRegression()
model.fit(X_train, y_train)
# 결정계수 확인
print("학습용 세트 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 결정계수: 0.262
테스트 세트 결정계수: 0.257
