In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split

In [2]:
train = pd.read_csv("train.csv", parse_dates=['datetime'])
test = pd.read_csv("test.csv", parse_dates=['datetime'])
sub = pd.read_csv("sampleSubmission.csv")

train.shape, test.shape, sub.shape

((10886, 12), (6493, 9), (6493, 2))

In [3]:
f_names = ['temp', 'atemp']
X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 
y_tr_all = train['count']         # 학습용 데이터의 레이블 변수 선택

last_X_test = test[f_names]       # 최종 예측. 테스트 데이터의 변수 선택 

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [5]:
model = LinearRegression()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 결정계수 : {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 결정계수 : {:.3f}".format(model.score(X_test, y_test)))

model.predict(X_test)         # 예측(새로운 데이터로)

학습용 세트 결정계수 : 0.159
테스트 세트 결정계수 : 0.146


array([235.46986679, 151.05560946, 218.26182702, ..., 133.09294136,
       151.05560946,  82.34013525])

In [6]:
print( model.coef_ )         # 모델(선형회귀의 계수)
print( model.intercept_)     # 모델(선형 회귀의 교차점)

[8.18286924 0.99950771]
3.8812023741951975


In [7]:
sub = pd.read_csv("sampleSubmission.csv")
pred = model.predict(last_X_test)   # 예측
sub['count'] = pred
sub

Unnamed: 0,datetime,count
0,2011-01-20 00:00:00,102.469994
1,2011-01-20 01:00:00,104.738876
2,2011-01-20 02:00:00,104.738876
3,2011-01-20 03:00:00,103.984248
4,2011-01-20 04:00:00,103.984248
...,...,...
6488,2012-12-31 19:00:00,103.984248
6489,2012-12-31 20:00:00,103.984248
6490,2012-12-31 21:00:00,103.984248
6491,2012-12-31 22:00:00,104.738876


In [8]:
# 처음 만는 제출용 csv 파일, 행번호를 없애기
sub.to_csv("firstsubmission.csv", index=False)

In [9]:
train.columns

Index(['datetime', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count'],
      dtype='object')

In [29]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp', 
           'atemp', 'humidity', 'windspeed']
X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 
last_X_test = test[f_names]       # 테스트 데이터의 변수 선택 

y_tr_all = train['count']

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [12]:
model = LinearRegression()
model.fit(X_train, y_train)
# 정확도 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.262
테스트 세트 정확도: 0.257


In [13]:
from sklearn.metrics import mean_squared_error as mse

### 여러개의 피처만들기

In [14]:
from sklearn.preprocessing import PolynomialFeatures

In [15]:
f_names = ['season','weather','temp']

X_tr = train[f_names]
y = train['count']

last_X_test = test[f_names]

In [16]:
ex_X_tr = PolynomialFeatures(degree = 8, include_bias=False).fit_transform(X_tr)
X_tr.shape, ex_X_tr.shape

((10886, 3), (10886, 164))

In [17]:
ex_X_test = PolynomialFeatures(degree=3, 
                               include_bias=False).fit_transform(last_X_test)

last_X_test.shape, ex_X_test.shape

((6493, 3), (6493, 19))

In [34]:
X_train, X_test, y_train, y_test = train_test_split(ex_X_tr,
                                                   y, test_size=0.3,
                                                   random_state=77)

In [35]:
model = LinearRegression()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.241
테스트 세트 정확도: 0.227


In [36]:
model = RandomForestRegressor()
model.fit(X_train, y_train)

# score()함수를 이용 - 결정계수 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.269
테스트 세트 정확도: 0.211


In [40]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import PolynomialFeatures

In [38]:
f_names = ['season', 'weather', 'temp']

X_tr_all = train[f_names]         # 학습용 데이터의 변수 선택 

In [39]:
X_tr_all.describe()

Unnamed: 0,season,weather,temp
count,10886.0,10886.0,10886.0
mean,2.506614,1.418427,20.23086
std,1.116174,0.633839,7.79159
min,1.0,1.0,0.82
25%,2.0,1.0,13.94
50%,3.0,1.0,20.5
75%,4.0,2.0,26.24
max,4.0,4.0,41.0


In [41]:
scaler = MinMaxScaler().fit(X_tr_all)
nor_X_tr_all = scaler.transform(X_tr_all)
y_tr_all = train['count']

last_X_test = test[f_names]       # 테스트 데이터의 변수 선택

In [46]:
X_train, X_test, y_train, y_test = train_test_split(nor_X_tr_all, 
                                                    y_tr_all,
                                                    test_size=0.3,
                                                    random_state=77)

In [47]:
model = LinearRegression()
model.fit(X_train, y_train)
# 정확도 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.175
테스트 세트 정확도: 0.163


In [48]:
from sklearn.linear_model import Ridge, Lasso

In [49]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed']

X_tr = train[f_names]         # 학습용 데이터의 변수 선택 
y = train['count']

last_X_test = test[f_names]       # 테스트 데이터의 변수 선택

In [50]:
ex_X_tr = PolynomialFeatures(degree=3, include_bias=False).fit_transform(X_tr)
ex_X_test = PolynomialFeatures(degree=3, 
                               include_bias=False).fit_transform(last_X_test)

X_tr.shape, ex_X_tr.shape, last_X_test.shape, ex_X_test.shape

((10886, 8), (10886, 164), (6493, 8), (6493, 164))

In [51]:
X_train, X_test, y_train, y_test = train_test_split(ex_X_tr, 
                                                    y,
                                                    test_size=0.3,
                                                    random_state=77)

model = LinearRegression()
model.fit(X_train, y_train)
# 정확도 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.338
테스트 세트 정확도: 0.326


In [52]:
model = Ridge(alpha=10)
model.fit(X_train, y_train)
# 정확도 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.338
테스트 세트 정확도: 0.328


In [53]:
model = Lasso(alpha=0.001)
model.fit(X_train, y_train)
# 정확도 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.331
테스트 세트 정확도: 0.330


  model = cd_fast.enet_coordinate_descent(


In [54]:
# Linear Regression(선형 회귀), Ridge(리지), Lasso(라소)
model_list = [LinearRegression(), Ridge(alpha=10), Lasso(alpha=0.001)]

In [55]:
for model in model_list:
    model.fit(X_train, y_train)
    
    print("모델 : ", model)
    # 정확도 확인
    print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
    print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

모델 :  LinearRegression()
학습용 세트 정확도: 0.338
테스트 세트 정확도: 0.326
모델 :  Ridge(alpha=10)
학습용 세트 정확도: 0.338
테스트 세트 정확도: 0.328
모델 :  Lasso(alpha=0.001)
학습용 세트 정확도: 0.331
테스트 세트 정확도: 0.330


  model = cd_fast.enet_coordinate_descent(


In [56]:
model = Lasso(alpha=0.001)
model.fit(X_train, y_train)

  model = cd_fast.enet_coordinate_descent(


In [57]:
pred = model.predict(ex_X_test)   # 예측
sub['count'] = pred
sub.loc[sub['count'] < 0, 'count'] = 0
sub.head(3)

Unnamed: 0,datetime,count
0,2011-01-20 00:00:00,101.493998
1,2011-01-20 01:00:00,74.364084
2,2011-01-20 02:00:00,74.364084


In [58]:
# 처음 만는 제출용 csv 파일, 행번호를 없애기
sub.to_csv("second_sub.csv", index=False)

## 추가로 만들어 보기

In [59]:
f_names = ['season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed']

X_tr = train[f_names]         # 학습용 데이터의 변수 선택 
y = train['count']

last_X_test = test[f_names]       # 테스트 데이터의 변수 선택

In [60]:
ex_X_tr = PolynomialFeatures(degree=3, include_bias=False).fit_transform(X_tr)
ex_X_test = PolynomialFeatures(degree=3, 
                               include_bias=False).fit_transform(last_X_test)

X_tr.shape, ex_X_tr.shape, last_X_test.shape, ex_X_test.shape

((10886, 8), (10886, 164), (6493, 8), (6493, 164))

In [61]:
X_train, X_test, y_train, y_test = train_test_split(ex_X_tr, 
                                                    y,
                                                    test_size=0.3,
                                                    random_state=77)

model = LinearRegression()
model.fit(X_train, y_train)
# 정확도 확인
print("학습용 세트 정확도: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(model.score(X_test, y_test)))

학습용 세트 정확도: 0.338
테스트 세트 정확도: 0.326


In [62]:
pred = model.predict(ex_X_test)   # 예측
sub['count'] = pred
sub.loc[sub['count'] < 0, 'count'] = 0
sub.head(3)

Unnamed: 0,datetime,count
0,2011-01-20 00:00:00,100.351089
1,2011-01-20 01:00:00,96.500879
2,2011-01-20 02:00:00,96.500879


In [64]:
# 처음 만는 제출용 csv 파일, 행번호를 없애기
sub.to_csv("last_sub.csv", index=False)