## 3.1 데이터 탐색하기

### 데이터 가져오기

In [1]:
# pandas 라이브러리 가져오기
import pandas as pd

# 주어진 데이터 파일을 모두 읽어서, 각 데이터 프레임 변수에 저장하기
x_train = pd.read_csv('bike_x_train.csv', encoding='cp949')
x_test = pd.read_csv('bike_x_test.csv', encoding='cp949')
y_train = pd.read_csv('bike_y_train.csv')

In [2]:
# 독립변수인 x_train, x_test의 상위 3개 행을 확인하기
print(x_train.head(3))
print(x_test.head(3))

# 종속변수인 y_train의 상위 5개 행을 확인하기
print(y_train.head(5))

          datetime  계절  공휴일  근무일  날씨    온도    체감온도  습도   풍속
0  2011-01-01 0:00   1    0    0   1  9.84  14.395  81  0.0
1  2011-01-01 1:00   1    0    0   1  9.02  13.635  80  0.0
2  2011-01-01 2:00   1    0    0   1  9.02  13.635  80  0.0
          datetime  계절  공휴일  근무일  날씨     온도    체감온도  습도       풍속
0  2011-01-20 0:00   1    0    1   1  10.66  11.365  56  26.0027
1  2011-01-20 1:00   1    0    1   1  10.66  13.635  56   0.0000
2  2011-01-20 2:00   1    0    1   1  10.66  13.635  56   0.0000
          datetime  count
0  2011-01-01 0:00     16
1  2011-01-01 1:00     40
2  2011-01-01 2:00     32
3  2011-01-01 3:00     13
4  2011-01-01 4:00      1


### 행/열 확인하기

In [3]:
# 각 데이터 세트의 행과 열 개수를 확인하기
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)

(10886, 9)
(6493, 9)
(10886, 2)


### 요약정보 확인하기

In [4]:
# x_train 세트의 요약정보 확인하기
x_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   datetime  10886 non-null  object 
 1   계절        10886 non-null  int64  
 2   공휴일       10886 non-null  int64  
 3   근무일       10886 non-null  int64  
 4   날씨        10886 non-null  int64  
 5   온도        10886 non-null  float64
 6   체감온도      10886 non-null  float64
 7   습도        10886 non-null  int64  
 8   풍속        10886 non-null  float64
dtypes: float64(3), int64(5), object(1)
memory usage: 765.5+ KB


In [5]:
# 범주형 변수들의 값을 확인하기
print(x_train['계절'].unique())
print(x_train['공휴일'].unique())
print(x_train['근무일'].unique())
print(x_train['날씨'].unique())

[1 2 3 4]
[0 1]
[0 1]
[1 2 3 4]


### 기초 통계량 확인하기

In [6]:
# x_train의 기초 통계량 확인하고, 가독성을 위해 행/열 바꿔서 출력하기
print(x_train.describe().T)

        count       mean        std   min      25%     50%      75%       max
계절    10886.0   2.506614   1.116174  1.00   2.0000   3.000   4.0000    4.0000
공휴일   10886.0   0.028569   0.166599  0.00   0.0000   0.000   0.0000    1.0000
근무일   10886.0   0.680875   0.466159  0.00   0.0000   1.000   1.0000    1.0000
날씨    10886.0   1.418427   0.633839  1.00   1.0000   1.000   2.0000    4.0000
온도    10886.0  20.230860   7.791590  0.82  13.9400  20.500  26.2400   41.0000
체감온도  10886.0  23.655084   8.474601  0.76  16.6650  24.240  31.0600   45.4550
습도    10886.0  61.886460  19.245033  0.00  47.0000  62.000  77.0000  100.0000
풍속    10886.0  12.799395   8.164537  0.00   7.0015  12.998  16.9979   56.9969


### 독립변수와 종속변수의 관계 확인하기

In [7]:
# x_train, y_train을 세로 방향으로 통합한 후, data 변수에 저장하기
data = pd.concat([x_train, y_train], axis=1)

In [9]:
# '계절' 칼럼에 따른 count(자전거 대여량) 합계를 구하기
# 1(봄) 2(여름) 3(가을) 4(겨울)
print(data.groupby('계절')['count'].sum())

계절
1    312498
2    588282
3    640662
4    544034
Name: count, dtype: int64


In [12]:
# '공휴일' 칼럼에 따른 count(자전거 대여량) 합계를 구하기
# 0(공휴일 아님) 1(공휴일)
print(data.groupby(['공휴일'])['count'].sum())
print(data.groupby(['공휴일'])['count'].mean())

공휴일
0    2027668
1      57808
Name: count, dtype: int64
공휴일
0    191.741655
1    185.877814
Name: count, dtype: float64


In [13]:
# '근무일' 칼럼에 따른 count(자전거 대여량) 합계를 구하기
# 0(근무일 아님) 1(근무일)
print(data.groupby(['근무일'])['count'].sum())
print(data.groupby(['근무일'])['count'].mean())

근무일
0     654872
1    1430604
Name: count, dtype: int64
근무일
0    188.506621
1    193.011873
Name: count, dtype: float64


In [14]:
# '날씨' 칼럼에 따른 count(자전거 대여량) 합계를 구하기
# 1(아주 깨끗한 날씨) 2(안개와 구름이 있는 날씨) 3(조금의 눈과 비 또는 조금의 천둥이 치는 날씨) 4(아주 많은 비 또는 우박이 내리는 날씨)
print(data.groupby(['날씨'])['count'].sum())
print(data.groupby(['날씨'])['count'].mean())

날씨
1    1476063
2     507160
3     102089
4        164
Name: count, dtype: int64
날씨
1    205.236791
2    178.955540
3    118.846333
4    164.000000
Name: count, dtype: float64


## 3.2 전처리하기

### 파생변수 만들기

In [21]:
# datatime 칼럼의 데이터 타입을 날짜 타입(datetime)으로 변환하기
x_train['datetime'] = pd.to_datetime(x_train['datetime'])

In [23]:
# x_train의 'datetime' 칼럼에서 연도 데이터를 추출하여 'year' 칼럼에 저장하기
x_train['year'] = x_train['datetime'].dt.year

# x_train의 'year' 칼럼에서 중복 제거한 값을 확인하기
print(x_train['year'].unique())

[2011 2012]


In [24]:
# x_train의 'datetime' 칼럼에서 월 데이터를 추출하여 'month' 칼럼에 저장하기
x_train['month'] = x_train['datetime'].dt.month

# x_train의 'month' 칼럼에서 중복 제거한 값을 확인하기
print(x_train['month'].unique())

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [26]:
# x_train의 'datetime' 칼럼에서 일자 데이터를 추출하여 'day' 칼럼에 저장하기
x_train['day'] = x_train['datetime'].dt.day

# x_train의 'day' 칼럼에서 중복 제거한 값을 확인하기
print(x_train['day'].unique())

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [27]:
# x_train의 'datetime' 칼럼에서 시간 데이터를 추출하여 'hour' 칼럼에 저장하기
x_train['hour'] = x_train['datetime'].dt.hour

# x_train의 'hour' 칼럼에서 중복 제거한 값을 확인하기
print(x_train['hour'].unique())

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]


In [28]:
# x_train의 'datetime' 칼럼에서 연도 데이터를 추출하여 'dayofweek' 칼럼에 저장하기
x_train['dayofweek'] = x_train['datetime'].dt.dayofweek

# x_train의 'dayofweek' 칼럼에서 중복 제거한 값을 확인하기
print(x_train['dayofweek'].unique())

[5 6 0 1 2 3 4]


In [29]:
# 파생변수가 포함된 독립변수와 종속변수를 통합한 data2 만들기
data2 = pd.concat([x_train, y_train], axis=1)

In [32]:
# 'year' 칼럼에 따른 'count' 합계를 구하기
print(data2.groupby(['year'])['count'].sum())
print(data2.groupby(['year'])['count'].mean())

year
2011     781979
2012    1303497
Name: count, dtype: int64
year
2011    144.223349
2012    238.560944
Name: count, dtype: float64


In [34]:
# 'month' 칼럼에 따른 'count' 합계를 구하기
print(data2.groupby(['month'])['count'].sum())
print(data2.groupby(['month'])['count'].mean())

# x_train에서 'month' 칼럼을 삭제하기
x_train = x_train.drop(columns=['month'])

month
1      79884
2      99113
3     133501
4     167402
5     200147
6     220733
7     214617
8     213516
9     212529
10    207434
11    176440
12    160160
Name: count, dtype: int64
month
1      90.366516
2     110.003330
3     148.169811
4     184.160616
5     219.459430
6     242.031798
7     235.325658
8     234.118421
9     233.805281
10    227.699232
11    193.677278
12    175.614035
Name: count, dtype: float64


In [35]:
# 'day' 칼럼에 따른 'count' 합계를 구하기
print(data2.groupby(['day'])['count'].sum())
print(data2.groupby(['day'])['count'].mean())

# x_train에서 'day' 칼럼을 삭제하기
x_train = x_train.drop(columns=['day'])

day
1     103692
2     105381
3     111561
4     112335
5     109115
6     108600
7     105486
8     102770
9     108041
10    111645
11    111146
12    109257
13    111448
14    112406
15    115677
16    109837
17    118255
18    108437
19    110387
Name: count, dtype: int64
day
1     180.333913
2     183.910995
3     194.696335
4     195.705575
5     189.765217
6     189.860140
7     183.773519
8     179.041812
9     187.897391
10    195.183566
11    195.679577
12    190.675393
13    194.160279
14    195.829268
15    201.527875
16    191.353659
17    205.660870
18    192.605684
19    192.311847
Name: count, dtype: float64


In [36]:
# 'hour' 칼럼에 따른 'count' 합계를 구하기
print(data2.groupby(['hour'])['count'].sum())
print(data2.groupby(['hour'])['count'].mean())

hour
0      25088
1      15372
2      10259
3       5091
4       2832
5       8935
6      34698
7      96968
8     165060
9     100910
10     79667
11     95857
12    116968
13    117551
14    111010
15    115960
16    144266
17    213757
18    196472
19    143767
20    104204
21     79057
22     60911
23     40816
Name: count, dtype: int64
hour
0      55.138462
1      33.859031
2      22.899554
3      11.757506
4       6.407240
5      19.767699
6      76.259341
7     213.116484
8     362.769231
9     221.780220
10    175.092308
11    210.674725
12    256.508772
13    257.787281
14    243.442982
15    254.298246
16    316.372807
17    468.765351
18    430.859649
19    315.278509
20    228.517544
21    173.370614
22    133.576754
23     89.508772
Name: count, dtype: float64


In [37]:
# 'dayofweek' 칼럼에 따른 'count' 합계를 구하기
print(data2.groupby(['dayofweek'])['count'].sum())
print(data2.groupby(['dayofweek'])['count'].mean())

# x_train에서 'dayofweek' 칼럼을 삭제하기
x_train = x_train.drop(columns=['dayofweek'])

dayofweek
0    295296
1    291985
2    292226
3    306401
4    302504
5    311518
6    285546
Name: count, dtype: int64
dayofweek
0    190.390716
1    189.723847
2    188.411348
3    197.296201
4    197.844343
5    196.665404
6    180.839772
Name: count, dtype: float64


In [38]:
x_test['datetime'] = pd.to_datetime(x_train['datetime'])
x_test['year'] = x_test['datetime'].dt.year
x_test['hour'] = x_test['datetime'].dt.hour

### 불필요한 칼럼 삭제하기

In [39]:
# x_test의 datetime 칼럼은 x_test_datetime 변수에 저장하기
x_test_datetime = x_test['datetime']

# x_train, x_test, y_train에서 datetime 칼럼을 삭제하기
x_train = x_train.drop(columns=['datetime'])
x_test = x_test.drop(columns=['datetime'])
y_train = y_train.drop(columns=['datetime'])

## 3.3 학습하고 평가하기

### 데이터 분리하기

In [43]:
# 데이터 분리하기 위한 train_test_split 함수를 가져오기
from sklearn.model_selection import train_test_split

# 학습용과 검증용을 8:2로 분리하여, 각 4개의 변수에 저장하기
X_TRAIN, X_TEST, Y_TRAIN, Y_TEST = train_test_split(x_train, y_train, test_size=0.2, random_state=10)

# 분리된 데이터의 행/열 구조를 확인하기
print(X_TRAIN.shape)
print(X_TEST.shape)
print(Y_TRAIN.shape)
print(Y_TEST.shape)

(8708, 10)
(2178, 10)
(8708, 1)
(2178, 1)


### 데이터 학습 및 하이퍼 파라미터 튜닝하기

In [45]:
# xgboost 라이브러리에서 XGBRegressor 함수 가져오기
from xgboost import XGBRegressor

  from pandas import MultiIndex, Int64Index


In [61]:
# XGB 회귀 분석으로 수행할 첫 번째 모델을 만들고, 공부시키기
model = XGBRegressor(n_estimators=100, max_depth=3, random_state=10)
model.fit(X_TRAIN,Y_TRAIN)

  elif isinstance(data.columns, (pd.Int64Index, pd.RangeIndex)):


XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
             gamma=0, gpu_id=-1, importance_type=None,
             interaction_constraints='', learning_rate=0.300000012,
             max_delta_step=0, max_depth=3, min_child_weight=1, missing=nan,
             monotone_constraints='()', n_estimators=100, n_jobs=8,
             num_parallel_tree=1, predictor='auto', random_state=10,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
             tree_method='exact', validate_parameters=1, verbosity=None)

In [59]:
# XGB 회귀 분석으로 수행할 두 번째 모델을 만들고, 공부시키기
model = XGBRegressor(n_estimators=200, max_depth=5, random_state=10)
model.fit(X_TRAIN,Y_TRAIN)

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
             gamma=0, gpu_id=-1, importance_type=None,
             interaction_constraints='', learning_rate=0.300000012,
             max_delta_step=0, max_depth=5, min_child_weight=1, missing=nan,
             monotone_constraints='()', n_estimators=200, n_jobs=8,
             num_parallel_tree=1, predictor='auto', random_state=10,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
             tree_method='exact', validate_parameters=1, verbosity=None)

### 결과 예측하기

In [50]:
# 학습이 완료된 모델을 통해 y_test 값을 예측하기 : 최종 결과 제출용
y_test_predicted = pd.DataFrame(model.predict(x_test)).rename(columns={0:'count'})

In [52]:
# y_test_predicted의 'count' 칼럼 값이 음수인 데이터를 추출하여, 0으로 바꾸기
y_test_predicted[y_test_predicted['count']<0] = 0

# y_test_predicted에서 상위 10개의 행 확인하기
y_test_predicted

Unnamed: 0,count
0,21.486200
1,0.061608
2,0.000000
3,2.039008
4,2.553952
...,...
6488,104.544044
6489,115.115997
6490,176.403763
6491,350.941467


In [62]:
# 학습이 완료된 모델을 통해 Y_TEST 값을 예측하기 : 평가지표 계산용
Y_TEST_PREDICTED = pd.DataFrame(model.predict(X_TEST)).rename(columns={0:'count'})

# Y_TEST_PREDICTED의 'count' 칼럼 값이 음수인 데이터를 추출하여, 0으로 바꾸기
Y_TEST_PREDICTED[Y_TEST_PREDICTED['count']<0] = 0

### 모델 평가하기

In [54]:
# sklearn 패키지의 metrics 모듈에서 r2_score 함수 가져오기
from sklearn.metrics import r2_score

In [63]:
# 1차 학습 모델의 R^2 평가지표 값을 확인하기
print(r2_score(Y_TEST, Y_TEST_PREDICTED))

0.9044130641900863


In [60]:
# 2차 학습 모델의 R^2 평가지표 값을 확인하기
print(r2_score(Y_TEST, Y_TEST_PREDICTED))

0.9381182890431057


## 3.4 결과 제출하기

In [65]:
# x_test_datetime 변수와 y_test_predicted 변수를 세로 방향으로 붙이기
print(pd.concat([x_test_datetime, y_test_predicted], axis=1))

                datetime       count
0    2011-01-01 00:00:00   21.486200
1    2011-01-01 01:00:00    0.061608
2    2011-01-01 02:00:00    0.000000
3    2011-01-01 03:00:00    2.039008
4    2011-01-01 04:00:00    2.553952
...                  ...         ...
6488 2012-03-07 14:00:00  104.544044
6489 2012-03-07 15:00:00  115.115997
6490 2012-03-07 16:00:00  176.403763
6491 2012-03-07 17:00:00  350.941467
6492 2012-03-07 18:00:00  339.020630

[6493 rows x 2 columns]


In [68]:
# 앞의 출력 결과를 final 변수에 저장하기
final = pd.concat([x_test_datetime, y_test_predicted], axis=1)

# final 변수를 bike.csv 이름으로 저장하기
final.to_csv('bike.csv', index=False)

In [69]:
result = pd.read_csv('bike.csv')
result

Unnamed: 0,datetime,count
0,2011-01-01 00:00:00,21.486200
1,2011-01-01 01:00:00,0.061608
2,2011-01-01 02:00:00,0.000000
3,2011-01-01 03:00:00,2.039008
4,2011-01-01 04:00:00,2.553952
...,...,...
6488,2012-03-07 14:00:00,104.544044
6489,2012-03-07 15:00:00,115.116000
6490,2012-03-07 16:00:00,176.403760
6491,2012-03-07 17:00:00,350.941470


## 최종 제출 코드

In [72]:
# 데이터 가져오기
import pandas as pd
x_train = pd.read_csv('bike_x_train.csv', encoding='cp949')
x_test = pd.read_csv('bike_x_test.csv', encoding='cp949')
y_train = pd.read_csv('bike_y_train.csv')

# 전처리하기
x_train['datetime'] = pd.to_datetime(x_train['datetime'])
x_train['year'] = x_train['datetime'].dt.year
x_train['hour'] = x_train['datetime'].dt.hour
x_test['datetime'] = pd.to_datetime(x_test['datetime'])
x_test['year'] = x_test['datetime'].dt.year
x_test['hour'] = x_test['datetime'].dt.hour
x_test_datetime = x_test['datetime']
x_train = x_train.drop(columns=['datetime'])
x_test = x_test.drop(columns=['datetime'])
y_train = y_train.drop(columns=['datetime'])

# 데이터 분리하기
from sklearn.model_selection import train_test_split
X_TRAIN, X_TEST, Y_TRAIN, Y_TEST = train_test_split(x_train, y_train, test_size=0.2, random_state=10)

# 모델을 학습하고 테스트 데이터의 종속변수 값을 예측하기
from xgboost import XGBRegressor
model = XGBRegressor(n_estimators=200, max_depth=5, random_state=10)
model.fit(X_TRAIN,Y_TRAIN)
y_test_predicted = pd.DataFrame(model.predict(x_test)).rename(columns={0:'count'})
y_test_predicted[y_test_predicted['count']<0] = 0
Y_TEST_PREDICTED = pd.DataFrame(model.predict(X_TEST)).rename(columns={0:'count'})
Y_TEST_PREDICTED[Y_TEST_PREDICTED['count']<0] = 0

# 모델 평가하기
from sklearn.metrics import r2_score
# print(r2_score(Y_TEST, Y_TEST_PREDICTED))

# 결과 제출하기
final = pd.concat([x_test_datetime, y_test_predicted], axis=1)
final.to_csv('bike.csv', index=False)

  elif isinstance(data.columns, (pd.Int64Index, pd.RangeIndex)):


In [73]:
result = pd.read_csv('bike.csv')
result

Unnamed: 0,datetime,count
0,2011-01-20 00:00:00,21.486200
1,2011-01-20 01:00:00,0.061608
2,2011-01-20 02:00:00,0.000000
3,2011-01-20 03:00:00,2.039008
4,2011-01-20 04:00:00,2.553952
...,...,...
6488,2012-12-31 19:00:00,204.254380
6489,2012-12-31 20:00:00,142.610080
6490,2012-12-31 21:00:00,132.809980
6491,2012-12-31 22:00:00,92.404940
