# **Part 05) 파이썬으로 초보 분석가 탈출하기**

## **3_예측 모델 수행하기**

### **3.1 데이터 탐색하기**

#### **데이터 가져오기**

In [1]:
# pandas 라이브러리 가져오기
import pandas as pd

# 주어진 데이터 파일을 모두 읽어서, 각 DataFrame 변수에 저장하기
x_train = pd.read_csv('data/bike_x_train.csv', encoding='cp949')
x_test = pd.read_csv('data/bike_x_test.csv', encoding='cp949')
y_train = pd.read_csv('data/bike_y_train.csv', encoding='cp949')
y_train = y_train.rename(columns={'癤풼atetime': 'datetime'})

In [2]:
# 독립변수인 x_train, x_test의 상위 3개의 행 확인하기
print(x_train.head(3))
print(x_test.head(3))

# 종속변수인 y_train의 상위 5개의 행 확인하기
print(y_train.head())

          datetime  계절  공휴일  근무일  날씨    온도    체감온도  습도   풍속
0  2011-01-01 0:00   1    0    0   1  9.84  14.395  81  0.0
1  2011-01-01 1:00   1    0    0   1  9.02  13.635  80  0.0
2  2011-01-01 2:00   1    0    0   1  9.02  13.635  80  0.0
          datetime  계절  공휴일  근무일  날씨     온도    체감온도  습도       풍속
0  2011-01-20 0:00   1    0    1   1  10.66  11.365  56  26.0027
1  2011-01-20 1:00   1    0    1   1  10.66  13.635  56   0.0000
2  2011-01-20 2:00   1    0    1   1  10.66  13.635  56   0.0000
          datetime  count
0  2011-01-01 0:00     16
1  2011-01-01 1:00     40
2  2011-01-01 2:00     32
3  2011-01-01 3:00     13
4  2011-01-01 4:00      1


#### **행/열 확인하기**

In [3]:
# 각 데이터 세트의 행과 열의 개수를 확인하기
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)

(10886, 9)
(6493, 9)
(10886, 2)


#### **요약 정보 확인하기**

In [4]:
# x_train 세트의 요약 정보 확인하기
print(x_train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   datetime  10886 non-null  object 
 1   계절        10886 non-null  int64  
 2   공휴일       10886 non-null  int64  
 3   근무일       10886 non-null  int64  
 4   날씨        10886 non-null  int64  
 5   온도        10886 non-null  float64
 6   체감온도      10886 non-null  float64
 7   습도        10886 non-null  int64  
 8   풍속        10886 non-null  float64
dtypes: float64(3), int64(5), object(1)
memory usage: 765.5+ KB
None


#### **기초통계량 확인하기**

In [5]:
print(x_train.describe().T)

        count       mean        std   min      25%     50%      75%       max
계절    10886.0   2.506614   1.116174  1.00   2.0000   3.000   4.0000    4.0000
공휴일   10886.0   0.028569   0.166599  0.00   0.0000   0.000   0.0000    1.0000
근무일   10886.0   0.680875   0.466159  0.00   0.0000   1.000   1.0000    1.0000
날씨    10886.0   1.418427   0.633839  1.00   1.0000   1.000   2.0000    4.0000
온도    10886.0  20.230860   7.791590  0.82  13.9400  20.500  26.2400   41.0000
체감온도  10886.0  23.655084   8.474601  0.76  16.6650  24.240  31.0600   45.4550
습도    10886.0  61.886460  19.245033  0.00  47.0000  62.000  77.0000  100.0000
풍속    10886.0  12.799395   8.164537  0.00   7.0015  12.998  16.9979   56.9969


#### **독립변수와 종속변수의 관계 확인하기**

In [6]:
# x_train, y_train을 세로 방향으로 통합한 후, data 변수에 저장하기
data = pd.concat([x_train, y_train], axis=1)

In [7]:
# '계절' 컬럼에 따른 'count'(자전거 대여량) 합계를 구하기
# 1(봄), 2(여름), 3(가을), 4(겨울)
print(data.groupby(['계절'])['count'].sum())

계절
1    312498
2    588282
3    640662
4    544034
Name: count, dtype: int64


가을의 자전거 대여량이 봄의 자전거 대여량에 비해 2배임을 확인

In [8]:
# '공휴일' 컬럼에 따른 'count'(자전거 대여량) 합계를 구하기
# 0(공휴일 아님), 1(공휴일)
print(data.groupby(['공휴일'])['count'].sum())

공휴일
0    2027668
1      57808
Name: count, dtype: int64


공휴일이 아닌 날의 자전거 대여량은 공휴일의 자전거 대여량에 비해 약 40배

In [9]:
# '근무일' 컬럼에 따른 'count'(자전거 대여량) 합계를 구하기
# 0(근무일 아님), 1(근무일)
print(data.groupby(['근무일'])['count'].sum())

근무일
0     654872
1    1430604
Name: count, dtype: int64


근무일의 자전거 대여량은 근무일이 아닌 날의 자전거 대여량에 비해 약 2배를 넘어섬

In [10]:
# '날씨' 컬럼에 따른 'count'(자전거 대여량) 합계를 구하기
# 1(아주 깨끗한 날씨)
# 2(안개와 구름이 있는 날씨)
# 3(조금의 눈과 비 또는 조금의 천둥이 치는 날씨)
# 4(아주 많은 비 또는 우박이 내리는 날씨)
print(data.groupby(['날씨'])['count'].sum())

날씨
1    1476063
2     507160
3     102089
4        164
Name: count, dtype: int64


날씨가 좋을수록 자전거 대여량이 많아짐

### **3.2 전처리하기**

#### **파생변수 만들기**

`pandas`라이브러리의 ***`to_datetime()`***

In [11]:
# 'datetime' 컬럼의 데이터 타입을 날짜 타입(datetime)으로 변환하기
x_train['datetime'] = pd.to_datetime(x_train['datetime'])

- **`dt.year`**

In [12]:
# x_train의 'datetime' 컬럼에서 연도 데이터를 추출하여 'year' 컬럼에 저장하기
x_train['year'] = x_train['datetime'].dt.year

# x_train의 'year' 컬럼에서 중복 제거한 값을 확인하기
x_train['year'].unique()

array([2011, 2012], dtype=int64)

- **`dt.month`**

In [13]:
# x_train의 'datetime' 컬럼에서 연도 데이터를 추출하여 'year' 컬럼에 저장하기
x_train['month'] = x_train['datetime'].dt.month

# x_train의 'month' 컬럼에서 중복 제거한 값을 확인하기
x_train['month'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12], dtype=int64)

- **`dt.day`**

In [14]:
# x_train의 'datetime' 컬럼에서 연도 데이터를 추출하여 'year' 컬럼에 저장하기
x_train['day'] = x_train['datetime'].dt.day

# x_train의 'day' 컬럼에서 중복 제거한 값을 확인하기
x_train['day'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19], dtype=int64)

- **`dt.hour`**

In [15]:
# x_train의 'datetime' 컬럼에서 연도 데이터를 추출하여 'year' 컬럼에 저장하기
x_train['hour'] = x_train['datetime'].dt.hour

# x_train의 'hour' 컬럼에서 중복 제거한 값을 확인하기
x_train['hour'].unique()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23], dtype=int64)

- **`dt.dayofweek`**

In [16]:
# x_train의 'datetime' 컬럼에서 연도 데이터를 추출하여 'year' 컬럼에 저장하기
x_train['dayofweek'] = x_train['datetime'].dt.dayofweek

# x_train의 'dayofweek' 컬럼에서 중복 제거한 값을 확인하기
x_train['dayofweek'].unique()

array([5, 6, 0, 1, 2, 3, 4], dtype=int64)

In [17]:
# 파생변수가 포함된 독립변수와 종속변수를 통합한 data2 만들기
data2 = pd.concat([x_train, y_train], axis=1)

In [18]:
# 'year' 컬럼에 따른 'count' 합계를 구하기
print(data2.groupby(['year'])['count'].sum())

year
2011     781979
2012    1303497
Name: count, dtype: int64


In [19]:
# 'month' 컬럼에 따른 'count' 합계를 구하기
print(data2.groupby(['month'])['count'].sum())

month
1      79884
2      99113
3     133501
4     167402
5     200147
6     220733
7     214617
8     213516
9     212529
10    207434
11    176440
12    160160
Name: count, dtype: int64


특정한 월의 대여량이 월등히 높지 않고 비슷한 값을 가지고 있으므로, 분석 대상에서 제외

In [20]:
# x_train에서 'month' 컬럼을 삭제하기
x_train = x_train.drop(columns=['month'])

In [21]:
# 'day' 컬럼에 따른 'count' 합계를 구하기
print(data2.groupby(['day'])['count'].sum())

day
1     103692
2     105381
3     111561
4     112335
5     109115
6     108600
7     105486
8     102770
9     108041
10    111645
11    111146
12    109257
13    111448
14    112406
15    115677
16    109837
17    118255
18    108437
19    110387
Name: count, dtype: int64


모두 비슷한 값을 유지하고 있으므로, 분석 대상에서 제외

In [22]:
# x_train에서 'day' 컬럼을 삭제하기
x_train = x_train.drop(columns=['day'])

In [23]:
# 'hour' 컬럼에 따른 'count' 합계를 구하기
print(data2.groupby(['hour'])['count'].sum())

hour
0      25088
1      15372
2      10259
3       5091
4       2832
5       8935
6      34698
7      96968
8     165060
9     100910
10     79667
11     95857
12    116968
13    117551
14    111010
15    115960
16    144266
17    213757
18    196472
19    143767
20    104204
21     79057
22     60911
23     40816
Name: count, dtype: int64


In [24]:
# 'dayofweek' 컬럼에 따른 'count' 합계를 구하기
print(data2.groupby(['dayofweek'])['count'].sum())

dayofweek
0    295296
1    291985
2    292226
3    306401
4    302504
5    311518
6    285546
Name: count, dtype: int64


각 요일별 대여량은 큰 차이가 없기 때문에, 분석 대상에서 제외

In [25]:
# x_train에서 'dayofweek' 컬럼을 삭제하기
x_train = x_train.drop(columns=['dayofweek'])

**테스트 데이터인 x_test도** 값을 예측하는 과정에 사용하므로 <span style="color:red">**동일한 전처리 과정을 적용**</span>해야 함-!!

In [26]:
x_test['datetime'] = pd.to_datetime(x_test['datetime'])
x_test['year'] = x_test['datetime'].dt.year
x_test['hour'] = x_test['datetime'].dt.hour

#### **불필요한 컬럼 삭제하기**

추후 테스트 데이터의 `datetime` 컬럼 값은 최종 제출하는 결과 파일에 포함되어야 하므로, `x_test`의 `datetime` 컬럼 값은 `x_test_datetime` 변수에 별도로 저장하여 관리

In [27]:
# x_test의 datetime 컬럼 값은 x_test_datetime 변수에 저장하기
x_test_datetime = x_test['datetime']

In [28]:
# x_train, x_test에서 datetime 컬럼을 삭제하기
x_train = x_train.drop(columns=['datetime'])
x_test = x_test.drop(columns=['datetime'])
y_train = y_train.drop(columns=['datetime'])

### **3.3 학습하고 평가하기**

#### **데이터 분리하기**

In [29]:
# 데이터를 분리하기 위한 train_test_split 함수를 가져오기
from sklearn.model_selection import train_test_split

# 학습용과 검증용을 8:2로 분리햐여, 각 4개의 변수에 저장하기
X_TRAIN, X_TEST, Y_TRAIN, Y_TEST = train_test_split(x_train, y_train, test_size=0.2, random_state=10)

# 분리된 데이터의 행/열 구조를 확인하기
print(X_TRAIN.shape)
print(X_TEST.shape)
print(Y_TRAIN.shape)
print(Y_TEST.shape)

(8708, 10)
(2178, 10)
(8708, 1)
(2178, 1)


#### **데이터 학습 및 하이퍼 파라미터 튜닝하기**

**예측 모델에 주로 사용하는** ***<span style="color:orange">XGBRegressor</span>***

In [30]:
# xgboost 라이브러리에서 XGBRegressor 모델 가져오기
from xgboost import XGBRegressor

In [31]:
# XGBRegressor로 수행할 첫 번째 모델을 만들고, 공부시키기
model_1 = XGBRegressor(n_estimators=100, max_depth=3, random_state=10)
model_1.fit(X_TRAIN, Y_TRAIN)

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
             importance_type='gain', interaction_constraints='',
             learning_rate=0.300000012, max_delta_step=0, max_depth=3,
             min_child_weight=1, missing=nan, monotone_constraints='()',
             n_estimators=100, n_jobs=8, num_parallel_tree=1, random_state=10,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
             tree_method='exact', validate_parameters=1, verbosity=None)

In [32]:
# XGBRegressor로 수행할 두 번째 모델을 만들고, 공부시키기
model_2 = XGBRegressor(n_estimators=200, max_depth=5, random_state=10)
model_2.fit(X_TRAIN, Y_TRAIN)

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
             importance_type='gain', interaction_constraints='',
             learning_rate=0.300000012, max_delta_step=0, max_depth=5,
             min_child_weight=1, missing=nan, monotone_constraints='()',
             n_estimators=200, n_jobs=8, num_parallel_tree=1, random_state=10,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
             tree_method='exact', validate_parameters=1, verbosity=None)

#### **결과 예측하기**

In [33]:
# 학습이 완료된 모델을 통해 y_test 값을 예측하기: 최종 결과 제출용
y_test_predicted_1 = pd.DataFrame(model_1.predict(x_test)).rename(columns={0: 'count'})

예측된 `y_test` 변수(`y_test_predicted_1`)는 **음수로 예측될 가능성이 있으므로, 음수는 모두 0으로 변경**

In [34]:
# y_test_predicted_1의 'count' 컬럼 값이 음수인 데이터를 추출하여, 0으로 바꾸기
y_test_predicted_1[y_test_predicted_1['count']<0] = 0

# y_test_predicted_1에서 상위 10개의 행 확인하기
print(y_test_predicted_1.head(10))

        count
0    2.139193
1    0.979986
2    0.000000
3    0.000000
4    0.000000
5    7.486256
6   79.849319
7  141.700363
8  319.266785
9   91.251663


In [35]:
# 학습이 완료된 모델을 통해 Y_TEST 값을 예측하기: 평가지표 계산용
Y_TEST_PREDICTED_1 = pd.DataFrame(model_1.predict(X_TEST)).rename(columns={0: 'count'})

# Y_TEST_PREDICTED의 'count' 컬럼 값이 음수인 데이터를 추출하여, 0으로 바꾸기
Y_TEST_PREDICTED_1[Y_TEST_PREDICTED_1['count']<0] = 0

In [36]:
# 학습이 완료된 모델을 통해 y_test 값을 예측하기: 최종 결과 제출용
y_test_predicted_2 = pd.DataFrame(model_2.predict(x_test)).rename(columns={0: 'count'})

예측된 `y_test` 변수(`y_test_predicted_2`)는 **음수로 예측될 가능성이 있으므로, 음수는 모두 0으로 변경**

In [37]:
# y_test_predicted_2의 'count' 컬럼 값이 음수인 데이터를 추출하여, 0으로 바꾸기
y_test_predicted_2[y_test_predicted_2['count']<0] = 0

# y_test_predicted_2에서 상위 10개의 행 확인하기
print(y_test_predicted_2.head(10))

        count
0   21.486200
1    0.061608
2    0.000000
3    2.039008
4    2.553952
5   10.101068
6   33.650478
7  109.718521
8  248.734039
9  145.416061


In [38]:
# 학습이 완료된 모델을 통해 Y_TEST 값을 예측하기: 평가지표 계산용
Y_TEST_PREDICTED_2 = pd.DataFrame(model_2.predict(X_TEST)).rename(columns={0: 'count'})

# Y_TEST_PREDICTED의 'count' 컬럼 값이 음수인 데이터를 추출하여, 0으로 바꾸기
Y_TEST_PREDICTED_2[Y_TEST_PREDICTED_2['count']<0] = 0

#### **모델 평가하기**

In [39]:
# sklearn 패키지의 metrics 모듈에서 r2_score 함수를 가져오기
from sklearn.metrics import r2_score

##### **- 1st 평가지표 결과**

In [40]:
# 1차 학습 모델의 R^2 평가지표 값을 확인하기
print(r2_score(Y_TEST, Y_TEST_PREDICTED_1))

0.9044130641900863


##### **- 2nd 평가지표 결과**

In [41]:
# 2차 학습 모델의 R^2 평가지표 값을 확인하기
print(r2_score(Y_TEST, Y_TEST_PREDICTED_2))

0.9381182890431057


### **3.4 결과 제출하기**

In [42]:
# x_test_datetime 변수와 y_test_predicted 변수를 세로 방향으로 붙이기
print(pd.concat([x_test_datetime, y_test_predicted_2], axis=1))

                datetime       count
0    2011-01-20 00:00:00   21.486200
1    2011-01-20 01:00:00    0.061608
2    2011-01-20 02:00:00    0.000000
3    2011-01-20 03:00:00    2.039008
4    2011-01-20 04:00:00    2.553952
...                  ...         ...
6488 2012-12-31 19:00:00  204.254379
6489 2012-12-31 20:00:00  142.610077
6490 2012-12-31 21:00:00  132.809982
6491 2012-12-31 22:00:00   92.404938
6492 2012-12-31 23:00:00   38.964684

[6493 rows x 2 columns]


In [43]:
# 앞의 출력 결과를 final 변수에 저장하기
final = pd.concat([x_test_datetime, y_test_predicted_2], axis=1)

# final 변수를 data 디렉토리 하위에 2468.csv 이름으로 저장하기
final.to_csv('data/2468.csv', index=False)

In [44]:
# 제출된 파일의 정상 여부를 확인하기
final = pd.read_csv('data/2468.csv')
print(final)

                 datetime       count
0     2011-01-20 00:00:00   21.486200
1     2011-01-20 01:00:00    0.061608
2     2011-01-20 02:00:00    0.000000
3     2011-01-20 03:00:00    2.039008
4     2011-01-20 04:00:00    2.553952
...                   ...         ...
6488  2012-12-31 19:00:00  204.254380
6489  2012-12-31 20:00:00  142.610080
6490  2012-12-31 21:00:00  132.809980
6491  2012-12-31 22:00:00   92.404940
6492  2012-12-31 23:00:00   38.964684

[6493 rows x 2 columns]


In [45]:
### 최종 제출 코드 ###

# 데이터 가져오기
import pandas as pd
x_train = pd.read_csv('data/bike_x_train.csv', encoding='cp949')
x_test = pd.read_csv('data/bike_x_test.csv', encoding='cp949')
y_train = pd.read_csv('data/bike_y_train.csv', encoding='cp949')
y_train = y_train.rename(columns={'癤풼atetime': 'datetime'})

# 전처리하기
x_train['datetime'] = pd.to_datetime(x_train['datetime'])
x_train['year'] = x_train['datetime'].dt.year
x_train['hour'] = x_train['datetime'].dt.hour
x_test['datetime'] = pd.to_datetime(x_test['datetime'])
x_test['year'] = x_test['datetime'].dt.year
x_test['hour'] = x_test['datetime'].dt.hour
x_test_datetime = x_test['datetime']
x_train = x_train.drop(columns=['datetime'])
x_test = x_test.drop(columns=['datetime'])
y_train = y_train.drop(columns=['datetime'])

# 데이터 분리하기
from sklearn.model_selection import train_test_split
X_TRAIN, X_TEST, Y_TRAIN, Y_TEST = train_test_split(x_train, y_train, test_size=0.2, random_state=10)

# 모델을 학습하고 테스트 데이터의 종속변수 값을 예측하기
from xgboost import XGBRegressor
model = XGBRegressor(n_estimators=200, max_depth=5, random_state=10)
model.fit(X_TRAIN, Y_TRAIN)
y_test_predicted = pd.DataFrame(model.predict(x_test)).rename(columns={0: 'count'})
y_test_predicted[y_test_predicted['count']<0] = 0
Y_TEST_PREDICTED = pd.DataFrame(model.predict(X_TEST)).rename(columns={0: 'count'})
Y_TEST_PREDICTED[Y_TEST_PREDICTED['count']<0] = 0

# 모델 평가하기
from sklearn.metrics import r2_score
print(r2_score(Y_TEST, Y_TEST_PREDICTED))

# 결과 제출하기
final = pd.concat([x_test_datetime, y_test_predicted], axis=1)
final.to_csv('data/2468.csv', index=False)

# 제출된 파일의 정상 여부를 확인하기
final = pd.read_csv('data/2468.csv')
print(final)

0.9381182890431057
                 datetime       count
0     2011-01-20 00:00:00   21.486200
1     2011-01-20 01:00:00    0.061608
2     2011-01-20 02:00:00    0.000000
3     2011-01-20 03:00:00    2.039008
4     2011-01-20 04:00:00    2.553952
...                   ...         ...
6488  2012-12-31 19:00:00  204.254380
6489  2012-12-31 20:00:00  142.610080
6490  2012-12-31 21:00:00  132.809980
6491  2012-12-31 22:00:00   92.404940
6492  2012-12-31 23:00:00   38.964684

[6493 rows x 2 columns]
