# 6.4 베이스라인 모델

In [1]:
import pandas as pd
# 데이터 경로
data_path = '/kaggle/input/bike-sharing-demand/'

train = pd.read_csv(data_path + 'train.csv')
test = pd.read_csv(data_path + 'test.csv')
submission = pd.read_csv(data_path + 'sampleSubmission.csv')

## 6.4.1 피처 엔지니어링

### 이상치 제거

In [2]:
# 이상치를 제외한 데이터만 추출하여 데이터프레임에 할당
train = train[train['weather'] != 4]

### 데이터 합치기

In [3]:
# concat 함수를 사용해 축을 따라 데이터프레임 합치기
all_data_temp = pd.concat([train, test])
all_data_temp

# 행이 17,378개인데 마지막 행의 인덱스가 6492임. 중간에 다시 0부터 시작했기 때문

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3.0,13.0,16.0
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8.0,32.0,40.0
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5.0,27.0,32.0
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3.0,10.0,13.0
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
6488,2012-12-31 19:00:00,1,0,1,2,10.66,12.880,60,11.0014,,,
6489,2012-12-31 20:00:00,1,0,1,2,10.66,12.880,60,11.0014,,,
6490,2012-12-31 21:00:00,1,0,1,1,10.66,12.880,60,11.0014,,,
6491,2012-12-31 22:00:00,1,0,1,1,10.66,13.635,56,8.9981,,,


In [4]:
# 원래의 인덱스를 무시하고 합치기 (새로운 인덱스) 
all_data = pd.concat([train, test], ignore_index=True)
all_data

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3.0,13.0,16.0
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8.0,32.0,40.0
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5.0,27.0,32.0
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3.0,10.0,13.0
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
17373,2012-12-31 19:00:00,1,0,1,2,10.66,12.880,60,11.0014,,,
17374,2012-12-31 20:00:00,1,0,1,2,10.66,12.880,60,11.0014,,,
17375,2012-12-31 21:00:00,1,0,1,1,10.66,12.880,60,11.0014,,,
17376,2012-12-31 22:00:00,1,0,1,1,10.66,13.635,56,8.9981,,,


### 파생 피처(변수) 추가

In [5]:
from datetime import datetime

# 날짜 피처 생성
all_data['date'] = all_data['datetime'].apply(lambda x : x.split()[0])
# 년도 피처 생성
all_data['year'] = all_data['datetime'].apply(lambda x : x.split()[0].split('-')[0])
# 월 피처 생성
all_data['month'] = all_data['datetime'].apply(lambda x : x.split()[0].split('-')[1])
# 시 피처 생성
all_data['hour'] = all_data['datetime'].apply(lambda x : x.split()[1].split(':')[0])
# 요일 피처 생성
all_data['weekday'] = all_data['date'].apply(lambda dateString : datetime.strptime(dateString, "%Y-%m-%d").weekday())

# 일, 분, 초 피처는 불필요하므로 생성하지 않음

In [6]:
# datetime 타입으로 바꾸어 추출하는 방법
'''
all_data['year'] = all_data['datetime'].dt.year #년도
all_data['month'] = all_data['datetime'].dt.month #월
all_data['hour'] = all_data['datetime'].dt.hour #시
all_data['weekday'] = all_data['datetime'].dt.weekday #요일
'''

"\nall_data['year'] = all_data['datetime'].dt.year #년도\nall_data['month'] = all_data['datetime'].dt.month #월\nall_data['hour'] = all_data['datetime'].dt.hour #시\nall_data['weekday'] = all_data['datetime'].dt.weekday #요일\n"

### 불필요한 피처 제거
* 훈련 데이터에만 있고 테스트 데이터에 없는 casual, registered 피처 제거
* 인덱스 역할만 하는 datetime 피처 제거
* year, month, day에 모든 정보가 있는 date 피처 제거
* season 피처가 month의 대분류 성격이므로 month 피처 제거
* 타깃값과 상관관계가 약한 windspeed 피처 제거

In [7]:
drop_features = ['casual', 'registered', 'date', 'datetime', 'month', 'windspeed']

all_data = all_data.drop(drop_features, axis=1)

### 데이터 나누기

In [8]:
# 훈련 데이터와 테스트 데이터 나누기
X_train = all_data[~pd.isnull(all_data['count'])]  # 타깃값이 있으면 훈련 데이터  # '~'는 부정(not)을 의미
X_test = all_data[pd.isnull(all_data['count'])]   # 타깃값이 없으면 테스트 데이터

# 독립변수 X에서 타깃값 count 제거
X_train = X_train.drop(['count'], axis=1)
X_test = X_test.drop(['count'], axis=1)

# 타깃값 count는 종속변수 y에 할당
y = train['count'] # 타깃값

In [9]:
X_train.head()

Unnamed: 0,season,holiday,workingday,weather,temp,atemp,humidity,year,hour,weekday
0,1,0,0,1,9.84,14.395,81,2011,0,5
1,1,0,0,1,9.02,13.635,80,2011,1,5
2,1,0,0,1,9.02,13.635,80,2011,2,5
3,1,0,0,1,9.84,14.395,75,2011,3,5
4,1,0,0,1,9.84,14.395,75,2011,4,5


## 6.4.2 평가지표 계산 함수 작성
RMSLE를 계산하는 함수 만들기

In [15]:
import numpy as np

def rmsle(y_true, y_pred, convertExp=True):
    
    # 지수변환
    if convertExp:
        y_true = np.exp(y_true)
        y_pred = np.exp(y_pred)
    
    # 로그변환 후 결측값을 0으로 변환
    log_true = np.nan_to_num(np.log(y_true+1))
    log_pred = np.nan_to_num(np.log(y_pred+1))
    
    #RSMLE 계산
    output = np.sqrt(np.mean((log_true - log_pred)**2))
    return output

## 6.4.3 모델 훈련
기본 선형 회귀 모델 LinearRegression으로 모델 생성

In [16]:
from sklearn.linear_model import LinearRegression

linear_reg_model = LinearRegression()  # 모델 생성

In [17]:
log_y = np.log(y)  # 훈련 전 타깃값 로그변환 (본 데이터 타깃값이 정규분포를 따르도록)
linear_reg_model.fit(X_train, log_y)  # 모델 훈련

LinearRegression()

## 6.4.4 모델 성능 검증

In [18]:
preds = linear_reg_model.predict(X_train)  # 원래는 훈련 데이터를 훈련용과 검증용으로 나누어 검증용으로 검증. 현재 검증용이 없으니 예시로 훈련 데이터를 넣어 검증.

In [19]:
print(f'선형 회귀의 RMSLE 값 : {rmsle(log_y, preds, True):.4f}')

선형 회귀의 RMSLE 값 : 1.0205


## 6.4.5 예측 및 결과 제출

In [None]:
linearreg_preds = linear_reg_model.predict(X_test)  # 테스트 데이터로 예측

submission['count'] = np.exp(linearreg_preds)  # 지수변환
submission.to_csv('submission.csv', index=False)  # csv파일로 저장