
# [KDT] ch5 Linear Regression

### 단일회귀 / 다중회귀 / 특성공학
 - 데이터셋: 직장인 연봉 정보 / 보스톤집값 / 공유자전거 플랫폼 / 다이아몬드 
 - 주요 라이브러리: statsmodels ols / sklearn linear_model / sklearn train_test_split / 
 - 알파 퀴즈(1개) / 파이 퀴즈(1개) / 시그마 퀴즈(2개) / 오메가 퀴즈(과제 1개) 

In [None]:
import os
os.getcwd()

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 파일 로딩 
df_hk = pd.read_csv('.\\data\\hk_221206.csv')

In [None]:
df_hk

## $\alpha$(알파) 퀴즈:
전체 소득 대비 소비액 비율을 나타내는 합성 변수('expenditure_per_salary')를 만들고자 한다. 
<br> 수식 : expenditure_per_salary = expenditure / salary 
<br> expenditure_per_salary 합성변수를 만들고 해당 변수의 Company 그룹별 평균을 구하시오 

In [None]:
df = df_hk.copy()


## 1-1. 단일 회귀 statemodels - ols()

연봉으로 지출액을 예측할 수 있을까 ?

In [None]:
# statemodels - ols() 클래스 호출
from statsmodels.formula.api import ols  # formula 형식

In [None]:
# 시각화 (x="salary", y="expenditure")
sns.scatterplot( x="salary", y="expenditure", data = df, hue= 'company')
plt.show()

In [None]:
# 독립변수, 종속변수 상관계수 확인


In [None]:
# 모델선택, 독립변수(salary), 종속변수(expenditure) 입력, fit
from statsmodels.formula.api import ols


In [None]:
# Attribute 확인


In [None]:
# 모델 summary 결정계수 / 회귀 계수(coef) 등 확인 


## $$y= 0.9781 \times x - 1246.9920$$

In [None]:
# model1_1 attributes (params, predict, resid 잔차)


In [None]:
# 회귀식


In [None]:
# sample data


In [None]:
# 회귀식으로 예측값 확인


In [None]:
# sample data


In [None]:
# predict로 예측값 확인


In [None]:
# 시각화 

fig, ax = plt.subplots( nrows= 1 , ncols=2, figsize=(14, 5))
sns.scatterplot(x=df['salary'], y=df['expenditure'], palette='Set1', ax= ax[0] )
sns.scatterplot(x=df['salary'], y=predict1_1, palette='Set2', ax=ax[1] )

ax[0].set_title('expenditure ')
ax[1].set_title('predict1_1')
plt.show()

## 다중 회귀 가정 4가지 선형성, 정규성, 등분산, 독립성

### 선형 회귀 가정 1: 선형성 

F 검정의 pvalue로 확인

In [None]:
# 선형회귀 그래프, regplot: scatter plot, regression line, confidence band를 한 번에 그리는 기능
sns.regplot(x='salary', y='expenditure', data=df)
sns.regplot(x=df['salary'], y=predict1_1)

In [None]:
# F 검정의 pvalue로 확인


### 선형 회귀 가정 2: 잔차의 정규성

<br>잔차 그래프로 확인
<br>shapiro 의 경우 p값이 0.05 이상이면 정규성 만족한다 

In [None]:
# 잔차 계산


In [None]:
# 잔차 그래프 1
plt.scatter(df['salary'], residual)
plt.show()

In [None]:
# 잔차 그래프 2
sns.distplot(residual)
plt.show()

In [None]:
# shapiro 정규성 검정, Ho: 정규성을 가진다 (p-value > 0.05)
from scipy.stats import shapiro


In [None]:
# pvalue가 0.05보다 작으면 정규성 만족 못함


In [None]:
# residual이 그룹화 되어 있어 shapiro test에서 정규성이 안 나옴

import scipy.stats as stats

stats.probplot(residual, plot=plt)
plt.show()

## 선형 회귀 가정 3: 잔차의 등분산

예측값과 잔차의 산점도로 파악

In [None]:
# 잔차그래프로 확인, X가 커질때 잔차의 간격이 변하면 안됨, 간격아 일정하면 등분산성 만족
sns.regplot(x=predict1_1, y=residual)

## 선형 회귀 가정 4: 잔차의 독립성
잔차가 독립인지(자기상관성이 있는지) 검정

In [None]:
#perform Durbin-Watson test

from statsmodels.stats.stattools import durbin_watson
durbin_watson(model1_1.resid)

# 더빈 왓슨 통계량은 0 ~ 4사이의 값을 갖을 수 있음
# 0에 가까울수록 → 양의 상관관계
# 4에 가까울수록 → 음의 상관관계
# 2에 가까울수록 → 오차항의 자기상관이 없음

## 1-2. 단일 회귀 sklearn.linear_model

연봉으로 지출액을 예측할 수 있을까 ?

In [None]:
# LinearRegression 호출
from sklearn.linear_model import LinearRegression

In [None]:
# 모델선택, 독립변수(salary), 종속변수(expenditure) 입력, fit 


In [None]:
# 회귀계수 확인


In [None]:
# intercept_ 확인


## $$y= 0.97813 \times x - 1246.9920$$

In [None]:
# 회귀식
def liner1_2(x):
    return (model1_2.coef_[0] * x) + model1_2.intercept_

In [None]:
# sample data


In [None]:
# 회귀식으로 예측


In [None]:
# predict로 예측


In [None]:
# 선형회귀 그래프
sns.regplot(x=df['salary'], y=predict1_2)

## statemodels vs. sklearn 비교 
 - statemodels는 통계기반 강점, summary 표등 통계자료 보기 편함 
 - sklearn는 머신러닝 관점
 - 입력값의 차이( statemodels ols의 경우 formula 문법이 있음 / sklearn는 fit() 활용) 

In [None]:
# statemodels vs. sklearn 제공 기능 비교

# model1_1.   # 통계 중심
# model1_2.   # 머신러닝 중심

## 1-3. 단일 회귀 train_test_split / statemodels - ols()

train, test data 분할 (train_size= 0.7, random_state=123)
<br> 연봉으로 지출액을 예측할 수 있을까 ?

In [None]:
# train_test_split (train_size= 0.7, random_state=123)
from sklearn.model_selection import train_test_split

# print('데이터셋 총합 :', len(df), ', df_train :', len(df_train1), ', df_test :', len(df_test1))


In [None]:
# ols 모델링, fit
from statsmodels.formula.api import ols


In [None]:
# summary, 회귀계수 확인


## $$y= 0.9799 \times x - 1278.0961$$

In [None]:
# model1_3 과 model1_1.summary()와 비교, coef_, R-squared, train data set이 바뀌었음


In [None]:
# 회귀식 y = 0.9799 * salary - 1278.0961

0.9799 * ? - 1278.0961
0.9799 * ? - 1278.0961

In [None]:
# predict로 예측


## 1-4. $\pi$(파이) Quiz 단일회귀 train_test_split / statemodels - ols() 


<br>나이로 연봉을 예측할 수 있을까 ? 
<br>독립변수: 나이(age)
<br>종속변수: 연봉(salary)

<br>1. train, test data 분할하시오(train_size= 0.7, random_state=123)
<br>2. 회귀식을 수립하시오
<br>3. 37세의 연봉을 예측하시오

In [None]:
# train_test_split (train_size= 0.7, random_state=123)
df_train1, df_test1 = train_test_split(df, train_size= 0.7, random_state=123)

In [None]:
# ols모델링, fit
from statsmodels.formula.api import ols


In [None]:
# summary, 회귀계수 확인


## $$y= 115.2576 \times x + 1821.4088$$

In [None]:
# 회귀식으로 예측 y = 115.2576 * age + 1821.4088
115.2576 * ? + 1821.4088
115.2576 * ? + 1821.4088

In [None]:
# predict 개별값 입력으로 예측


In [None]:
# predict 전체값 예측


In [None]:
# 선형회귀 그래프
sns.regplot(x='age', y='salary', data=df_test1)

## 1-5.  $\pi$(파이) Quiz 단일회귀 train_test_split /  sklearn.linear_model


<br>나이로 연봉을 예측할 수 있을까 ?  
<br>독립변수: 나이(age)
<br>종속변수: 연봉(salary)

train, test data 분할하고 37세의 연봉을 예측하시오

In [None]:
# train_test_split (train_size= 0.7, random_state=123)
df_train1, df_test1 = train_test_split(df, train_size= 0.7, random_state=123)

In [None]:
# LinearRegression, fit, predict
from sklearn.linear_model import LinearRegression


## 1-6. 단일회귀 train_test_split /  statsmodels.api 

In [None]:
# statsmodels.api
import statsmodels.api as sm

# train, fit


In [None]:
# predict


In [None]:
# summary()


## 2-1. 다중회귀 statemodels -ols()

연봉과 나이로 지출액을 예측할 수 있을까
<br> train, test data 분할
<br> 종속변수 : 지출액 (expenditure)
<br> 독립변수 : 연봉과 나이 (age , salary)

In [None]:
# ols 다중회귀 모델링, fit
from sklearn.linear_model import LinearRegression


In [None]:
# summary


In [None]:
# attribute 확인


## $$y= 14.9256 \times x_1  + 0.9436 \times x_2 - 1633.1811$$

In [None]:
df_test1.head(1)

In [None]:
# 회귀식, hkd213에 대입 나이 30 / 연봉 7520
14.9256 * ? + 0.9436 * ? - 1633.1811

In [None]:
# predict 예측


In [None]:
# attribute로 확인


In [None]:
# 회귀식에 attribute값 대입, (나이 30 / 연봉 7520)


## 다중회귀 2-2 sklearn.linear_model 

<br> 연봉과 지출액으로 나이를 예측할 수 있을까
<br> train, test data 분할
<br> 독립변수: salary, expenditure
<br> 종속변수: age

In [None]:
# LinearRegression, fit, predict
from sklearn.linear_model import LinearRegression


In [None]:
# intercept_, coef_확인


In [None]:
# 변수별 회귀계수 확인하는 데이터프레임


## 2-3 선형회귀 모형 명목형 변수의 처리
get_dummy ('gender', 'blood_type', 'company', 'grades')

In [None]:
# 해당 column만 get_dummies


In [None]:
# 전체 column + 해당 column, 원본 column은 삭제됨


## 2-4 다중회귀 sklearn.linear_model 

회사와(company, 범주형) 연봉(salary, 연속형)으로 지출액(expenditure)을 예측할 수 있을까 ?

In [None]:
# LinearRegression, fit, predict
from sklearn.linear_model import LinearRegression


In [None]:
# attribute 확인(coef, intercept)


In [None]:
# feature, coef DataFrame화


## $$y= -30.55 \times x_1  + 177.91 \times x_2 -147.36 \times x_3 + 1.01 \times x_4 - 1503.1087$$

## 3-1 선형회귀 모델의 평가

MSE, RMSE, MAE, RMAE

In [None]:
# df_train1, df_test1


In [None]:
# 평가를 위한 시각화 (x='salary', y='expenditure')
sns.regplot(x='salary', y='expenditure', data=df_train1) # 평가는 회귀식과 실제값이 잘 맞는가

In [None]:
# 평가를 위한 시각화 (x='age', y='expenditure')
sns.regplot(x='age', y='expenditure', data=df_train1)  # 그래프로 보면 age가 불리해 보임

In [None]:
# LinearRegression (salary, expenditure)
from sklearn.linear_model import LinearRegression


In [None]:
# LinearRegression (age, expenditure)
from sklearn.linear_model import LinearRegression


In [None]:
# predict_salary 시각화
sns.regplot(x=predict_salary, y=df_test1['expenditure'])

In [None]:
# predict_age 시각화
sns.regplot(x=predict_age, y=df_test1['expenditure'])

In [None]:
# LinearRegression 평가를 위한 class
from sklearn.metrics import mean_absolute_error, mean_squared_error

### Mean Absolute Error(MAE) : $$\frac{1}{N}\sum_{i=1}^{n}|x_i-y_i|$$

In [None]:
# Mean Absolute Error(MAE) 계산식


In [None]:
# mean_absolute_error class 활용 (predict_salary)


In [None]:
# mean_absolute_error class 활용 (predict_age)


### Mean Squared Error(MSE): $$\frac{1}{N}\sum_{i=1}^{n}(x_i-y_i)^2$$

In [None]:
# Mean Squared Error(MSE) 계산식


In [None]:
# mean_squared_error  class 활용 (predict_salary)


In [None]:
# mean_squared_error  class 활용 (predict_age)


### Root Mean Squared Error(RMSE):
$$\sqrt{\frac{1}{N}\sum_{i=1}^{n}(x_i-y_i)^2 }$$

In [None]:
# Root Mean Squared Error(RMSE) 계산식


In [None]:
# RMSE (mean_squared_error 활용) (predict_salary)


In [None]:
# RMSE (mean_squared_error 활용) (predict_age)


## 3-2 정규화, 표준화 

표준화 : min-max 단위를 고르게 하기 위하여 모든 값을 0~1사이로 바꾸는 것 
<br> sklearn.preprocessing / MinMaxScaler 활용

$$Y = \frac{( X - X_{min} )}{( X_{max} - X_{min} )} $$

In [None]:
# MinMaxScaler class
from sklearn.preprocessing import MinMaxScaler

In [None]:
# 대상변수 선택 (수치형) 'height', 'age', 'salary', 'expenditure'


In [None]:
# MinMaxScaler 모델링


In [None]:
# MinMaxScaler fit, transform


In [None]:
# 시각화 

fig, ax = plt.subplots( nrows= 1 , ncols=2, figsize=(14, 5))

ax[0].set_title('original ')
ax[1].set_title('minmax')

df_n.plot.hist(ax= ax[0] )
df_minmax.plot.hist(ax= ax[1] )
plt.show()

### 정규화

정규화: StandardScaler 모든 변수의 값을 평균이 0이고 분산이 1인 정규 분포로 변환
<br> sklearn.preprocessing / MinMaxScaler 활용

$$Z = \frac{ X - \mu }{\sigma} $$

In [None]:
# StandardScaler class
from sklearn.preprocessing import StandardScaler

In [None]:
# StandardScaler 모델링


In [None]:
# StandardScaler fit, transform


In [None]:
#시각화 
fig, ax = plt.subplots( nrows= 1 , ncols=3, figsize=(14, 5))

sns.histplot(x='salary', data=df, ax= ax[0])
sns.histplot(x='salary', data=df_minmax, ax= ax[1], color='green')
sns.histplot(x='salary', data=df_stan, ax= ax[2], color='orange')

ax[0].set_title('df salary histplot')
ax[1].set_title('df_minmax salary histplot')
ax[2].set_title('df_stan salary histplot')
plt.show()

In [None]:
# StandardScaler class
from sklearn.preprocessing import StandardScaler

In [None]:
# StandardScaler 모델링


In [None]:
# StandardScaler fit, transform


### 정규화, train, test분리시 적용

- train으로 정규화 모델을 만들었을때
- test도 train 정규화 모델을 사용해야 같은 scale로 scaling된다

In [None]:
# train_test_split
from sklearn.model_selection import train_test_split


In [None]:
# 연속형 변수 추출


In [None]:
# train data StandardScaler fit까지로 StandardScaler를 만든다
from sklearn.preprocessing import StandardScaler


In [None]:
# train에 대해 transform을 실행하여 train data를 StandardScaling


In [None]:
# test data는 traind의 StandardScaler를 적용해 transform


In [None]:
# train data df화


In [None]:
# test data df화


In [None]:
# train data EDA


In [None]:
#시각화 
fig, ax = plt.subplots( nrows= 1 , ncols=2, figsize=(14, 5))

ax[0].set_title('train ')
ax[1].set_title('test')

df_train_std.plot.hist(ax= ax[0] )
df_test_std.plot.hist(ax= ax[1] )
plt.show()

## 4-1 Feature Engeering

변수 선택

- 종속변수(expenditure)

- 독립변수 수치형 변수중 회귀계수가 높은 2개 선정 (feature selection) 하시오
- 독립변수 수치형 변수중 t검정 통계량의 p-value가 0.05이하인것을 선정하시오


In [None]:
# ols 방식
#종속변수: 소비액 / 독립변수: 신장 / 나이 / 연봉 
from statsmodels.formula.api import ols

# LinearRegression 방식
from sklearn.linear_model import LinearRegression


## 4-2 Feature Engeering

보스톤 집값 데이터 셋(출처: sklearn 라이브러리) 

데이터(sklearn_boston.csv) 사이즈 : 506 X 14
<br> 
<br> <b>crim:</b> 자치시 별 1인당 범죄율
<br> <b>zn:</b> 25,000 평방피트 초과하는 거주지역 비율
<br> <b>indus:</b> 비소매상업지역 점유하고 있는 토지 비율 
<br> <b>chas:</b> 찰스강에 대한 더미 변수(강 경계 1, 아니면 0) 
<br> <b>nox:</b> 10ppm 당 농축 일산화 질소
<br> <b>rm:</b> 주택 1가구당 평균 방의 개수 
<br> <b>age:</b> 1940년 이전 건축된 소유주택 비율
<br> <b>dis:</b> 5개 보스턴 직업센터까지의 접근성 지수 
<br> <b>rad:</b> 방사형 도로까지의 접근성 지수 
<br> <b>tax:</b> 10,000 달러 당 재산세 율
<br> <b>ptratio:</b> 자치시 별 학생 / 교사 비율 
<br> <b>b:</b> 자치시별 흑인의 비율 
<br> <b>lstat:</b> 모집단 하위계층 비율 
<br> <b>price:</b> 본인 소유 주택 가격 

<br> 1. 종속변수 : price
<br> 2. 독립변수 : price를 제외한 모든 변수
<br> 3. feature selection을 통해 p-value 값 0.05 미만 / coef 절대값 0.5이상인 변수를 선택하시오
<br> ------------------------------------------------------------------------------------------
<br> 4. train, test 분리하여 다음을 수행 (train_size=0.8, random_state=123)
<br> 5. 선택된 독립변수를 사용하여 선형회귀식을 만들고 RMSE를 구하시오 

In [None]:
# 파일 로드 
boston = pd.read_csv('.\\data\\sklearn_boston.csv')
boston

In [None]:
boston.info()

In [None]:
# step1) 변수 생성
boston.columns

In [None]:
# join
' + '.join(boston.columns)
'A' + ' + '.join(boston.columns.drop('price'))
'price ~ ' + ' + '.join(boston.columns.drop('price'))

In [None]:
'price ~ ' + ' + '.join(boston.columns.drop('price'))

In [None]:
# step2) formula 생성


In [None]:
# step3) feature selection을 통해 p-value 값 0.05 미만 / coef 절대값 0.5이상인 변수를 선택하시오
# ols, fit, summary
from statsmodels.formula.api import ols


In [None]:
# p-value 값 0.05 미만 / coef 절대값 0.5이상인 변수를 선택


In [None]:
# step4) train, test 분리(train_size=0.8, random_state=123)



In [None]:
# formula 생성


In [None]:
# step5) 선택된 독립변수를 사용하여 선형회귀식 생성
from statsmodels.formula.api import ols


In [None]:
# summary


In [None]:
# step5) RMSE


## 4-3 Feature Engeering - 다중 공선성 VIF

In [None]:
boston

In [None]:
# 상관관계 분석
boston.corr()

In [None]:
# 상관관계 매트릭스 시각화 
plt.figure( figsize=(10, 10))
sns.heatmap(boston.corr(), annot=True , cbar=True)
plt.show()

In [None]:
#다중 공선성 VIF 구하기 

from statsmodels.stats.outliers_influence import variance_inflation_factor

vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(boston.values, i) for i in range(boston.shape[1])]
vif["features"] = boston.columns
vif.sort_values('VIF Factor', ascending = False)

##  $\Sigma$ (시그마) Quiz

### quiz 1) 자전거공유플랫폼 데이터 셋 활용

□ df_bike.csv 파일을 읽고 (데이터 객체명 : df_bike)
train, test로 분리하시오 (random_state=123)

  - sklearn.model_selection / train_test_split 메소드를 쓸 것(데이터셋은 df_bike_train, df_bike_test로 명명)

  1_1. df_bike_train내 대여건수인 'riders' 변수와 'temp', 'feelslike', 'humidity', 'windspeed', 'casual'
    <br> 간 pearson 상관계수를 확인, 'riders' 변수와 비교해 가장 상관계수 절대값이 큰 변수를 구하시오

- df_bike_train으로 자건거 대여건수(riders)와 'temp'변수와 단일 회귀분석을 실시하고 

  1_2. 회귀계수를 구하시오

  1_3. df_bike_test의 대여건수를 예측(pred_count)하고, 예측치의 중앙값을 구하시오

  1_4. df_bike_test의 대여건수 예측치(pred_count)와 실제값(riders)의 RMSE를 구하시오

  1_5. df_bike_train의 자건거 대여건수(riders)를 종속변수로 하고, 'temp', 'feelslike', 'humidity', 'windspeed', 'casual'
  
    5개 독립변수로 다중 회귀분석을 하고자 한다.
    
    
    이때 해당 모델의 결정계수를 구하고 통계적으로 유의미한 변수와 해당변수의 회귀값을 구하시오  

** bike dataset 설명
https://www.scikit-yb.org/en/latest/api/datasets/bikeshare.html

In [None]:
# 파일 로딩 
df_bike = pd.read_csv('.\\data\\yellowbrick_bikeshare.csv')

# # 데이터 분리 
from sklearn.model_selection import train_test_split
df_bike_train, df_bike_test = train_test_split(df_bike, train_size= 0.7, random_state=123)
print('df', len(df_bike), 'df_bike_train', len(df_bike_train), 'df_bike_test', len(df_bike_test))

df_bike_train[['riders', 'temp', 'feelslike', 'humidity', 'windspeed', 'casual']].corr().abs().sort_values('riders', ascending=False)
# casual, 0.695529

In [None]:
# 관련 메소드 호출
from sklearn.linear_model import LinearRegression
from statsmodels.formula.api import ols
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [None]:
# 1_2. 모델 Training, 회귀계수 (statemodels)

# # OLS 모델, 1_2. 모델 Training, 회귀계수 (statemodels)

# 1_2. 모델 Training, 회귀계수 (sklearn)    
from sklearn.linear_model import LinearRegression

# 1_3. df_bike_test 예측치의 중앙값을 구하시오

# 1_4. df_bike_test pred_count와 count의 RMSE

# 1_5. feature selection


## quiz 2) 다이아몬드 데이터 셋 활용

- diamond.csv 파일을 읽고 (df_dia)
train, test로 분리하시오 (random_state=123) (df_dia_train, df_dia_test)

- df_dia_train으로 선형회귀분석을 실시하고 아래에 답하시오

  2_1. 종속변수(price), 독립변수(carat, depth)일때 독립변수의 회귀계수를 구하시오

  2_2. 종속변수(price), 독립변수(carat, depth, color)일때 df_dia_test price의 예측값 평균을 구하시오

    'color'는 더미변수로 변형하고 가변수를 생성시 마지막 변수 하나를 제거하시오 

  2_3. 2_2 조건으로 df_dia_test의 값이 (carat: 1, color: 'E' , depth: 50)일때 price 예측값을 구하시오 

** dia dataset 설명 https://www.kaggle.com/datasets/shivam2503/diamonds

In [None]:
# 파일 로딩 
df_dia = pd.read_csv('.\\data\\diamonds.csv')

# 데이터 분리 
from sklearn.model_selection import train_test_split
df_dia_train, df_dia_test = train_test_split(df_dia, train_size= 0.7, random_state=123)
print('df', len(df_dia), 'df_dia_train', len(df_dia_train), 'df_dia_test', len(df_dia_test))
df_dia.head(5)

In [None]:
# 관련 메소드 호출
from sklearn.linear_model import LinearRegression
from statsmodels.formula.api import ols
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [None]:
# 2_1. 모델 Training, 회귀계수 (statemodels)

# 2_1. 모델 Training, 회귀계수 (sklearn)    
# X, y값 세팅

# 2_2. 범주형 data 가변수화  

# 데이터 분리 
from sklearn.model_selection import train_test_split

# X, y값 세팅  ['carat', 'depth', 'color_D', 'color_E', 'color_F', 'color_G', 'color_H', 'color_I'] ['price']

# LinearRegression, fit, predict
from sklearn.linear_model import LinearRegression

# 2_2. answer (mean)

# 2_3. 독립변수 직접입력 방식
# df_dia_test(carat: 1, depth: 50, color: 'E'  )일때 price 예측값

# 2_3. answer 


## $\Omega$(오메가) Quiz

- yellowbrick_bikeshare.csv 파일을 읽고 (객체명 : df_bike)

  3-1 season column을 사용하여 여름(df_bike_summer)과 겨울(df_bike_winter)로 구분하시오

  3_2 df_bike_summer, df_bike_winter를  train, test로 분리하시오 (df_summer_tr, df_summer_te, df_winter_tr, df_winter_te, random_state=123 )

  3_3. statemodels를 사용하여 종속변수(riders), 독립변수(temp)로 train 시키고 여름과 겨울의 RMSE차이를 구하시오

In [None]:
# 파일 로딩 
df_bike = pd.read_csv('.\\data\\yellowbrick_bikeshare.csv')

# 3-1 데이터 분리

# 3-2 train, test 분리

from sklearn.model_selection import train_test_split

# 3-3 train, predict
from statsmodels.formula.api import ols


# 3-3 RMSE


In [None]:
#시각화 
fig, ax = plt.subplots( nrows= 1 , ncols=2, figsize=(14, 5))

sns.regplot(x='temp', y='riders', data=df_summer_tr, ax= ax[0], color='green')
sns.regplot(x='temp', y='riders', data=df_winter_tr, ax= ax[1])

ax[0].set_title('df_summer_tr')
ax[1].set_title('df_winter_tr')
plt.show()