# **Regression**

## **model이 하는 역할?** 

data가 여러가지가 있을 때 각각을 예측하는 model을 만드는 것  
input data -> predict data 

shift + enter : 셀 실행 

## **Import Data**

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [78]:
import os
path = "gdrive/My Drive/Colab Notebooks/01_Test/data/"
os.listdir(path) # 지정한 디렉토리 내의 모든 파일과 디렉토리 list return 

['titanic.csv', 'titanic_mini.csv']

In [79]:
import pandas as pd 
import numpy as np 

In [80]:
df = pd.read_csv(path + "titanic_mini.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,93,0,1,"Chaffee, Mr. Herbert Fuller",male,46.0,1,0,W.E.P. 5734,61.175,E31,S
1,773,0,2,"Mack, Mrs. (Mary)",female,57.0,0,0,S.O./P.P. 3,10.5,E77,S
2,488,0,1,"Kent, Mr. Edward Austin",male,58.0,0,0,11771,29.7,B37,C
3,300,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C
4,660,0,1,"Newell, Mr. Arthur Webster",male,58.0,0,2,35273,113.275,D48,C
5,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S
7,453,0,1,"Foreman, Mr. Benjamin Laventall",male,30.0,0,0,113051,27.75,C111,C
8,663,0,1,"Colley, Mr. Edward Pomeroy",male,47.0,0,0,5727,25.5875,E58,S
9,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


좋은 모델을 만드는 것도 중요하지만 전체 과정이 잘 돌아가는지를 확인하는 것이 우선이기에  
적은 양의 데이터로 빠르고 간단하게 과정을 거치는 것도 중요하다! 

## **1. 모델에 사용할 컬럼(column, feature) 결정**

In [None]:
len(df)

In [82]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

### **Naming convention issue!** 
X 대문자 -> 모델 입력 컬럼은 여러개라는 의미에서 대문자 X를 쓴다  
y 소문자 -> 기본 소문자 train_y 형태로 쓴다

X_column : model input data  
y_column : model predict data

In [83]:
X_column = ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
y_column = 'Age'

사용가능한 데이터를 select 하는 과정을 거칠 것이다

In [84]:
print(df['Survived'].unique())
print(df['Survived'].nunique())

[0 1]
2


Survieved=0 고령층 -> Age = 나이 높게 예측 

Survieved=1 젋은 사람 -> Age = 나이 젊게 예측 

data의 분포를 그릴 수 있는 적절한 개수(attribute)라면 사용이 가능하다 

**i.e. 데이터 전체 개수 = Unique한 종류 개수 ----> 모델 학습에 도움이 되지 않음, 삭제!**

In [85]:
print(df['Fare'].unique())
print(df['Fare'].nunique())

[ 61.175   10.5     29.7    247.5208 113.275   71.2833  13.      27.75
  25.5875  51.8625  76.2917   7.65    79.2      0.     110.8833  26.
 153.4625  55.9     63.3583]
19


*   PassengerId : 20, data 전체 개수와 같음, 구분에 의미가 없다 -----> **단항분포 Uniform Distribution**
*   Name : 모든 승객의 이름이 다름, NLP에서는 도움이 되도록 사용할 수 있긴 하다..
*   Fare : Biased, 너무 치우친 값 -----> **정규분포, 다항분포일때 학습이 잘 된다!** 

In [86]:
X_column = ['Survived', 'Pclass', 'Sex', 'SibSp',
       'Parch', 'Embarked']
y_column = 'Age'

최종적으로 모델에 사용할 컬럼 (column, featrue)를 결정한다 

In [87]:
# y_column은 scalar 형태 -> [], convert list 
# copy() -> Memory, df data에 손상을 주지 않기 위해서
input_data = df[X_column + [y_column]].copy()  
input_data

Unnamed: 0,Survived,Pclass,Sex,SibSp,Parch,Embarked,Age
0,0,1,male,1,0,S,46.0
1,0,2,female,0,0,S,57.0
2,0,1,male,0,0,C,58.0
3,1,1,female,0,1,C,50.0
4,0,1,male,0,2,C,58.0
5,1,1,female,1,0,C,38.0
6,1,2,male,0,0,S,34.0
7,0,1,male,0,0,C,30.0
8,0,1,male,0,0,S,47.0
9,0,1,male,0,0,S,54.0


## **2. 모델에 입력할 데이터 타입 변환**
 numeric value 숫자만 가능하다, int, float

In [88]:
input_data.dtypes 

Survived      int64
Pclass        int64
Sex          object
SibSp         int64
Parch         int64
Embarked     object
Age         float64
dtype: object

In [89]:
input_data['Sex'] = input_data['Sex'].replace({'female' : 0, 'male' : 1})
input_data['Sex']

0     1
1     0
2     1
3     0
4     1
5     0
6     1
7     1
8     1
9     1
10    0
11    1
12    1
13    1
14    1
15    1
16    0
17    0
18    1
19    1
Name: Sex, dtype: int64

In [90]:
input_data['Embarked'].unique

<bound method Series.unique of 0     S
1     S
2     C
3     C
4     C
5     C
6     S
7     C
8     S
9     S
10    C
11    S
12    C
13    S
14    C
15    S
16    S
17    S
18    S
19    C
Name: Embarked, dtype: object>

In [91]:
input_data['Embarked'] = input_data['Embarked'].replace({'S' : 0, 'C' : 1})
input_data['Embarked']

0     0
1     0
2     1
3     1
4     1
5     1
6     0
7     1
8     0
9     0
10    1
11    0
12    1
13    0
14    1
15    0
16    0
17    0
18    0
19    1
Name: Embarked, dtype: int64

In [92]:
input_data.dtypes

Survived      int64
Pclass        int64
Sex           int64
SibSp         int64
Parch         int64
Embarked      int64
Age         float64
dtype: object

## **3. 학습 데이터 준비**
모델 학습을 위해 필요한 세 가지 데이터 
1. train data 학습 
   * train data 
   * validation data, 학습 하는 도중에 실행하는 성능평가 
2. test data 모델 성능 평가

Our Total Data = 20 개 

16개 -> Train -> train(12), validation(4) 

4개 -> test

In [97]:
# 데이터 -> train/valid , test
from sklearn.model_selection import train_test_split

tr_val_X, test_X, tr_val_y, test_y = train_test_split(
    input_data[X_column], # X 입력 데이터 -> tr_val_X, test_X
    input_data[y_column], # y 정답 데이터 -> tr_val_y, test_y
    test_size = 0.2,      # 80% / 20% 보통은 8:2, 7.5:2.5 (conventional)
    #train_size = 13,       개수를 명시적으로 작성
    shuffle=True,         # 랜덤하게 섞어서 split
    random_state=42)      # 실험할 때마다 값이 바뀌므로 seed 값을 고정하면 항상 동일한 방식으로 sampling가능 

많은 양의 data라면 train_size = 30 정도로 train에 대한 성능 먼저 체크해볼 수 있다 

In [94]:
tr_val_data = pd.concat([tr_val_X, tr_val_y], axis=1)
tr_val_data

Unnamed: 0,Survived,Pclass,Sex,SibSp,Parch,Embarked,Age
8,0,1,1,0,0,0,47.0
5,1,1,0,1,0,1,38.0
11,0,3,1,0,0,0,19.0
3,1,1,0,0,1,1,50.0
18,0,1,1,1,0,0,50.0
16,1,1,0,0,1,0,58.0
13,0,1,1,0,0,0,39.0
2,0,1,1,0,0,1,58.0
9,0,1,1,0,0,0,54.0
19,1,1,1,0,1,1,23.0


In [95]:
# train / valid data로 split 
train_X, valid_X, train_y, valid_y = train_test_split(
    tr_val_data[X_column], # X 입력 데이터 - > train_X, valid_X
    tr_val_data[y_column], # Y 정답 데이터 -> train_y, valid_y
    test_size = 0.2, 
    shuffle=True,
    random_state=42)

In [96]:
print(len(train_X))
print(len(valid_X))
print(len(test_X))
len(train_X) + len(valid_X) + len(test_X) # 20

12
4
4


20

## **4. 본격적인 모델 학습의 시작!**
Decision Tree, Random Forest, XGB, CATBOOST

In [98]:
from sklearn.ensemble import RandomForestRegressor # 참고로 RandomForest 모델은 validation을 할 수 없다

model_rf = RandomForestRegressor()
model_rf.fit(train_X, train_y) # train_X를 넣었을 때 정답 train_y가 나오도록 학습

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=100, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

In [99]:
display(test_X, test_y)

Unnamed: 0,Survived,Pclass,Sex,SibSp,Parch,Embarked
0,0,1,1,1,0,0
17,1,2,0,0,0,0
15,0,2,1,0,2,0
1,0,2,0,0,0,0


0     46.0
17    29.0
15    36.5
1     57.0
Name: Age, dtype: float64

In [100]:
# 정답 값을 의미, 이해하기 쉽게 변수명 설정
true_y = test_y
true_y

0     46.0
17    29.0
15    36.5
1     57.0
Name: Age, dtype: float64

In [101]:
# prediction (예측) -> model로 예측한 정답 값 
pred_y = model_rf.predict(test_X)
pred_y

array([48.59333333, 36.9275    , 49.47      , 42.27583333])

In [102]:
# 정답값(true_y) 와 예측값(pred_y)를 한눈에 보기 위한 function
df_result = pd.DataFrame(list(zip(test_Y, pred_y)), columns=['true_y', 'pred_y'])
df_result

Unnamed: 0,true_y,pred_y
0,46.0,48.593333
1,29.0,36.9275
2,36.5,49.47
3,57.0,42.275833


실제로는 data의 양이 방대하기 때문에 평가 module을 사용한다

**report -> input data, model, 평가 mse/rmse값 에 대해 report**

In [103]:
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(true_y, pred_y) # 정답값 대비 예측값이 틀린 정도를 봄 
mse

113.64815451388891

In [104]:
# RMSE root mean, 에러율
rmse = np.sqrt(mse)
rmse

10.660588844613082

## **Ex_ xgboost**

In [105]:
from xgboost import XGBRegressor # 학습 도중 validation이 가능하여 더 좋은 예측을 가질 수 있다 

model_xgb = XGBRegressor()
model_xgb.fit(train_X, train_y, eval_set=[(valid_X, valid_y)])

[0]	validation_0-rmse:44.3522
[1]	validation_0-rmse:41.0197
[2]	validation_0-rmse:37.9999
[3]	validation_0-rmse:35.2644
[4]	validation_0-rmse:32.8644
[5]	validation_0-rmse:30.6151
[6]	validation_0-rmse:28.5801
[7]	validation_0-rmse:26.7967
[8]	validation_0-rmse:25.2461
[9]	validation_0-rmse:23.7229
[10]	validation_0-rmse:22.4325
[11]	validation_0-rmse:21.2149
[12]	validation_0-rmse:20.1422
[13]	validation_0-rmse:19.1541
[14]	validation_0-rmse:18.2235
[15]	validation_0-rmse:17.3767
[16]	validation_0-rmse:16.6017
[17]	validation_0-rmse:15.8987
[18]	validation_0-rmse:15.2777
[19]	validation_0-rmse:14.7117
[20]	validation_0-rmse:14.1964
[21]	validation_0-rmse:13.7276
[22]	validation_0-rmse:13.3016
[23]	validation_0-rmse:12.9147
[24]	validation_0-rmse:12.5636
[25]	validation_0-rmse:12.2452
[26]	validation_0-rmse:11.9753
[27]	validation_0-rmse:11.7122
[28]	validation_0-rmse:11.4739
[29]	validation_0-rmse:11.2582
[30]	validation_0-rmse:11.0629
[31]	validation_0-rmse:10.7249
[32]	validation_0-

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)

In [106]:
# prediction (예측)
xgb_pred_y = model_xgb.predict(test_X)
xgb_pred_y

array([49.763065, 30.137949, 53.59378 , 30.664843], dtype=float32)

In [107]:
df_result = pd.DataFrame(list(zip(test_Y, xgb_pred_y)), columns=['true_y', 'xgb_pred_y'])
df_result 

Unnamed: 0,true_y,xgb_pred_y
0,46.0,49.763065
1,29.0,30.137949
2,36.5,53.593781
3,57.0,30.664843


In [108]:
mse = mean_squared_error(true_y, xgb_pred_y)
print(mse)

rmse = np.sqrt(mse)
print(rmse)

250.29835900351281
15.820820427636262
