# Cross Validation

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import svm

In [2]:
X, y = datasets.load_iris(return_X_y=True)
X.shape, y.shape

((150, 4), (150,))

In [11]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.4, random_state=0)

print( X_train.shape, y_train.shape )
print( X_test.shape, y_test.shape )

(90, 4) (90,)
(60, 4) (60,)


In [12]:
clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
clf.score(X_test, y_test) # 직접 train_set과 test_set을 나누어 평가, holdout 방식

0.9666666666666667

In [13]:
from sklearn.model_selection import cross_val_score
clf = svm.SVC(kernel='linear', C=1, random_state=42)
scores = cross_val_score(clf, X, y, cv=5) #cv를 추가하여 scoring!
scores

array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])

In [14]:
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))

0.98 accuracy with a standard deviation of 0.02


In [16]:
from sklearn.model_selection import ShuffleSplit
n_samples = X.shape[0]
cv = ShuffleSplit(n_splits=5, test_size=0.1, random_state=0) #split을 직접하도록 입력
scores = cross_val_score(clf, X, y, cv=cv)
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))

0.99 accuracy with a standard deviation of 0.03


In [17]:
from sklearn.model_selection import ShuffleSplit
n_samples = X.shape[0]
cv = ShuffleSplit(n_splits=5, test_size=0.95, random_state=0) # test_size를 극단적으로 키워봄
scores = cross_val_score(clf, X, y, cv=cv)
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))

0.86 accuracy with a standard deviation of 0.11


In [18]:
from sklearn import preprocessing
from sklearn.pipeline import make_pipeline
clf = make_pipeline(preprocessing.StandardScaler(), svm.SVC(C=1)) #pipeline도 활용할 수 있음
scores = cross_val_score(clf, X, y, cv=cv)
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))

0.67 accuracy with a standard deviation of 0.05


In [19]:
from sklearn.model_selection import cross_validate
from sklearn.metrics import recall_score
scoring = ['precision_macro', 'recall_macro'] # 여러가지 scoring 방식을 사용
clf = svm.SVC(kernel='linear', C=1, random_state=0)
scores = cross_validate(clf, X, y, scoring=scoring) #scoring 방식을 입력. 기존에 입력을 안해주었는데, 그렇다면? estimator(SCV)의 default scoring 방식(Mean accuracy)을 사용
scores

{'fit_time': array([0.00099659, 0.00198078, 0.0009973 , 0.        , 0.00099659]),
 'score_time': array([0.00300837, 0.00099802, 0.00099683, 0.00199509, 0.00099659]),
 'test_precision_macro': array([0.96969697, 1.        , 0.96969697, 0.96969697, 1.        ]),
 'test_recall_macro': array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])}

In [20]:
scores['test_recall_macro']

array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])

In [21]:
import numpy as np
from sklearn.model_selection import KFold

rkf = KFold(n_splits=5) #default는 shuffle을 안하는 것. 성능이 낮을 수 있음.
for train, test in rkf.split(X, y):
    clf = svm.SVC(kernel='linear', C=1).fit(X[train], y[train])
    score = clf.score(X[test], y[test])
    print(score)

1.0
1.0
0.8666666666666667
1.0
0.8666666666666667


In [22]:
train

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119])

In [23]:
test

array([120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132,
       133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145,
       146, 147, 148, 149])

In [24]:
from sklearn.model_selection import StratifiedKFold, KFold

X, y = np.ones((50, 1)), np.hstack(([0] * 45, [1] * 5))

In [25]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 1])

In [26]:
kf = KFold(n_splits=3)
for train, test in kf.split(X, y):
    print('train -  {}   |   test -  {}'.format(
        np.bincount(y[train]), np.bincount(y[test]))) # y가 0인 개수, 1인 개수 count. 클래스 1이 쏠려있는 것을 볼 수 있음.

train -  [28  5]   |   test -  [17]
train -  [28  5]   |   test -  [17]
train -  [34]   |   test -  [11  5]


In [27]:
y[train]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [28]:
y[test]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1])

In [29]:
skf = StratifiedKFold(n_splits=3)
for train, test in skf.split(X, y):
    print('train -  {}   |   test -  {}'.format(
        np.bincount(y[train]), np.bincount(y[test])))

train -  [30  3]   |   test -  [15  2]
train -  [30  3]   |   test -  [15  2]
train -  [30  4]   |   test -  [15  1]


In [30]:
y[train]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1])

In [31]:
y[test]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1])

# K를 결정하는 방법

In [32]:
X[140:].shape, y[:140].shape

((0, 1), (50,))

In [33]:
from sklearn.model_selection import cross_val_score

X, y = datasets.load_iris(return_X_y=True)

for k in range(2, 6):
  kf = KFold(n_splits=k, shuffle=True)
  scores = []
  for train, test in kf.split(X, y):
    clf = svm.SVC(kernel='linear', C=1).fit(X[train], y[train])
    scores.append(clf.score(X[test], y[test]))
  print('when k is', k, ':', np.mean(scores), np.std(scores))

#print(clf.score(X[140:], y[140:]))

when k is 2 : 0.9733333333333334 0.013333333333333364
when k is 3 : 0.9533333333333333 0.024944382578492918
when k is 4 : 0.9866642958748222 0.013338074706322667
when k is 5 : 0.9733333333333334 0.03265986323710904


In [36]:
from sklearn.model_selection import cross_val_score
from sklearn.utils import shuffle

X, y = datasets.load_iris(return_X_y=True)
X, y = shuffle(X, y, random_state=0) # 데이터가 잘 섞여있지 않아서 shuffle 추가

for k in range(2, 6):
    kf = KFold(n_splits=k, shuffle=True)
    scores = []
    for train, test in kf.split(X[:140], y[:140]): # 학습데이터와 시험셋 구분
        clf = svm.SVC(kernel='linear', C=1).fit(X[train], y[train])
        scores.append(clf.score(X[test], y[test]))
    print('when k is', k, ':', np.mean(scores), np.std(scores))
    print(' test score :', clf.score(X[140:], y[140:])) # 나머지 10개의 데이터로 시험셋에 활용

when k is 2 : 0.9714285714285715 0.01428571428571429
 test score : 0.9
when k is 3 : 0.9929078014184397 0.010029883421085795
 test score : 0.9
when k is 4 : 0.9857142857142858 0.01428571428571429
 test score : 0.9
when k is 5 : 0.9785714285714286 0.028571428571428557
 test score : 0.9


In [38]:
from sklearn.model_selection import cross_val_score
from sklearn.utils import shuffle

X, y = datasets.load_iris(return_X_y=True)
X, y = shuffle(X, y, random_state=0) 

for k in range(2, 6):
    kf = KFold(n_splits=k, shuffle=True)
    scores = []
    for train, test in kf.split(X[:140], y[:140]):
        clf = svm.SVC(kernel='linear', C=0.001).fit(X[train], y[train]) # 학습이 잘 안되도록 C를 변경
        scores.append(clf.score(X[test], y[test]))
    print('when k is', k, ':', np.mean(scores), np.std(scores))
    print(' test score :', clf.score(X[140:], y[140:]))

when k is 2 : 0.2785714285714286 0.007142857142857145
 test score : 0.4
when k is 3 : 0.27104532839962997 0.03793912424497664
 test score : 0.4
when k is 4 : 0.2928571428571428 0.06507452556531644
 test score : 0.4
when k is 5 : 0.34285714285714286 0.11866605518454391
 test score : 0.5


# Optimizaton

## 1. GridSearch

In [39]:
search_grid = { 
    'C': [0.1, 1, 10, 100], 
    'gamma': [0.1, 0.01 ,0.001], 
    'kernel': ['rbf', 'poly', 'linear']
    }

In [40]:
from scipy.stats import loguniform

{
  'C': loguniform(1e-1, 1e3),
  'gamma': loguniform(1e-4, 1e-1),
  'kernel': ['rbf', 'linear']
}

{'C': <scipy.stats._distn_infrastructure.rv_frozen at 0x247dffdbbe0>,
 'gamma': <scipy.stats._distn_infrastructure.rv_frozen at 0x247dffdb7f0>,
 'kernel': ['rbf', 'linear']}

In [41]:
%%time

from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV

iris = datasets.load_iris()
clf = svm.SVC()
clf.fit(iris.data, iris.target)

Wall time: 6.98 ms


SVC()

In [42]:
%%time

from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV

iris = datasets.load_iris()
parameters = search_grid
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)
clf.fit(iris.data, iris.target)
print(clf.best_params_)

{'C': 0.1, 'gamma': 0.1, 'kernel': 'poly'}
Wall time: 415 ms


In [43]:
clf.best_params_

{'C': 0.1, 'gamma': 0.1, 'kernel': 'poly'}

## 2. Random Search

In [44]:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
iris = load_iris()
logistic = LogisticRegression(solver='saga', tol=1e-2, max_iter=200,
                               random_state=0)
distributions = dict(C=uniform(loc=0, scale=4),
                     penalty=['l2', 'l1'])
clf = RandomizedSearchCV(logistic, distributions, random_state=0)
search = clf.fit(iris.data, iris.target)
search.best_params_

{'C': 2.195254015709299, 'penalty': 'l1'}

## 3. Bayesian Optimization

In [45]:
!pip install scikit-optimize

Collecting scikit-optimize
  Downloading scikit_optimize-0.8.1-py2.py3-none-any.whl (101 kB)
Collecting pyaml>=16.9
  Downloading pyaml-21.8.3-py2.py3-none-any.whl (17 kB)

You should consider upgrading via the 'c:\users\82109\anaconda3\python.exe -m pip install --upgrade pip' command.



Installing collected packages: pyaml, scikit-optimize
Successfully installed pyaml-21.8.3 scikit-optimize-0.8.1


In [46]:
%%time

from skopt import BayesSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

X, y = load_digits(n_class=10, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.75, test_size=.25, random_state=0)

# log-uniform: understand as search over p = exp(x) by varying x
opt = BayesSearchCV(
    SVC(),
    {
        'C': (1e-6, 1e+6, 'log-uniform'),
        'gamma': (1e-6, 1e+1, 'log-uniform'),
        'degree': (1, 8),  # integer valued parameter
        'kernel': ['linear', 'poly', 'rbf'],  # categorical parameter
    },
    n_iter=32,
    cv=3
)

opt.fit(X_train, y_train)

print("val. score: %s" % opt.best_score_)
print("test score: %s" % opt.score(X_test, y_test))

val. score: 0.9829250185597624
test score: 0.9822222222222222
Wall time: 1min 1s


# 예제

## Pipeline과 Optimization을 사용한 ML Pipeline 만들기

- Zillow 데이터셋
  - Zillow의 Zestimate 주택 가치 평가는 11년 전에 처음 발표된 이후로 미국 부동산 업계를 뒤흔들었습니다. Zestimate는 소비자에게 주택과 주택 시장에 대한 가능한 한 많은 정보를 제공하기 위해 만들어졌으며, 소비자가 이러한 유형의 주택 가치 정보에 무료로 액세스할 수 있었던 최초의 사례입니다. 각 부동산에 대한 수백 개의 데이터 포인트를 분석하는 750만 개의 통계 및 기계 학습 모델을 기반으로 추정되는 주택 가치입니다. 그리고 중앙값 오차 범위를 지속적으로 개선함으로써(초기 14%에서 오늘날 5%로) Zillow는 이후 미국에서 가장 크고 가장 신뢰할 수 있는 부동산 정보 시장 중 하나로 자리 잡았으며 기계학습의 영향력을 볼 수 있는 대표적인 사례가 되었습니다.
  - 백만 달러의 대상이 있는 대회인 Zillow Prize는 Zestimate의 정확성을 더욱 높일 수 있도록 데이터 과학 커뮤니티에 도전하고 있습니다. 우승 알고리즘은 미국 전역의 1억 1천만 가구의 주택 가치에 영향을 미칠 것입니다.

![](https://storage.googleapis.com/kaggle-competitions/kaggle/6649/media/_zillow_image_2.jpg)

- 학습/테스트 분할
  - 2016년 3개 카운티 데이터의 전체 부동산 목록이 제공됩니다.
    - train data에는 2016년 10월 15일 이전의 모든 거래와 2016년 10월 15일 이후의 일부 거래가 있습니다.
    - 공개 리더보드의 test data에는 2016년 10월 15일에서 12월 31일 사이의 나머지 거래가 있습니다.
    - 비공개 순위표 계산에 사용되는 rest of test data는 2017년 10월 15일부터 2017년 12월 15일까지의 모든 속성입니다. 이 기간을 "판매 추적 기간"이라고 하며 이 기간 동안에는 모든 제출을 허용하지 않습니다.
    - 모든 속성에 대해 6개의 시점을 예측해야 합니다.
      - 모든 부동산이 각 기간에 판매되는 것은 아닙니다. 특정 기간 동안 부동산이 판매되지 않은 경우 점수를 계산할 때 해당 특정 행은 무시됩니다.
      - 부동산이 31일 이내에 여러 번 판매되는 경우 첫 번째 합리적인 가치를 사실로 간주합니다. "합리적"이라는 말은 데이터가 잘못된 것 같으면 더 합리적인 값을 가진 거래를 취한다는 의미입니다.

- 파일 설명
- properties_2016.csv - 2016년에 대한 집의 특징이 있는 모든 속성. 
- properties_2017.csv - 2017년에 대한 집의 특징이 있는 모든 속성
- train_2016.csv - 2016년 1월 1일부터 2016년 12월 31일까지의 트랜잭션이 있는 학습셋
- train_2017.csv - 2017년 1월 1일부터 2017년 9월 15일까지의 트랜잭션이 있는 학습셋
- sample_submission.csv - 올바른 형식의 제출 파일 샘플

In [47]:
import numpy as np
import pandas as pd
import lightgbm as lgb
from lightgbm import LGBMRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.feature_selection import SelectKBest, VarianceThreshold
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.preprocessing import PolynomialFeatures, StandardScaler, OneHotEncoder, MinMaxScaler
from sklearn.impute import SimpleImputer
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
import os
import time

import warnings
warnings.filterwarnings("ignore")

In [48]:
train = pd.read_csv("/content/drive/MyDrive/21_ls/data/zillow_train_2016_v2.csv")
properties = pd.read_csv('/content/drive/MyDrive/21_ls/data/zillow_properties_2016.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/21_ls/data/zillow_train_2016_v2.csv'

In [None]:
train

In [None]:
properties

In [None]:
properties[['propertyzoningdesc', 'propertycountylandusecode', 'fireplacecnt', 'fireplaceflag']]
# 앞의 둘은 지역에 대한 정보인데, 그것은 다른 feature로도 주소에 대한 설명이 충분하고, 이 둘이 처리하기 힘든 형태이므로 제거
# fire에 관한건데, 결측치도 많고 집값에 영향이 적을 것이라 생각하여 제거

In [None]:
for c, dtype in zip(properties.columns, properties.dtypes):	
    if dtype == np.float64:
        properties[c] = properties[c].astype(np.float32) # lightGBM에 친화적인 포맷으로 변경

In [None]:
df_train = (train.merge(properties, how='left', on='parcelid')
            .drop(['parcelid', 'transactiondate', 'propertyzoningdesc', 
                         'propertycountylandusecode', 'fireplacecnt', 'fireplaceflag'], axis=1))

train_columns = df_train.columns # df_train의 column들을 학습에 사용할 column들로 지정해주기 위해서 따로 변수에 담음

In [None]:
df_train

In [None]:
valid = df_train.iloc[1:20000, :] #우리가 예측해야하는 것이 10월 15일-12월 15일의 데이터이기 때문에, 이 기간의 정보를 학습하기 위해서 valid를 뒤쪽이 아닌 앞쪽을 다름
train = df_train.iloc[20001:90275, :] # 시간으로 정렬되어있기 때문에, 순차적으로 데이터를 나누어줌. 

y_train = train['logerror'].values # 우리가 예측하고자 하는 값`
y_valid = valid['logerror'].values

x_train = train.drop('logerror', axis = 1)
x_valid = valid.drop('logerror', axis = 1)

idVars = [i for e in ['id',  'flag', 'has'] for i in list(train_columns) if e in i] + ['fips', 'hashottuborspa'] # categorical
countVars = [i for e in ['cnt',  'year', 'nbr', 'number'] for i in list(train_columns) if e in i] # discrete 
taxVars = [col for col in train_columns if 'tax' in col and 'flag' not in col] # tax 
          
ttlVars = idVars + countVars + taxVars
dropVars = [i for e in ['census',  'tude', 'error'] for i in list(train_columns) if e in i] # 인구조사 자료, 위도/경도, logerror 값 제외
contVars = [col for col in train_columns if col not in ttlVars + dropVars] # continus feature (tax를 제외한)

for c in x_train.dtypes[x_train.dtypes == object].index.values: # array(['hashottuborspa', 'taxdelinquencyflag'], dtype=object) / True와 NaN으로 구성되어있는 데이터 / dtype('O') -> dtype('bool')
    x_train[c] = (x_train[c] == True)
    
for c in x_valid.dtypes[x_valid.dtypes == object].index.values:
    x_valid[c] = (x_valid[c] == True)   


In [None]:
df_train[idVars] #float32 이기에 소수점으로 표현된 것

In [None]:
df_train[countVars]

In [None]:
print(contVars)

x_train_cont = x_train[contVars]
x_valid_cont = x_valid[contVars]

In [None]:
%%time

pipeline = Pipeline(
    [('imp', SimpleImputer(strategy = 'median')),
     ('feat_select', SelectKBest(k = 5)), # k개의 best feature를 선택하는 것, default score_func: f_classif / ANOVA(=Analysis of variance, 분산 분석)
     ('lgbm', LGBMRegressor())                
])

pipeline.fit(x_train_cont, y_train)

y_pred = pipeline.predict(x_valid_cont)
print('MAE on validation set: %s' % (round(mean_absolute_error(y_valid, y_pred), 5))) #MAE

In [None]:
%%time

pipeline = Pipeline(
    [('imp', SimpleImputer()),
      ('feat_select', SelectKBest()),
      ('lgbm', LGBMRegressor())
                     
])

parameters = {
    'imp__strategy': ['mean', 'median', 'most_frequent'],
    'feat_select__k' : [5, 10]
} 

gridsearch = GridSearchCV(pipeline, parameters, scoring = 'neg_mean_absolute_error', n_jobs= 1)
gridsearch.fit(x_train_cont, y_train)   

print('Best parameter combination is ')
print(gridsearch.best_params_)    

y_pred = gridsearch.predict(x_valid_cont)
print('MAE on validation set: %s' % (round(mean_absolute_error(y_valid, y_pred), 5)))

In [None]:
print(taxVars)

x_train_tax = x_train[taxVars]
x_valid_tax = x_valid[taxVars]

In [None]:
%%time

pipeline = Pipeline(
    [('imp', SimpleImputer()),
      ('feat_select', SelectKBest()),
      ('lgbm', LGBMRegressor())
                     
])

parameters = {
    'imp__strategy': ['mean', 'median', 'most_frequent'],
    'feat_select__k' : [5, 10]
} 

gridsearch = GridSearchCV(pipeline, parameters, scoring = 'neg_mean_absolute_error', n_jobs= 1)
gridsearch.fit(x_train_tax, y_train)   

print('Best parameter combination is ')
print(gridsearch.best_params_)    

y_pred = gridsearch.predict(x_valid_tax)
print('MAE on validation set: %s' % (round(mean_absolute_error(y_valid, y_pred), 5)))

In [None]:
print(contVars+taxVars)

x_train_ct = x_train[contVars+taxVars]
x_valid_ct = x_valid[contVars+taxVars]

In [None]:
%%time

pipeline = Pipeline(
    [('imp', SimpleImputer()),
      ('feat_select', SelectKBest()),
      ('lgbm', LGBMRegressor())
                     
])

parameters = {
    'imp__strategy': ['mean', 'median', 'most_frequent'],
    'feat_select__k' : [5, 10]
} 

gridsearch = GridSearchCV(pipeline, parameters, scoring = 'neg_mean_absolute_error', n_jobs= 1)
gridsearch.fit(x_train_ct, y_train)   

print('Best parameter combination is ')
print(gridsearch.best_params_)    

y_pred = gridsearch.predict(x_valid_ct)
print('MAE on validation set: %s' % (round(mean_absolute_error(y_valid, y_pred), 5)))

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

class ColumnSelector(BaseEstimator, TransformerMixin):
    def __init__(self, subset):
        self.subset = subset

    def transform(self, X, *_):
        return X.loc[:, self.subset]

    def fit(self, *_):
        return self

In [None]:
pipeline = Pipeline([
        
    ('unity', FeatureUnion(
        transformer_list=[
            ('cont_portal', Pipeline([
                ('selector', ColumnSelector(contVars)),
                ('cont_imp', SimpleImputer(strategy = 'median')),
                #('scaler', StandardScaler())             
            ])),
            ('tax_portal', Pipeline([
                ('selector', ColumnSelector(taxVars)),
                ('tax_imp', SimpleImputer(strategy = 'most_frequent')),
                #('scaler', MinMaxScaler(copy=True, feature_range=(0, 3)))
            ])),
        ],
    )),
    ('column_purge', SelectKBest(k = 5)),    
    ('lgbm', LGBMRegressor()),
])

parameters = {
    'column_purge__k' : [5, 10],
    'lgbm__num_leaves': [5, 15, 30], # default 31
    'lgbm__reg_alpha ': [0.01, 0], # default 0
    'lgbm__reg_lambda': [0.01, 0] # default 0
}

grid = GridSearchCV(pipeline, parameters, scoring = 'neg_mean_absolute_error', n_jobs= 2)
grid.fit(x_train, y_train)   

print('Best parameter combination is ')

print(grid.best_params_)    

y_pred = grid.predict(x_valid)
print('MAE on validation set: %s' % (round(mean_absolute_error(y_valid, y_pred), 5)))

In [None]:
from sklearn import svm
from sklearn import datasets

clf = svm.SVC()
X, y= datasets.load_iris(return_X_y=True)
clf.fit(X, y)

In [None]:
import pickle

s = pickle.dumps(clf)

clf2 = pickle.loads(s)
clf2.predict(X[0:1])

In [None]:
s

In [None]:
pickle.dump(clf, open('classifier.pickle', 'wb'))

clf2 = pickle.load(open('classifier.pickle', 'rb'))
clf2.predict(X[0:1])

In [None]:
with open('classifier.pickle', 'wb') as f:
    pickle.dump(clf, f)

with open('classifier.pickle', 'rb') as f:
    clf2 = pickle.load(f)

clf2.predict(X[0:1])

In [None]:
with open('grid.pickle', 'wb') as f:
    pickle.dump(grid, f)

with open('grid.pickle', 'rb') as f:
    grid_loaded = pickle.load(f)

grid_loaded

In [None]:
y_pred = grid.predict(x_valid)
print('MAE on validation set: %s' % (round(mean_absolute_error(y_valid, y_pred), 5)))

In [None]:
from sklearn.externals import joblib

joblib.dump(grid.best_estimator_, 'grid.pkl')

In [None]:
grid_loaded = joblib.load('grid.pkl')
grid_loaded

In [None]:
import joblib

joblib.dump(grid.best_estimator_, 'grid.pkl')
grid_loaded = joblib.load('grid.pkl')
grid_loaded

## Bayesian Opt

In [None]:
!pip install bayesian-optimization
!pip install catboost

In [None]:
import warnings
warnings.filterwarnings('ignore')
from sklearn.preprocessing import LabelEncoder
import numpy as np
import pandas as pd
import lightgbm
from bayes_opt import BayesianOptimization
from catboost import CatBoostClassifier, cv, Pool

In [None]:
train_df = pd.read_csv('/content/drive/MyDrive/21_ls/data/flight_delays_train.csv')
test_df = pd.read_csv('/content/drive/MyDrive/21_ls/data/flight_delays_test.csv')

train_df = train_df[train_df.DepTime <= 2400].copy() # departure time 을 기준으로 자름. 24시간 기준인데 이것을 넘어가는 것이 있어서.
y_train = train_df['dep_delayed_15min'].map({'Y': 1, 'N': 0}).values # delay가 15분 이상된 것(Y)는 1로, 아닌 것(N)은 0으로 정답을 삼아 문제를 설계

In [None]:
train_df

In [None]:
def label_enc(df_column):
    df_column = LabelEncoder().fit_transform(df_column)
    return df_column

def make_features_sin(value, period=2400): # 주기성을 띄는 것을 sin 함수로 전처리. ex: 시간
    value *= 2 * np.pi / period 
    return np.sin(value)

def make_features_cos(value, period=2400): # 주기성을 띄는 것을 cos 함수로 전처리. ex: 시간
    value *= 2 * np.pi / period 
    return np.cos(value)

def feature_engineering(df):
    df['flight'] = df['Origin']+df['Dest'] # 출발지 + 목적지
    df['Month'] = df.Month.map(lambda x: x.split('-')[-1]).astype('int32') # '-' 로 쪼개고 마지막에 있는 것만 사용, 정수형으로 변환
    df['DayofMonth'] = df.DayofMonth.map(lambda x: x.split('-')[-1]).astype('uint8') # '-' 로 쪼개고 마지막에 있는 것만 사용, 정수형으로 변환
    df['is_begin_of_month'] = (df['DayofMonth'] < 10).astype('uint8') # 월 초
    df['is_midddle_of_month'] = ((df['DayofMonth'] >= 10)&(df['DayofMonth'] < 20)).astype('uint8')
    df['is_end_of_month'] = (df['DayofMonth'] >= 20).astype('uint8') # 월 말
    df['DayOfWeek'] = df.DayOfWeek.map(lambda x: x.split('-')[-1]).astype('uint8') # 일주일 중 몇번째 날인지, 요일 -> 숫자버젼
    df['hour'] = df.DepTime.map(lambda x: x/100).astype('int32') # 출발 시간
    df['is_morning'] = df['hour'].map(lambda x: 1 if (x <= 11)& (x >= 7) else 0).astype('uint8') # 시간대 구분 -> 단순히 시간으로 안하고 시간대로 구분한다? -> continuous하지 않은 feature. why? 단순 비례/반비례 관계 외의 정보
    df['is_daytime'] = df['hour'].map(lambda x: 1 if (x >= 12) & (x <= 18) else 0).astype('uint8') # 시간대 구분
    df['is_evening'] = df['hour'].map(lambda x: 1 if (x >= 19) & (x <= 23) else 0).astype('uint8') # 시간대 구분
    df['is_night'] = df['hour'].map(lambda x: 1 if (x >= 0) & (x <= 6) else 0).astype('int32') # 시간대 구분
    df['is_winter'] = df['Month'].map(lambda x: x in [12, 1, 2]).astype('int32') # 계절 구분
    df['is_spring'] = df['Month'].map(lambda x: x in [3, 4, 5]).astype('int32') # 계절 구분
    df['is_summer'] = df['Month'].map(lambda x: x in [6, 7, 8]).astype('int32') # 계절 구분
    df['is_autumn'] = df['Month'].map(lambda x: x in [9, 10, 11]).astype('int32') # 계절 구분
    df['is_holiday'] = (df['DayOfWeek'] >= 5).astype(int) # 주말
    df['is_weekday'] = (df['DayOfWeek'] < 5).astype(int) # 주중
    df['airport_dest_count'] = df.groupby(['Dest'])['Dest'].transform('count') # 해당 목적지를 향하는 총 비행편 수
    df['airport_origin_count'] = df.groupby(['Origin'])['Origin'].transform('count') # 해당 출발지로부터의 총 비행편 수
    df['carrier_count'] = df.groupby(['UniqueCarrier'])['Dest'].transform('count') # 항공/운송업체 코드 (ex AA: American Airline) 의 목적지를 향하는 총 비행편 수
    df['airport_dest_per_month'] = df.groupby(['Dest', 'Month'])['Dest'].transform('count') # 해당 목적지를 향하는 비행편의 월 편 수
    df['airport_origin_per_month'] = df.groupby(['Origin', 'Month'])['Origin'].transform('count') # 해당 출발지로부터의 비행편의 월 편 수
    df['carrier_count_per month'] = df.groupby(['UniqueCarrier', 'Month'])['Dest'].transform('count') # 항공 코드의 목적지를 향하는 비행편의 월 편 수
    df['deptime_sin'] = df['DepTime'].map(make_features_sin) # 시간은 주기성이 있기에 sin으로 처리 (2400을 주기성으로, 근데 전처리에서 이미 해주긴 했음.)
    df['deptime_cos'] = df['DepTime'].map(make_features_cos) # 시간은 주기성이 있기에 sin으로 처리 
    df['flightUC'] = df['flight']+df['UniqueCarrier'] # 출발지 + 목적지 + 항공코드
    df['DestUC'] = df['Dest']+df['UniqueCarrier'] # 목적지 + 항공코드
    df['OriginUC'] = df['Origin']+df['UniqueCarrier'] # 출발지 + 항공코드
    return df.drop('DepTime', axis=1) # depature time은 제외하고 feature engineering한 것을 return

In [None]:
train_df['Origin'].value_counts()

In [None]:
train_df[train_df['Origin']=='ATL']

In [None]:
train_df.groupby(['Origin'])['Origin'].transform('count')

In [None]:
full_df = pd.concat([train_df.drop('dep_delayed_15min', axis=1), test_df])
full_df = feature_engineering(full_df) 

for column in ['UniqueCarrier', 'Origin', 'Dest','flight',  'flightUC', 'DestUC', 'OriginUC']: # categorical feature는 label encoding
    full_df[column] = label_enc(full_df[column])

X_train = full_df[:train_df.shape[0]]
X_test = full_df[train_df.shape[0]:]

In [None]:
X_train.head()

In [None]:
categorical_features = ['Month',  'DayOfWeek', 'UniqueCarrier', 'Origin', 'Dest','flight',  'flightUC', 'DestUC', 'OriginUC']

X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.33)

In [None]:
%time 

model = lgb.LGBMClassifier()
model.fit(X_train, y_train, categorical_feature=categorical_features)
model.score(X_valid, y_valid)

In [None]:
%%time

opt = BayesSearchCV(
    estimator = lgb.LGBMClassifier(),
    search_spaces= {
        'num_leaves': (15, 50),
        'lambda_l2': (0.0, 0.05),
        'lambda_l1': (0.0, 0.05),
        'min_child_samples': (50, 10000),
        'min_data_in_leaf': (100, 2000)
    },
    n_iter=32,
    cv=3
)

opt.fit(X_train, y_train)
opt.score(X_valid, y_valid)

In [None]:
print(opt.best_params_)