# 汎用スクリプト　base
概要：このファイルは①データ読み込み、②可視化、③前処理、④分析までを型化し、汎用利用を考えたもの

活用方法：記載されているコードをベースにし、プロセスごとにコードを整理し、データサイエンスプロセスを効率化




## ⓪ライブラリ読み込み

In [19]:
#データ加工ライブラリ
import pandas as pd

#可視化ライブラリ
import matplotlib.pyplot as plt
import seaborn as sns

#label encoding
from sklearn.preprocessing import LabelEncoder

#統計
from scipy import stats
from scipy.stats import norm, skew
from scipy.special import boxcox1p

import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings

#学習モデル

#線形モデル一覧　https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
#線形モデルの説明　https://scikit-learn.org/stable/modules/linear_model.html#linear-model

from sklearn.linear_model import ElasticNet, Lasso,  BayesianRidge, LassoLarsIC
from sklearn.ensemble import RandomForestRegressor,  GradientBoostingRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, clone
from sklearn.model_selection import KFold, cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error


# import xgboost as xgb
import xgboost as xgb
import lightgbm as lgb

XGBoostLibraryNotFound: Cannot find XGBoost Library in the candidate path, did you install compilers and run build.sh in root path?
List of candidates:
C:\Users\10696\AppData\Roaming\Python\Python37\site-packages\xgboost\xgboost.dll
C:\Users\10696\AppData\Roaming\Python\Python37\site-packages\xgboost\../../lib/xgboost.dll
C:\Users\10696\AppData\Roaming\Python\Python37\site-packages\xgboost\./lib/xgboost.dll
C:\Users\10696\AppData\Local\Continuum\anaconda3\xgboost\xgboost.dll
C:\Users\10696\AppData\Roaming\Python\Python37\site-packages\xgboost\../../windows/x64/Release/xgboost.dll
C:\Users\10696\AppData\Roaming\Python\Python37\site-packages\xgboost\./windows/x64/Release/xgboost.dll

## ①データ読み込み



## 進め方

■流れ
文字コードによって適切に読み込まれない場合がある場合は、以下の様に進める

①文字コードの特定(nkf)　②pandas.read_csvの引数指定

■文字コード

https://dev.classmethod.jp/tool/character-code-and-line-feed-code-converting-tools-matome/

■公式　pandas.read_csv

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html



In [None]:
#csvファイルの読み込み
df_train=pd.read_csv('train.csv')
df_test=pd.read_csv('test.csv')



## ②可視化


セルを右クリックして、variable inspectorを利用すると、データの表を確認できる

より複雑な可視化をする場合は、BIツールで実施したほうが費用対効果高そう

In [None]:
#列名の確認
print(df_train.columns)
print("-----------------------")

#目的変数の基本統計量確認
print(df_train['SalePrice'].describe())
print("-----------------------")

#目的変数をヒストグラムでの可視化
sns.distplot(df_train['SalePrice'])
plt.show()

#データフレーム情報　
#フレームの見方
# data_column(項目名) num(数が行数とあっていれば、欠損なし) int64,float64,object(object⇛質的変数　int,float⇛量的変数)

print("-----------------------")
print("データフレーム情報_train",df_train.info())

print("-----------------------")
print("データフレーム情報_test",df_test.info())

#相関ヒートマップ
corrmat=df_train.corr()
f,ax=plt.subplots(figsize=(12,9))
sns.heatmap(corrmat,vmax=0.8,square=True)
plt.show()

## ③前処理
各変数において必要な処理は以下のようになる。（個人的な理解）特徴量エンジニアリングの世界なので、まだ完全に定石手法を理解しきれていない、

①特徴選択

②特徴データに対する欠損対応

③適切なデータ変換(量⇛質　質⇛量)

③説明変数に対して、正規化対応

## 特徴選択

In [None]:
#目的変数と説明変数の相関高TOP10
#saleprice correlation matrix
k = 10 #number of variables for heatmap
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index

cm = np.corrcoef(df_train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

### 特徴量選択のロジック

まず'OverallQual','GrLivArea','TotalBsmtSF'は'SalePrice'への相関が高い。
　⇛特徴量に入れよう

'GarageCars' と'GarageArea'は目的変数に対して、相関が強い変数ではあるが、ガレージに入る車の数はガレージの広さの結果によるものであるので、多重共線性があるといえる。
　⇛どちらか一つを選択する必要があるので、目的変数への相関が強い'GarageCars'を選択する
 
'TotalBsmtSF' と'1stFloor'も多重共線性がありそう、'TotalBsmtSF'を残す。

'TotRmsAbvGrd' と'GrLivArea'も多重共線性がありそう



In [None]:
#特徴量選択
feature_column=['OverallQual', 'GarageCars', 'TotalBsmtSF', 'YearBuilt']

In [None]:
#散布図による確認
sns.set()
cols=['SalePrice','OverallQual','GrLivArea','GarageCars','TotalBsmtSF','FullBath','YearBuilt']
sns.pairplot(df_train[cols],height=2.5)
plt.show()


## 前処理

In [None]:
#check the numbers of samples and features
print("The train data size before dropping Id feature is : {} ".format(df_train.shape))
print("The test data size before dropping Id feature is : {} ".format(df_test.shape))

#Save the 'Id' column
train_ID = df_train['Id']
test_ID = df_test['Id']

#Now drop the  'Id' colum since it's unnecessary for  the prediction process.
df_train.drop("Id", axis = 1, inplace = True)
df_test.drop("Id", axis = 1, inplace = True)

#check again the data size after dropping the 'Id' variable
print("\nThe train data size after dropping Id feature is : {} ".format(df_train.shape)) 
print("The test data size after dropping Id feature is : {} ".format(df_test.shape))

## 欠損対応

In [None]:
#テストデータと学習データの結合
ntrain = df_train.shape[0]
ntest = df_test.shape[0]
y_train = df_train.SalePrice.values
all_data = pd.concat((df_train, df_test)).reset_index(drop=True)
all_data.drop(['SalePrice'], axis=1, inplace=True)
print("all_data size is : {}".format(all_data.shape))

#欠損値の確認
all_data_na = (all_data.isnull().sum() / len(all_data)) * 100
all_data_na = all_data_na.drop(all_data_na[all_data_na == 0].index).sort_values(ascending=False)[:30]
missing_data = pd.DataFrame({'Missing Ratio' :all_data_na})
missing_data.head(20)


#欠損対応 (データ項目説明参照)

#None置換
all_data["PoolQC"]=all_data["PoolQC"].fillna("None")
all_data["MiscFeature"]=all_data["MiscFeature"].fillna("None")
all_data["Alley"]=all_data["Alley"].fillna("None")
all_data["Fence"]=all_data["Fence"].fillna("None")
all_data["FireplaceQu"]=all_data["FireplaceQu"].fillna("None")

for col in ('GarageType','GarageFinish','GarageQual','GarageCond'):
    all_data[col]=all_data[col].fillna('None')
    
for col in ('BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2'):
    all_data[col] = all_data[col].fillna('None')
    
all_data["MasVnrType"] = all_data["MasVnrType"].fillna("None")
all_data['MSSubClass'] = all_data['MSSubClass'].fillna("None")

#0置換
for col in ('BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF','TotalBsmtSF', 'BsmtFullBath', 'BsmtHalfBath'):
    all_data[col]=all_data[col].fillna(0)
    
for col in ('GarageYrBlt', 'GarageArea', 'GarageCars'):
    all_data[col] = all_data[col].fillna(0)

all_data["MasVnrArea"] = all_data["MasVnrArea"].fillna(0)

#median置換 Neighthood(近所)でグループバイしてやれば、エリア毎のmedianを求めることができる
all_data['LotFrontage']=all_data.groupby("Neighborhood")["LotFrontage"].transform(lambda x:x.fillna(x.median()))

all_data['MSZoning']=all_data['MSZoning'].fillna(all_data['MSZoning'].mode()[0])

all_data['Electrical']=all_data['Electrical'].fillna(all_data['Electrical'].mode()[0])

all_data['KitchenQual']=all_data['KitchenQual'].fillna(all_data['KitchenQual'].mode()[0])

all_data['Exterior1st'] = all_data['Exterior1st'].fillna(all_data['Exterior1st'].mode()[0])
all_data['Exterior2nd'] = all_data['Exterior2nd'].fillna(all_data['Exterior2nd'].mode()[0])
all_data['SaleType'] = all_data['SaleType'].fillna(all_data['SaleType'].mode()[0])

#特定の値に置換
all_data["Functional"]=all_data["Functional"].fillna("Typ")

#列の削除
all_data=all_data.drop(['Utilities'],axis=1)

#欠損値のあるデータ項目がないか確認する
all_data_na = (all_data.isnull().sum() / len(all_data)) * 100
all_data_na = all_data_na.drop(all_data_na[all_data_na == 0].index).sort_values(ascending=False)
missing_data = pd.DataFrame({'Missing Ratio' :all_data_na})
missing_data.head()







## 量的変数から質的変数へ変換

In [None]:
all_data['MSSubClass']=all_data['MSSubClass'].apply(str)

all_data['OverallCond']=all_data['OverallCond'].astype(str)

all_data['YrSold']=all_data['YrSold'].astype(str)
all_data['MoSold']=all_data['MoSold'].astype(str)


## label encoding

In [None]:
cols = ('FireplaceQu', 'BsmtQual', 'BsmtCond', 'GarageQual', 'GarageCond', 
        'ExterQual', 'ExterCond','HeatingQC', 'PoolQC', 'KitchenQual', 'BsmtFinType1', 
        'BsmtFinType2', 'Functional', 'Fence', 'BsmtExposure', 'GarageFinish', 'LandSlope',
        'LotShape', 'PavedDrive', 'Street', 'Alley', 'CentralAir', 'MSSubClass', 'OverallCond', 
        'YrSold', 'MoSold')
# process columns, apply LabelEncoder to categorical features
# LabelEncoder:https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

for c in cols:
    lbl = LabelEncoder() 
    lbl.fit(list(all_data[c].values)) 
    all_data[c] = lbl.transform(list(all_data[c].values))

# shape        
print('Shape all_data: {}'.format(all_data.shape))

## 特徴量作成
地下から2階までの面積を総計して、新しい特徴量を作成する

In [None]:
all_data['TotalSF']=all_data['TotalBsmtSF']+all_data['1stFlrSF']+all_data['2ndFlrSF']

## 尖度チェック

In [None]:
#量的変数の抜き出し
numeric_feats=all_data.dtypes[all_data.dtypes !="object"].index

#尖度一覧
skewed_feats=all_data[numeric_feats].apply(lambda x: skew(x.dropna())).sort_values(ascending=False)
print("\nSkew in numerical features:\n")

skewness=pd.DataFrame({'Skew':skewed_feats})
skewness.head(10)

## BoxCox変換

In [None]:
#正規分布の形にしてくれるみたいだが、なぜそうなるのか理解できていない
skewness = skewness[abs(skewness) > 0.75]
print("There are {} skewed numerical features to Box Cox transform".format(skewness.shape[0]))


skewed_features = skewness.index
lam = 0.15
for feat in skewed_features:
    #all_data[feat] += 1
    all_data[feat] = boxcox1p(all_data[feat], lam)

## ダミー化

In [None]:
all_data=pd.get_dummies(all_data)
print(all_data.shape)

all_data.head(20)

## テストデータと学習データの用意

In [None]:
train=all_data[:ntrain]
test=all_data[ntrain:]

# モデル

## 交差検証

In [None]:
n_folds=5

def rmsle_cv(model):
    kd=KFold(n_folds,shuffle=True,random_state=42).get_n_splits(train.values)
    rmse=np.sqrt(-cross_val_score(model,train.values,y_train,scoring="neg_mean_squared_error",cv=kf))
    return(rmse)


## モデル実装

### LASSO
外れ値に弱いモデルなので、RobustScalerで対応する

In [None]:
lasso=make_pipeline(RobustScaler(),Lasso(alpha=0.0005,random_state=1))


### elastic net regression
外れ値対応

In [None]:
Enet=make_pipeline(RobustScaler(),ElasticNet(alpha=0.0005,l1_ratio=0.9,random_state=3))

### Kernel ridge regression

In [None]:
KRR=KernelRidge(alpha=0.6,kernel='polynomial',degree=2,coef0=2.5)

### Gradient Bossting regression

In [None]:
Gboost=GradientBoostingRegressor(n_estimators=3000,learning_rate=0.05,max_depth=4,max_features='sqrt',min_samples_leaf=15,min_samples_split=10,loss='huber',random_state=5)

### XGBoost

In [None]:
model_xgb=xgb.XGBRegressor(colsample_bytree=0.463,gamma=0.0468,learning_rate=0.05,max_depth=3,min_child_weight=1.7817,n_estimators=2200,reg_alpha=0.4640,reg_lambda=0.8571,subsample=0.5123,silent=1,random_state=7,nthread=-1)

### LightGBM

In [None]:
model_lgb=lgb.LGBMRegressor(objective='regression',num_leaves=5,learning_rate=0.05,n_estimators=720,max_bin=55,bagging_fraction=0.8,bagging_freq=5,feature_fraction=0.2319,feature_fraction_seed=9,bagging_seed=9,min_data_in_leaf=6,min_sum_hessian_in_leaf=11)

## モデルのスコア

### lasso

In [None]:
score=rmsle_cv(lasso)
print("\nLasso score:{:.4f} ({:.4f})\n".format(score.mean(),score.std()))

## 外れ値対応

In [None]:
#外れ値対応

saleprice_scaled=StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis])
low_range=saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]
high_range=saleprice_scaled[saleprice_scaled[:,0].argsort()[-10:]]
print("outer range (low) of the distribution")
print(low_range)
print("\n outer range (high) pf the destribution")
print(high_range)

var='GrLivArea'
data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)
data.plot.scatter(x=var,y='SalePrice',ylim=(0,8000000))
plt.show()



#外れ値を削除

df_train.sort_values(by='GrLivArea',ascending=False)[:2]
sns.distplot(df_train['GrLivArea'])
plt.show()

var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000));

var='TotalBsmtSF'
data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)
data.plot.scatter(x=var,y='SalePrice',ylim=(0,800000))
plt.show()

## データ確認

正規性

分散均一性

線形性

誤差相関







In [None]:
#ヒストグラムと正規確率分布
sns.distplot(df_train['SalePrice'],fit=norm)
fig=plt.figure()
res=stats.probplot(df_train['SalePrice'],plot=plt)
plt.show()

#データ変形
df_train['GrLivArea']=np.log(df_train['GrLivArea'])

#変形後のヒストグラムと正規確率分布
sns.distplot(df_train['GrLivArea'],fit=norm)
fig=plt.figure()
res=stats.probplot(df_train['GrLivArea'],plot=plt)
plt.show()

#histogram and normal probability plot
sns.distplot(df_train['TotalBsmtSF'], fit=norm);
fig = plt.figure()
res = stats.probplot(df_train['TotalBsmtSF'], plot=plt)
plt.show()

#散布図
plt.scatter(df_train['GrLivArea'],df_train['SalePrice'])

plt.scatter(df_train[df_train['TotalBsmtSF']>0]['TotalBsmtSF'],df_train[df_train['TotalBsmtSF']>0]['SalePrice'])

df_train=pd.get_dummies(df_train)

## ④データ分析