<a href="https://colab.research.google.com/github/hamagami/preprocess/blob/main/04_07_%E3%82%B9%E3%82%B1%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# スケーリング

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline


from sklearn.datasets import fetch_california_housing

# sklearn には色々なスケーリング関数がある。　
ここではこれらのうち一部しか使わない。詳しくは　https://qiita.com/nazoking@github/items/d6ac1948ee138d73fef1


In [None]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import minmax_scale
from sklearn.preprocessing import MaxAbsScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import QuantileTransformer
from sklearn.preprocessing import PowerTransformer

ハウジングデータセットを読みこむ。ちょっと時間かかります

In [None]:
data  =fetch_california_housing()

データをpandas.Dataframeにいれる


In [None]:
df = pd.DataFrame(np.c_[data.data, data.target], columns=data.feature_names + ["target"])
df


Populationについて単純にヒストグラムをつくる

In [None]:
#LT= df["Latitude"]
Pop = df["Population"]
plt.hist(Pop,bins=50)
plt.show()

一見歪んだ正規分布に見えるが maxが分布から大きく外れた値をとっているこのような場合にminmaxで正規化しても分布の歪は修正されない

In [None]:
print(Pop.max())
P_MinMaxScaler = MinMaxScaler().fit_transform(Pop.values.reshape(-1,1))
plt.hist(P_MinMaxScaler,bins=50)
plt.show()


標準化は外れ値の影響を強くは受けないが値としては残るのであまり分布にフィットしているとはいいがたい


In [None]:
X_StandardScaler = StandardScaler().fit_transform(Pop.values.reshape(-1,1))
x = np.random.normal(0,1,len(X_StandardScaler))
plt.hist(X_StandardScaler,bins=50)
plt.hist(x,alpha=0.3,bins=50)
plt.show()



---



---



MedInc（収入の平均値）の分布について，なにもせずにヒストグラムを作った場合と，平均を0にした場合（分布の形状は変わらず）

In [None]:
df_mi = df["MedInc"]
Xorg=df_mi.values.reshape(-1,1)
plt.hist(Xorg,bins=50)#収入の平均値
plt.show()

標準化(minmaxscaler)

In [None]:
X= (df_mi-df_mi.describe()["mean"]).values.reshape(-1,1)
X_MinMaxScaler = MinMaxScaler().fit_transform(X)
plt.hist(X_MinMaxScaler,bins=50)
plt.show()

絶対値正規化（maxabsscaler)

In [None]:
X_MaxAbsScaler = MaxAbsScaler().fit_transform(X)
plt.hist(X_MaxAbsScaler,bins=50)
plt.show()

標準化

In [None]:
X_StandardScaler = StandardScaler().fit_transform(Xorg)
x = np.random.normal(0,1,len(X_StandardScaler))
plt.hist(X_StandardScaler,bins=50)
plt.hist(x,alpha=0.3,bins=50)
plt.show()

RobustScaler

In [None]:
X_RobustScaler = RobustScaler(quantile_range=(25, 75)).fit_transform(X)
plt.hist(X_RobustScaler,bins=50)

BoxCox

In [None]:
X_PowerTransformer_boxcox = PowerTransformer(method='box-cox').fit_transform(Xorg)
x = np.random.normal(0,1,len(X_PowerTransformer_boxcox))
plt.hist(X_PowerTransformer_boxcox,bins=50)
plt.hist(x,alpha=0.3,bins=50)
plt.show()

Yeo-Johnson

In [None]:
X_PowerTransformer_yeojohnson = PowerTransformer(method='yeo-johnson').fit_transform(X)
x = np.random.normal(0,1,len(X_PowerTransformer_yeojohnson))
plt.hist(X_PowerTransformer_yeojohnson,bins=50)
plt.hist(x,alpha=0.3,bins=50)
plt.show()

対数化

In [None]:
X_log=np.log(Xorg)
plt.hist(X_log,bins=50)
plt.show()

平方根

In [None]:
X_sqrt=np.sqrt(Xorg)
plt.hist(X_sqrt,bins=50)
plt.show()

平方根に対して標準化を行う

In [None]:
X_StandardScaler = StandardScaler().fit_transform(X_sqrt)
x = np.random.normal(0,1,len(X_StandardScaler))
plt.hist(X_StandardScaler,bins=50)
plt.hist(x,alpha=0.3,bins=50)
plt.show()



---



---



Latitudeに対する分布　２つの分布が重なっているようにみえる

In [None]:
Xlt = df["Latitude"].values.reshape(-1,1)
plt.hist(Xlt,bins=50)
plt.show()

このような場合には１つの分布とみなしてフィッテイングしてもあまり意味がない


In [None]:
X_StandardScaler = StandardScaler().fit_transform(Xlt)
x = np.random.normal(0,1,len(X_StandardScaler))
plt.hist(X_StandardScaler,bins=50)
plt.hist(x,alpha=0.3,bins=50)
plt.show()