## 4.1 데이터 샘플링
- 데이터 분석을 진행할 때, 전체 데이터를 모두 활용하는 것은 수많은 시간과 비용이 들 수 있다.
- 본 장에서는 데이터 샘플링의 방법과 python을 활용한 표본 추출에 대해 학습한다.

### 4.1.1 통계
- 통계란 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다.
- 조사 또는 실험을 통해 데이터를 확보하며, 조사 대상에 따라 총조사와 표본조사로 구분한다.

### 4.1.2 통계자료의 획득 방법
#### 가. 총 조사/전수조사
- 총 조사란 대상 집단 모두를 조사하는 방법이며, 특별한 경우를 제외하고는 사용되지 않는다.

#### 나. 표본조사
- 모집단(population): 조사하고자 하는 대상 집단 전체
- 원소(element): 모집단을 구성하는 개체
- 표본(sample): 조사하기 위해 추출한 모집단의 일부원소
- 모수(parameter): 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 명확하게 정의해야하 한다.

### 4.1.3 표본 추출 방법
- 표본조사에서 중요한 점은 모집단을 대표할 수 있는 표본의 추출이며, 표본 추출 방법에 따라 분석 결과의 해석은 큰 차이가 발생한다.

#### 가. 단순 임의 추출법
- 각 개체에 번호를 부여하여 랜덤하게 n개를 추출하는 방법으로 모든 개체는 선택될 확률이 동일하다.
- 복원, 비복원 추출로 나누어진다.

#### 나. 계통추출법
- 랜덤하게 <정렬된 표본>에서 시간 혹은 공간적으로 일정한 간격을 두고 표본을 추출하는 방법이다.
- 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나의 임의로 선택한 후에 K개씩 띄어서 표본을 선택한다. 즉 임의의 위치에서 매 K번째 항목을 추출하는 방법이다.

#### 다. 집락추출법
- 군집을 구분하고 특정 군집을 먼저 선택한 후 해당 군집에서만 표본을 추출하는 방법이다.

#### 라. 층화추출법
- 모집단이 이질적인 몇 개의 계층으로 이루어져 있을 때 모든 계층으로부터 원소를 임의로 추출하여 각 계층을 고루 대표할 수 있도록 랜덤하게 표본을 추출하는 방법이다.

### 4.1.4 Python을 이용한 표본 추출

#### 4.1.4.1 단순 임의 추출
- 일반적으로 데이터를 training data와 rest data로 분할할 때 가장 많이 사용하는 표본추출 방법이다.

#### 함수 사용법: DataFrame.sample(frac=0.7, random_state=2000)
- n: 추출할 표본 개수
- frac: 추출할 표본 크기 비율
- replace: boolean, True이면 복원추출, False이면 비복원 추출
- random_state: seed

--------

**[예제]** iris 데이터로 분석을 진행하기 위해 전체 데이터의 7:3 비율로 training data와 test data를 추출한 뒤 새로운 변수에 저장해보자 (데이터 추출 방법은 단순 임의 추출을 이용한다)

In [1]:
import pandas as pd
import numpy as np

In [59]:
iris = pd.read_csv('./data/iris.csv')
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [3]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   target        150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [4]:
training = iris.sample(frac=0.7, random_state=2000)
training.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 105 entries, 19 to 24
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  105 non-null    float64
 1   sepal width   105 non-null    float64
 2   petal length  105 non-null    float64
 3   petal width   105 non-null    float64
 4   target        105 non-null    object 
dtypes: float64(4), object(1)
memory usage: 4.9+ KB


In [6]:
iris['target'].value_counts()

Iris-virginica     50
Iris-setosa        50
Iris-versicolor    50
Name: target, dtype: int64

In [8]:
training['target'].value_counts()

Iris-virginica     38
Iris-versicolor    35
Iris-setosa        32
Name: target, dtype: int64

In [9]:
training = iris.sample(frac=0.7, random_state=52)
test = iris.sample(frac=0.3, random_state=48)

In [11]:
training.index

Int64Index([ 43,  37, 143, 145, 107,  52,  60,  41, 122, 131,
            ...
            112, 141,  75, 132,  12,  59,  46, 128, 148,  10],
           dtype='int64', length=105)

In [12]:
len(iris)

150

In [13]:
len(training)

105

In [14]:
len(test)

45

In [18]:
training[training.index.isin(test.index)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
41,4.5,2.3,1.3,0.3,Iris-setosa
116,6.5,3.0,5.5,1.8,Iris-virginica
79,5.7,2.6,3.5,1.0,Iris-versicolor
96,5.7,2.9,4.2,1.3,Iris-versicolor
126,6.2,2.8,4.8,1.8,Iris-virginica
53,5.5,2.3,4.0,1.3,Iris-versicolor
69,5.6,2.5,3.9,1.1,Iris-versicolor
19,5.1,3.8,1.5,0.3,Iris-setosa
72,6.3,2.5,4.9,1.5,Iris-versicolor
84,5.4,3.0,4.5,1.5,Iris-versicolor


#### 4.1.4.2 층화 임의 추출
- 특정 데이터가 여성 계층 70%, 남성 계층 30%로 구성되어 있다고 가정해보자. 각 계층을 고루 대표할 수 있도록 표본을 추출하기 위해서는 여성과 남성 집단에 대해 0.7:0.3의 비율로 데이터를 뽑아야 한다. 이처럼 여성과 남성이라는 계층별로 표본을 추출하는 것을 층화 임의 추출이라고 한다.


**from sklearn.model_selection import train_test_split**

함수 사용법: X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, stratify=변수, random_state=1004)

- X: 데이터 테이블
- test_size: 테스트 사이즈 비율
- shuffle : True이면 무작위 추출, False이면 체계적 추출
- random_state : 난수

In [19]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   target        150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [60]:
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(iris, test_size=0.3, shuffle=True, stratify=iris['target'], random_state=1004)

In [63]:
iris['target'].value_counts()

Iris-virginica     50
Iris-setosa        50
Iris-versicolor    50
Name: target, dtype: int64

In [64]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   target        150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [61]:
X_train

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
113,5.7,2.5,5.0,2.0,Iris-virginica
100,6.3,3.3,6.0,2.5,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
9,4.9,3.1,1.5,0.1,Iris-setosa
81,5.5,2.4,3.7,1.0,Iris-versicolor
...,...,...,...,...,...
82,5.8,2.7,3.9,1.2,Iris-versicolor
90,5.5,2.6,4.4,1.2,Iris-versicolor
80,5.5,2.4,3.8,1.1,Iris-versicolor
67,5.8,2.7,4.1,1.0,Iris-versicolor


In [26]:
X_train['target'].value_counts()

Iris-virginica     35
Iris-setosa        35
Iris-versicolor    35
Name: target, dtype: int64

In [28]:
X_test.index.sort_values()

Int64Index([  2,   5,   7,   8,  11,  12,  14,  20,  21,  23,  26,  31,  40,
             47,  49,  57,  63,  69,  73,  76,  77,  79,  83,  84,  91,  92,
             93,  94,  95,  97, 104, 106, 110, 112, 114, 116, 120, 122, 124,
            127, 131, 132, 135, 141, 145],
           dtype='int64')

## 5.1 언더 샘플링 & 오버 샘플링

### 5.1.1 언더 샘플링
- 다수 클래스의 샘플은 소수 클래스와 비교할 때 분포 비율과 일치하도록 무작위로 제거함.
- 2개의 클래스의 비율을 맞추기 위해 귀중한 정보를 잃어버리고 편향될 수 있기 때문에 일반적으로 선호되지 않음

### 5.1.2 오버 샘플링
- 소수 클래스의 샘플을 증가시켜 마이너 클래스와 메이저 클래스의 샘플 크기를 동일하게 만드는 기법
- 랜덤 오버 샘플링(소수 샘플 복제)은 동일한 정보를 복사하여 오버피팅을 유발할 수 있음

### 5.1.3 SMOTE(Synthetic Minority Over-sampling Technique)
- 소수 클래스의 기존 샘플을 사용하여 새로운 합성 관찰을 생성하는 오버 샘플링 기법 소수 클래스에 대한 선형 보간법으로 가상 훈련 기록을 생성.
- 합성 훈련 기록은 소수 클래스의 각 예에 대해 k-최근접 이웃 중 하나 이상을 무작위로 선택하여 생성.
- 오버 샘플링 과정을 거친 후 데이터를 재구성하고 처리된 데이터에 대해 여러 분류 모델을 적용할 수 있음
- 데이터의 특성에 따라 다르겠지만, 빅데이터 분석을 위해서는 많은 데이터 확보가 효과적이므로 오버 샘플링 기법을 적용하는 것이 좋음.
- 기존의 데이터가 적은 새로운 사례의 데이터에서 사용하기 어려움.

In [2]:
df_t = pd.read_csv('./data/titanic.csv')

In [4]:
df_t['survived'].value_counts()

0    549
1    342
Name: survived, dtype: int64

In [5]:
df_t.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   adult_male   891 non-null    bool   
 10  embark_town  889 non-null    object 
dtypes: bool(1), float64(2), int64(4), object(4)
memory usage: 70.6+ KB


In [6]:
#생존자가 적으므로 생존자 1을 오버 샘플링해보자

In [7]:
from imblearn.over_sampling import SMOTE

In [31]:
#!conda install -c conda-forge imbalanced-learn -y

In [39]:
!pip install -U imbalanced-learn

Collecting imbalanced-learn
  Downloading imbalanced_learn-0.8.1-py3-none-any.whl (189 kB)
[K     |████████████████████████████████| 189 kB 9.9 MB/s eta 0:00:01
Installing collected packages: imbalanced-learn
  Attempting uninstall: imbalanced-learn
    Found existing installation: imbalanced-learn 0.7.0
    Uninstalling imbalanced-learn-0.7.0:
      Successfully uninstalled imbalanced-learn-0.7.0
Successfully installed imbalanced-learn-0.8.1


In [8]:
df_t = df_t.dropna()

In [9]:
X = df_t[['age','sibsp','parch','fare']]
y = df_t['survived']

In [10]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = .3, shuffle=True, stratify=y, random_state=1004)

In [11]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0,1))

X_train = scaler.fit_transform(X_train)

In [12]:
X_train.shape

(498, 4)

In [13]:
y_train.value_counts()

0    297
1    201
Name: survived, dtype: int64

In [14]:
# 모델설정
sm = SMOTE(k_neighbors = 5)

# train 데이터를 넣어 복제함
X_resampled, y_resampled = sm.fit_resample(X_train, y_train)

print('After OverSampling, the shape of train_X: {}'.format(X_resampled.shape))
print('After OverSampling, the shape of train_y: {}'.format(y_resampled.shape))

print("After OverSampling, counts of label '1': {}".format(sum(y_resampled==1)))
print("After OverSampling, counts of label '0': {}".format(sum(y_resampled==0)))

After OverSampling, the shape of train_X: (594, 4)
After OverSampling, the shape of train_y: (594,)
After OverSampling, counts of label '1': 297
After OverSampling, counts of label '0': 297


## 4.2 데이터 표준화, 정규화
sklearn에서는 다양한 종류의 스케일러를 제공함

- 데이터 변환이 필요한 이유
- 데이터의 단위와 평균과 표준편차가 모두 다르다면, 우리가 학습시키는 머신이 그 단위를 인지하지 못함
- 즉, 우리는 머신에 학습을 시킬 때, 유사한 단위를 맞춰 줘야 합니다.
- 또한 통계는 표본집단의 평균과 분산으로 모집단의 분산을 설명하는 학문인데, 차원마다 범위가 다르면, 스케일이 큰 집단의 영향을 많이 받습니다. 그렇기 때문에 차원의 스케일을 맞춰줄 필요가 있습니다.

In [15]:
import pandas as pd
import numpy as np

### 4.2.1 StandardScaler 표준화
- 기본 스케일, 평균과 표준편차 사용
    z = ( x - u ) / s
    
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(data) : 모델 학습
    
    변환된 배열의 전체 평균은 0, 분산은 1

In [16]:
from sklearn.preprocessing import StandardScaler
data = [[0,0],[0,0],[1,1],[1,1]]
scaler = StandardScaler()

print(scaler.fit(data))

StandardScaler()


In [18]:
print(scaler.mean_)

[0.5 0.5]


In [19]:
scaler.var_

array([0.25, 0.25])

In [20]:
scaler.mean_

array([0.5, 0.5])

In [23]:
print(scaler.transform(data))
# (x-u)/s = z 값의 배열

[[-1. -1.]
 [-1. -1.]
 [ 1.  1.]
 [ 1.  1.]]


In [25]:
print(scaler.transform([[2,2]]))

[[3. 3.]]


In [30]:
import pandas as pd
df_iris = pd.read_csv('./data/iris.csv')
df_iris

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [27]:
scaler = StandardScaler()

In [32]:
scaler.fit(df_iris.iloc[:,:4])

StandardScaler()

In [33]:
scaler.mean_

array([5.84333333, 3.054     , 3.75866667, 1.19866667])

In [35]:
scaler.var_

array([0.68112222, 0.18675067, 3.09242489, 0.57853156])

In [37]:
scaler.transform(df_iris.iloc[:,:4])

array([[-9.00681170e-01,  1.03205722e+00, -1.34127240e+00,
        -1.31297673e+00],
       [-1.14301691e+00, -1.24957601e-01, -1.34127240e+00,
        -1.31297673e+00],
       [-1.38535265e+00,  3.37848329e-01, -1.39813811e+00,
        -1.31297673e+00],
       [-1.50652052e+00,  1.06445364e-01, -1.28440670e+00,
        -1.31297673e+00],
       [-1.02184904e+00,  1.26346019e+00, -1.34127240e+00,
        -1.31297673e+00],
       [-5.37177559e-01,  1.95766909e+00, -1.17067529e+00,
        -1.05003079e+00],
       [-1.50652052e+00,  8.00654259e-01, -1.34127240e+00,
        -1.18150376e+00],
       [-1.02184904e+00,  8.00654259e-01, -1.28440670e+00,
        -1.31297673e+00],
       [-1.74885626e+00, -3.56360566e-01, -1.34127240e+00,
        -1.31297673e+00],
       [-1.14301691e+00,  1.06445364e-01, -1.28440670e+00,
        -1.44444970e+00],
       [-5.37177559e-01,  1.49486315e+00, -1.28440670e+00,
        -1.31297673e+00],
       [-1.26418478e+00,  8.00654259e-01, -1.22754100e+00,
      

In [42]:
pd.DataFrame(scaler.transform(df_iris.iloc[:,:4]), columns = [df_iris.columns[:4]+"_scaled"])

Unnamed: 0,sepal length_scaled,sepal width_scaled,petal length_scaled,petal width_scaled
0,-0.900681,1.032057,-1.341272,-1.312977
1,-1.143017,-0.124958,-1.341272,-1.312977
2,-1.385353,0.337848,-1.398138,-1.312977
3,-1.506521,0.106445,-1.284407,-1.312977
4,-1.021849,1.263460,-1.341272,-1.312977
...,...,...,...,...
145,1.038005,-0.124958,0.819624,1.447956
146,0.553333,-1.281972,0.705893,0.922064
147,0.795669,-0.124958,0.819624,1.053537
148,0.432165,0.800654,0.933356,1.447956


--------

### 4.2.2 MinMaxScaler 정규화
- 최대 / 최소값이 각각 1,0이 되도록 스케일링
    X_std = ( X - X.min(axis = 0)) / (X.max(axis=0) - X.min(axis=0))
    X_scaled = X_std * (max - min) + min
    
    sklearn.preprocessing.MinMaxScaler(feature_range=(0,1), \*, copy=True, clip=False)

In [43]:
from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = MinMaxScaler()
print(scaler.fit(data))

print(scaler.data_max_)

MinMaxScaler()
[ 1. 18.]


In [44]:
scaler.data_min_

array([-1.,  2.])

In [47]:
print(scaler.transform(data))

[[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [1.   1.  ]]


In [50]:
scaler = MinMaxScaler()
scaler.fit(df_iris.iloc[:,:4])
scaler.transform(df_iris.iloc[:,:4])

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

In [51]:
df_iris.iloc[:,:4]

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [53]:
print(scaler.transform([[2,2,40,450]]))

[[ -0.63888889   0.           6.61016949 187.45833333]]


  "X does not have valid feature names, but"


In [54]:
scaler.fit_transform(df_iris.iloc[:,:4])

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

### 4.2.3 MaxAbsScaler
- 최대절대값과 0이 각각 1, -1이 되도록 스케일링
    
    class sklearn.preprocessing.MaxAbsScaler(\*, copy=True)

In [55]:
from sklearn.preprocessing import MaxAbsScaler
X = [[1.,-1,2.],
    [2.,0,0.],
    [0.,1.,-1.]]
transformer = MaxAbsScaler().fit(X)
transformer
MaxAbsScaler()
transformer.transform(X)

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

### 4.2.4 RobustScaler
- 중앙값 (median)과 IQR(interquartile range) 사용. 아웃라이어의 영향을 최소화

    sklearn.preprocessing import RobustScaler

In [56]:
from sklearn.preprocessing import RobustScaler
X = [[1.,-2.,2.],
    [-2.,1.,3.],
    [4.,1.,-2.]]
transformer = RobustScaler().fit(X)
transformer

RobustScaler()

In [57]:
transformer.transform(X)

array([[ 0. , -2. ,  0. ],
       [-1. ,  0. ,  0.4],
       [ 1. ,  0. , -1.6]])