# Preprocessing Data

Standardization, or mean removal and variance scaling

In [4]:
from sklearn import preprocessing
import numpy as np

In [5]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [6]:
# Function scale

In [7]:
X_scaled = preprocessing.scale(X_train)                

In [8]:
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [9]:
X_scaled.mean(axis=0)

array([0., 0., 0.])

In [10]:
X_scaled.std(axis=0)

array([1., 1., 1.])

In [11]:
# Class StandardScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [12]:
scaler = preprocessing.StandardScaler()

In [13]:
# Fit the scale
scaler = preprocessing.StandardScaler().fit(X_train)

In [14]:
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [15]:
scaler.mean_

array([1.        , 0.        , 0.33333333])

In [16]:
scaler.scale_

array([0.81649658, 0.81649658, 1.24721913])

In [17]:
X_train.std(axis=0)

array([0.81649658, 0.81649658, 1.24721913])

In [18]:
# transform
X_scaled = scaler.transform(X_train)

In [None]:
X_scaled

In [19]:
# inverse transform
X_descaled = scaler.inverse_transform(X_scaled)

In [20]:
X_descaled

array([[ 1.00000000e+00, -1.00000000e+00,  2.00000000e+00],
       [ 2.00000000e+00,  0.00000000e+00,  0.00000000e+00],
       [ 1.11022302e-16,  1.00000000e+00, -1.00000000e+00]])

In [21]:
X_train

array([[ 1., -1.,  2.],
       [ 2.,  0.,  0.],
       [ 0.,  1., -1.]])

In [22]:
# Datasets loading from Scikit
# https://scikit-learn.org/stable/datasets/index.html

In [23]:
from sklearn import datasets

In [69]:
# Loading dataset for Diabetes
a = datasets.load_diabetes(return_X_y= True)
type(a)

tuple

In [70]:
# Feature Values
x = a[0]
x.shape

(442, 10)

In [71]:
x[4]

array([ 0.00538306, -0.04464164, -0.03638469,  0.02187235,  0.00393485,
        0.01559614,  0.00814208, -0.00259226, -0.03199144, -0.04664087])

In [72]:
# Target Values
y = a[1]
y.shape

(442,)

In [73]:
y[4]

135.0

In [74]:
# Spliting Dataset into training and test

In [75]:
from sklearn.model_selection import train_test_split

In [76]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)

In [77]:
X_train.shape

(296, 10)

In [78]:
 y_train.shape

(296,)

In [79]:
# Normalize data according L1 or L2 norm

In [80]:
X_normalized = preprocessing.normalize(X_train, norm='l2')

In [81]:
X_normalized

array([[ 0.14439187, -0.71497073, -0.49641929, ..., -0.0415171 ,
         0.15113147,  0.18175708],
       [-0.00985963, -0.23387158,  0.2836926 , ...,  0.444588  ,
         0.44265951,  0.25475343],
       [ 0.05453977,  0.30658886, -0.03102264, ...,  0.43078404,
         0.23919609,  0.11876865],
       ...,
       [ 0.28067679, -0.40667101, -0.18417505, ..., -0.35977207,
        -0.09933592, -0.00981748],
       [-0.1439418 , -0.50281555, -0.26413684, ..., -0.02919762,
        -0.43317945, -0.43202549],
       [-0.68418923, -0.3295018 ,  0.20876563, ..., -0.29150232,
        -0.03797774, -0.00795453]])

In [82]:
np.linalg.norm(X_normalized, ord = 2, axis=1)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [83]:
X_normalized = preprocessing.normalize(X_train, norm='l1')

In [84]:
X_normalized

array([[ 0.05965359, -0.2953807 , -0.20508906, ..., -0.01715224,
         0.06243797,  0.07509053],
       [-0.00337335, -0.08001612,  0.09706174, ...,  0.15211001,
         0.1514502 ,  0.08716058],
       [ 0.01990338,  0.11188448, -0.01132119, ...,  0.15720744,
         0.08729061,  0.04334263],
       ...,
       [ 0.116387  , -0.16863247, -0.07637105, ..., -0.14918509,
        -0.04119119, -0.00407097],
       [-0.05339322, -0.18651248, -0.09797791, ..., -0.01083045,
        -0.16068193, -0.16025388],
       [-0.26845809, -0.12928795,  0.08191422, ..., -0.11437794,
        -0.01490148, -0.00312115]])

In [85]:
np.linalg.norm(X_normalized, ord = 1, axis=1)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [86]:
# Scaling features to a range
#https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

In [87]:
from sklearn.preprocessing import MinMaxScaler

In [88]:
min_max_scaler = MinMaxScaler(feature_range = (-1,1))

In [89]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [90]:
min_max_scaler.fit(X_train)

MinMaxScaler(copy=True, feature_range=(-1, 1))

In [91]:
x_ranged = min_max_scaler.transform(X_train)

In [92]:
x_ranged

array([[ 0.        , -1.        ,  1.        ],
       [ 1.        ,  0.        , -0.33333333],
       [-1.        ,  1.        , -1.        ]])

In [93]:
min_max_scaler.inverse_transform(x_ranged)

array([[ 1., -1.,  2.],
       [ 2.,  0.,  0.],
       [ 0.,  1., -1.]])

In [94]:
# Load iris data 
data = datasets.load_iris(return_X_y= True)

# Split dataset into training and test data

# Use StandardScaler to Standardize the iris data 

# Try apply MinMaxScaler to iris Features