 # ml cookbook 4.3 

In [1]:
#Normalizer 把对象的所有特征的值都归一到0-1区间
import numpy as np
from sklearn.preprocessing import Normalizer 

In [3]:
#建立feature矩阵
features = np.array ([[0.5,0.5],[1.1,3.4],[1.5,20.2],[1.63,34.4],[10.9,3.3]])

In [7]:
features

array([[  0.5 ,   0.5 ],
       [  1.1 ,   3.4 ],
       [  1.5 ,  20.2 ],
       [  1.63,  34.4 ],
       [ 10.9 ,   3.3 ]])

In [8]:
features.shape

(5, 2)

In [9]:
normalizer = Normalizer(norm="l2") # l2 -- L2 Euclidean norm 欧几里得范数 ||x||=算完了 xi平方 的 和 再 整体开根号 
normalizer 

Normalizer(copy=True, norm='l2')

In [15]:
import math
# 拆解L2范数
math.sqrt(1.1**2+3.4**2)

#范数算出来本身是不归一的，它的作用是矩阵元素除以它之后，元素们被归一到0-1区间。

0.7071067811865476

In [10]:
normalizer = Normalizer(norm="l2")
normalizer.transform(features)

array([[ 0.70710678,  0.70710678],
       [ 0.30782029,  0.95144452],
       [ 0.07405353,  0.99725427],
       [ 0.04733062,  0.99887928],
       [ 0.95709822,  0.28976368]])

In [11]:
normalizer.transform(features) # 一种模式对应一个范数算法，对应一种模式 非随机 输出相同

array([[ 0.70710678,  0.70710678],
       [ 0.30782029,  0.95144452],
       [ 0.07405353,  0.99725427],
       [ 0.04733062,  0.99887928],
       [ 0.95709822,  0.28976368]])

In [12]:
normalizer = Normalizer(norm="l1") # L1 Manhattan norm 曼哈顿范数 也叫Taxicab norm 
normalizer.transform(features)

array([[ 0.5       ,  0.5       ],
       [ 0.24444444,  0.75555556],
       [ 0.06912442,  0.93087558],
       [ 0.04524008,  0.95475992],
       [ 0.76760563,  0.23239437]])

#  4.4 多项式features 

In [18]:
#有的时候y值和x值存在的是非线性的关系 这个时候用多项式

import numpy as np
from sklearn.preprocessing import PolynomialFeatures 

In [20]:
features  = np.array(([2,3],[4,9],[5,6]))

In [28]:
polynormial_interaction  = PolynomialFeatures(degree = 3 ,include_bias=False )
polynormial_interaction

PolynomialFeatures(degree=3, include_bias=False, interaction_only=False)

In [29]:
polynormial_interaction.fit_transform(features) # 第一行 2,3,2平方,2乘3,3平方，2立方，2乘2乘3，2乘3乘3，3立方

array([[   2.,    3.,    4.,    6.,    9.,    8.,   12.,   18.,   27.],
       [   4.,    9.,   16.,   36.,   81.,   64.,  144.,  324.,  729.],
       [   5.,    6.,   25.,   30.,   36.,  125.,  150.,  180.,  216.]])

interaction feature 的作用： 一个例子，判断咖啡是不是甜的，这个时候我们想知道甜度，但是甜度本身无法直接表达，不过，可以通过1搅拌2加了糖，这两个特征结合起来判断。

# 4.5 制作函数 定制转换（custom transformation）

In [30]:
import numpy as np 
from sklearn.preprocessing import FunctionTransformer

In [35]:
features  = np.array(([2,3],[4,9],[5,6]))

# 定义一个函数 全体加10 
def add_ten(x):
    return x+10 

ten_transformer = FunctionTransformer(add_ten)
ten_transformer.transform(features)

array([[12, 13],
       [14, 19],
       [15, 16]])

In [36]:
## pandas 也能搞这个

import pandas as pd 
df  = pd.DataFrame(features, columns = ["f1","f2"])
df.apply(add_ten)

Unnamed: 0,f1,f2
0,12,13
1,14,19
2,15,16


讨论环节 ： 定义函数来定制转换方式是很常见的，尽管+10这个函数比较简单，但如果遇到复杂变换的时候，就很有必要了。

# 4.6  处理离群值(outliers)的三种方法 

In [39]:
import pandas as pd 

# 方法1 剔除离群值
houses = pd.DataFrame()
houses['Price'] = [534433,394422,500000,4442220]
houses['Bathrooms'] = [2,3.5,2,116]
houses['sqare_feet'] = [1500,2500,1500,48000]

houses[houses['Bathrooms']<20]

Unnamed: 0,Price,Bathrooms,sqare_feet
0,534433,2.0,1500
1,394422,3.5,2500
2,500000,2.0,1500


In [41]:
#方法2 保留并标记
import numpy as np 
houses['outlier'] = np.where(houses["Bathrooms"]<20,0,1)
houses

Unnamed: 0,Price,Bathrooms,sqare_feet,outlier
0,534433,2.0,1500,0
1,394422,3.5,2500,0
2,500000,2.0,1500,0
3,4442220,116.0,48000,1
