In [3]:
from sklearn.feature_extraction import DictVectorizer
# 字典特征抽取
dict = DictVectorizer(sparse=False)
D = [{"city":'北京',"population":2000},{"city":'深圳',"population":1000}]
data = dict.fit_transform(D)
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data)

['city=北京', 'city=深圳', 'population']
[{'city=北京': 1.0, 'population': 2000.0}, {'city=深圳': 1.0, 'population': 1000.0}]
[[1.e+00 0.e+00 2.e+03]
 [0.e+00 1.e+00 1.e+03]]


In [9]:
from sklearn.feature_extraction.text import  CountVectorizer
# 对文本进行特征转换
cv = CountVectorizer()
data = cv.fit_transform(["生活 很短，我 喜欢 python 语言","life is too long, i dislike python"])
print(cv.get_feature_names())
print(cv.inverse_transform(data))
print(data.toarray())   # 将sparse矩阵转换为numpy数组
# 注意这里，中文必须加空格，才能进行one-hot编码

['dislike', 'is', 'life', 'long', 'python', 'too', '喜欢', '很短', '生活', '语言']
[array(['生活', '很短', '喜欢', 'python', '语言'], dtype='<U7'), array(['python', 'life', 'is', 'too', 'long', 'dislike'], dtype='<U7')]
[[0 0 0 0 1 0 1 1 1 1]
 [1 1 1 1 1 1 0 0 0 0]]


In [20]:
import jieba
tokenizer = jieba.cut("数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限")
content = list(tokenizer)
print(content)    # 生成器就是一个列表，需要进行转换
words = ' '.join(content)
print(words)

data = cv.fit_transform([words])
print(cv.get_feature_names())
print(data.toarray())

['数据', '和', '特征', '决定', '了', '机器', '学习', '的', '上限', ',', '而', '模型', '和', '算法', '只是', '逼近', '这个', '上限']
数据 和 特征 决定 了 机器 学习 的 上限 , 而 模型 和 算法 只是 逼近 这个 上限
['上限', '决定', '只是', '学习', '数据', '机器', '模型', '特征', '算法', '这个', '逼近']
[[2 1 1 1 1 1 1 1 1 1 1]]


In [21]:
from sklearn.feature_extraction.text import  TfidfVectorizer
tfidf = TfidfVectorizer()
data = tfidf.fit_transform([words,"我 明天 要去 面试 机器学习 的 岗位"])
print(tfidf.get_feature_names())
print(data.toarray())

['上限', '决定', '只是', '学习', '岗位', '数据', '明天', '机器', '机器学习', '模型', '特征', '算法', '要去', '这个', '逼近', '面试']
[[0.53452248 0.26726124 0.26726124 0.26726124 0.         0.26726124
  0.         0.26726124 0.         0.26726124 0.26726124 0.26726124
  0.         0.26726124 0.26726124 0.        ]
 [0.         0.         0.         0.         0.4472136  0.
  0.4472136  0.         0.4472136  0.         0.         0.
  0.4472136  0.         0.         0.4472136 ]]


In [5]:
# 归一化和标准化
from sklearn.preprocessing  import MinMaxScaler
mm = MinMaxScaler(feature_range=(2,3))   # 指定缩放的范围，默认为0到1
data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
print(data)  # 缩放时，特征列的最小值编码为0，最大值编码为1，其他值按比例缩放
# 归一化的公式为：
# X1 = (x-min)/(max-min)  X11 = X1*(mx - mi) + mi,这里的mx为3，mi为2 

[[3.         2.         2.         2.        ]
 [2.         3.         3.         2.83333333]
 [2.5        2.5        2.6        3.        ]]


In [0]:
# 当特征同等重要的时候：进行归一化处理，使得一个特征对最终结果不会造成大的影响。
# 注意在异常场景下。最值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

In [0]:
# 标准化
# 特点：通过对原始数据进行变换把数据变化到均值为0，方差为1的范围内。
# 如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差的改变较少
# 标准化在已由样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。

In [0]:
# X=(x-mean)/delter
# mean是列的均值，delter是标准差（方差的根号）

In [11]:
from sklearn.preprocessing import StandardScaler
std = StandardScaler()
data = std.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
print(data)

[[ 1.22474487 -1.22474487 -1.29777137 -1.3970014 ]
 [-1.22474487  1.22474487  1.13554995  0.50800051]
 [ 0.          0.          0.16222142  0.88900089]]


In [18]:
# 求根号1350的近似值
def sqrt_x(X):
#     1、猜测根号x的取值
  G = 100
  while(abs(G**2-X) > 0.00001):
    if G**2 == X:
       print("根号X的取值为:",G)
    elif G**2 < X:
#     2、猜小了，根号X的取值就在（G，(G+X/G)/2）之间
      G = (G + (G + X/G)/2)/2
    else:
#     3、猜大了,根号X的取值就在（(G+X/G)/2,G）之间
      G = ((G+X/G)/2 + G)/2
  return G
  
    
res = sqrt_x(1350)
print(res)
  

36.74234622717302


In [0]:
# 缺失值主要用pandas处理，sklearn也提供了缺失值的处理操作。
# 一般是填补（平均值、中位数等），有按行和按列，一般是按列填补。

In [24]:
import numpy as np
from sklearn.preprocessing import Imputer
# pandas:dropna、fillna,缺失值为np.nan
# repalce("?","np.nan)
im = Imputer(missing_values='NaN',strategy='mean',axis=0)  # 按列
data = im.fit_transform([[1,2],[np.nan,3],[7,4]])
print(data)

[[1. 2.]
 [4. 3.]
 [7. 4.]]


