In [60]:
# 特征值提取
from sklearn.feature_extraction import DictVectorizer   # 特征抽取
from sklearn.feature_extraction.text import CountVectorizer
import jieba
import numpy as np
# 数据预处理
from sklearn.preprocessing import MinMaxScaler         # 因为归一化属于对特征的预处理，所以在preprocessing包下面
from sklearn.preprocessing import StandardScaler    # 标准化
from sklearn.preprocessing import Imputer           # 缺失值
# 对处理好的特征选择
from sklearn.feature_selection import VarianceThreshold

### fit_transform处理的内容都要变成列表的形式

In [2]:
# 实例化CountVectorizer
vector = CountVectorizer()
# 调用对象的fit_transform方法

res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])

print(res)                          # 特征中的数据值  其中由于单个字母没有啥实际含义，所以提取的特征值中不包含他们
print(vector.get_feature_names())    # 得到每个特征的名字
print(res.toarray())                 # 装换成矩阵类型

  (0, 2)	1
  (0, 1)	1
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1
['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]


In [3]:
# 字典中数据的特征值化
def dictvec():
    # 实例化
    dic_res = DictVectorizer()
    # 调用对象的fit_transform方法
    # 传入数据为一个矩阵也就是np.array()类型
    data = dic_res.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
    
    print(dic_res.get_feature_names())
    print(data)
dictvec()

['city=上海', 'city=北京', 'city=深圳', 'temperature']
  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


### 汉语文本通过jieba分词，在进行特征值化处理

In [15]:
# 对汉语文本的数据进行特征值处理时，建议使用jieba进行处理，
def cutword():
    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")
    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")
    con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
    print(f'con1:{con1}')
    # 转换成列表
    content1 = list(con1)
    # 拼接成字符串
    c1 = ' '.join(content1)     # 因为fit_transform函数在识别中文的时候是以空格为分隔才能提取特征值
    print(f"c1:{c1}")
    return c1
c1 = cutword()
handle = CountVectorizer()
# 传入数据为一个矩阵也就是np.array()类型
ans = handle.fit_transform([c1])
print(handle.get_feature_names())
print(f"ans:{ans}")
print(ans.toarray())

con1:<generator object Tokenizer.cut at 0x0000025034099548>
c1:今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。
['不要', '今天', '后天', '大部分', '所以', '放弃', '明天', '晚上', '残酷', '每个', '绝对', '美好']
ans:  (0, 1)	2
  (0, 8)	2
  (0, 6)	2
  (0, 2)	1
  (0, 11)	1
  (0, 10)	1
  (0, 3)	1
  (0, 7)	1
  (0, 4)	1
  (0, 9)	1
  (0, 0)	1
  (0, 5)	1
[[1 2 1 1 1 1 2 1 2 1 1 1]]


### 归一化处理

In [20]:
def normalize():                     # 将数据映射到feature_range里面设定的区间中
    mm = MinMaxScaler(feature_range=(0, 10))
    # 传入数据为一个矩阵也就是np.array()类型
    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)
normalize()

[[10.          0.          0.          0.        ]
 [ 0.         10.         10.          8.33333333]
 [ 5.          5.          6.         10.        ]]


#### 标准化处理，优于归一化处理，归一化处理收到异常值(异常最大最小值的)的影响

In [32]:
def stand():
    # 标准化--缩放
    std = StandardScaler()
    # 传入数据为一个矩阵也就是np.array()类型
    data = std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])    
    print(data)

stand()

[[-1.06904497 -1.35873244  0.98058068]
 [-0.26726124  0.33968311  0.39223227]
 [ 1.33630621  1.01904933 -1.37281295]]


#### 缺失值处理(用numpy可以实现缺失值处理，但个人感觉sklearn这个处理更方便)

In [39]:
def nan_processing():
    im = Imputer(missing_values='NaN', strategy='mean', axis=0)
    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)
nan_processing() 

[[1. 2.]
 [4. 3.]
 [7. 6.]]




#### 用np实现缺失值处理

In [58]:
def np_process_nan(data):
    for i in range(data.shape[1]):
        temp_col = data[:,i]
        print(temp_col)
        nan_num = np.count_nonzero(temp_col!=temp_col)
        print(nan_num,temp_col!=temp_col)
        if nan_num>0:
            data_to_fill = np.mean(temp_col[temp_col==temp_col])
            # 将均值填充掉那些空值
            temp_col[temp_col!=temp_col]=data_to_fill
            # 将更新的temp_col赋值给data上它所在的那一列
            data[:,i] = temp_col
    return data
data = np.array([[1, 2], [np.nan, 3], [7, 6]])
new_data = np_process_nan(data)
print(new_data)

[ 1. nan  7.]
1 [False  True False]
[2. 3. 6.]
0 [False False False]
[[1. 2.]
 [4. 3.]
 [7. 6.]]


In [55]:
data="adfsaafasdfasd"
print(data[1:3])

df


### 特征选择-删除低方差的特征

In [67]:
def feature_select():
    var = VarianceThreshold(threshold=0.2)    # 将方差低于0.2的那一列特征值剔除
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
    print(data)
    # 查看保留下来了哪几列
    saved = var.get_support()
    print(saved)
feature_select()

[[2 0]
 [1 4]
 [1 1]]
[False  True  True False]
