# 特征抽取
## sklearn相关API
### 1、字典
### 2、文本

In [1]:
import numpy as np
import jieba  # 用于中文特征处理
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer

In [6]:
def dictvec():
    """
    字典数据特征提取
    :return:
    """
    # 参数saprse  稀疏，对于矩阵中的参数存储采用稀疏矩阵的方法
    dict = DictVectorizer(sparse=False)
    data = dict.fit_transform([{'city': '北京', 'temperature': 100},
                               {'city': '南京', 'temperature': 50},
                               {'city': '天津', 'temperature': 10}])

    print(data)  # 返回sparse矩阵
    print('-' * 50)
    print(dict.get_feature_names_out())  # 转换特征name
    print('-' * 50)
    print(dict.inverse_transform(data))  # 按原格式转换数据
    return None


dictvec()

[[  1.   0.   0. 100.]
 [  0.   1.   0.  50.]
 [  0.   0.   1.  10.]]
--------------------------------------------------
['city=北京' 'city=南京' 'city=天津' 'temperature']
--------------------------------------------------
[{'city=北京': 1.0, 'temperature': 100.0}, {'city=南京': 1.0, 'temperature': 50.0}, {'city=天津': 1.0, 'temperature': 10.0}]


In [11]:
def convec():
    """
    文本数据提取
    :return:
    """
    # 实例化CountVectorizer
    # max_df, min_df整数：指每个词的所有文档词频数不小于最小值，出现该词的文档数目小于等于max_df
    # max_df, min_df小数：每个词的次数／所有文档数量
    # min_df=2
    vector = CountVectorizer()
    res = vector.fit_transform(["life is  short,i like python life",
                                "life is too long,i dislike python",
                                "life is short"])
    print(res)
    print('-' * 50)
    print(res.toarray())
    print('-' * 50)
    print(vector.get_feature_names_out())  # 按字母排序
    print('-' * 50)
    print(vector.inverse_transform(res))
    return None


convec()

  (0, 2)	2
  (0, 1)	1
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1
  (2, 2)	1
  (2, 1)	1
  (2, 6)	1
--------------------------------------------------
[[0 1 2 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]
 [0 1 1 0 0 0 1 0]]
--------------------------------------------------
['dislike' 'is' 'life' 'like' 'long' 'python' 'short' 'too']
--------------------------------------------------
[array(['life', 'is', 'short', 'like', 'python'], dtype='<U7'), array(['life', 'is', 'python', 'too', 'long', 'dislike'], dtype='<U7'), array(['life', 'is', 'short'], dtype='<U7')]


In [14]:
def countvec():
    """
    汉字进行文本数据特征提取
    默认对单个汉字不统计
    :return:
    """
    cv = CountVectorizer()
    data = cv.fit_transform(["人生苦短，我 喜欢 python python", "人生漫长，不用 python"])
    print(cv.get_feature_names_out())
    print(data)
    print(data.toarray())
    return None


countvec()

['python' '不用' '人生漫长' '人生苦短' '喜欢']
  (0, 3)	1
  (0, 4)	1
  (0, 0)	2
  (1, 0)	1
  (1, 2)	1
  (1, 1)	1
[[2 0 0 1 1]
 [1 1 1 0 0]]


In [18]:
def cutword():
    """
    导入jieba模块，对中文字符尽可能的正确分词
    :return:
    """
    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")


    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")

    con3 = jieba.cut(
    "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    print(type(con1))
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1,c2,c3

def hanzivec():
    c1,c2,c3 = cutword()  # jieba 处理后返回的是一个生成器
    print(c1,c2,c3)
    print('-' * 50)
    cv = CountVectorizer()
    data = cv.fit_transform([c1,c2,c3])
    print(data)
    print('-' * 50)
    print(cv.get_feature_names_out())
    print('-' * 50)
    print(cv.inverse_transform(data))

hanzivec()

<class 'generator'>
今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
--------------------------------------------------
  (0, 6)	2
  (0, 26)	2
  (0, 22)	2
  (0, 12)	1
  (0, 32)	1
  (0, 31)	1
  (0, 14)	1
  (0, 24)	1
  (0, 19)	1
  (0, 27)	1
  (0, 2)	1
  (0, 20)	1
  (1, 18)	3
  (1, 28)	2
  (1, 23)	1
  (1, 7)	1
  (1, 8)	1
  (1, 3)	1
  (1, 9)	1
  (1, 35)	1
  (1, 17)	1
  (1, 34)	1
  (2, 18)	1
  (2, 16)	1
  (2, 11)	1
  (2, 0)	1
  (2, 21)	1
  (2, 4)	4
  (2, 25)	1
  (2, 5)	3
  (2, 1)	1
  (2, 29)	2
  (2, 13)	1
  (2, 30)	1
  (2, 10)	1
  (2, 15)	1
  (2, 33)	1
--------------------------------------------------
['一种' '不会' '不要' '之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义'
 '大部分' '如何' '如果' '宇宙' '我们' '所以' '放弃' '方式' '明天' '星系' '晚上' '某样' '残酷' '每个'
 '看到' '真正' '秘密' '绝对' '美好' '联系' '过去' '这样']
-----------------

In [24]:
# 规范{'l1'，'l2'}，默认='l2'
# 每个输出行都有单位范数，或者：
#
# 'l2'：向量元素的平方和为 1。当应用 l2 范数时，两个向量之间的余弦相似度是它们的点积。
#
# 'l1'：向量元素的绝对值之和为 1。参见preprocessing.normalize。

# smooth_idf布尔值，默认 = True
# 通过在文档频率上加一来平滑 idf 权重，就好像看到一个额外的文档包含集合中的每个术语恰好一次。防止零分裂。

def tfidfvec():
    """
    中文特征值化,计算tfidf值
    tf-idf  提取高频、尽量独有、特征明显词汇的词频
    tf:词频
    idf:逆文档频率，log(总文档数/改词文档数量)
    tf*idf  来代表重要性程度:
    :return: None
    """
    c1, c2, c3 = cutword()

    print(c1, c2, c3)
    print(type([c1, c2, c3]))
    tf = TfidfVectorizer()

    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names_out())
    print(type(data))
    print(data.toarray())

    return None


tfidfvec()

<class 'generator'>
今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
<class 'list'>
['一种' '不会' '不要' '之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义'
 '大部分' '如何' '如果' '宇宙' '我们' '所以' '放弃' '方式' '明天' '星系' '晚上' '某样' '残酷' '每个'
 '看到' '真正' '秘密' '绝对' '美好' '联系' '过去' '这样']
<class 'scipy.sparse._csr.csr_matrix'>
[[0.         0.         0.21821789 0.         0.         0.
  0.43643578 0.         0.         0.         0.         0.
  0.21821789 0.         0.21821789 0.         0.         0.
  0.         0.21821789 0.21821789 0.         0.43643578 0.
  0.21821789 0.         0.43643578 0.21821789 0.         0.
  0.         0.21821789 0.21821789 0.         0.         0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.      

# 特征处理，归一化、标准化

In [4]:
def mm():
    """
    归一化处理
    :return:
    """
    mm = MinMaxScaler(feature_range=(0,1))
    data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])

    print(data)

    return None

mm()

[[1.         0.         0.         0.        ]
 [0.         1.         1.         0.83333333]
 [0.5        0.5        0.6        1.        ]]


In [6]:
def stand():
    std = StandardScaler()

    data = std.fit_transform([[1., -1., 3.], [2., 4., 2.], [4., 6., -1.]])

    print(data)

    print(std.mean_)
    print(std.var_)
    print(std.n_samples_seen_) # 样本数

    return None

stand()

[[-1.06904497 -1.35873244  0.98058068]
 [-0.26726124  0.33968311  0.39223227]
 [ 1.33630621  1.01904933 -1.37281295]]
[2.33333333 3.         1.33333333]
[1.55555556 8.66666667 2.88888889]
3


# 缺失值处理

In [7]:
def im():
    # 缺失值处理，simpleimputer  只能替换nan，当出现其他符号表示的空值需要进行replace
   im = SimpleImputer(missing_values=np.nan, strategy='mean')

   data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6], [3, 2]])

   print(data)

   return  None
im()

[[1.         2.        ]
 [3.66666667 3.        ]
 [7.         6.        ]
 [3.         2.        ]]


# 特征选择
## 选择合适特征可以降低冗余、噪声
### 一般的特征选择，取其中部分，常见有filter、embedded、wrapper（掌握前两个）

In [8]:
def var():
    """
    特征选择--删除低方差的特征
    :return:
    """
    var = VarianceThreshold(threshold=1) # default=0

    data = var.fit_transform([[0, 2, 0, 3],
                              [0, 1, 4, 3],
                              [0, 1, 1, 3]])
    print(data)

    print('剩余特征编号%s' % var.get_support(True))
    return None
var()

[[0]
 [4]
 [1]]
剩余特征编号[2]


In [9]:
def pca():
    """
    特征选择--降维，对二维平面点降维到一条直线（所有点到该直线垂直距离之和最短）上的距离坐标
    :return:
    """

    pca = PCA(n_components=0.9)  # 保留原有特征的90%

    data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])

    print(data)

    return None

pca()

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]
