特征工程——特征提取

1.特征提取

![jupyter](../Sources/Pictures/Decision_Tree_Algorithm/特征提取示例1.png)

![jupyter](../Sources/Pictures/Decision_Tree_Algorithm/特征提取示例2.png)

    1.1.定义
        将任意数据（如文本、图像）转换为可用于机器学习的数字特征
        注意：特征话是为了计算机更好的去理解数据
    1.2.特征提取分类
        字典特征提取（特征离散化）
        文本特征提取
        图像特征提取（深度学习介绍）
    1.3.特征提取API
        sklearn.feature_extraction

2.字典特征提取

    2.1.作用：对字典数据进行特征值化
    2.2.API：sklearn.feature_extraction.DicVectorizer(aparse=True,……)
        （1）DictVectorizer.fit_transform(x)
                x：字典或者包含字典的迭代器返回值
                返回：sparse矩阵
        （2）DictVectorizer.get_feature_names()
                返回：类别名称

In [6]:
import jieba
# 字典特征提取应用
from sklearn.feature_extraction import DictVectorizer

data = [{"city":"北京","temperature":100},
        {"city":"上海","temperature":60},
        {"city":"深圳","temperature":30}]
# 实例化DicVectorizer对象
transform = DictVectorizer(sparse=True)
# 调用fit_transform,方法输入数据并转换（注意返回格式）
data = transform.fit_transform(data)

In [7]:
# 输出转换结果（sparse=True）
print("转换结果：\n",data)

转换结果：
 <Compressed Sparse Row sparse matrix of dtype 'float64'
	with 6 stored elements and shape (3, 4)>
  Coords	Values
  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


In [5]:
# 输出转换结果（sparse=False)
print("转换结果：\n", data)

转换结果：
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]


In [9]:
# 获取具体属性名
print("属性名字:\n", transform.get_feature_names_out())

属性名字:
 ['city=上海' 'city=北京' 'city=深圳' 'temperature']


        注意观察没有加上sparse=False参数的结果，这个结果并不是我们想要看到的，所以加
        上参数，得到我们想要的结果。
        在pandas中也有类似的效果，我们把这个处理数据的技巧叫做“one-hot”编码；
![jupyter](../Sources/Pictures/Decision_Tree_Algorithm/one-hot编码示例.png)

3.文本特征提取

        3.1.作用：对文本数据进行特征值化
        3.2.API：sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
                （1）返回值：词频矩阵
                （2）CountVectorizer.fit_transform(x)
                        x:文本或者包含文本字符串的可迭代对象
                        返回值：sparse矩阵
                （3）CountVectorizer.get_feature_name_out()
                        返回值：单词列表
             API：sklearn.feature_extraction.text.TfidVectorizer()

In [13]:
# 文本特征提取应用
from sklearn.feature_extraction.text import CountVectorizer

data1 = ["life is short,, i like python","life is long, i use python"]
data2 = ["人生苦短，我喜欢python","生活太长，我用python"]
# 1.实例化CountVectorizer对象
transform = CountVectorizer()
# 2.调用fit_transform方法输入数据并转换
# （注意返回格式，利用toarray()进行sparse矩阵转换array矩阵）
data1 = transform.fit_transform(data1)
data2 = transform.fit_transform(data2)

In [14]:
# 文本特征抽取结果
data1.toarray()

array([[1, 1, 1, 0, 1, 1, 0],
       [1, 1, 0, 1, 1, 0, 1]])

In [15]:
# 返回特征值名字
transform.get_feature_names_out()

array(['人生苦短', '我喜欢python', '我用python', '生活太长'], dtype=object)

In [16]:
data2

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 4 stored elements and shape (2, 4)>

注意：英文默认是空格分开，其实就达到了发呢次的效果，但是中文是以标点符号隔开

        3.3.jieba分词处理
       API：jieba.cut()   返回词语组成的生成器

In [7]:
# 中文字符特征化处理
from sklearn.feature_extraction.text import CountVectorizer
import jieba

data = ["今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天",
        "我们看到的从遥远星系来的光是在几百万年之前发射出来的，这样当我们看到宇宙的时候，我们看到的是它的过去",
        ""]

['今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天', '我们 看到 的 从 遥远 星系 来 的 光是在 几百万年 之前 发射 出来 的 ， 这样 当 我们 看到 宇宙 的 时候 ， 我们 看到 的 是 它 的 过去', '']


In [8]:
# 0.中文数据预处理--分词处理
data_list = []
for content in data:
        if content:
                data_list.append(" ".join(jieba.cut(content)))
        else:
                data_list.append("")

In [9]:
data_list

['今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天',
 '我们 看到 的 从 遥远 星系 来 的 光是在 几百万年 之前 发射 出来 的 ， 这样 当 我们 看到 宇宙 的 时候 ， 我们 看到 的 是 它 的 过去',
 '']

In [10]:
# 1.创建实例化CountVectorizer对象
transfer = CountVectorizer()
# 2.文本特征化处理
data = transfer.fit_transform(data_list)

In [13]:
# 文本特征化处理结果
print("文本特征化处理结果：\n", data)
# 文本特征抽取结果
print("文本特征抽取结果：\n", data.toarray())
# 特征值名字
print("特征名字：\n", transfer.get_feature_names_out())

文本特征化处理结果：
 <Compressed Sparse Row sparse matrix of dtype 'int64'
	with 25 stored elements and shape (3, 25)>
  Coords	Values
  (0, 2)	2
  (0, 17)	2
  (0, 14)	2
  (0, 7)	1
  (0, 21)	1
  (0, 20)	1
  (0, 8)	1
  (0, 16)	1
  (0, 11)	1
  (0, 18)	1
  (0, 0)	1
  (0, 12)	1
  (1, 10)	3
  (1, 19)	3
  (1, 24)	1
  (1, 15)	1
  (1, 3)	1
  (1, 4)	1
  (1, 1)	1
  (1, 6)	1
  (1, 5)	1
  (1, 23)	1
  (1, 9)	1
  (1, 13)	1
  (1, 22)	1
文本特征抽取结果：
 [[1 0 2 0 0 0 0 1 1 0 0 1 1 0 2 0 1 2 1 0 1 1 0 0 0]
 [0 1 0 1 1 1 1 0 0 1 3 0 0 1 0 1 0 0 0 3 0 0 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
特征名字：
 ['不要' '之前' '今天' '光是在' '几百万年' '出来' '发射' '后天' '大部分' '宇宙' '我们' '所以' '放弃' '时候'
 '明天' '星系' '晚上' '残酷' '每个' '看到' '绝对' '美好' '过去' '这样' '遥远']
