# 1.字典特征抽取

In [13]:
from sklearn.feature_extraction import DictVectorizer

In [38]:
def dictver():
    """
    字典数据抽取
    """
    #实例化
        
    dict1 = DictVectorizer()
    #sparse矩阵
    dict2 = DictVectorizer(sparse=False)
    #调用fit_transform
    data1 = dict1.fit_transform([
        {'city':'北京','temperature':100},
        {'city':'上海','temperature':60},
        {'city':'广州','temperature':30},
    ])
    
    data2 = dict2.fit_transform([
        {'city':'北京','temperature':100},
        {'city':'上海','temperature':60},
        {'city':'广州','temperature':30},
    ])
    
    print('字典数据抽取特征：',dict1.get_feature_names())
    print('sparse矩阵：\n',data1)
    print('ndarray格式的二维数组（One-hot编码）:\n',data2)
    print('把特征化数据转会原始数据：\n',dict2.inverse_transform(data2))

      
    return None

dictver()

字典数据抽取特征： ['city=上海', 'city=北京', 'city=广州', 'temperature']
sparse矩阵：
   (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0
ndarray格式的二维数组（One-hot编码）:
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]
把特征化数据转会原始数据：
 [{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=广州': 1.0, 'temperature': 30.0}]


# 2.文本特征抽取（纯英文）
* `特征抽取默认对空格进行分割`
* 1.统计所有文章当中所有的词，重复的只看做一次，（词列表）
* 2.对每篇文章，在词列表进行统计每个词出现的次数　

In [41]:
from sklearn.feature_extraction.text import CountVectorizer

In [47]:
def countvec():
    """
    对文本进行特征化
    """
    #实例化CountVectorizer
    cv = CountVectorizer()
    #调用fit_transform输入并转换数据
    data = cv.fit_transform(["Life is short,I is like python","life is too long,i dislike python"])
    #打印结果
    print('文本数据抽取特征：\n',cv.get_feature_names())
    print('数组矩阵（one-hot编码）：\n',data.toarray())
    print('sparse矩阵：\n',data)
    
    
countvec()

文本数据抽取特征：
 ['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
数组矩阵（one-hot编码）：
 [[0 2 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]
sparse矩阵：
   (0, 2)	1
  (0, 1)	2
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1


# 文本特征抽取二（包含中文）
* `特征抽取默认对空格进行分割`
* 可利用　jieba分词库进行分词
    * jieba.cut('我是一个好程序员')

In [61]:
import jieba
from sklearn.feature_extraction.text import CountVectorizer

In [70]:
# 使用jieba库进行分词
def cutword():
    """
    对句子进行分词
    """
    word1 = "今天很残酷python，明天更残酷，后天很美好，但绝对大部分是死在明天晚上"
    word2 = "我们看到的从很远星系来的光是几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去"
    word3 = "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决与我们"
    
    con1 = jieba.cut(word1)
    con2 = jieba.cut(word2)
    con3 = jieba.cut(word3)
    #返回结果为对象，需要转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)
    
    #把列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)
    
    return c1,c2,c3

## 文本特征抽取

In [71]:
def hanzivec():
    """
    中文特征值化
    """
    c1,c2,c3 = cutword()
    print('句子１：\n%s\n句子２:\n%s\n句子3：\n%s\n' %(c1,c2,c3))
    
    #实例化CountVectorizer
    cv = CountVectorizer()
    #调用fit_transform输入并转换数据
    data = cv.fit_transform([c1,c2,c3])
    
    print('\n特征值：\n',cv.get_feature_names())
    print('one-hot编码：\n',data.toarray())
    
hanzivec()

句子１：
今天 很 残酷 python ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上
句子２:
我们 看到 的 从 很 远 星系 来 的 光是 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去
句子3：
如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决 与 我们


特征值：
 ['python', '一种', '不会', '之前', '了解', '事物', '今天', '光是', '几百万年', '发出', '取决', '只用', '后天', '含义', '大部分', '如果', '宇宙', '我们', '方式', '明天', '星系', '晚上', '某样', '残酷', '看到', '真正', '秘密', '绝对', '美好', '过去', '这样']
one-hot编码：
 [[1 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 2 0 1 0 2 0 0 0 1 1 0 0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 1 3 0 0 1 0 0 0 2 0 0 0 0 1 1]
 [0 1 1 0 3 2 0 0 0 0 1 1 0 1 0 1 0 1 1 0 0 0 1 0 0 2 1 0 0 0 0]]


# 3.文本类型

In [72]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [76]:
def tfidvec():
    """
    中文特征值化
    """
    c1,c2,c3 = cutword()
    print('句子１：\n%s\n句子２:\n%s\n句子3：\n%s\n' %(c1,c2,c3))
    
    #实例化CountVectorizer
    tf = TfidfVectorizer()
    #调用fit_transform输入并转换数据
    data = tf.fit_transform([c1,c2,c3])
    
    print('\n特征值：\n',tf.get_feature_names())
    print('\n某个词对文章的重要程度：\n',data.toarray())
    
tfidvec()

句子１：
今天 很 残酷 python ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上
句子２:
我们 看到 的 从 很 远 星系 来 的 光是 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去
句子3：
如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决 与 我们


特征值：
 ['python', '一种', '不会', '之前', '了解', '事物', '今天', '光是', '几百万年', '发出', '取决', '只用', '后天', '含义', '大部分', '如果', '宇宙', '我们', '方式', '明天', '星系', '晚上', '某样', '残酷', '看到', '真正', '秘密', '绝对', '美好', '过去', '这样']

某个词对文章的重要程度：
 [[0.25819889 0.         0.         0.         0.         0.
  0.25819889 0.         0.         0.         0.         0.
  0.25819889 0.         0.25819889 0.         0.         0.
  0.         0.51639778 0.         0.25819889 0.         0.51639778
  0.         0.         0.         0.25819889 0.25819889 0.
  0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         0.         0.         0.         0.2410822  0.55004769
  0.         0.         0.2410822  0.         0.         0.
  