# Sklean的学习

In [1]:
#导入包
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import jieba

In [6]:
#字典实例化抽取
dict = DictVectorizer()
#调用fit_transform
data = dict.fit_transform([{'city': '北京', 'temperature': 100},{'city': '上海', 'temperature': 60},{'city': '深圳', 'temperature': 30}])
print(data)

(0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


In [7]:
#字典实例化抽取
dict = DictVectorizer(sparse=False)
#调用fit_transform
data = dict.fit_transform([{'city': '北京', 'temperature': 100},{'city': '上海', 'temperature': 60},{'city': '深圳', 'temperature': 30}])
print(data)

[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]


sparse矩阵将数组中为0的省略输出，有值的进行提取输出

In [9]:
origin_data=[{'city': '北京', 'temperature': 100},{'city': '上海', 'temperature': 60},{'city': '深圳', 'temperature': 30}]
print(origin_data)

[{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60}, {'city': '深圳', 'temperature': 30}]


In [8]:
#字典实例化抽取
dict = DictVectorizer(sparse=False)
#调用fit_transform
data = dict.fit_transform([{'city': '北京', 'temperature': 100},{'city': '上海', 'temperature': 60},{'city': '深圳', 'temperature': 30}])
print(dict.get_feature_names())
print(data)

['city=上海', 'city=北京', 'city=深圳', 'temperature']
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]


字典数据抽取：将同类别的转化为1，不同类别的置为0,数值类型的数据不进行转化  
目的：转化为one-hot编码

In [11]:
#字典实例化抽取
dict = DictVectorizer(sparse=False)
#调用fit_transform
data = dict.fit_transform([{'city': '北京', 'temperature': 100},{'city': '上海', 'temperature': 60},{'city': '深圳', 'temperature': 30}])
#inverse_transform(data):将数据回转
print(dict.inverse_transform(data))

[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=深圳': 1.0, 'temperature': 30.0}]


## 对文本数据进行特征值化

In [18]:
cv=CountVectorizer()
data=cv.fit_transform(['life is short,i love python','life is too long,i dislike python'])
print(cv.get_feature_names()) #统计文章
print(data.toarray())

['dislike', 'is', 'life', 'long', 'love', 'python', 'short', 'too']
[[0 1 1 0 1 1 1 0]
 [1 1 1 1 0 1 0 1]]


文本特征抽取:  
* 统计文章中所有的词，重复的只统计一次  
* 对每篇文章，在词列表里面统计每个词出现的**次数**
* 单个字母不统计  

用处:  
* 文本分类  
* 情感分析

In [19]:
cv=CountVectorizer()
data=cv.fit_transform(['人生苦短，我用python','人生漫长，不用python'])
print(cv.get_feature_names()) #统计文章
print(data.toarray())

['不用python', '人生漫长', '人生苦短', '我用python']
[[0 0 1 1]
 [1 1 0 0]]


In [21]:
cv=CountVectorizer()
data=cv.fit_transform(['人生 苦短，我 用 python','人生 漫长，不用 python'])
print(cv.get_feature_names()) #统计文章
print(data.toarray())

['python', '不用', '人生', '漫长', '苦短']
[[1 0 1 0 1]
 [1 1 1 1 0]]


## 中文特征值化
对于中文，要先进行分词处理
* jieba模块

In [37]:
#返回的是一个词语生成器
jieba.cut('我是一个好程序员')

<generator object Tokenizer.cut at 0x000001BED99FEC10>

In [3]:
con1=jieba.cut('今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。')

con2=jieba.cut('我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。')

con3=jieba.cut('如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。')

print(con1)
print(con2)
print(con3)

<generator object Tokenizer.cut at 0x0000025F40FDF350>
<generator object Tokenizer.cut at 0x0000025F40FDF430>
<generator object Tokenizer.cut at 0x0000025F40FDF660>


In [4]:
#转换为列表
content1=list(con1)
content2=list(con2)
content3=list(con3)

#把列表转化为字符串
c1=' '.join(content1)
c2=' '.join(content2)
c3=' '.join(content3)

print(c1)
print('*'*100)
print(c2)
print('*'*100)
print(c3)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\17575\AppData\Local\Temp\jieba.cache
Loading model cost 0.564 seconds.
Prefix dict has been built successfully.
今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。
****************************************************************************************************
我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。
****************************************************************************************************
如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。


In [41]:
cv=CountVectorizer()
data=cv.fit_transform([c1,c2,c3])
print(cv.get_feature_names()) #统计文章
print(data.toarray())

['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']
[[0 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 1]
 [1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0]]


## 文本分类tf idf

* tf:词的频率(**出现的次数**)  
* idf：逆文档频率(log(**总文档数量/该词出现的频率**))  
* 重要程度：tf*idf

In [5]:
cv=TfidfVectorizer()
data=cv.fit_transform([c1,c2,c3])
print(cv.get_feature_names()) #统计文章
print(data.toarray())

['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']
[[0.         0.         0.21821789 0.         0.         0.
  0.43643578 0.         0.         0.         0.         0.
  0.21821789 0.         0.21821789 0.         0.         0.
  0.         0.21821789 0.21821789 0.         0.43643578 0.
  0.21821789 0.         0.43643578 0.21821789 0.         0.
  0.         0.21821789 0.21821789 0.         0.         0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         0.         0.         0.         0.         0.2410822
  0.55004769 0.         0.         0.         0.         0.2410822
  0.         0.         0.         0.         0.48216441 0.
  0.         0.         0.         0.         0.2410822  0.2410822 ]
 [0.15698297 0.15698297 0.

上面矩阵代表了词的重要性