In [1]:
# 字典特征抽取
from sklearn.feature_extraction import DictVectorizer

# 1、准备数据
data = [
    {"city": "北京", "temperture": 30},
    {"city": "上海", "temperture": 60},
    {"city": "广州", "temperture": 20},
    {"city": "深圳", "temperture": 100}
]
# 2、实例化 DictVectorizer
dict_v = DictVectorizer(sparse=False)  # 不采用稀疏矩阵
# 3、调用fit_transform输入并转换数据
_data = dict_v.fit_transform(data)

print(_data)  # 字典数据特征值化的结果
print(dict_v.get_feature_names())  # 返回类别名称
print(dict_v.inverse_transform(_data))  # 返回之前的数据格式

[[  0.   1.   0.   0.  30.]
 [  1.   0.   0.   0.  60.]
 [  0.   0.   1.   0.  20.]
 [  0.   0.   0.   1. 100.]]
['city=上海', 'city=北京', 'city=广州', 'city=深圳', 'temperture']
[{'temperture': 30.0, 'city=北京': 1.0}, {'temperture': 60.0, 'city=上海': 1.0}, {'temperture': 20.0, 'city=广州': 1.0}, {'city=深圳': 1.0, 'temperture': 100.0}]


In [2]:
# 文本特征抽取
from sklearn.feature_extraction.text import CountVectorizer

data = ["人生 苦短，我爱 python", "人生 漫漫，不用 python"]

cv = CountVectorizer()
_data = cv.fit_transform(data)

print(_data)
print(_data.toarray())  # sparse矩阵转换为array数组
print(cv.get_feature_names())

  (0, 0)	1
  (0, 3)	1
  (0, 5)	1
  (0, 2)	1
  (1, 1)	1
  (1, 4)	1
  (1, 0)	1
  (1, 2)	1
[[1 0 1 1 0 1]
 [1 1 1 0 1 0]]
['python', '不用', '人生', '我爱', '漫漫', '苦短']


In [3]:
# 结巴分词
import jieba

text = "沙瑞金赞叹易学习的胸怀，是金山的百姓有福，可是这件事对李达康的触动很大。易学习又回忆起他们三人分开的前一晚，大家一起喝酒话别，易学习被降职到道口县当县长，王大路下海经商，李达康连连赔礼道歉，觉得对不起大家，他最对不起的是王大路，就和易学习一起给王大路凑了5万块钱，王大路自己东挪西撮了5万块，开始下海经商。没想到后来王大路竟然做得风生水起。沙瑞金觉得他们三人，在困难时期还能以沫相助，很不容易。"

cut_generator = jieba.cut(text)  # 返回一个生成器
# [i for i in cut_generator]

result = " ".join(cut_generator)  # 将序列中的元素以指定的字符连接生成一个新的字符串
print(result)
print(result.split())
with open("./result.txt", "w") as f:
    f.write(result)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\赵旭\AppData\Local\Temp\jieba.cache
Loading model cost 0.754 seconds.
Prefix dict has been built succesfully.


沙 瑞金 赞叹 易 学习 的 胸怀 ， 是 金山 的 百姓 有福 ， 可是 这件 事对 李达康 的 触动 很大 。 易 学习 又 回忆起 他们 三人 分开 的 前一晚 ， 大家 一起 喝酒 话别 ， 易 学习 被 降职 到 道口 县当 县长 ， 王 大路 下海经商 ， 李达康 连连 赔礼道歉 ， 觉得 对不起 大家 ， 他 最 对不起 的 是 王 大路 ， 就 和 易 学习 一起 给 王 大路 凑 了 5 万块 钱 ， 王 大路 自己 东挪西撮 了 5 万块 ， 开始 下海经商 。 没想到 后来 王 大路 竟然 做 得 风生水 起 。 沙 瑞金 觉得 他们 三人 ， 在 困难 时期 还 能 以沫 相助 ， 很 不 容易 。
['沙', '瑞金', '赞叹', '易', '学习', '的', '胸怀', '，', '是', '金山', '的', '百姓', '有福', '，', '可是', '这件', '事对', '李达康', '的', '触动', '很大', '。', '易', '学习', '又', '回忆起', '他们', '三人', '分开', '的', '前一晚', '，', '大家', '一起', '喝酒', '话别', '，', '易', '学习', '被', '降职', '到', '道口', '县当', '县长', '，', '王', '大路', '下海经商', '，', '李达康', '连连', '赔礼道歉', '，', '觉得', '对不起', '大家', '，', '他', '最', '对不起', '的', '是', '王', '大路', '，', '就', '和', '易', '学习', '一起', '给', '王', '大路', '凑', '了', '5', '万块', '钱', '，', '王', '大路', '自己', '东挪西撮', '了', '5', '万块', '，', '开始', '下海经商', '。', '没想到', '后来', '王', '大路', '竟然', '做', '得', '风生水', '起', '。', '沙', '瑞金', '觉得', '他们', '三人', '，', '在', '困难', '时期', '还', '能', '以沫', '相助', '，', '很', '不', '容易', '。']


In [4]:
# 对一些人名地名结巴分词处理的不好，我们可以人为的给结巴分词器加入词汇
import jieba

text = "沙瑞金赞叹易学习的胸怀，是金山的百姓有福，可是这件事对李达康的触动很大。易学习又回忆起他们三人分开的前一晚，大家一起喝酒话别，易学习被降职到道口县当县长，王大路下海经商，李达康连连赔礼道歉，觉得对不起大家，他最对不起的是王大路，就和易学习一起给王大路凑了5万块钱，王大路自己东挪西撮了5万块，开始下海经商。没想到后来王大路竟然做得风生水起。沙瑞金觉得他们三人，在困难时期还能以沫相助，很不容易。"

jieba.suggest_freq('沙瑞金', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('京州', True)

cut_generator = jieba.cut(text)  # 返回一个生成器
# [i for i in cut_generator]

result = " ".join(cut_generator)  # 将序列中的元素以指定的字符连接生成一个新的字符串
print(result)

沙瑞金 赞叹 易学习 的 胸怀 ， 是 金山 的 百姓 有福 ， 可是 这件 事对 李达康 的 触动 很大 。 易学习 又 回忆起 他们 三人 分开 的 前一晚 ， 大家 一起 喝酒 话别 ， 易学习 被 降职 到 道口 县当 县长 ， 王大路 下海经商 ， 李达康 连连 赔礼道歉 ， 觉得 对不起 大家 ， 他 最 对不起 的 是 王大路 ， 就 和 易学习 一起 给 王大路 凑 了 5 万块 钱 ， 王大路 自己 东挪西撮 了 5 万块 ， 开始 下海经商 。 没想到 后来 王大路 竟然 做 得 风生水 起 。 沙瑞金 觉得 他们 三人 ， 在 困难 时期 还 能 以沫 相助 ， 很 不 容易 。


In [5]:
# 同样，对第二段文本进行分词
import jieba

text = "沙瑞金向毛娅打听他们家在京州的别墅，毛娅笑着说，王大路事业有成之后，要给欧阳菁和她公司的股权，她们没有要，王大路就在京州帝豪园买了三套别墅，可是李达康和易学习都不要，这些房子都在王大路的名下，欧阳菁好像去住过，毛娅不想去，她觉得房子太大很浪费，自己家住得就很踏实。"

cut_generator = jieba.cut(text)
result = " ".join(cut_generator)
print(result)

with open("./result2.txt", "w") as f:
    f.write(result)

沙瑞金 向 毛娅 打听 他们 家 在 京州 的 别墅 ， 毛娅 笑 着 说 ， 王大路 事业有成 之后 ， 要 给 欧阳 菁 和 她 公司 的 股权 ， 她们 没有 要 ， 王大路 就 在 京州 帝豪园 买 了 三套 别墅 ， 可是 李达康 和 易学习 都 不要 ， 这些 房子 都 在 王大路 的 名下 ， 欧阳 菁 好像 去 住 过 ， 毛娅 不想 去 ， 她 觉得 房子 太大 很 浪费 ， 自己 家住 得 就 很 踏实 。


In [6]:
# 使用停用词
with open("./stopwords-master/百度停用词表.txt", "rb") as f:
    stop_words = f.read().decode("utf-8")
    
# print(stop_words)
print(stop_words.splitlines())

['--', '?', '“', '”', '》', '－－', 'able', 'about', 'above', 'according', 'accordingly', 'across', 'actually', 'after', 'afterwards', 'again', 'against', "ain't", 'all', 'allow', 'allows', 'almost', 'alone', 'along', 'already', 'also', 'although', 'always', 'am', 'among', 'amongst', 'an', 'and', 'another', 'any', 'anybody', 'anyhow', 'anyone', 'anything', 'anyway', 'anyways', 'anywhere', 'apart', 'appear', 'appreciate', 'appropriate', 'are', "aren't", 'around', 'as', "a's", 'aside', 'ask', 'asking', 'associated', 'at', 'available', 'away', 'awfully', 'be', 'became', 'because', 'become', 'becomes', 'becoming', 'been', 'before', 'beforehand', 'behind', 'being', 'believe', 'below', 'beside', 'besides', 'best', 'better', 'between', 'beyond', 'both', 'brief', 'but', 'by', 'came', 'can', 'cannot', 'cant', "can't", 'cause', 'causes', 'certain', 'certainly', 'changes', 'clearly', "c'mon", 'co', 'com', 'come', 'comes', 'concerning', 'consequently', 'consider', 'considering', 'contain', 'containin

In [7]:
# 中文特征值化（使用停用词）
from sklearn.feature_extraction.text import CountVectorizer

with open("./result.txt", "rb") as f:
    data1 = f.read().decode("GBK")
    
with open("./result2.txt", "rb") as f:
    data2 = f.read().decode("GBK")
    
with open("./stopwords-master/百度停用词表.txt", "rb") as f:
    stop_words = f.read().decode("utf-8")

stop_words = stop_words.split()
cv = CountVectorizer(stop_words=stop_words)

data = [data1, data2]

_data = cv.fit_transform(data)
print("中文特征值化：\n", _data.toarray()[:5])
print("特征名称：\n", cv.get_feature_names())
print("特征长度：\n", len(cv.get_feature_names()))

中文特征值化：
 [[2 2 0 2 0 1 0 1 0 1 0 1 0 1 1 1 0 1 1 1 5 0 0 4 0 2 0 1 0 0 1 0 1 2 0 0
  0 1 0 0 2 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1]
 [0 0 1 0 1 0 1 0 2 0 1 0 2 0 0 0 1 0 0 0 0 1 1 0 1 0 1 0 2 1 0 1 0 1 2 3
  1 0 1 3 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0]]
特征名称：
 ['万块', '三人', '三套', '下海经商', '不想', '东挪西撮', '事业有成', '事对', '京州', '以沫', '公司', '分开', '别墅', '前一晚', '县当', '县长', '名下', '喝酒', '回忆起', '困难', '大路', '太大', '好像', '学习', '家住', '对不起', '帝豪园', '很大', '房子', '打听', '时期', '易学习', '有福', '李达康', '欧阳', '毛娅', '沙瑞金', '没想到', '浪费', '王大路', '瑞金', '百姓', '相助', '竟然', '股权', '胸怀', '触动', '话别', '赔礼道歉', '赞叹', '踏实', '这件', '连连', '道口', '金山', '降职', '风生水']
特征长度：
 57


In [8]:
# 中文特征值化（不使用停用词）
from sklearn.feature_extraction.text import CountVectorizer

with open("./result.txt", "rb") as f:
    data1 = f.read().decode("GBK")
    
with open("./result2.txt", "rb") as f:
    data2 = f.read().decode("GBK")

cv = CountVectorizer()

data = [data1, data2]

_data = cv.fit_transform(data)
print("中文特征值化：\n", _data.toarray()[:5])
print("特征名称：\n", cv.get_feature_names())
print("特征长度：\n", len(cv.get_feature_names()))

中文特征值化：
 [[2 2 2 0 2 0 0 1 0 0 1 0 2 1 0 1 0 1 1 1 1 0 1 1 1 1 2 5 0 0 0 4 0 1 2 0
  1 1 0 0 1 0 1 2 0 0 0 1 0 0 0 2 1 1 1 0 1 1 2 1 1 1 1 0 0 1 1 1 1 1 1]
 [0 0 0 1 0 1 1 0 1 1 0 2 1 0 1 0 2 0 0 0 1 1 0 0 0 0 0 0 1 1 1 0 1 0 0 1
  0 0 2 1 0 1 0 1 2 3 1 0 1 1 3 0 0 0 0 1 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0]]
特征名称：
 ['一起', '万块', '三人', '三套', '下海经商', '不想', '不要', '东挪西撮', '之后', '事业有成', '事对', '京州', '他们', '以沫', '公司', '分开', '别墅', '前一晚', '县当', '县长', '可是', '名下', '后来', '喝酒', '回忆起', '困难', '大家', '大路', '太大', '她们', '好像', '学习', '家住', '容易', '对不起', '帝豪园', '开始', '很大', '房子', '打听', '时期', '易学习', '有福', '李达康', '欧阳', '毛娅', '沙瑞金', '没想到', '没有', '浪费', '王大路', '瑞金', '百姓', '相助', '竟然', '股权', '胸怀', '自己', '觉得', '触动', '话别', '赔礼道歉', '赞叹', '踏实', '这些', '这件', '连连', '道口', '金山', '降职', '风生水']
特征长度：
 71


In [9]:
# 使用TfidfVectorizer进行中文特征值化
from sklearn.feature_extraction.text import TfidfVectorizer

with open("./stopwords-master/百度停用词表.txt", "rb") as f:
    stop_words = f.read().decode("utf-8")

with open("./result.txt", "rb") as f:
    data1 = f.read().decode("GBK")
    
with open("./result2.txt", "rb") as f:
    data2 = f.read().decode("GBK")

data = [data1, data2]
stop_words = stop_words.split()

tf = TfidfVectorizer(stop_words=stop_words)

_data = tf.fit_transform(data)

print("中文特征值化：\n", _data.toarray())
print("特征名称：\n", tf.get_feature_names())
print("特征长度：\n", len(tf.get_feature_names()))

中文特征值化：
 [[0.2096282  0.2096282  0.         0.2096282  0.         0.1048141
  0.         0.1048141  0.         0.1048141  0.         0.1048141
  0.         0.1048141  0.1048141  0.1048141  0.         0.1048141
  0.1048141  0.1048141  0.52407051 0.         0.         0.4192564
  0.         0.2096282  0.         0.1048141  0.         0.
  0.1048141  0.         0.1048141  0.14915219 0.         0.
  0.         0.1048141  0.         0.         0.2096282  0.1048141
  0.1048141  0.1048141  0.         0.1048141  0.1048141  0.1048141
  0.1048141  0.1048141  0.         0.1048141  0.1048141  0.1048141
  0.1048141  0.1048141  0.1048141 ]
 [0.         0.         0.14212485 0.         0.14212485 0.
  0.14212485 0.         0.28424969 0.         0.14212485 0.
  0.28424969 0.         0.         0.         0.14212485 0.
  0.         0.         0.         0.14212485 0.14212485 0.
  0.14212485 0.         0.14212485 0.         0.28424969 0.14212485
  0.         0.14212485 0.         0.101123   0.28424969 0

In [10]:
word_list = tf.get_feature_names()
weight_list = _data.toarray()

#打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重
for i in range(len(weight_list)):  
    print("-------第",i,"段文本的词语tf-idf权重------") 
    for j in range(len(word_list)):  
        print(word_list[j],weight_list[i][j]) 

-------第 0 段文本的词语tf-idf权重------
万块 0.2096282020164691
三人 0.2096282020164691
三套 0.0
下海经商 0.2096282020164691
不想 0.0
东挪西撮 0.10481410100823454
事业有成 0.0
事对 0.10481410100823454
京州 0.0
以沫 0.10481410100823454
公司 0.0
分开 0.10481410100823454
别墅 0.0
前一晚 0.10481410100823454
县当 0.10481410100823454
县长 0.10481410100823454
名下 0.0
喝酒 0.10481410100823454
回忆起 0.10481410100823454
困难 0.10481410100823454
大路 0.5240705050411727
太大 0.0
好像 0.0
学习 0.4192564040329382
家住 0.0
对不起 0.2096282020164691
帝豪园 0.0
很大 0.10481410100823454
房子 0.0
打听 0.0
时期 0.10481410100823454
易学习 0.0
有福 0.10481410100823454
李达康 0.1491521922580067
欧阳 0.0
毛娅 0.0
沙瑞金 0.0
没想到 0.10481410100823454
浪费 0.0
王大路 0.0
瑞金 0.2096282020164691
百姓 0.10481410100823454
相助 0.10481410100823454
竟然 0.10481410100823454
股权 0.0
胸怀 0.10481410100823454
触动 0.10481410100823454
话别 0.10481410100823454
赔礼道歉 0.10481410100823454
赞叹 0.10481410100823454
踏实 0.0
这件 0.10481410100823454
连连 0.10481410100823454
道口 0.10481410100823454
金山 0.10481410100823454
降职 0.10481410100823454
风生水 0.1