In [3]:
from collections import defaultdict
import math
import operator
"""
函数说明：创建数据样本
Returns:
    dataset -实验样本切分的词条
    classVec -类别标签向量
"""
def loadDataSet():
    
    dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],    # 切分的词条
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid'] ]
    classVec=[0,1,0,1,0,1] # 类别标签向量，1代表好，0代表不好
    return dataset,classVec
"""
函数说明：特征选择TF-IDF算法
Parameters:
    list_words:词liebiao 
Returns:
    dicr_feature_select:特征选择词字典
"""
def feature_select(list_words):
    # 总词频统计
    doc_frequency=defaultdict(int)
    for word_list in list_words:
        for i in word_list:
            doc_frequency[i]+=1
     
    # 计算每个词的TF值
    word_tf={ } # 存储每个词的TF值
    
    for i in doc_frequency:
        word_tf[i]=doc_frequency[i]/sum(doc_frequency.values())
        
    # 计算每个词的IDF值
    doc_num=len(list_words)
    word_idf={ } # 存储每个词的IDF值
    word_doc=defaultdict(int) # 存储包含该词的文档数
    for i in doc_frequency:
        for j in list_words:
            if i in j:
                word_doc[i]+=1
    for i in doc_frequency:
        word_idf[i]=math.log(doc_num/(word_doc[i]+1))
    
    # 计算每个词的TF*IDF的值
    word_tf_idf={}
    for i in doc_frequency:
        word_tf_idf[i]=word_tf[i]*word_idf[i]
        
    # 对字典按值由大到小排序
    
    dict_feature_select=sorted(word_tf_idf.items(),key=operator.itemgetter(1),reverse=True)
    return dict_feature_select
if __name__=='__main__':
    data_list,label_list=loadDataSet() # 加载数据
    features=feature_select(data_list) # 所有词的TF-IDF值
    print(features)
    print(len(features))

defaultdict(<class 'int'>, {'my': 3, 'dog': 3, 'has': 1, 'flea': 1, 'problems': 1, 'help': 1, 'please': 1, 'maybe': 1, 'not': 1, 'take': 1, 'him': 3, 'to': 2, 'park': 1, 'stupid': 3, 'dalmation': 1, 'is': 1, 'so': 1, 'cute': 1, 'I': 1, 'love': 1, 'stop': 2, 'posting': 1, 'worthless': 2, 'garbage': 1, 'mr': 1, 'licks': 1, 'ate': 1, 'steak': 1, 'how': 1, 'quit': 1, 'buying': 1, 'food': 1})
[('to', 0.0322394037469742), ('stop', 0.0322394037469742), ('worthless', 0.0322394037469742), ('my', 0.028288263356383563), ('dog', 0.028288263356383563), ('him', 0.028288263356383563), ('stupid', 0.028288263356383563), ('has', 0.025549122992281622), ('flea', 0.025549122992281622), ('problems', 0.025549122992281622), ('help', 0.025549122992281622), ('please', 0.025549122992281622), ('maybe', 0.025549122992281622), ('not', 0.025549122992281622), ('take', 0.025549122992281622), ('park', 0.025549122992281622), ('dalmation', 0.025549122992281622), ('is', 0.025549122992281622), ('so', 0.025549122992281622),

In [1]:
import jieba.analyse
text='计算机网络工程及软件产品开发，计算机技术咨询服务；批发、零售：网络设备及配件，通讯设备（不含无线电发射及卫星地面接收设施）。（依法须经批准的项目，经相关部门批准后方可开展经营活动）。 批发：工艺品、皮具箱包、日用品、服装鞋帽、办公用品；软件开发。（依法须经批准的项目，经相关部门批准后方可开展经营活动）。家政服务；家具护理；洗衣服务；三岁以下婴幼儿照护服务；养老服务；人才中介；职业中介；教育咨询服务；软件开发。（依法须经批准的项目，经相关部门批准后方可开展经营活动）劳务派遣服务；人力资源服务（不含职业中介活动）；社会经济咨询服务；技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广；软件开发；个人商务服务；组织文化艺术交流活动。（依法须经批准的项目，经相关部门批准后方可开展经营活动）信息技术咨询服务；信息系统集成服务；软件开发及相关技术服务、技术推广；信息系统设计服务；网络化文化创意设计。（依法须经批准的项目，经相关部门批准后方可开展经营活动）互联网技术服务；网络工程施工；网页制作；企业管理服务；计算机系统服务；软件开发。（依法须经批准的项目，经相关部门批准后方可开展经营活动）销售：电子产品、数码产品、家用电器、通讯设备、转账POS机。计算机软件技术开发、技术转让、技术服务。（依法须经批准的项目，经相关部门批准后方可开展经营活动）医疗器械技术咨询及售后服务；医疗设备安装服务；软件开发；会务服务；商务服务。（依法须经批准的项目，经相关部门批准后方可开展经营活动）'
keywords=jieba.analyse.extract_tags(text,topK=8,withWeight=False,allowPOS=())
print(keywords)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\admin\AppData\Local\Temp\jieba.cache
Loading model cost 0.688 seconds.
Prefix dict has been built successfully.


['批准', '服务', '后方', '软件开发', '依法', '开展', '活动', '相关']


In [7]:
import csv

In [8]:
docA=open(r"D:\论文\cut+TF\0000172017.csv",encoding="utf-8")
docB=open(r"D:\论文\cut+TF\0005092017.csv",encoding="utf-8")

In [12]:
csvreader = csv.reader(docA)
final_list = list(csvreader)

[]


In [3]:
bowA = docA.split(" ")
bowB = docB.split(" ")

AttributeError: '_io.TextIOWrapper' object has no attribute 'split'

['The', 'dog', 'sat', 'on', 'my', 'bed']

In [17]:
wordSet = set(bowA).union(set(bowB))

In [18]:
wordSet

{'The', 'bed', 'cat', 'dog', 'face', 'my', 'on', 'sat'}