In [1]:
import jieba
import math
import jieba.analyse

In [45]:
class TF_IDF:
    
    def __init__(self,file,stop_file):
        self.file = file
        self.stop_file = stop_file
        self.stop_words = self.getStopWords()
    def getStopWords(self):
        swlist = list()
        #按行读取停用词并去空
        for line in open(self.stop_file, "r", encoding='utf-8').readlines():
            swlist.append(line.strip())
        return swlist
    
    #加载商品和标题，分词去停用词
    def loadData(self):
        dMap = dict()
        for line in open(self.file, "r", encoding='utf-8').readlines():
            id,title = line.strip().split('\t')
            dMap.setdefault(id, [])
            for word in list(jieba.cut(str(title).replace(" ",""),cut_all = False)):
                if word not in self.stop_words:
                    dMap[id].append(word)
        return dMap
    
    #获得一个标题中的词频
    def getFreqWord(self, words):
        freqWord = dict()
        for word in words:
            #如果没有这个键就初始化为0
            freqWord.setdefault(word,0)
            freqWord[word] += 1
        return freqWord
    
    #统计单词在所有标题中的次数
    def getCountWordInFile(self, word, dMap):
        count = 0
        for key in dMap.keys():
            if word in dMap[key]:
                count += 1
        return count
    
    #计算TF_IDF
    def getTFIDF(self, words, dMap):
        outDic = dict()
        freqWord = self.getFreqWord(words)
        for word in words:
            #计算TF,即单个word在整句中出现的次数
            tf = freqWord[word] * 1.0 / len(words)
            #计算IDF，即log（所有标题数/（包含word的标题数）+1）
            idf = math.log(len(dMap) / (self.getCountWordInFile(word, dMap) + 1))
            tfidf = idf * tf
            outDic[word] = tfidf
        orderDic = sorted(outDic.items(), key = lambda x: x[1], reverse= True)
        print(orderDic)
        return orderDic



In [46]:
file = "./data/phone-title/id_title.txt"
stop_file = './data/phone-title/stop_words.txt'
tfidf = TF_IDF(file,stop_file)
dMap = tfidf.loadData()
for id in dMap.keys():
    tfIdfDic = tfidf.getTFIDF(dMap[id], dMap)
    print(id, tfIdfDic)
    

[('6Pro', 0.30740662117616135), ('异形', 0.30740662117616135), ('1200', 0.30740662117616135), ('万双', 0.30740662117616135), ('摄', 0.30740662117616135), ('4000mAh', 0.30740662117616135), ('后置', 0.2736178621671477), ('电池', 0.2736178621671477), ('超大', 0.24964435612949923), ('红米', 0.15809333207382342), ('小米', 0.10758201510963047), ('屏', 0.10758201510963047)]
5594 [('6Pro', 0.30740662117616135), ('异形', 0.30740662117616135), ('1200', 0.30740662117616135), ('万双', 0.30740662117616135), ('摄', 0.30740662117616135), ('4000mAh', 0.30740662117616135), ('后置', 0.2736178621671477), ('电池', 0.2736178621671477), ('超大', 0.24964435612949923), ('红米', 0.15809333207382342), ('小米', 0.10758201510963047), ('屏', 0.10758201510963047)]
[('x20S', 0.24592529694092907), ('刘海', 0.24592529694092907), ('粿', 0.21889428973371813), ('手机游戏', 0.21889428973371813), ('屏全', 0.1997154849035994), ('千元', 0.1997154849035994), ('人脸', 0.1997154849035994), ('运行', 0.18483924814931874), ('指纹', 0.18483924814931874), ('6G', 0.1726844776963884

In [58]:
word_test = 'Python的设计哲学是优雅、明确、简单。因此，Perl语言中总是有多种方法来做同一件事的理念在Python开发者中通常是难以忍受的。Python开发者的哲学是用一种方法，最好是只有一种方法来做一件事。在设计Python语言时，如果面临多种选择，Python开发者一般会拒绝花俏的语法，而选择明确的没有或者很少有歧义的语法。由于这种设计观念的差异，Python源代码通常被认为比Perl具备更好的可读性，并且能够支撑大规模的软件开发。这些准则被称为Python格言。在Python解释器内运行import this可以获得完整的列表。Python开发人员尽量避开不成熟或者不重要的优化。一些针对非重要部位的加快运行速度的补丁通常不会被合并到Python内。所以很多人认为Python很慢。不过，根据二八定律，大多数程序对速度要求不高。在某些对运行速度要求很高的情况，Python设计师倾向于使用JIT技术，或者用使用C/C++语言改写这部分程序。可用的JIT技术是PyPy。Python是完全面向对象的语言。函数、模块、数字、字符串都是对象。并且完全支持继承、重载、派生、多继承，有益于增强源代码的复用性。Python支持重载运算符和动态类型。相对于Lisp这种传统的函数式编程语言，Python对函数式设计只提供了有限的支持。有两个标准库(functools, itertools)提供了Haskell和Standard ML中久经考验的函数式程序设计工具。虽然Python可能被粗略地分类为“脚本语言”（script language），但实际上一些大规模软件开发计划例如Zope、Mnet及BitTorrent，Google也广泛地使用它。Python的支持者较喜欢称它为一种高级动态编程语言，原因是“脚本语言”泛指仅作简单程序设计任务的语言，如shellscript、VBScript等只能处理简单任务的编程语言，并不能与Python相提并论。Python本身被设计为可扩充的。并非所有的特性和功能都集成到语言核心。Python提供了丰富的API和工具，以便程序员能够轻松地使用C语言、C++、Cython来编写扩充模块。Python编译器本身也可以被集成到其它需要脚本语言的程序内。因此，很多人还把Python作为一种“胶水语言”（glue language）使用。使用Python将其他语言编写的程序进行集成和封装。在Google内部的很多项目，例如Google Engine使用C++编写性能要求极高的部分，然后用Python或Java/Go调用相应的模块。《Python技术手册》的作者马特利（Alex Martelli）说：“这很难讲，不过，2004 年，Python 已在Google 内部使用，Google 召募许多 Python 高手，但在这之前就已决定使用Python，他们的目的是 Python where we can, C++ where we must，在操控硬件的场合使用C++，在快速开发时候使用 Python。'
print(jieba.analyse.textrank(word_test, topK=20, withWeight = True))
print(jieba.analyse.extract_tags(word_test, topK=20, withWeight = True))


[('使用', 1.0), ('语言', 0.8220022301431035), ('程序', 0.5240150809297321), ('函数', 0.46152132295697934), ('模块', 0.44891238038776404), ('集成', 0.4075518975750135), ('速度', 0.4058156699001165), ('支持', 0.3941724179966442), ('设计', 0.3816522668076423), ('要求', 0.3744894268378445), ('编程语言', 0.3679789953378645), ('编写', 0.3565798874982928), ('技术', 0.33592682309123156), ('能够', 0.3050546397399035), ('继承', 0.30017135037353576), ('重载', 0.2952467274123073), ('运行', 0.2836680455477483), ('源代码', 0.2834693109673218), ('开发者', 0.27740786034913795), ('脚本语言', 0.2659993444168178)]
[('Python', 1.039545000252174), ('C++', 0.173257500042029), ('Google', 0.173257500042029), ('使用', 0.1439979691904058), ('语言', 0.1429216828786087), ('脚本语言', 0.10529494071913044), ('编程语言', 0.09926757393217392), ('开发者', 0.09574179038347827), ('函数', 0.08213265821889855), ('设计', 0.08010324508347827), ('模块', 0.07790465416843478), ('源代码', 0.07656539403710146), ('程序', 0.07342394256823188), ('集成', 0.071277349368), ('编写', 0.06943022251626087), ('Per

In [59]:
word2='Java是一门面向对象编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实现了面向对象理论，允许程序员以优雅的思维方式进行复杂的编程 [1]  。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点 [2]  。Java可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等'
print(jieba.analyse.textrank(word2, topK=20, withWeight = True))
print(jieba.analyse.extract_tags(word2, topK=20, withWeight = True))

[('语言', 1.0), ('面向对象', 0.6042736226743189), ('应用程序', 0.5430949817195657), ('理论', 0.35985763004464966), ('继承', 0.3482564474530473), ('极好地', 0.3463170880154272), ('程序员', 0.313273696825021), ('进行', 0.29944167898248325), ('健壮性', 0.2983918508989952), ('方式', 0.29755334004013767), ('概念', 0.2958547139173458), ('特点', 0.29242062281398407), ('动态性', 0.29031632515375866), ('作为', 0.28737494755628074), ('静态', 0.2834207621679166), ('实现', 0.2829575820536796), ('桌面', 0.27959688710926683), ('代表', 0.2781485204689625), ('思维', 0.27676582560169616), ('平台', 0.26141714587683157)]
[('Java', 0.8662875002101449), ('应用程序', 0.45649914218695653), ('语言', 0.4466302589956522), ('面向对象编程', 0.38282697018550726), ('C++', 0.34651500008405794), ('面向对象', 0.308480612), ('多线程', 0.20145909640579712), ('分布式系统', 0.19141348509275363), ('极好地', 0.18136787378115943), ('健壮性', 0.17325750004202897), ('Web', 0.17325750004202897), ('动态性', 0.17132226246811594), ('可移植性', 0.16544595655362318), ('易用', 0.16428591731159423), ('功能强大', 0.163211888