In [7]:
import sys, codecs
import pandas as pd
import numpy as np
import jieba.posseg
import jieba.analyse
from sklearn.feature_extraction.text import TfidfTransformer 
from sklearn.feature_extraction.text import CountVectorizer

In [14]:
# 数据预处理：分词，词性筛选
def dataPro(text):
    l = []
    pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd']  # 定义选取的词性
    seg = jieba.posseg.cut(text)
    for i in seg:
        if i.word and i.flag in pos:
            l.append(i.word)
    return l

In [30]:
# tf-idf 获取文本top10 关键词
def getKeywords_tfidf(data,topK):
    idList, titleList, abstractList = data['id'], data['title'], data['abstract']
    corpus = [] # 将所有文档输出到一个list中，一行就是一个文档
    for index in range(len(idList)):
        text = '%s。%s' % (titleList[index], abstractList[index]) # 拼接标题和摘要
        text = dataPro(text) # 文本预处理
        text = " ".join(text) # 连接成字符串，空格分隔
        corpus.append(text)

    # 1、构建词频矩阵，将文本中的词语转换成词频矩阵
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(corpus) # 词频矩阵,a[i][j]:表示j词在第i个文本中的词频
    # 2、统计每个词的tf-idf权值
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(X)
    # 3、获取词袋模型中的关键词
    word = vectorizer.get_feature_names()
    # 4、获取tf-idf矩阵，a[i][j]表示j词在i篇文本中的tf-idf权重
    weight = tfidf.toarray()
    # 5、打印词语权重
    ids, titles, keys = [], [], []
    for i in range(len(weight)):
        print(u"-------这里输出第", i+1 , u"篇文本的词语tf-idf------")
        ids.append(idList[i])
        titles.append(titleList[i])
        df_word,df_weight = [],[] # 当前文章的所有词汇列表、词汇对应权重列表
        for j in range(len(word)):
            print (word[j],weight[i][j])
            
    return corpus

In [31]:
def main():
    # 读取数据集
    dataFile = './data/sample_data.csv'
    data = pd.read_csv(dataFile)
    # tf-idf关键词抽取
    global corpusA
    corpusA = getKeywords_tfidf(data,10)

In [32]:
corpusA = []
main()

-------这里输出第 1 篇文本的词语tf-idf------
一定 0.054830755756848856
一段时间 0.0
主体 0.0
乘客 0.0
乘车 0.0
事件 0.0
二者 0.0
互相 0.0
交叉 0.0
产品 0.0
产生 0.09322230345997902
介绍 0.0
仍然 0.054830755756848856
仪表板 0.0
传感器 0.054830755756848856
估计 0.0
位置 0.040779249862494926
作为 0.0
使得 0.0
使用 0.0
使能 0.054830755756848856
使该 0.0
信号 0.09322230345997902
倾斜 0.0
偏压 0.0
停转 0.0
储能 0.0
元件 0.0
免受 0.0
关闭 0.0
具有 0.0
内燃机 0.0
内管 0.0
凹陷 0.0
分析 0.0
分部 0.0
分隔 0.0
切换 0.054830755756848856
利用 0.0
制动 0.10966151151369771
制造 0.0
刹车 0.054830755756848856
力矩 0.16449226727054655
功能 0.054830755756848856
包围 0.0
包括 0.0
单元 0.21932302302739543
卸载 0.0
参数 0.0
发生器 0.0
变型 0.0
变速器 0.0
启动 0.0
吸收 0.0
命令 0.0
围绕 0.0
地向 0.0
坡道 0.10966151151369771
基准 0.0
增加 0.0
处于 0.054830755756848856
处在 0.0
大于 0.054830755756848856
大巴车 0.10966151151369771
头枕 0.0
安排 0.0
安装 0.0
定位 0.0
实施 0.0
实现 0.054830755756848856
容量 0.0
导引 0.0
小于 0.10966151151369771
峰值 0.0
布置 0.0
座椅 0.0
延伸 0.0
开启 0.0
开始 0.0
开度 0.10966151151369771
引到 0.0
形成 0.0
总和 0.0
总成 0.0
恢复 0.054830755756848856
悬挂 0.0
成使 0.0
手

负荷 0.0
货物 0.0
货箱 0.0
起步 0.0
越过 0.0
踏板 0.0
踩下 0.0
车厢 0.0
车身 0.0
车辆 0.0
车门 0.0
转速 0.0
轴线 0.0
辅助 0.0
输出 0.0
过程 0.0
运行 0.0
运输工具 0.0
进入 0.0
远离 0.0
退出 0.0
速度 0.0
邻接 0.0
邻近 0.0
部上 0.0
部分 0.0
部向 0.0
配置 0.0
重叠 0.0
重启 0.0
铰接 0.0
闭环控制 0.0
间隔 0.0
间隙 0.0
防止 0.05389843417799514
防溜 0.0
降低 0.0
限制 0.0
限定 0.0
随后 0.0
靠背 0.0
靠近 0.0
面板 0.0
首先 0.0
驱动 0.0
驱动器 0.0
驻车 0.0
-------这里输出第 6 篇文本的词语tf-idf------
一定 0.0
一段时间 0.0
主体 0.17677438626880906
乘客 0.0
乘车 0.0
事件 0.0
二者 0.0
互相 0.08838719313440453
交叉 0.0
产品 0.0
产生 0.0
介绍 0.0
仍然 0.0
仪表板 0.0
传感器 0.0
估计 0.0
位置 0.0
作为 0.0
使得 0.0
使用 0.0
使能 0.0
使该 0.10397375775779942
信号 0.0
倾斜 0.0
偏压 0.0
停转 0.0
储能 0.0
元件 0.0
免受 0.0
关闭 0.0
具有 0.05068294132365404
内燃机 0.0
内管 0.20794751551559884
凹陷 0.0
分析 0.0
分部 0.0
分隔 0.20794751551559884
切换 0.0
利用 0.0
制动 0.0
制造 0.0
刹车 0.0
力矩 0.0
功能 0.0
包围 0.0
包括 0.0
单元 0.0
卸载 0.0
参数 0.0
发生器 0.0
变型 0.0
变速器 0.0
启动 0.0
吸收 0.0
命令 0.0
围绕 0.0
地向 0.0
坡道 0.0
基准 0.0
增加 0.0
处于 0.0
处在 0.0
大于 0.0
大巴车 0.0
头枕 0.0
安排 0.0
安装 0.0
定位 0.0
实施 0.0
实现 0.0
容量 0.0
导引 0.0
小于 0.0
峰