In [1]:
import jieba

In [2]:
text = "吉林市长春药店"

# 全模式
seg_list = jieba.cut(text, cut_all=True)  #全模式，把句子中所有可以成词的词语分割出来，速度快，但有重复词和歧义
# type(seg_list) 类型是可迭代对象
for word in seg_list:
    print(word, end="/")
print()

# 精确模式
seg_list = jieba.cut(text, cut_all=False)  #精确模式，试图将句子最精确地分词，适合文本分析
for word in seg_list:
    print(word, end="/")
print()

# 搜索引擎模式
seg_list = jieba.cut_for_search(text)  #搜索引擎模
for word in seg_list:
    print(word, end="/")
print()

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/xw/r4jf50z15dv7m1bfg3f55mcw0000gn/T/jieba.cache
Loading model cost 0.941 seconds.
Prefix dict has been built successfully.


吉林/吉林市/市长/长春/春药/药店/
吉林市/长春/药店/
吉林/吉林市/长春/药店/


In [3]:
################################################################################################

In [4]:
# 通过tf-idf提取高频词汇

In [5]:
# 读取指定文件中的内容
def get_content(path):
    with open(path, "r", encoding='gbk') as f:
        content = ""  #存放文件内容
        for line in f.readlines():
            line = line.strip()  #去除空格
            content += line
    return content

In [6]:
content = get_content('./11.txt')

In [7]:
content

'焦点个股：苏宁电器（002024），该股早市涨停开盘，其后虽在获利盘的抛压下略有回落但在强大买盘的推动下该股已经再次封于涨停，可见主力资金积极拉升的意愿相当强烈。盘面解析：1.技术层面上，早市指数小幅探低后迅速回升，在中石化强势上扬的带动下指数已经成功翻红，多头实力之强令人瞠目结舌。不过在市场高度繁荣的情形下投资者也需谨慎操作，必竟持续的上攻已经消耗了大量的多头动能。2.盘中热点来看，相比周二略有退温。但依然可以看到目前热点效应向外扩散的迹象相当明显。高度活跌的板块已经从前期的有色金属、金融地产股向外扩大至军工概念、航天航空等。操作思路：短线依然需规避一下技术性回调风险，盘中切记不可追高。'

In [21]:
def get_tf(words, topk=10):
    tf_dict = {}  #字典key：词，value：词出现的次数
    for w in words:
        if w not in tf_dict.keys():
            tf_dict[w] = 1
        else:
            num = tf_dict[w]
            num += 1
            tf_dict[w] = num

    #根据建值倒序排序
    #new_list = sorted(tf_dict.items(),  #带排序对象
    #                  key=lambda x: x[1],  #排序依据是次数
    #                  reversed=True)  #倒序

    # 倒序排列
    new_list = sorted(tf_dict.items(), key=lambda x: x[1], reverse=True)
    return new_list[0:topk]

In [22]:
#读取停用词表

In [23]:
def get_stop_words(path):
    with open(path, encoding='utf8') as f:
        return [ln.strip() for ln in f.readlines()]

In [26]:
fname = '11.txt'
corpus = get_content(fname)
#print(corpus)

#分词开始
tmp_list = list(jieba.cut(corpus))
#print(tmp_list)

#读取停用词，然后过滤停用词
stop_words = get_stop_words('stop_words.utf8')

split_words = []  #用于存过滤后的结果
for w in tmp_list:
    if w not in stop_words:
        split_words.append(w)
#print(split_words)
print('分词/停用词过滤结果：\n' + '/'.join(split_words))

#t统计词频
top_list = get_tf(split_words, 10)
print('\nTop10词汇：', str(top_list))

分词/停用词过滤结果：
焦点/个股/苏宁/电器/002024/该股/早市/涨停/开盘/其后/获利盘/抛/压下/略有/回落/强大/买盘/推动/下该/股/已经/再次/封于/涨停/主力/资金/积极/拉升/意愿/相当/强烈/盘面/解析/技术/层面/早市/指数/小幅/探低/迅速/回升/中石化/强势/上扬/带动/指数/已经/成功/翻红/多头/实力/之强/令人/瞠目结舌/市场/高度/繁荣/情形/投资者/需谨慎/操作/必竟/持续/上攻/已经/消耗/大量/多头/动能/盘中/热点/来看/相比/周二/略有/退温/依然/看到/目前/热点/效应/外扩散/迹象/相当/明显/高度/活跌/板块/已经/前期/有色金属/金融/地产股/向外/扩大/军工/概念/航天航空/操作/思路/短线/依然/需/规避/一下/技术性/回调/风险/盘中/切记/不可/追高

Top10词汇： [('已经', 4), ('早市', 2), ('涨停', 2), ('略有', 2), ('相当', 2), ('指数', 2), ('多头', 2), ('高度', 2), ('操作', 2), ('盘中', 2)]


In [None]:
################################################################################################

In [27]:
#jieba词性标注
import jieba.posseg as psg

In [28]:
def pos(text):
    results = psg.cut(text)
    for w, t in results:
        print("%s/%s" % (w, t), end=" ")
    print("")

In [30]:
text = "呼伦贝尔大草原"
pos(text)
text = "梅兰芳大剧院里星期六晚上有演出"
pos(text)

呼伦贝尔/nr 大/a 草原/n 
梅兰芳/nr 大/a 剧院/n 里/f 星期六/t 晚上/t 有/v 演出/v 
