# Bilibili Python文本分析
https://www.bilibili.com/video/BV1e64y1T7Pu?t=469

数据来源：http://www.sogou.com/labs/resource/ca.php

## P1. 文本分析与关键词提取
1. 去除停用词


### 2. TF-IDF
TF (term frequency)

$TF(w_1, d_1) = \frac{w_1在d_1出现的个数}{d_1总词数}$

IDF (Inverse document frequency)

$IDF(w_1, corpus) = log(\frac{corpus总文档数}{包含w_1的文档数})$

$TF-IDF(w_1, d1,D) = TF(w_1, d_1) * IDF(w_1, D)$

## P3. 数据与任务介绍

In [43]:
import pandas as pd
from bs4 import BeautifulSoup
import requests
import jieba

#### 3.1 读取数据

In [32]:
with open('news_tensite_xml.smarty.dat','rb') as f:
    soup = BeautifulSoup(f.read())


url = []
docno = []
contenttitle = []
content = []
doc = soup.find_all('doc')
for d in doc:
    url.append(d.url.get_text())
    docno.append(d.docno.get_text())
    content.append(d.content.get_text())
    contenttitle.append(d.contenttitle.get_text())
df = pd.DataFrame({'url':url, 'docno':docno, 'contenttitle':contenttitle, 'content':content})
df = df.dropna()
print(df.shape)

(200, 4)


In [33]:
df.head()

Unnamed: 0,url,docno,contenttitle,content
0,http://news.sohu.com/20120612/n345428229.shtml,c172394d49da2142-69713306c0bb3300,公安机关销毁１０余万非法枪支　跨国武器走私渐起,中广网唐山６月１２日消息（记者汤一亮　庄胜春）据中国之声《新闻晚高峰》报道，今天（１２日）上...
1,http://news.sohu.com/20120607/n344998325.shtml,dbb4554e49da2142-69713306c0bb3300,张绍刚发道歉信网友不认可：他的问题是俯视他人（图）,天津卫视求职节目《非你莫属》“晕倒门”事件余波未了，主持人张绍刚前日通过《非你莫属》节目组发...
2,http://news.sohu.com/20120604/n344745879.shtml,3fca104f49da2142-69713306c0bb3300,＃（关注夏收）（３）夫妻“麦客”忙麦收,临沂（山东），２０１２年６月４日　夫妻“麦客”忙麦收　６月４日，在山东省临沂市郯城县郯城街道...
3,http://news.sohu.com/20120613/n345535702.shtml,e4103f4f49da2142-69713306c0bb3300,欧洲杯大战在即　荷兰葡萄牙面临淘汰将背水一战,中广网北京６月１３日消息（记者王宇）据中国之声《新闻晚高峰》报道，明天凌晨两场欧洲杯的精彩比...
4,http://news.sohu.com/20120601/n344598651.shtml,ab18525249da2142-69713306c0bb3300,扎克伯格携妻罗马当街吃３０元麦当劳午餐（组图）,环球网记者李亮报道，正在意大利度蜜月的“脸谱”创始人扎克伯格与他华裔妻子的一举一动都处于媒体...


In [34]:
content[2]

'临沂（山东），２０１２年６月４日\u3000夫妻“麦客”忙麦收\u3000６月４日，在山东省临沂市郯城县郯城街道米顶村麦田间，范加江驾驶收割机在收获小麦。\u3000三夏时节，山东小麦主产区处处可见“麦客”驾驶联合收割机在麦田中来回穿梭。生活在郯城县郯城街道东风村的范加江、赵琴兰夫妇就是众多“麦客”中的一对。小两口于２０１１年投资１１万多元购买了一台大型小麦联合收割机，成为村里第一对夫妻“麦客”。麦收时节，天一刚亮，夫妻俩就开始为农户收割小麦，中午在田间地头凑合填饱肚子，晚上有时要干到十一、二点。夫妻俩各自分工，丈夫收割，妻子负责量地、看路、买油、替农户装粮袋等。忙的时候，一天能收割６０多亩，一个麦季下来能挣２万多元。\u3000在郯城县，有２００多对夫妻“麦客”驾驶联合收割机忙碌在田间地头。他们辛勤忙碌在麦收一线，为小麦及时归仓挥洒着辛勤的汗水，同时通过劳动也为自己带来了稳定的收入。\u3000新华社发（张春雷\u3000摄）'

### 3.2 分词

In [39]:
content_S = []
for line in content:
    current_segment = jieba.lcut(line)
    if len(current_segment) > 1 and current_segment != '\r\n':
        content_S.append(current_segment)

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.867 seconds.
Prefix dict has been built successfully.


In [41]:
print(content_S[2])

['临沂', '（', '山东', '）', '，', '２', '０', '１', '２', '年', '６', '月', '４', '日', '\u3000', '夫妻', '“', '麦客', '”', '忙', '麦收', '\u3000', '６', '月', '４', '日', '，', '在', '山东省', '临沂市', '郯城县', '郯城', '街道', '米', '顶村', '麦田', '间', '，', '范加江', '驾驶', '收割机', '在', '收获', '小麦', '。', '\u3000', '三夏', '时节', '，', '山东', '小麦', '主产区', '处处', '可见', '“', '麦客', '”', '驾驶', '联合', '收割机', '在', '麦田', '中', '来回', '穿梭', '。', '生活', '在', '郯城县', '郯城', '街道', '东风村', '的', '范加江', '、', '赵琴兰', '夫妇', '就是', '众多', '“', '麦客', '”', '中', '的', '一对', '。', '小两口', '于', '２', '０', '１', '１', '年', '投资', '１', '１', '万多元', '购买', '了', '一台', '大型', '小麦', '联合', '收割机', '，', '成为', '村里', '第一', '对', '夫妻', '“', '麦客', '”', '。', '麦收', '时节', '，', '天一', '刚亮', '，', '夫妻俩', '就', '开始', '为', '农户', '收割', '小麦', '，', '中午', '在', '田间', '地头', '凑合', '填饱', '肚子', '，', '晚上', '有时', '要', '干到', '十一', '、', '二点', '。', '夫妻俩', '各自', '分工', '，', '丈夫', '收割', '，', '妻子', '负责', '量', '地', '、', '看路', '、', '买油', '、', '替', '农户', '装', '粮袋', '等', '。', '忙', '的', '时候', '，', '一天', '能', '收割', '６', '０', '多

In [42]:
df_content = pd.DataFrame({'content_S':content_S})
df_content.head()

Unnamed: 0,content_S
0,"[中广网, 唐山, ６, 月, １, ２, 日, 消息, （, 记者, 汤一亮, , 庄胜..."
1,"[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ..."
2,"[临沂, （, 山东, ）, ，, ２, ０, １, ２, 年, ６, 月, ４, 日, ..."
3,"[中广网, 北京, ６, 月, １, ３, 日, 消息, （, 记者, 王宇, ）, 据, ..."
4,"[环球网, 记者, 李亮, 报道, ，, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”..."


### 3.3 停用词

In [98]:
stopword_url1 = 'https://raw.githubusercontent.com/Pirate-Xing/stopwords/master/%E5%93%88%E5%B7%A5%E5%A4%A7%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.txt'
r1 = requests.get(stopword_url1)
stopwords_f1 = r1.text

In [99]:
stopword_url2 = 'https://raw.githubusercontent.com/Pirate-Xing/stopwords/master/%E4%B8%AD%E6%96%87%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.txt'
r2 = requests.get(stopword_url2)
stopwords_f2 = r2.text

In [100]:
stopwords = stopwords_f1.split('\n') + stopwords_f2.split('\n')

In [101]:
stopwords[1]

'》），'

In [102]:
#全角转半角
def strQ2B(ustring):
    ss = []
    for s in ustring:
        rstring = ""
        for uchar in s:
            inside_code = ord(uchar)
            if inside_code == 12288:  # 全角空格直接转换
                inside_code = 32
            elif (inside_code >= 65281 and inside_code <= 65374):  # 全角字符（除空格）根据关系转化
                inside_code -= 65248
            rstring += chr(inside_code)
        ss.append(rstring)
        tmp = ''.join(ss)
    return tmp
def quanjiao2banjiao(value):
    tmp = [strQ2B(i) for i in value]
    return tmp
def drop_stopwords(value):
    tmp = []
    for i in value:
        if i not in stopwords:
            tmp.append(i)
    return tmp

In [103]:
df_content['content_S2'] = df_content['content_S'].apply(quanjiao2banjiao)
df_content['content_clean'] = df_content['content_S2'].apply(drop_stopwords)
df_content.head()

Unnamed: 0,content_S,content_clean,content_S2
0,"[中广网, 唐山, ６, 月, １, ２, 日, 消息, （, 记者, 汤一亮, , 庄胜...","[中广网, 唐山, 月, 日, 消息, 记者, 汤一亮, , 庄胜春, 中国, 之声, 新...","[中广网, 唐山, 6, 月, 1, 2, 日, 消息, (, 记者, 汤一亮, , 庄胜..."
1,"[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ...","[天津, 卫视, 求职, 节目, 非你莫属, 晕倒, 门, 事件, 余波, 未了, 主持人,...","[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ..."
2,"[临沂, （, 山东, ）, ，, ２, ０, １, ２, 年, ６, 月, ４, 日, ...","[临沂, 山东, 年, 月, 日, , 夫妻, 麦客, 忙, 麦收, , 月, 日, 山...","[临沂, (, 山东, ), ,, 2, 0, 1, 2, 年, 6, 月, 4, 日, ..."
3,"[中广网, 北京, ６, 月, １, ３, 日, 消息, （, 记者, 王宇, ）, 据, ...","[中广网, 北京, 月, 日, 消息, 记者, 王宇, 中国, 之声, 新闻, 晚, 高峰,...","[中广网, 北京, 6, 月, 1, 3, 日, 消息, (, 记者, 王宇, ), 据, ..."
4,"[环球网, 记者, 李亮, 报道, ，, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”...","[环球网, 记者, 李亮, 报道, 正在, 意大利, 度蜜月, 脸谱, 创始人, 扎克, 伯...","[环球网, 记者, 李亮, 报道, ,, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”..."


## P4 LDA

In [106]:
from gensim import corpora, models, similarities
import gensim

### 4.1 建立字典

In [107]:
news_dictionary = corpora.Dictionary(df_content['content_clean'].values.tolist())

### 4.2 把每个文档转化为词袋（bag of word, bow) 

In [113]:
news_corpus = [news_dictionary.doc2bow(text) for text in df_content['content_clean'].values.tolist()]

In [111]:
def news_doc2bow(value):
    bow = news_dictionary.doc2bow(value)
    return bow

In [112]:
df_content['bow'] = df_content['content_clean'].apply(news_doc2bow)
df_content.head()

Unnamed: 0,content_S,content_clean,content_S2,bow
0,"[中广网, 唐山, ６, 月, １, ２, 日, 消息, （, 记者, 汤一亮, , 庄胜...","[中广网, 唐山, 月, 日, 消息, 记者, 汤一亮, , 庄胜春, 中国, 之声, 新...","[中广网, 唐山, 6, 月, 1, 2, 日, 消息, (, 记者, 汤一亮, , 庄胜...","[(0, 2), (1, 1), (2, 2), (3, 2), (4, 2), (5, 1..."
1,"[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ...","[天津, 卫视, 求职, 节目, 非你莫属, 晕倒, 门, 事件, 余波, 未了, 主持人,...","[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ...","[(0, 1), (1, 1), (23, 1), (33, 1), (39, 1), (1..."
2,"[临沂, （, 山东, ）, ，, ２, ０, １, ２, 年, ６, 月, ４, 日, ...","[临沂, 山东, 年, 月, 日, , 夫妻, 麦客, 忙, 麦收, , 月, 日, 山...","[临沂, (, 山东, ), ,, 2, 0, 1, 2, 年, 6, 月, 4, 日, ...","[(0, 6), (23, 2), (58, 1), (94, 2), (130, 2), ..."
3,"[中广网, 北京, ６, 月, １, ３, 日, 消息, （, 记者, 王宇, ）, 据, ...","[中广网, 北京, 月, 日, 消息, 记者, 王宇, 中国, 之声, 新闻, 晚, 高峰,...","[中广网, 北京, 6, 月, 1, 3, 日, 消息, (, 记者, 王宇, ), 据, ...","[(23, 1), (24, 1), (25, 1), (28, 1), (33, 4), ..."
4,"[环球网, 记者, 李亮, 报道, ，, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”...","[环球网, 记者, 李亮, 报道, 正在, 意大利, 度蜜月, 脸谱, 创始人, 扎克, 伯...","[环球网, 记者, 李亮, 报道, ,, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”...","[(23, 2), (24, 3), (57, 1), (60, 1), (80, 1), ..."


### 4.3 训练模型

In [117]:
lda = models.LdaModel(df_content['bow'].values.tolist(), id2word=news_dictionary,num_topics=10)

In [119]:
# 每个主题的关键词
for topic in lda.print_topics(num_topics=10, num_words=5):
    print(topic)

(0, '0.016*"\ue40c" + 0.011*"月" + 0.008*" " + 0.007*"." + 0.005*"中国"')
(1, '0.018*"\ue40c" + 0.007*"中国" + 0.006*"月" + 0.006*"权利" + 0.006*" "')
(2, '0.016*"\ue40c" + 0.008*"月" + 0.007*"日" + 0.006*" " + 0.005*"年"')
(3, '0.019*"\ue40c" + 0.012*" " + 0.006*"月" + 0.005*"日" + 0.004*"记者"')
(4, '0.018*"\ue40c" + 0.007*"%" + 0.007*"." + 0.007*"年" + 0.006*" "')
(5, '0.022*"\ue40c" + 0.010*" " + 0.007*"月" + 0.006*"日" + 0.005*"."')
(6, '0.019*"\ue40c" + 0.008*" " + 0.007*"月" + 0.006*"日" + 0.004*"银行"')
(7, '0.015*"\ue40c" + 0.013*" " + 0.009*"." + 0.006*"月" + 0.005*"日"')
(8, '0.032*"\ue40c" + 0.006*"." + 0.006*" " + 0.006*"银行" + 0.005*"%"')
(9, '0.026*"\ue40c" + 0.009*" " + 0.007*"日" + 0.006*"中国" + 0.005*"月"')


In [126]:
for i in lda.get_document_topics(df_content['bow'].values.tolist(),minimum_probability=0):
    print(i)

[(0, 0.00024016942), (1, 0.00024014937), (2, 0.04139679), (3, 0.00024016199), (4, 0.28693748), (5, 0.00024015573), (6, 0.00024014548), (7, 0.00024013885), (8, 0.00024014789), (9, 0.66998464)]
[(0, 0.00043858253), (1, 0.56381625), (2, 0.0004385785), (3, 0.00043860197), (4, 0.00043865325), (5, 0.43267494), (6, 0.00043858078), (7, 0.00043857485), (8, 0.00043860087), (9, 0.00043862)]
[(0, 0.0007200944), (1, 0.0007200981), (2, 0.0007201002), (3, 0.00072013645), (4, 0.0007201144), (5, 0.99351907), (6, 0.00072009483), (7, 0.0007201036), (8, 0.00072010135), (9, 0.00072010106)]
[(0, 0.0003292649), (1, 0.9970368), (2, 0.0003292368), (3, 0.00032924087), (4, 0.0003292359), (5, 0.00032923737), (6, 0.00032923766), (7, 0.00032923606), (8, 0.00032924287), (9, 0.0003292432)]
[(0, 0.0005826083), (1, 0.00058261934), (2, 0.00058262626), (3, 0.0005828548), (4, 0.0005826015), (5, 0.00058260834), (6, 0.0005825982), (7, 0.0005825879), (8, 0.0005826176), (9, 0.9947562)]
[(0, 0.83474016), (1, 0.00016960184), (2

In [129]:
def news_topics(value):
    tmp = lda.get_document_topics(value, minimum_probability=0)
    return tmp

In [130]:
df_content['topics'] = df_content['bow'].apply(news_topics)
df_content.head()

Unnamed: 0,content_S,content_clean,content_S2,bow,topics
0,"[中广网, 唐山, ６, 月, １, ２, 日, 消息, （, 记者, 汤一亮, , 庄胜...","[中广网, 唐山, 月, 日, 消息, 记者, 汤一亮, , 庄胜春, 中国, 之声, 新...","[中广网, 唐山, 6, 月, 1, 2, 日, 消息, (, 记者, 汤一亮, , 庄胜...","[(0, 2), (1, 1), (2, 2), (3, 2), (4, 2), (5, 1...","[(0, 0.00024016926), (1, 0.00024014918), (2, 0..."
1,"[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ...","[天津, 卫视, 求职, 节目, 非你莫属, 晕倒, 门, 事件, 余波, 未了, 主持人,...","[天津, 卫视, 求职, 节目, 《, 非你莫属, 》, “, 晕倒, 门, ”, 事件, ...","[(0, 1), (1, 1), (23, 1), (33, 1), (39, 1), (1...","[(0, 0.00043858262), (1, 0.56670946), (2, 0.00..."
2,"[临沂, （, 山东, ）, ，, ２, ０, １, ２, 年, ６, 月, ４, 日, ...","[临沂, 山东, 年, 月, 日, , 夫妻, 麦客, 忙, 麦收, , 月, 日, 山...","[临沂, (, 山东, ), ,, 2, 0, 1, 2, 年, 6, 月, 4, 日, ...","[(0, 6), (23, 2), (58, 1), (94, 2), (130, 2), ...","[(0, 0.00072009454), (1, 0.00072009827), (2, 0..."
3,"[中广网, 北京, ６, 月, １, ３, 日, 消息, （, 记者, 王宇, ）, 据, ...","[中广网, 北京, 月, 日, 消息, 记者, 王宇, 中国, 之声, 新闻, 晚, 高峰,...","[中广网, 北京, 6, 月, 1, 3, 日, 消息, (, 记者, 王宇, ), 据, ...","[(23, 1), (24, 1), (25, 1), (28, 1), (33, 4), ...","[(0, 0.00032926525), (1, 0.9970368), (2, 0.000..."
4,"[环球网, 记者, 李亮, 报道, ，, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”...","[环球网, 记者, 李亮, 报道, 正在, 意大利, 度蜜月, 脸谱, 创始人, 扎克, 伯...","[环球网, 记者, 李亮, 报道, ,, 正在, 意大利, 度蜜月, 的, “, 脸谱, ”...","[(23, 2), (24, 3), (57, 1), (60, 1), (80, 1), ...","[(0, 0.0005826098), (1, 0.0005826209), (2, 0.0..."


## P5 补充： TF-IDF

### 5.1 建立词典 （同上，news_dictionary)
### 5.2 转化词袋 （同上，bow）

### 5.3 训练模型

In [134]:
tfidf = models.TfidfModel(df_content['bow'].values.tolist(), id2word=news_dictionary)

In [136]:
tfidf[df_content['bow'].values.tolist()[0]]

[(0, 0.010003920033817034),
 (1, 0.024334066823456894),
 (2, 0.03754408907300453),
 (3, 0.05979217822082303),
 (4, 0.0709162227947323),
 (5, 0.041020133684320774),
 (6, 0.02338894017832395),
 (7, 0.03545811139736615),
 (8, 0.041020133684320774),
 (9, 0.041020133684320774),
 (10, 0.022543495584896538),
 (11, 0.02338894017832395),
 (12, 0.03545811139736615),
 (13, 0.03545811139736615),
 (14, 0.03545811139736615),
 (15, 0.041020133684320774),
 (16, 0.08204026736864155),
 (17, 0.041020133684320774),
 (18, 0.05979217822082303),
 (19, 0.028105517871851164),
 (20, 0.02338894017832395),
 (21, 0.041020133684320774),
 (22, 0.032204536931322365),
 (23, 0.03161104442018385),
 (24, 0.022570769064054936),
 (25, 0.029896089110411514),
 (26, 0.0709162227947323),
 (27, 0.02540556304044461),
 (28, 0.032204536931322365),
 (29, 0.06440907386264473),
 (30, 0.029896089110411514),
 (31, 0.03545811139736615),
 (32, 0.02338894017832395),
 (33, 0.02338894017832395),
 (34, 0.019843540753489982),
 (35, 0.07091622

In [137]:
def news_tfidf(value):
    tmp = tfidf[value]
    return tmp

In [138]:
df_content['tfidf_v'] = df_content['content_clean'].apply(news_tfidf)
df_content.head()

ValueError: too many values to unpack (expected 2)