## 1、安装依赖库
| package name | pip命令 | 说明 |
| --- |---| --- |
| paddle | python -m pip install paddlepaddle==2.3.2 -i https://pypi.tuna.tsinghua.edu.cn/simple | 安装paddlehub需要的预装库 |
| paddlehub | pip install paddlehub -i https://pypi.tuna.tsinghua.edu.cn/simple/ | 飞桨预训练模型管理和迁移学习工具 |
| gensim | pip install gensim -i https://pypi.tuna.tsinghua.edu.cn/simple/ | 支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法 |
| mapboxgl | pip install mapboxgl | jupyter notebook地图可视化工具 |
| geopandas | pip install geopandas | 地理空间数据处理库，类似pandas |
| pyLDAvis | pip install pyLDAvis | LDA话题可视化库 |

## 2、载入新闻数据
数据集中包含从长江网上爬取的244条新闻，统一存储在`data/news_origin.csv`中，其中`title`为新闻的标题字段，`content`为新闻的正文字段
* news_origin.csv: [下载](https://drive.google.com/file/d/194-Ri2tRl53RzgHdYLWs001Ccjsv4Pw5/view?usp=sharing)

In [2]:
import pandas as pd
df_origin = pd.read_csv('data/news_origin.csv')
df_origin.head(10)

Unnamed: 0,_id,title,publish_time,content
0,t3621099,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,2020-05-04 23:30,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...
1,t3621097,今年这一场五四晚会，让人看得泪流满面,2020-05-04 22:56,长江网5月4日讯（记者万旭明）\n看过再多遍，还是会为那些画面落泪。说过再多遍，还是想说一句...
2,t3621095,筑牢小区“防护墙”，这家物业公司上岗员工全部接受检测核酸,2020-05-04 22:43,长江网5月4日讯（记者汪甦）\n5月4日一大早，黄陂区盘龙经济开发区巢上城·俊园的业主李伟、...
3,t3621081,应勇寄语全省广大青年：凝聚青春正能量争当时代弄潮儿,2020-05-04 22:23,应勇寄语全省广大青年\n坚定理想信念 增长本领才干\n凝聚青春正能量争当时代弄潮儿\n长江网...
4,t3621078,奋斗吧青春！武汉高校青年在央视讲述武汉战疫故事,2020-05-04 22:02,长江网5月4日讯（记者杨佳峰实习记者吴金伟）\n5月4日，武汉大学、中国地质大学（武汉）等多...
5,t3621067,高三年级复课在即，他们顶着高温为学校义务消杀,2020-05-04 21:53,长江网5月4日讯（记者吴曈）\n提着10多斤的喷雾机，背上50斤重的消杀器具，穿起防护服，戴...
6,t3621001,8号线二期建设又有新进展了,2020-05-04 20:51,长江网5月4日讯（记者龚萍 通讯员刘丹丹）\n武汉地铁8号线二期建设又有新进展，水果湖站-洪...
7,t3621000,既降尘又降温，可通过手机实时查看，这个扬尘监测手段将在全市推广,2020-05-04 20:48,琴台美术馆项目现场，主体结构已完工，进入装修阶段 记者韩玮 摄\n长江网5月4日讯（记者韩...
8,t3620975,湖北老字号走进直播间：妈妈作品曾遨游太空，女儿非遗技能接地气,2020-05-04 20:32,长江网5月4日讯（记者孙珺 通讯员李康）\n妈妈是刺绣大师，刺绣作品曾遨游太空，女儿传承妈妈...
9,t3620974,立夏撞上冷空气，未来三天阴雨缠绵,2020-05-04 20:28,长江网5月4日讯\n在“五一”假期临近尾声的同时，5月5日将进入立夏节气。今年立夏恰好撞上冷...


## 3、对新闻文本进行情感分析
利用PaddleHub提供的Senta预训练模型，对新闻文本进行情感分析。
### 预训练语言模型
随着深度学习的发展，模型参数也飞速增加。需要使用更多的数据来训练模型并防止过拟合。但在NLP领域中，需要花费大量的人力和物力成本来构造大量的标注数据。与此同时，大量无标注的开放语料数据触手可及。通过利用这些语料数据，模型可以学习到更好的语言表示并对提升下游任务的效果。近年来预训练语言模型等大量工作也表明了这一点。

预训练语言模型的优点可以归纳为：
* 利用海量的无标注语料数据可以学习到通用的语言表示，并提升下游任务效果
* 更好的初始化其他模型，加快模型训练并提升效果
* 预训练可以减少下游任务在小数据上过拟合的风险，相当于一种正则化方法

### senta_bilstm
| 模型名称 | senta_bilstm |
| --- | --- |
| 类别 | 文本-情感分析 |
| 网络 | BiLSTM |
| 数据集 | 百度自建数据集 |
| 是否支持Fine-tuning | 否 |
| 模型大小 | 690MB |

该模型是PaddleHub提供的基于一个双向LSTM结构的情感分类模型，该PaddleHub Module可直接支持预测，情感类型分为积极、中立、消极。

In [3]:
# 载入PaddleHub上的预训练模型
import paddlehub as hub
lac = hub.Module(name="lac")
senta = hub.Module(name="senta_bilstm")

  from .autonotebook import tqdm as notebook_tqdm


- 使用Senta模型进行推理，并根据positive_probs、negative_probs计算情感得分
- 情感得分分布在[-1, 1]区间上，-1表示消极、0表示中立、1表示积极
- 将计算得到的情感得分添加到数据帧中

In [4]:
content_list = df_origin['content'].values.tolist()
content_senta_list = senta.sentiment_classify(texts=content_list, use_gpu=False)
sentiment_score = [
    content_senta_result['positive_probs'] - content_senta_result['negative_probs'] 
    for content_senta_result in content_senta_list
]
df_origin['sentiment_score'] = sentiment_score
df_origin[['sentiment_score', 'title', 'content']].head(10)



Unnamed: 0,sentiment_score,title,content
0,0.9724,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...
1,0.9846,今年这一场五四晚会，让人看得泪流满面,长江网5月4日讯（记者万旭明）\n看过再多遍，还是会为那些画面落泪。说过再多遍，还是想说一句...
2,0.9646,筑牢小区“防护墙”，这家物业公司上岗员工全部接受检测核酸,长江网5月4日讯（记者汪甦）\n5月4日一大早，黄陂区盘龙经济开发区巢上城·俊园的业主李伟、...
3,0.99,应勇寄语全省广大青年：凝聚青春正能量争当时代弄潮儿,应勇寄语全省广大青年\n坚定理想信念 增长本领才干\n凝聚青春正能量争当时代弄潮儿\n长江网...
4,0.9886,奋斗吧青春！武汉高校青年在央视讲述武汉战疫故事,长江网5月4日讯（记者杨佳峰实习记者吴金伟）\n5月4日，武汉大学、中国地质大学（武汉）等多...
5,0.4918,高三年级复课在即，他们顶着高温为学校义务消杀,长江网5月4日讯（记者吴曈）\n提着10多斤的喷雾机，背上50斤重的消杀器具，穿起防护服，戴...
6,0.9544,8号线二期建设又有新进展了,长江网5月4日讯（记者龚萍 通讯员刘丹丹）\n武汉地铁8号线二期建设又有新进展，水果湖站-洪...
7,0.3494,既降尘又降温，可通过手机实时查看，这个扬尘监测手段将在全市推广,琴台美术馆项目现场，主体结构已完工，进入装修阶段 记者韩玮 摄\n长江网5月4日讯（记者韩...
8,0.987,湖北老字号走进直播间：妈妈作品曾遨游太空，女儿非遗技能接地气,长江网5月4日讯（记者孙珺 通讯员李康）\n妈妈是刺绣大师，刺绣作品曾遨游太空，女儿传承妈妈...
9,0.9854,立夏撞上冷空气，未来三天阴雨缠绵,长江网5月4日讯\n在“五一”假期临近尾声的同时，5月5日将进入立夏节气。今年立夏恰好撞上冷...


## 4、对新闻文本进行主题分析
- 利用PaddleHub提供的词法分析，我们可以对新闻文本进行分词，进而使用LDA模型进行新闻的主题分析
- LAC词法分析的词性标签查看链接：https://www.paddlepaddle.org.cn/modelbasedetail/lac

### LAC词法分析模型
LAC基于一个堆叠的双向GRU结构，在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面，分词、词性、专名识别的整体准确率95.5%；单独评估专名识别任务，F值87.1%（准确90.3，召回85.4%），总体略优于开放平台版本。在效果优化的基础上，LAC的模型简洁高效，内存开销不到100M，而速度则比百度AI开放平台提高了57%。

词法分析任务的输入是一个字符串（我们后面使用『句子』来指代它），而输出是句子中的词边界和词性、实体类别。序列标注是词法分析的经典建模方式。LAC使用基于GRU的网络结构学习特征，将学习到的特征接入CRF解码层完成序列标注。CRF解码层本质上是将传统CRF中的线性模型换成了非线性神经网络，基于句子级别的似然概率，因而能够更好的解决标记偏置问题。模型要点如下:
1. 输入采用one-hot方式表示，每个字以一个id表示；
2. one-hot序列通过字表，转换为实向量表示的字向量序列；
3. 字向量序列作为双向GRU的输入，学习输入序列的特征表示，得到新的特性表示序列，我们堆叠了两层双向GRU以增加学习能力； 
4. CRF以GRU学习到的特征为输入，以标记序列为监督信号，实现序列标注。

In [5]:
def filter_word_tag(word: str, tag):
    word = word.strip()
    tag_list = [
        'v', 'vd', 'vn', 'a',
        'ad', 'an', 'd', 
    ]
    if len(word) <= 1:
        return False
    if tag not in tag_list:
        return False
    return True
    
content_lac_list = lac.cut(text=content_list, use_gpu=False, return_tag=True)
content_word_tag_filter_list = [
        [
            (word, tag) for word, tag in zip(content_lac_result['word'], content_lac_result['tag']) if filter_word_tag(word, tag)
        ]
        for content_lac_result in content_lac_list
    ]
len(content_word_tag_filter_list), len(content_word_tag_filter_list[0]), content_word_tag_filter_list[0][:10]

(244,
 241,
 [('落地', 'v'),
  ('创新', 'vn'),
  ('不等', 'v'),
  ('最后', 'a'),
  ('也是', 'v'),
  ('重启', 'v'),
  ('最后', 'a'),
  ('连线', 'vn'),
  ('揭牌', 'v'),
  ('揭牌', 'v')])

生成词语列表，从而进行LDA主题模型构建

In [6]:
words_ls = [
    [word for word, tag in word_tag_list]
    for word_tag_list in content_word_tag_filter_list
]

利用gensim构建LDA模型，并输出各主题关键词

In [7]:
import gensim
from gensim import corpora, models, similarities

dictionary = corpora.Dictionary(words_ls)
corpus = [dictionary.doc2bow(words) for words in words_ls]
lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=6, eval_every=None, passes=50, iterations=400)

for topic in lda.print_topics(num_words=9):
    print(topic)

(0, '0.007*"相关" + 0.007*"进行" + 0.007*"恢复" + 0.006*"服务" + 0.006*"对接" + 0.005*"支付" + 0.005*"结算" + 0.005*"采购" + 0.005*"购房"')
(1, '0.012*"最高" + 0.008*"预计" + 0.006*"严选" + 0.006*"旅游" + 0.005*"出现" + 0.004*"推出" + 0.004*"提前" + 0.004*"带来" + 0.004*"了解"')
(2, '0.013*"防控" + 0.011*"预约" + 0.010*"工作" + 0.010*"入园" + 0.008*"安全" + 0.008*"旅游" + 0.008*"出行" + 0.008*"进行" + 0.007*"开放"')
(3, '0.010*"重生" + 0.009*"献血" + 0.005*"看到" + 0.004*"康复" + 0.004*"告诉" + 0.004*"留言" + 0.004*"回家" + 0.004*"创业" + 0.004*"祝福"')
(4, '0.015*"确诊" + 0.013*"累计" + 0.013*"施工" + 0.010*"进行" + 0.010*"复工" + 0.009*"建设" + 0.009*"新增" + 0.008*"死亡" + 0.007*"旅游"')
(5, '0.017*"防控" + 0.012*"发展" + 0.008*"服务" + 0.007*"复工" + 0.007*"恢复" + 0.007*"检测" + 0.007*"建设" + 0.006*"生产" + 0.005*"复产"')


可视化各主题的二维平面分布

In [8]:
import pyLDAvis.gensim_models
pyLDAvis.enable_notebook()
pyLDAvis.gensim_models.prepare(lda, corpus, dictionary)

计算各新闻的对应主题，并将其添加入数据帧中

In [9]:
content_topic_prob_list = list(lda[corpus])
content_topic_list = []
for content_topic_prob in content_topic_prob_list:
    max_prob = 0
    max_topic = -1
    for topic_index, topic_prob in content_topic_prob:
        if topic_prob > max_prob:
            max_prob = topic_prob
            max_topic = topic_index
    content_topic_list.append(max_topic)
df_origin['topic_index'] = content_topic_list
df_origin[['topic_index', 'title']].head()

Unnamed: 0,topic_index,title
0,0,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉
1,2,今年这一场五四晚会，让人看得泪流满面
2,5,筑牢小区“防护墙”，这家物业公司上岗员工全部接受检测核酸
3,5,应勇寄语全省广大青年：凝聚青春正能量争当时代弄潮儿
4,0,奋斗吧青春！武汉高校青年在央视讲述武汉战疫故事


## 5、提取新闻地点
- 利用PaddleHub提供的命名实体识别服务，我们可以识别出新闻中的地点名词
- 利用百度地图提供的地理编码服务，我们可以得到地名对应的经纬度

对各新闻中的地点进行地理编码

In [10]:
from trans_util import bd09_to_wgs84
import requests

news_dict = df_origin.to_dict('index')
news_list = list(news_dict.values())

for news_index, news in enumerate(news_list):
    lac_result = lac.cut(text=[news['content']], use_gpu=False, return_tag=True)[0]
    lac_zip_list = list(zip(
        lac_result['word'],
        lac_result['tag']
    ))

    location_list = [word for word, tag in lac_zip_list 
        if (('ORG' in tag) or ('LOC' in tag)) and ('武汉' != word) and ('湖北' != word) and ('中国' != word )
    ]
    
    news['locations_bd09'] = {}
    news['locations'] = {}
    for location_name in location_list:
        r = requests.get(
                    f'http://api.map.baidu.com/geocoding/v3/?city=武汉'
                    f'&address={location_name}&output=json'
                    f'&ak=xSCBGWXWcIQ5VRg1omPYWpcgtAySsMYE'
                )
        json = r.json()

        if (json['status'] is None) or (json['status'] != 0):
            continue

        result = json['result']

        if result['comprehension'] >= 70 and result['confidence'] >= 20:
            longitude, latitude = (
                result['location']['lng'], result['location']['lat'])

            news['locations_bd09'][location_name] = {
                'longitude': longitude, 'latitude': latitude}
            trans = bd09_to_wgs84(longitude, latitude)
            news['locations'][location_name] = {
                'longitude': trans[0], 'latitude': trans[1]}
    if news_index % 10 == 0:
        print(news_index)

0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
230
240


将编码后的结果进行持久化存储

In [11]:
import numpy as np
np.save('work/news_geo_list.npy', news_list) 

## 6、结合情感、主题，进行新闻的地图可视化
- 利用Mapbox-gl，我们可以对生成的GeoJson进行可视化

读取地理编码后的新闻数据

In [12]:
news_list = np.load('work/news_geo_list.npy',allow_pickle='TRUE').tolist()

将新闻数据转化为数据帧格式

In [13]:
def news_list_to_location_df(news_list):
    result_list = []
    for news in news_list:
        news_location_dict = news['locations']
        for location_name in news_location_dict:
            news_copy = news.copy()
            
            news_copy['longitude'] = news_copy['locations'][location_name]['longitude']
            news_copy['latitude'] = news_copy['locations'][location_name]['latitude']

            del news_copy['locations']
            del news_copy['locations_bd09']

            result_list.append(news_copy)
    return pd.DataFrame(result_list)

df_location = news_list_to_location_df(news_list)
df_location.head()

Unnamed: 0,_id,title,publish_time,content,sentiment_score,topic_index,longitude,latitude
0,t3621099,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,2020-05-04 23:30,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...,0.9724,0,114.315802,30.584507
1,t3621099,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,2020-05-04 23:30,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...,0.9724,0,114.301578,30.599208
2,t3621099,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,2020-05-04 23:30,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...,0.9724,0,114.532575,30.495661
3,t3621099,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,2020-05-04 23:30,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...,0.9724,0,114.299728,30.595346
4,t3621099,有一种“云”，叫“武汉云”！这个字，读懂重启后的武汉,2020-05-04 23:30,华为：“上半年在汉落地鲲鹏生态创新中心！”\n武汉：“不等6月，就在本周！”\n4月30日，...,0.9724,0,114.530962,30.494954


- 将数据帧转为地理的Geojson格式，并存储
- 同时，载入geojson数据

In [14]:
from mapboxgl.utils import create_color_stops, df_to_geojson
from mapboxgl.viz import CircleViz

from mapboxgl.utils import *
from mapboxgl.viz import *

df_to_geojson(df_location, filename='work/news.geojson',
              properties=['_id', 'title', 'sentiment_score', 'topic_index'],
              lat='latitude', lon='longitude', precision=3)

import json
geodata = json.load( open( "work/news.geojson" ) )

mapbox_token = 'pk.eyJ1IjoiNDYzMTk5NDMiLCJhIjoiY2p1YjR2d2x1MDlvdDQzcHEyd21lNWZhNCJ9.SUUUXGxmlANjRuT1SmuahA'
mapbox_center =  (114.3, 30.6)
mapbox_zoom = 9

- 对新闻点进行热力可视化
- 颜色越深，代表新闻点约密集

In [15]:
heatmap_color_stops = create_color_stops([0.01, 0.25, 0.5, 0.75, 1], colors='RdPu')
heatmap_radius_stops = [[0, 5], [14, 20]] # 随着比例尺缩小，点大小增大

# 根据值进行权重设置
# color_breaks = [round(df[measure].quantile(q=x*0.1), 2) for x in range(2, 10)]
# color_stops = create_color_stops(color_breaks, colors='Spectral')
# heatmap_weight_stops = create_weight_stops(color_breaks)

# 创建热力图
viz3 = HeatmapViz(geodata, 
                  access_token=mapbox_token,
                #   weight_property="Avg Medicare Payments",
                #   weight_stops=heatmap_weight_stops,
                  color_stops=heatmap_color_stops,
                  radius_stops=heatmap_radius_stops,
                  opacity=0.8,
                  center= mapbox_center,
                  zoom=mapbox_zoom,
                  below_layer='waterway-label')

viz3.add_snapshot_links = True                    
viz3.show()

# 将可视化结果保存为文件
with open('work/heat_viz.html', 'w', encoding='utf-8') as f:
    f.write(viz3.create_html())

对新闻点进行聚类可视化

In [16]:
# 创建聚类图
color_stops = create_color_stops([1, 10, 25, 50, 75, 100], colors='YlOrBr')

viz4 = ClusteredCircleViz(geodata, 
                        access_token=mapbox_token,
                        color_stops=color_stops,
                        stroke_color='black',
                        radius_stops=[[1, 5], [10, 10], [50, 15], [100, 20]],
                        radius_default=2,
                        cluster_maxzoom=10,
                        cluster_radius=30,
                        label_size=12,
                        opacity=0.9,
                        center=mapbox_center,
                        zoom=mapbox_zoom,
                    )
viz4.add_snapshot_links = True                    
viz4.show()

# 将可视化结果保存为文件
with open('work/cluster_viz.html', 'w', encoding='utf-8') as f:
    f.write(viz4.create_html())

- 对情感进行可视化
- 标签代表新闻主题
- 红色代表消极情感、绿色代表积极情感、黄色为中立

In [17]:
# 生成数据颜色间隔
color_breaks = [-1,-0.5,0,0.5,1]
color_stops = create_color_stops(color_breaks, colors='RdYlGn')

# 创建地图
viz = CircleViz(geodata,
                access_token=mapbox_token,
                height='400px',
                color_property = "sentiment_score",
                color_stops = color_stops,

                radius=2.5,
                stroke_color='black',
                stroke_width=0.2,

                center = mapbox_center,
                zoom = mapbox_zoom,
                below_layer = 'waterway-label'
              )

# 将主题设置为点的标签
viz.label_property = "topic_index"
viz.stroke_width = 0
viz.label_size = 8
viz.legend_text_numeric_precision = 2

viz.add_snapshot_links = True                    
viz.show()

# 将可视化结果保存为文件
with open('work/sentiment_viz.html', 'w', encoding='utf-8') as f:
    f.write(viz.create_html())

- 进行新闻主题可视化，不同的主题显示不同的颜色
- 标签代表新闻点情感得分

In [18]:
# 设置各个类别的颜色
category_color_stops = [[0, 'rgb(211,47,47)'],  
                        [1, 'rgb(81,45,168)'], 
                        [2, 'rgb(2,136,209)'], 
                        [3, 'rgb(139,195,74)'], 
                        [4, 'rgb(255,160,0)']]

# 同时设置情感得分为点的标签
viz = CircleViz(geodata, 
                access_token=mapbox_token,
                height='500px',
                label_property='sentiment_score',
                color_property='topic_index',
                color_default='grey',
                color_function_type='match',
                color_stops=category_color_stops,
                radius=2,
                center= mapbox_center,
                        zoom=mapbox_zoom)

viz.add_snapshot_links = True                    
viz.show()

# 将可视化结果保存为文件
with open('work/topic_viz.html', 'w', encoding='utf-8') as f:
    f.write(viz.create_html())

# 总结
- 地图为我们提供了新闻的另一个入口，通过地图，我们可以发现新闻在空间上的分布特征，并且快速了解特定区域的新闻
- 通过百度飞桨提供的深度学习框架，我们能够快速地运用预训练模型，完成自然语言处理任务，从而对新闻文本进行分析，提取新闻地点
- 本例中以长江网上的新闻作为分析对象，对于分析全国新闻数据，需要更加完善的地点解析、编码机制，有兴趣的朋友可以参考Github中的geocoder.py文件，里面提供了处理全国范围数据的思路

]