### 金融领域中的自然语言处理

NLP本身是人工智能中的一个重要的方向，简单来说，**自然语言处理的目标就是让机器去理解人的文本或语言**，其中如机器翻译、语音识别、语义理解、智能问答，知识图谱等都属于NLP的范畴。

自计算机诞生伊始，人类就致力于让机器来理解我们语言。随着人工智能、计算机科学、信息工程、统计学、甚至语言学等学科知识的不断进步，目前NLP已经拥有了大量的商业应用，如机器翻译（Google翻译、有道翻译等）、知识图谱（以Google为代表的搜索引擎）、智能问答（Apple的Siri、亚马逊的Alexa以及各种智能机器人）等等。

但是，金融领域的NLP目前仍处于探索阶段，金融本身是一个专业性很高的领域，很多词汇在金融语境下会产生特殊含义，所有的子问题都会有一个独特的理解方式，而且金融领域衡量处理结果的方式也与其他领域不同。比如针对舆情分析，金融领域要求对市场未来的走势有一定的预见性。

因此，金融领域的NLP需要准备特殊的训练数据集，而目前NLP所有方法都是基于大量的数据集基础上，数据集的缺乏也是目前NLP在金融领域所面临的最大问题之一，这也是金融领域高度的专业性与深度导致的。

#### 一个强大的NLP系统能够帮助金融机构解决哪些实际问题？

全网舆情监控、产业链分析、让机器帮助金融机构阅读大量新闻。

例如，商业银行希望使用更全面的数据进行企业的信贷风险管理，提前感知企业的潜在风险。目前常规的风险评估方法是根据企业公布的年报，并综合信贷员实地调查的结果进行判断，但是由于企业自身风险报出通常具有滞后性，公开信息覆盖度不高，看到的往往只是冰山一角，因此判断风险的手段十分单一。这也是NLP与人工智能可以发挥作用的地方。

NLP可以对信息进行多维关系的挖掘，评估企业之间的关系，并通过知识图谱直观呈现企业之间的关联，提前设立预警信号，一旦企业关系网内的相关对象出现任意变动，便可根据关系权重，快速地评估对整个关系网的影响程度。

![](http://5b0988e595225.cdn.sohucs.com/images/20180817/1be14f4f13914a80bd3c29ed7e74b4c4.png)

#### 金融语义应用场景概念框

1. 智能问答和语义搜索

智能问答和语义搜索是自然语言处理（NLP）的关键技术，目的是让用户以自然语言形式提出问题，深入进行语义分析，以更好理解用户意图，快速准确获取知识库中的信息。在用户界面上，既可以表现为问答机器人的形式（智能问答），也可以为搜索引擎的形式（语义搜索）。智能问答系统一般包括问句理解、信息检索、答案生成三个环节。基于知识图谱的智能问答相比基于文本的问答更能满足金融业务实际需求。

2. 资讯与舆情分析

金融资讯信息非常丰富，例如公司新闻（公告、重要事件、财务状况等）、金融产品资料（股票、证券等）、宏观经济（通货膨胀、失业率等）、政策法规（宏观政策、税收政策等）、社交媒体评论等。金融资讯每天产生的数量非常庞大，要从浩如烟海的资讯库中准确找到相关文章，还要阅读分析每篇重要内容，是费时费力的工作。如果有一个工具帮助人工快速迅捷获取资讯信息，将大大提高工作效率。资讯舆情分析的主要功能包括资讯分类标签（按公司、产品、行业、概念板块等）、情感正负面分析（文章、公司或产品的情感）、自动文摘（文章的主要内容）、资讯个性化推荐、舆情监测预警（热点热度、云图、负面预警等）。

3. 金融预测和分析

基于语义的金融预测即利用金融文本中包含的信息预测各种金融市场波动，它是以NLP等人工智能技术与量化金融技术的结合。金融文本数据提供的信息是定性的（qualitative），而通常数字形式的数据是定量的（quantitative）。定性分析比定量分析更难，定性信息包含的信息量更大。有分析表明，投资决策人员在进行决策时，更多依赖于新闻、事件甚至流言等定性信息，而非定量数据。因此，可期待基于语义的金融预测分析大有潜力可挖。这个场景中涉及的关键NLP技术包括事件抽取和情感分析技术。

4. 文档信息抽取

信息抽取是NLP的一种基础技术，是NLP进一步进行数据挖掘分析的基础，也是知识图谱中知识抽取的基础。采用的方法包括基于规则模板的槽填充的方法、基于机器学习或深度学习的方法。按抽取内容分可以分为实体抽取、属性抽取、关系抽取、规则抽取、事件抽取等。在这里的文档信息抽取特指一种金融应用场景。指从金融文档（如公告研报）等抽取指定的关键信息，如公司名称、人名、指标名称、数值等。文档格式可能是格式化文档（word, pdf, html等）或纯文本。对格式化文本进行抽取时需要处理并利用表格、标题等格式信息。

5. 自动文档生成

自动文档生成指根据一定的数据来源自动产生各类金融文档。常见的需要生成的金融文档如信息披露公告（债券评级、股转书等）、各种研究报告。自动报告生成属于生成型NLP应用。它的数据来源可能是结构化数据，也可能是从非结构化数据用信息抽取技术取得的，也可能是在金融预测分析场景中获得的结论。简单的报告生成方法是根据预定义的模板，把关键数据填充进去得到报告。进一步的自动报告生成需要比较深入的NLG技术，它可以把数据和分析结论转换成流畅的自然语言文本。


### 百度LAC 

LAC全称Lexical Analysis of Chinese，是百度自然语言处理部研发的一款联合的词法分析工具，实现中文分词、词性标注、专名识别等功能。具体内容参见https://github.com/baidu/lac/

安装
- 全自动安装: ``pip install lac``
- 使用百度源安装，安装速率更快：``pip install lac -i https://mirror.baidu.com/pypi/simple``


#### 分词

In [2]:
from LAC import LAC

# 装载分词模型
lac = LAC(mode='seg')

# 单个样本输入
text = u"LAC是个优秀的分词工具"
seg_result = lac.run(text)

# 批量样本输入, 输入为多个句子组成的list，平均速率会更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
seg_result = lac.run(texts)

In [52]:
seg_result

[['LAC', '是', '个', '优秀', '的', '分词', '工具'], ['百度', '是', '一家', '高科技', '公司']]

#### 词性标注与实体识别

In [3]:
from LAC import LAC

# 装载LAC模型
lac = LAC(mode='lac')

# 单个样本输入，输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
lac_result = lac.run(text)

# 批量样本输入, 输入为多个句子组成的list，平均速率更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
lac_result = lac.run(texts)

In [53]:
lac_result

[[['LAC', '是', '个', '优秀', '的', '分词', '工具'],
  ['nz', 'v', 'q', 'a', 'u', 'n', 'n']],
 [['百度', '是', '一家', '高科技', '公司'], ['ORG', 'v', 'm', 'n', 'n']]]

### “结巴”分词

jieba是一个Python中文分词组件，可以对中文文本进行分词、词性标注、关键词抽取等功能，并且支持自定义词典。具体参见https://github.com/fxsjy/jieba  

安装：
``pip install jieba``

#### 分词

In [62]:
import jieba

text = '我来自浙江工商大学'

seg_list = jieba.lcut(text, cut_all=True) ## cut_all 参数用来控制是否采用全模式
print("/ ".join(seg_list)) 

我/ 来自/ 浙江/ 工商/ 工商大学/ 商大/ 大学


#### 词性标注

In [61]:
import jieba.posseg as pseg

words = pseg.lcut(text)
for word, flag in words:
    print('{} {}'.format(word, flag))  ## 格式化输出

我 r
来自 v
浙江 ns
工商大学 nt


#### 关键词提取

**基于 TF-IDF 算法的关键词提取**

  TF-IDF（Term Frequency-Inverse Document Frequency, 词频-逆文件频率）是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度，其原理可概括为：

> 一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越能够代表该词语很关键

计算公式：TF * IDF，其中：

- TF(term frequency, TF)：词频，某一个给定词语word在文件中出现的次数，tf = (word在文档中出现的次数)/ (文档总词数)

- IDF(inverse document frequency, IDF)：逆文件频率，idf = log(语料库的文档总数/(包含词语word的文档数量+1))

**Function**

`jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())`
```
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选
```

In [84]:
import numpy as np
# from jieba.analyse import *
import jieba.analyse as analyse

with open('sample.txt', encoding='utf-8') as f:
    data = f.read()
    
print('TF-IDF')
for keyword, weight in analyse.extract_tags(data, topK=5, withWeight=True):
    print('{} {}'.format(keyword, np.round(weight,2)))

TF-IDF
反转 0.41
A股 0.41
50% 0.41
起点 0.39
季度 0.33


**基于 TextRank 算法的关键词提取**

TextRank 是另一种关键词提取算法，基于大名鼎鼎的 PageRank，其原理可参见论文—— [TextRank: Bringing Order into Texts](http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf)

`jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=())`

In [83]:
print('TextRank')
for keyword, weight in analyse.textrank(data, topK=5, withWeight=True):
    print('{} {}'.format(keyword, np.round(weight,2)))

TextRank
银行 1.0
起点 0.92
反转 0.85
处于 0.81
季度 0.49


### SnowNLP

SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。由于该程序都是处理的unicode编码，所以使用时请自行decode成unicode。

具体参见https://github.com/isnowfy/snownlp

安装：`pip install snownlp`

使用：

`from snownlp import SnowNLP`

`s = SnowNLP(text)`
```
s.words         分词
s.tags          词性标注
s.sentiments    positive的概率
s.sentences     分割句子
s.keywords()    关键词
s.summary()     摘要
```

In [4]:
from snownlp import SnowNLP

text1 = '中石化真心棒，我赚了好多钱'
text2 = '这个股票简直烂到爆'

s1 = SnowNLP(text1)
s2 = SnowNLP(text2)

In [5]:
print(text1, SnowNLP(text1).sentiments)
print(text2, SnowNLP(text2).sentiments)

中石化真心棒，我赚了好多钱 0.7961687156385213
这个股票简直烂到爆 0.024879725715451606


In [26]:
import numpy as np
import jieba.analyse as analyse
from snownlp import SnowNLP

text = '12月5日14时30分，在“沃森生物转让泽润生物股权”的电话会上，沃森生物董事长李云春遭投资人猛烈炮轰。除了质疑贱卖子公司，投资人还提出公司应该停牌，甚至提出向监管层举报。“你们把我们这些炒股票的当傻子吗？你看看万泰生物值多少钱，你竟然卖的那么低！你们这些人不相信因果报应吗？”“你们是主动卖泽润的还是泽润管理层逼迫你们卖的？”“泽润产品马上上市了，可以自己造血了，为什么要卖？”对此，公司管理层的回答则是——“我们主动卖的，我们是专业的，我们是对沃森倾注了感情的，请相信我们”。'

## 使用jieba提取关键词
print('TextRank with jieba:')
for keyword, weight in analyse.textrank(text, topK=10, withWeight=True):
    print('{} {}'.format(keyword, np.round(weight,2)))

## 关键词
print('Keywords with snownlp:')
print(SnowNLP(text).keywords(10))

## 摘要
print('Summary with snownlp:')
print(SnowNLP(text).summary(3))

## 对整个文本进行情感分析
s = SnowNLP(text)
print("情感评分（0.6以上为积极，0.2以下为负面）：", np.round(SnowNLP(text).sentiments,2))

## 对单个句子进行情感分析
print('Sentence Sentiment with snownlp:')
for sentence in SnowNLP(text).sentences:
    print(sentence, round(SnowNLP(sentence).sentiments,2))

TextRank with jieba:
生物 1.0
提出 0.82
投资人 0.78
公司 0.59
管理层 0.57
相信 0.52
感情 0.52
应该 0.44
产品 0.4
上市 0.39
Keywords with snownlp:
['泽润', '卖', '生物', '还', '投资人', '沃森', '管理层', '提出', '公司', '日']
Summary with snownlp:
['”“你们是主动卖泽润的还是泽润管理层逼迫你们卖的', '在“沃森生物转让泽润生物股权”的电话会上', '公司管理层的回答则是——“我们主动卖的']
情感评分（0.6以上为积极，0.2以下为负面）： 0.09
Sentence Sentiment with snownlp:
12月5日14时30分 0.02
在“沃森生物转让泽润生物股权”的电话会上 0.9
沃森生物董事长李云春遭投资人猛烈炮轰 0.87
除了质疑贱卖子公司 0.18
投资人还提出公司应该停牌 0.36
甚至提出向监管层举报 0.74
“你们把我们这些炒股票的当傻子吗 0.36
你看看万泰生物值多少钱 0.6
你竟然卖的那么低 0.09
你们这些人不相信因果报应吗 0.35
”“你们是主动卖泽润的还是泽润管理层逼迫你们卖的 0.55
”“泽润产品马上上市了 0.6
可以自己造血了 0.75
为什么要卖 0.39
”对此 0.53
公司管理层的回答则是——“我们主动卖的 0.03
我们是专业的 0.6
我们是对沃森倾注了感情的 0.78
请相信我们” 0.29


**Exercise：**

从下述url中提取新闻标题信息，并计算每个标题的情感评分。并将新闻标题和情感评分的结果均保存至dataframe中。

In [24]:
import requests
from bs4 import  BeautifulSoup
import re
import numpy as np
import pandas as pd

def request_url(url):
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
    headers = {'User-Agent': user_agent} 
    
    res = requests.get(url,headers=headers)
    res.encoding = 'utf-8'
    return res.text

url = 'https://finance.sina.com.cn/roll/index.d.html?cid=56588&page=1'

## 利用BeautifulSoup解析网页

## 利用find_all函数提取所需的新闻标题

## 利用SnowNLP进行情感分析
from snownlp import SnowNLP

## 将结果保存至dataframe中
df = pd.DataFrame({'news':  , 'sentiments' :  })
df

Unnamed: 0,news,sentiments
0,新冠疫苗接连传利好 概念股机会又来了（附股）,0.761771
1,机构看涨这些股：上涨空间最高还有120%（附名单）,0.03281
2,三星也不送充电头了？快充产业或成最大赢家：关注产业链公司,0.680622
3,2020年12月10日涨停板早知道：七大利好有望发酵,0.621802
4,铜箔价格持续上涨 相关公司有望受益（附股）,0.257816
5,2022年苹果或配备潜望式长焦镜头 关注行业龙头机会,0.9768
6,经济复苏加冬季采暖：煤价持续上行 板块或迎历史性配置机遇(股),0.964107
7,2020年12月9日涨停板早知道：七大利好有望发酵,0.589454
8,锂电板块火了：数只个股涨停 机构建议关注3个方面(附股),0.164131
9,Mini-LED即将进入商用元年 产业链相关公司将受益(附股),0.903908


**Exercise:**

补全下述代码：
1. 读取本地的'sina_fin_news.csv'文件
2. 计算了每个新闻的情感评分
3. 计算每一天的情感评分的均值并按目标格式输出


In [115]:
from snownlp import SnowNLP # 使用
import pandas as pd

sina_news = pd.read_csv('sina_fin_news.csv', encoding = 'ansi')
sina_news['date'] = [x.split(' ')[0] for x in sina_news['date']]
sina_news['status'] = 
sina_news

Unnamed: 0,id,news,date,status
0,99,英国4月零售物价指数年率+2.5%，预期+2.6%，前值+2.5%；月率+0.4%，预期+0...,2014/5/20,0.069470
1,98,英国4月核心CPI年率+2.0%，创2013年9月以来最大升幅，预期+1.8%，前值+1.6...,2014/5/20,0.795471
2,97,英国3月DCLG房价指数年率+8.0%，预期+9.6%，前值+9.1%。,2014/5/20,0.541969
3,96,英国4月生产者输入物价指数月率-1.1%，预期-0.2%，前值-0.4%；年率-5.5%，预...,2014/5/20,0.057408
4,95,据世界黄金协会最新黄金需求趋势报告，一季度金条金币需求同比重挫39%至283吨，为四年来最低水平。,2014/5/20,0.999945
...,...,...,...,...
995,4,在圣彼得堡国际经济论坛上，道达尔CEO马哲睿(christophe de Margerie)...,2014/5/25,0.823601
996,3,雷石东(Sumner Redstone)过去约一周中出售2.36亿美元维亚康姆(VIA)和C...,2014/5/25,0.675677
997,2,苹果谋求禁止销售三星9款较老机型。此前苹果(AAPL)在美赢得一桩诉讼，裁决认定三星侵犯苹果...,2014/5/25,0.999985
998,1,郑商所期货与衍生品部总监左宏亮25日在“第九届中国期货暨衍生品市场论坛”上表示，从目前的郑商...,2014/5/25,0.892710


In [140]:
## 补全下述代码令目标输出如下
s_news = sina_news.groupby('date')
s_news['three'] = ['Pos' if s_value > 0.6 else ('Neg' if s_value < 0.2 else 'None')]
s_news

Unnamed: 0_level_0,status,three
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2014/5/20,0.571854,
2014/5/21,0.651911,Pos
2014/5/22,0.614585,Pos
2014/5/23,0.65665,Pos
2014/5/24,0.735881,Pos
2014/5/25,0.788533,Pos


In [12]:
round(1.234353415, 2)

1.23

小结：

这一部分的重点为使用三个nlp工具包：百度lac/jieba/snownlp，实现分词/词性标注/实体识别/情感分析等功能。