## Chapter 6 文本数据可视化

文本数据可视化可以分为文本内容的可视化、文本关系的可视化以及文本多特征信息的可视化。

### 6.4 实际案例

#### 6.4.1 词云图

数据中含有用户喜爱的100篇文章的浏览量、评论数和文章分类。其中存在一些重复的分类，我们在操作中予以合并。

In [2]:
from pyecharts.charts import WordCloud
import pyecharts.options as opts
import pandas as pd

post_data = pd.read_csv('./data/post_data.csv')
post_data2 = post_data.groupby(by=['category']).agg({'views':sum}).reset_index()
# agg （）aggregate缩写）：相加
# groupby分解
# resetindex重置索引
#↑采用链式调用的方法，较为简洁。

data = [list(e) for e in zip(post_data2['category'], [str(e) for e in post_data2['views']])] 

wordcloud = WordCloud()
wordcloud.add(series_name='', data_pair=data, word_size_range=[20, 100]) #设置词云字体大小区间

# wordcloud.render('wordcloud.html')
# 该HTML多次刷新可以重新布局

wordcloud.render_notebook()

#### 6.4.2 主题河流图

主题河流图反映了每一个主题的值基于时间的变化情况


In [5]:
import pyecharts.options as opts
from pyecharts.charts import ThemeRiver
import csv


x_data = []
y_data = []

with open('./data/data.csv', 'r') as f:
    r_csv = list(csv.reader(f))
    for row in r_csv[1:]:
        y_data.append([row[0], int(row[1]), row[2]]) # 字符串需转换为int！
        if row[2] not in x_data:
            x_data.append(row[2]) # 获得不重复的主题标签

(
    ThemeRiver(init_opts=opts.InitOpts(width="1600px", height="800px"))
    .add( # 没有声明实例,直接链式调用
        series_name=x_data, # 标签名列表
        data=y_data, # 数据列表
        singleaxis_opts=opts.SingleAxisOpts(
            pos_top="50",
            pos_bottom="50",
            type_="time",# value数值轴。category类目轴 ， time时间轴
        ),
    )
    .set_global_opts(
        tooltip_opts=opts.TooltipOpts(trigger="axis", axis_pointer_type="line") # 坐标轴提示框（鼠标hover出现参考线）——交互
    )
    #.render("theme_river.html")
    .render_notebook()
)

#### 6.4.3 关系图

数据给出的是一些微博转化关系，可以将用户视为节点，转发关系作为边绘图。

In [9]:
import json

from pyecharts import options as opts
from pyecharts.charts import Graph

with open("./data/weibo.json", "r", encoding="utf-8") as f: #节点属性、关系属性
    j = json.load(f)
    nodes, links, categories, cont, mid, userl = j
c = (
    Graph()
    .add(
        "",
        nodes,
        links,
        categories,
        repulsion=50, #斥力因子，影响节点距离
        linestyle_opts=opts.LineStyleOpts(curve=0.2),# 曲率——影响连线的弯曲程度
        label_opts=opts.LabelOpts(is_show=False),
    )
    .set_global_opts(
        legend_opts=opts.LegendOpts(is_show=False),
        title_opts=opts.TitleOpts(title="Graph-微博转发关系图"),
    )
    #.render("graph_weibo.html")
    .render_notebook()
)


In [None]:
# notebook 出不来？