## 1. Data：探索德国联邦议院数据集

这个案例在谈论与政治相关的话题，我们在展开可视化探索之前，最终要的起点就是对数据集进行全面的了解，对数据集中各个字段所代表的含义要有充分的认知。

- State：州的英文名称；
- Population：州的人口数量；
- Seats：州所获的的联邦议院席位数；
- Population per Seat：每个席位所对应的人口数；
- Governing parties：执政党联盟；
- Next regular election：下一次选举时间；
- Presidency：总统职位每年在每个州之间进行轮换，现任总统的前任是第一副总统，继任者是第二副总统。
- State_zh_cn：州名称的中文译文；
- Primary party：州的第一执政党；
- Secondary party：州的第二执政党；
- Tertiary party：州的第三执政党；
- State abbr：州名称的缩写。

**主要任务：**

- 查看数据集中有几个州（State）？
- 查看数据集中席位（Seats）的总数是多少？
- 修改 `...` 位置的脚本：

```python
num_of_state = ... 
num_of_total_seats = ... 
```

In [1]:
# ... 这里需要您编写 - 任务 1 的代码 ...

# 导入 pandas 模块，并简称为 pd
import pandas as pd

# 加载德国联邦议院数据集
df_germany_federal_concil = pd.read_csv(
    '/data/course_data/visualization/germany_federal_concil.csv',
    index_col = 0
).reset_index(
    drop = True
)

# 查看数据集中有几个州（State）？
# 查看数据集中席位（Seats）的总数是多少？
num_of_state =  len(df_germany_federal_concil.State.unique())
num_of_total_seats = df_germany_federal_concil.Seats.sum()

print(f'州数量：{num_of_state}')
print(f'总席位数量：{num_of_total_seats}')

# 查看数据集的全部数据
df_germany_federal_concil

州数量：16
总席位数量：69


Unnamed: 0,State,Population,Seats,Population per Seat,Governing parties,Next regular election,Presidency,State_zh_cn,Primary party,Secondary party,Tertiary party,State abbr
0,North Rhine-Westphalia,17865516,6,2977586,CDU + FDP,2022,2026/27,北莱茵-威斯特法伦州,CDU,FDP,,DE-NW
1,Bavaria,12843514,6,2140586,CSU + FW,2023,2027/28,巴伐利亚,CSU,FW,,DE-BY
2,Baden-Württemberg,10879618,6,1813270,Grüne + CDU,2021,2028/29,巴登-符腾堡州,Grüne,CDU,,DE-BW
3,Lower Saxony,7926599,6,1321100,SPD + CDU,2022,2029/30,下萨克森州,SPD,CDU,,DE-NI
4,Hesse,6176172,5,1235234,CDU + Grüne,2023,2030/31,黑森州,CDU,Grüne,,DE-HE
5,Schleswig-Holstein,2858714,4,714679,CDU + Grüne + FDP,2022,2034/35,石勒苏益格-荷尔斯泰因州,CDU,Grüne,FDP,DE-SH
6,Saxony,4084851,4,1021213,CDU + SPD + Grüne,2024,2031/32,萨克森,CDU,SPD,Grüne,DE-SL
7,Saxony-Anhalt,2245470,4,561368,CDU + SPD + Grüne,2021,2020/21,萨克森-安哈尔特州,CDU,SPD,Grüne,DE-ST
8,Thuringia,2170714,4,542679,Linke + SPD + Grüne,2024,2021/22,图林根州,Linke,SPD,Grüne,DE-TH
9,Brandenburg,2484826,4,621207,SPD + CDU + Grüne,2024,current,勃兰登堡,SPD,CDU,Grüne,DE-BB


## 2. 联邦议院的席位如何划分？

我们开始第一步探索，从各州的执政党联盟开始，分析各个州分别有多少选票，了解各个州在德国联邦政府中的整体地位。

**主要任务：**

- 第一步：准备绘图所需要的数据，并存储在 `df_data_by_coalition` 数据框中，将 `aggregation_method = ...` 中的 `...` 修改为正确的值；
- 第二步：根据 `df_data_by_coalition` 数据进行绘图，绘制横向的条形图。

In [2]:
# ... 这里需要您编写 - 任务 2 的代码 ...

# 导入绘图工具包
from bokeh.plotting import show, figure
# 设置绘图输出方式为 Notebook
from bokeh.io import output_notebook; output_notebook()

# 按执政党（Governing parties）统计席位数量
aggregation_method = 'sum'

df_data_by_coalition = df_germany_federal_concil.groupby(
    by = 'Governing parties'
).agg({
    'Seats': aggregation_method
}).sort_values(
    by = 'Seats', ascending = True
).reset_index()

# ... 根据 df_data_by_coalition 数据进行绘图 ...
# y_range 为 y 州坐标轴的刻度数据
y_range = df_data_by_coalition['Governing parties']
p = figure(
    frame_width = 300, frame_height = 400, y_range = y_range,
#     toolbar_location = None
)

# 绘制水平的条形图
p.hbar(
    y = 'Governing parties', 
    left = 0, right = 'Seats', 
    height = 0.9, 
    fill_color = 'dimgrey', line_color = 'white',
    source = df_data_by_coalition
)

# 设置坐标轴，绘图外边框等样式
p.xaxis.axis_label = '席位总数'
p.axis.axis_label_text_font_size = '14pt'
p.axis.major_label_text_font_size = '12pt'
p.outline_line_color = 'dimgrey'
p.xaxis.ticker.num_minor_ticks = 2

# 显示绘图
bar_plot_by_coalition = p
show(bar_plot_by_coalition)

## 3. Data：探索政党获得的席位数据集

我们来查看第二个数据集，数据框 `df_germany_party` 存储了各个党派获得联邦议院席位的情况，数据字段的含义是：

- Primary: 作为州（State）的第一执政党获得的席位；
- Secondary：作为州（State）的第二执政党获得的席位；
- Tertiary：作为州（State）的第三执政党获得的席位；
- Full name：党派英文名称全称；
- Full name in Chinese：党派中文名称全称。

**主要任务：**

- 运行脚本，查看数据集；
- 替换 `...` 中的数据，然后再次执行脚本，结果正确才能通过脚本测试。

In [3]:
# ... 这里需要您编写 - 任务 3 的代码 ...

# 政党全称，英文 + 中文
df_germany_party = pd.read_csv(
    '/data/course_data/visualization/germany_party_data.csv', 
    index_col = 0
)

# 第一（Primary）、第二（Secondary）、第三（Tertiary）执政党分别共有多少席位，
# 也就是 Primary, Secondary, Tertiary 三列的合计分别是多少？
primary_seats = len(df_germany_party.)
secondary_seats = ...
tertiary_seats = ...

# 查看德国政党的席位数据
df_germany_party

Unnamed: 0,Primary,Secondary,Tertiary,Full name,Full name in Chinese
SPD,27,15,0,Social Democratic Party of Germany,德国社会民主党
CDU,26,19,0,Christian Democratic Union of Germany,德国基督教民主联盟
Grüne,6,15,24,Alliance 90/The Greens,绿党
CSU,6,0,0,Christian Social Union in Bavaria,巴伐利亚基督教社会联盟
Linke,4,4,3,The Left,左派
FDP,0,10,4,Free Democratic Party,自由民主党
FW,0,6,0,Free Voters,自由选民党


## 4. 为政党数据集添加政党的颜色

**党派颜色：**德国的各个政党都是有自己的品牌色的，从维基百科上可以看到这样一张图：

<table width="100%">
    <tr>
        <td><img style="zoom: 0.15" align="left" src="https://img.kaikeba.com/a/04913103700202uasg.png"></td>
    </tr>
</table>

**德国国旗：**每个党派都有自己的颜色，于是在绘制按党派划分的条形图之前，我们需要为党派数据集添加颜色属性。我们把德国的国旗也放在这里，国旗的颜色是不是和党派的颜色非常相关～

<table width="100%">
    <tr>
        <td><img style="zoom: 0.1" align="left" src="https://img.kaikeba.com/a/95913103700202horr.png"></td>
    </tr>
</table>

**主要任务：**

- 在数据集 `df_germany_party` 中添加颜色。

In [4]:
# ... 这里需要您编写 - 任务 4 的代码 ...

# 按照党派在数据集中的顺序，
# 用 colors_of_party 存储各个党派的颜色
colors_of_party = [
    'red',
    'black',
    'mediumseagreen',
    'dodgerblue',
    'deeppink',
    'gold',
    'darkorange'
]

# 在数据集 df_germany_party 中添加颜色字段 'Color'
df_germany_party['Color'] = colors_of_party

df_germany_party

Unnamed: 0,Primary,Secondary,Tertiary,Full name,Full name in Chinese,Color
SPD,27,15,0,Social Democratic Party of Germany,德国社会民主党,red
CDU,26,19,0,Christian Democratic Union of Germany,德国基督教民主联盟,black
Grüne,6,15,24,Alliance 90/The Greens,绿党,mediumseagreen
CSU,6,0,0,Christian Social Union in Bavaria,巴伐利亚基督教社会联盟,dodgerblue
Linke,4,4,3,The Left,左派,deeppink
FDP,0,10,4,Free Democratic Party,自由民主党,gold
FW,0,6,0,Free Voters,自由选民党,darkorange


## 5. 各个政党拥有多少投票席位？


我们进一步探索，我们在任务二中看到了各个联合执政党在联邦议院中获得席位，现在我们来看看各个政党的情况，发现德国政党在德国联邦议院的话语权有何不同？

**主要任务：**
- 运行脚本，得到绘图；
- 修改 num_of_columns 的值，从 2 改为 3；
- 再次运行脚本，得到新的绘图；
- 思考各个政党在德国联邦议院的影响力是怎样的？最有影响力的三个政党是哪些？

In [5]:
# ... 这里需要您编写 - 任务 5 的代码 ...

# 导入程序包
from bokeh.plotting import gridplot
from bokeh.layouts import column

# 获取 Primary、Secondary、Tertiary 三列的列名
columns = df_germany_party.columns[0: 3].tolist()

# 计算一下 columns 包含的所有列中的最大值 max_value，
# 根据 max_value 统一设置所有数据面板 x 轴的取值范围，
# 统一的 x 轴可以让对比更加明显。
max_value = df_germany_party[columns].max().max()

# 将数据面板绘制为 num_of_columns 多个列
num_of_columns = 3
plots = []
# 每一个政党绘制一个数据面板
for i, party in enumerate(df_germany_party.index):

    # 创建绘图对象
    p = figure(
        title = party,
        x_range = [-1, max_value + 1], y_range = columns[::-1],
        frame_width = 150, frame_height =180, 
        toolbar_location = None
    )
    # 绘制横向条形图
    p.hbar(
        y = columns,
        height = 0.9,
        left = 0, right = df_germany_party.loc[party, columns],
        fill_color = df_germany_party.loc[party, 'Color'], 
        fill_alpha = [1, 0.6, 0.3],
        line_width = 0
    )
    # 设置坐标轴和绘图的样式和体验
    p.title.text_font_size = '14pt'
    p.axis.axis_label_text_font_size = '14pt'
    p.axis.major_label_text_font_size = '12pt'
    p.outline_line_color = 'dimgrey'
    p.min_border = 3

    # 不是第一列，将 y 坐标轴隐藏
    if i % num_of_columns != 0: 
        p.yaxis.visible = False
    # 是第一列，将坐标轴的宽度设置为 100 像素
    else:
        p.min_border_left = 100

    # 不是倒数的 3 个，将 x 坐标轴隐藏
    if i < len(df_germany_party) - num_of_columns:
        p.xaxis.visible = False

    # 最后一行，将最后几个绘图向上移动进行对齐
    if i > len(df_germany_party) // num_of_columns * num_of_columns - 1:
        p.margin = (
            -12 * 2 - p.xaxis.major_tick_out, 0, 
            0, 0
        )

    # 将所有绘图添加至绘图列表
    plots.append(p)

# 将 plots 中所有的绘图调整为绘图矩阵
grid = gridplot(
    plots, 
    ncols = num_of_columns, 
    toolbar_location = None
)

# 绘制共享的 x 轴名称信息
p_x_axis = figure(
    frame_width = 150 * num_of_columns + 2 * 4,
    frame_height = 30, toolbar_location = None
)
p_x_axis.min_border_left = 100
p_x_axis.axis.visible = False
p_x_axis.grid.visible = False
p_x_axis.outline_line_width = 0
p_x_axis.text(
    x = 0, y = 0, 
    text = ['席位数量'], 
    text_baseline = 'middle', align = 'center'
)

# 将 grid 和 p_x_axis 拼接为一列，上下结构
bar_plot_by_party = (
    column(
        grid, p_x_axis
    )
)

# 显示所有的绘图内容
show(bar_plot_by_party)

## 6. Data：探索德国的地理信息数据（GeoJSON）

这个任务我们开始了解地图可视化的一些技术，我们会初步认识 GeoJSON 的数据集，以及如何使用 Python 中的 Bokeh 来进行德国地图的绘制。

**主要任务：**

- 加载包含德国 16 个州的边界数据的 GeoJSON 数据集；
- 在输出结果中，通过层层展开的方式，浏览 GeoJSON 的层次和他们的数据结构；
- 将脚本中的 `...` 替换为正确的值。

In [7]:
# ... 这里需要您编写 - 任务 6 的代码 ...

# 导入解析 JSON 数据结构的工具包
import json5
# 导入在 Notebook 中分层展示 JSON 数据的工具包
from IPython.display import JSON

# 使用 Python 中内嵌的 open 函数读取 .json 文件
germany_geo_json = None
with open(
    # 德国州界的 JSON 数据集的文件路径
    '/data/course_data/visualization/4_niedrig.geo.json', 
    mode='r') as fp:
    # 使用 json5 工具包对文件数据进行解析，
    # 并将解析结果存储在 germany_geo_json 变量中
    germany_geo_json = json5.load(fp)

# 数据集中一共有多少个州的州界数据呢？
num_of_states_in_geo_json =  len(germany_geo_json['features'])
print(num_of_states_in_geo_json)    

JSON(germany_geo_json)

16


<IPython.core.display.JSON object>

## 7. 绘制包含州界的德国地图

任务 6 中，我们初步接触到了 GeoJSON 这种数据结构，并且对这种数据结构进行了探索。GeoJSON 是一个树形的展开结构，我们在这个任务中来学习如何使用 Bokeh 把 GeoJSON 的数据可视化呈现出来。

**主要任务：**

- 直接运行脚本，绘制填充为白颜色的德国地图；
- 修改 `fill_color` 的值，改变填充颜色，再次运行脚本。

In [None]:
# ... 这里需要您编写 - 任务 7 的代码 ...

# 导入用于进行列表计算的 numpy 包，
# 操作多边形的坐标数据，对 x, y 坐标进行转换以适应工具包对数据的要求
import numpy as np

# plot_map_polygon 用于绘制一个多边形 
# p: 绘图对象
# polygon: 多边形的 geojson 数据
# fill_color: 多边形填充颜色
# fill_alpha: 多边形填充的透明度
def plot_map_polygon(p, polygon, fill_color, fill_alpha, line_width):

    # 绘制一个没有 “窟窿” 的多边形
    if len(polygon) == 1:
        geo_data = np.array(polygon).T
        p.patches(
            geo_data[0].reshape(1, -1).tolist(), 
            geo_data[1].reshape(1, -1).tolist(),
            fill_color = fill_color, fill_alpha = fill_alpha, 
            line_color = 'black', line_width = line_width
        )

    # 绘制有 “窟窿” 的多边形
    else:
        geo_data = [np.array(polygon_part).T for polygon_part in polygon]
        p.multi_polygons(
            [[[polygon_part.tolist()[0] for polygon_part in geo_data]]],
            [[[polygon_part.tolist()[1] for polygon_part in geo_data]]],
            fill_color = fill_color, fill_alpha = fill_alpha, 
            line_color = 'black', line_width = line_width
        )

# 创建名为 map_plot_germany 的绘图对象
map_plot_germany = figure(
    frame_width = 400, sizing_mode = 'scale_both'
)

# 循环 germany_geo_json 中每一个德国州的地理数据
for feature in germany_geo_json['features']:
    
    # 地理边界的集合类型，'MultiPolygon' 或 'Polygon'
    geometry_type = feature['geometry']['type']
    
    # 设置：绘制地图的填充属性，fill_color 为填充颜色，fill_alpha 为填充透明度
    fill_color = 'white'
    fill_alpha = 0.5
    
    # 如果是多个多边形
    if geometry_type == 'MultiPolygon':        
        for polygon in feature['geometry']['coordinates']:
            plot_map_polygon(
                p = map_plot_germany, 
                polygon = polygon, 
                fill_color = fill_color, fill_alpha = fill_alpha,
                line_width = 0.6
            )

    # 如果是一个多边形
    if geometry_type == 'Polygon':
        polygon = feature['geometry']['coordinates']
        plot_map_polygon(
            p = map_plot_germany, 
            polygon = polygon, 
            fill_color = fill_color, fill_alpha = fill_alpha,
            line_width = 0.6
        )

# 展示绘制好的德国地图
show(map_plot_germany)

## 8. 德国各个政党在各州的权力分配是怎样的？

这个任务，我们就是将任务 7 中绘制地图的功能进行进一步的应用，应用到绘制更为复杂的地图可视化场景，主要的思路是这样的：

- 为每个政党 P 绘制一张德国地图 M；
- 在绘制每一个政党的地图时，循环绘制每个州 S；
- 如果 P 是 S 的执政党，则把 S 的颜色设置为 P 的颜色；
- S 的透明图根据 P 在执政联盟中的顺位决定，第一顺位“不透明”，第二顺位“60%不透明”，第三顺位“20%不透明”。

**主要任务：**

- 执行脚本，得到按照党派绘制的地图；
- 取消对坐标轴进行详细设置的脚本，再次运行脚本，查看信息更加明确的坐标轴。

In [8]:
# ... 这里需要您编写 - 任务 8 的代码 ...

# parties 中存储了所有的政党
parties = df_germany_party.index
# 每行绘制 3 列
num_of_columns = 3
# 存储每个政党的绘图列表
plots = []
# 开始循环政党进行绘制，每个政党绘制一个德国地图
for i, party in enumerate(parties):

    # 作为第一支政党的州有哪些
    primary_states = df_germany_federal_concil.loc[
        df_germany_federal_concil['Primary party'] == party, 'State abbr'
    ].values
    # 作为第二支政党的州有哪些
    secondary_states = df_germany_federal_concil.loc[
        df_germany_federal_concil['Secondary party'] == party, 'State abbr'
    ].values
    # 作为第三支政党的州有哪些
    tertiary_states = df_germany_federal_concil.loc[
        df_germany_federal_concil['Tertiary party'] == party, 'State abbr'
    ].values

    # 从 df_germany_party 中查找当前政党 party 的颜色
    party_color = df_germany_party.loc[
        df_germany_party.index == party, 'Color'
    ]

    # 创建绘图对象
    p = figure(
        title = party, toolbar_location = None,
        frame_width = 150, frame_height =180, 
    )
    # 循环德国的每一个州进行地图绘制
    for abbr in df_germany_federal_concil['State abbr'].unique():

        # 从 germany_geo_json 中找到当前州缩写 abbr 所对应的地图数据
        geo_source = [feature 
                      for feature in germany_geo_json['features'] 
                      if feature['properties']['id'] == abbr
                     ][0]

        # 设置州的边界的线条宽度为 0.1
        line_width = 0.1
        
        # 如果当前 party 是当前 abbr 州的第一执政党，
        # 把颜色设置为政党颜色 party_color，透明度设置为 1.0（不透明）
        if abbr in primary_states:
            fill_color = party_color[0]
            fill_alpha = 1.0
        # 如果当前 party 是当前 abbr 州的第二执政党，
        # 把颜色设置为政党颜色 party_color，透明度设置为 0.6（不透明）
        elif abbr in secondary_states:
            fill_color = party_color[0]
            fill_alpha = 0.6
        # 如果当前 party 是当前 abbr 州的第三执政党，
        # 把颜色设置为政党颜色 party_color，透明度设置为 0.2（不透明）
        elif abbr in tertiary_states:
            fill_color = party_color[0]
            fill_alpha = 0.2
        # 如果当前 party 不是是当前 abbr 州的执政党，
        # 把颜色设置为 'white'，透明度设置为 1.0（不透明）
        else:
            fill_color = 'white'
            fill_alpha = 1.0
        
        # 获取地图数据的类型 geometry_type
        geometry_type = geo_source['geometry']['type']
        # 如果是多个多边形
        if geometry_type == 'MultiPolygon':
            for polygon in geo_source['geometry']['coordinates']:
                plot_map_polygon(p, polygon, fill_color, fill_alpha, line_width)
        # 如果是单个多边形
        if geometry_type == 'Polygon':
            polygon = geo_source['geometry']['coordinates']
            plot_map_polygon(p, polygon, fill_color, fill_alpha, line_width)
            
        p.title.text_font_size = '14pt'
        p.axis.axis_label_text_font_size = '14pt'
        p.axis.major_label_text_font_size = '12pt'
        p.outline_line_color = 'dimgrey'
        p.min_border = 3
        
        # 在坐标州上标记更明确的信息，“经纬度” - y 轴北纬，x 轴东经
        # p.xaxis.major_label_overrides = {
        #     6: '6°E',
        #     8: '8°',
        #     10: '10°',
        #     12: '12°',
        #     14: '14°'
        # }
        # p.yaxis.major_label_overrides = {
        #     48: '48°N',
        #     50: '50°',
        #     52: '52°',
        #     54: '54°'
        # }

    # 不是第一列，将 y 坐标轴隐藏
    if i % num_of_columns != 0: 
        p.yaxis.visible = False
    # 是第一列，将坐标轴的宽度设置为 100 像素
    else:
        p.min_border_left = 40

    # 不是倒数的 3 个，将 x 坐标轴隐藏
    if i < len(parties) - num_of_columns:
        p.xaxis.visible = False

    # 最后一行，将最后几个绘图向上移动进行对齐
    if i > len(parties) // num_of_columns * num_of_columns - 1:
        p.margin = (
            -12 * 2 - p.xaxis.major_tick_out, 0, 
            0, 0
        )
        
    # 将所有绘图添加至绘图列表        
    plots.append(p)    

# 将 plots 中所有的绘图调整为绘图矩阵
map_plot_by_party = gridplot(
    plots, 
    ncols = num_of_columns, 
    toolbar_location = None)
show(map_plot_by_party)

NameError: name 'plot_map_polygon' is not defined

## 9. 增加交互，制作数据看板

这个项目比较长，也是这个课程的最后一个项目，希望大家在到达这一步的时候已经收获了许多知识。这一步我们把前面八个任务中绘制出来的三个绘图组装在一起，形成一个可交互的数据看板。

在前面 8 个任务中，我们绘制的主要绘图存储在这些变量中：

- `bar_plot_by_coalition`：按照政党联盟绘制条形图，查看席位的分配；
- `bar_plot_by_party`：按照政党绘制条形图，查看席位的分配；
- `map_plot_by_party`：按照政党绘制地图，查看政党在州政府的权力划分。

**主要任务：**

- 整合与交互。

In [None]:
# ... 这里需要您编写 - 任务 9 的代码 ...

# 导入一个用于网页交互的库
from ipywidgets import widgets

# 设置选项卡的名称，并创建选项卡对象
tab_contents = [
    '按联盟绘制条形图',
    '按政党绘制条形图',
    '按政党绘制地图'
]
tab = widgets.Tab()
for i, _c in enumerate(tab_contents):
    tab.set_title(i, _c)

# 创建输入输出对象
out_by_coalition_bar = widgets.Output()
out_by_party_bar = widgets.Output()
out_by_party_map = widgets.Output()

# 把上面生成的三个 widgets.Output() 对象设置为选项卡对象 tab 的孩子
# 这使得，每个选项卡都对应一个 widgets.Output() 对象
tab.children = [
    out_by_coalition_bar, 
    out_by_party_bar, 
    out_by_party_map
]

# 设置 tab 的宽度
tab.layout = {'width': '600px'}

# 展示 tab
display(tab)

# 以 out_by_coalition_bar 为输出目标显示 bar_plot_by_coalition
with out_by_coalition_bar:
    show(bar_plot_by_coalition)

# 以 out_by_party_bar 为输出目标显示 bar_plot_by_party
with out_by_party_bar:
    show(bar_plot_by_party)

# 以 out_by_party_map 为输出目标显示 map_plot_by_party
with out_by_party_map:
    show(map_plot_by_party)