# 「融合理工学とデータサイエンス」講義 サンプル

* データ可視化に関するおおまかな内容をまとめました
* この部分で4回分ほどの講義（演習、発表含め）を想定しています
* 演習に使うデータセットは、オープンデータと講義担当者が収集したデータを予定しています
    * Global Development Dataset（オープンデータ）
    * Historical Olympics Dataset（オープンデータ）
    * 学術研究における引き出し・出版バイアスのデータ（Imai (2017) *Quantitative Social Science: An Introduction*）
    * 書体の使用状況の時系列データ（講義担当者収集）
* ここに、データセットの設計、収集、前処理の講義と演習を加えることで全体的にまとまるのではないかと考えているのですが、いかがでしょうか

1. データ可視化の理論
    1. データ可視化の目的
    2. データ可視化の重要性
    3. データ可視化の歴史
    4. データ可視化の基礎
    5. データ可視化の種類
2. データ可視化の実践
    1. データ可視化ツール入門
    2. 課題の例
        - その他の自分が関心を持っている問題のオープンデータ
        - 講義の前半で収集したデータ（スクリーン時間など）

# データ可視化の理論

## 1 データ可視化の目的

1. データに埋没している事実や示唆を発見しやすいようにする（探索的可視化）
2. データから発見した事実や示唆から仮説を立てやすいように一目で理解できるようにする（説明的可視化）

## 2 データ可視化の重要性

### Graphs in Statistical Analysis (Anscombe, 1973)

要約統計量等が同じでも実際の特徴が著しく異なるデータが存在する

In [1]:
import pandas as pd

df = []
df.append(pd.DataFrame({'X': [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5],
                      'Y': [8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68]}))

df.append(pd.DataFrame({'X': [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5],
                      'Y': [9.14, 8.14, 8.74, 8.77, 9.26, 8.1, 6.13, 3.1, 9.11, 7.26, 4.74]}))

df.append(pd.DataFrame({'X': [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5],
                      'Y': [7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73]}))


df.append(pd.DataFrame({'X': [8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8],
                      'Y': [6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.5, 5.56, 7.91, 6.89]}))

In [2]:
pd.options.display.precision = 2

for i in range(4):
    print(f'Dataset {i + 1}')
    print(df[i].agg(['mean', 'std']))
    print()

Dataset 1
         X     Y
mean  9.00  7.50
std   3.32  2.03

Dataset 2
         X     Y
mean  9.00  7.50
std   3.32  2.03

Dataset 3
         X     Y
mean  9.00  7.50
std   3.32  2.03

Dataset 4
         X     Y
mean  9.00  7.50
std   3.32  2.03



In [4]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

for i in range(4):
    X = df[i][['X']].values
    Y = df[i]['Y'].values
    lr.fit(X, Y)
    print(f'Dataset {i + 1}')
    print(f'Y = {round(lr.intercept_, 2)} + {round(lr.coef_[0], 2)}X')
    print()

Dataset 1
Y = 3.0 + 0.5X

Dataset 2
Y = 3.0 + 0.5X

Dataset 3
Y = 3.0 + 0.5X

Dataset 4
Y = 3.0 + 0.5X



In [9]:
import altair as alt

plot = []
for i in range(4):
    p = alt.Chart(df[i]).mark_point(color='firebrick').encode(
        x='X:Q',
        y='Y:Q'
    ).properties(
        title=f'Dataset {i + 1}'
    )
    p = p + p.transform_regression('X', 'Y').mark_line()
    plot.append(p)

((plot[0] | plot[1]) & (plot[2] | plot[3])).save("chart.svg")

### ロンドンのコレラ発生 (Tufte, 1997)

* Snow (1855) *On the Mode of Communication of Cholera*
* 1854年8月31日夜にロンドン中心部のBroad Streat地区でコレラが発生
* 症例を地図にプロットし可視化し、正しく解釈したことで感染源の特定に成功

![](https://drive.google.com/uc?id=1oVsdxaA2sOsnHuBM8Fh94KzayzrE-LMX)

### チャレンジャー号の発射 (Tufte, 1997)

* 1986年1月28日、アメリカ合衆国のスペースシャトルチャレンジャー号が打ち上げから73秒後に分解した
* 調査の結果、事故の原因は低温環境下におけるOリングの固着であることが分かった
* 発射前日、事故の原因となったOリングと発射日の気温についてNASA上層部およびエンジニアが議論を交わしていたことが明らかになったが、正しい判断は下されなかった
* もちろん、最終的な結果は様々な原因により複合的にもたらされたものであるが、そのうちの一つが前日の会議で示された13枚の図が正しい推論の根拠とならなかったことである



![](https://drive.google.com/uc?id=1I74bzfnlAceEcp0Def-X0hQT8itL-kEX)

* これまでの24回の発射時のOリングの温度とダメージ状況を示した図
* 温度とダメージの関係が直ちには読み取れない

![](https://drive.google.com/uc?id=1SUUKB61GmaqIXqj7j5l5So0YwqzjDUeO)

* 上の図を散布図にしたもの
* エンジニアが発射中止を訴える際の有力な根拠となったはず

## 3 データ可視化の歴史

- 最初の棒グラフ、折線グラフ、円グラフ
    - Playfair (1786) *The Commercial and Political Atlas*
    - Playfair (1801) *Statistical Breviary*

![](https://drive.google.com/uc?id=1teXUhhj0KZyGvfN9TA0Ub_qsCtySW7RO)
![](https://drive.google.com/uc?id=13QdCp_oe9DFfslSpbegN3ZviHtIPuT5g)
![](https://drive.google.com/uc?id=1ViqCmD4f8TV87QPYxXSnUC10uI60wmF-)

Images retrieved from Morifuji et al. (2014)

- ナイチンゲールの鶏頭図（円グラフとレーダーチャートを組み合わせたような図）
    - クリミア戦争の医療レポート
    - 「東部での軍隊における死亡原因」（青=緩和可能な疾病、赤=外傷、黒=その他の原因）
    - 医療体制を整えることで軍隊の死亡率を改善できるというストーリーを語っている
    
![](https://drive.google.com/uc?id=1H28tkeBqEOen5jAqkqGL_fFZV95MR-ei)

Image retrieved from [Wikipedia](https://ja.wikipedia.org/wiki/%E5%86%86%E3%82%B0%E3%83%A9%E3%83%95)


- MinardのSankeyチャート
    - 「ナポレオンのロシア侵攻」の可視化
    - 黄=往路の軍隊規模、黒=復路の軍隊規模
    - 折線グラフ=気温
    - 背景=ヨーロッパ地図
    - どの地点が難所であったか、どの地点で軍隊規模の縮小を抑えることができたかを語っている

![](https://drive.google.com/uc?id=1Bk0fnOep9lgRs7jtK0A-B7Xs82LQifi_)
Image retrieved from Tufte (2006)


## 4 データ可視化の基礎

### 用語

|用語|説明|
|:--|:--|
|データセット|今、手元にあるデータそのもの。Webサーバのログ、顧客のリスト、ソーシャルゲームのアクションログ、サーバのシステムログ、ソーシャルネットワークのフレンドリスト、センサログなど|
|データ|データセットの1つの要素。ある時刻のサーバの各種の値、ソーシャルネットワークのユーザおよびユーザ間の関係、状態遷移図のある状態およびその遷移行列の1つなど|
|データ変数|データの中の1つの値。サーバの名称、サーバのCPUの負荷の値、Webサーバのレスポンス、その集計値、ユーザ名、ユーザ間の関係が生成されたタイムスタンプ、その関係性（フォローなど）|
|データ変数の性質|データ変数の尺度。定性的な値か、定量的な値か、値が文字列なのか、数値なのか、値の間の差に意味があるのか、ゼロに意味があるのかなどによって異なる性質を持つ|
|可視化|データ可視化の生成物を指し、いわゆるグラフやチャートおよびそれらを複数組み合わせたもの|
|視覚記号|可視化の中の1つのシンボル・記号。線や円、棒、矢印、円柱、円弧など|
|視覚変数|視覚記号の1つの値。座標の中の位置や高さ・幅といった大きさ、角度、色相、色の明暗、透明度、破線や実線、塗や模様などのテクスチャなど|
|視覚変数の性質|人が理解・認知しやすい視覚変数の性質。連続的な値の差異を識別できるか、順序性を理解できるか、同種・異種のグループをすぐに把握できるかなど|

これらの用語は「データ」と「視覚表現」に大別される。2つの対応関係と例は次の通り。

|データ|視覚表現|例|
|:--|:--|:--|
|1つ以上のデータセット|複合的な可視化|-|
|データセット|可視化|生徒40名の身長体重 <-> 散布図|
|データ|視覚記号|生徒1人の学籍番号・身長・体重 <-> 直交座標のある点に位置する色を持った円|
|データ変数|視覚変数|学籍番号 <-> 色、身長 <-> x座標、体重 <-> y座標|
|データ変数の性質|視覚変数の性質|学籍番号 <-> 識別しやすい表現、定量的な性質 <-> 量の大小がわかりやすい表現|

- 手持ちのデータセットから可視化を行う場合は、まず既存の可視化から似たケースを探す
    - 習慣的・文化的に馴染んだ可視化は詳細を説明せずとも多くの人にとって理解しやすい
    - 例：
        - 時系列データ：折れ線グラフ
        - 割合の推移：帯グラフ
- 既存のものに当てはまらない場合、
    - 上図の左側を上から下へたどり、データを整理した上で性質をまとめる
    - データの性質をよく表現できる性質を持つ視覚変数を選び、それを元に右側を下から上へたどる

### データセットから視覚化への変換プロセス

Wilkinson (2005) の一提案

1. 仕様（Specification）：データのうちどの変数を可視化する対象とするか、どのような表現で可視化をするかを決める
    1. データセット：アクセスログ、アクションログ、フィールドワーク、質問紙などのリソースからデータセットを収集する
    2. 変数化：データセットから変数を定義する
    3. 代数処理：複数のフィールドを含むレコードの集合に対して、直交（Cross）・結合（Blend）・入れ子（Nest）を作用させ変換する
    4. 尺度化処理：特定の範囲にスケーリングを行ったり、質問紙の段階評価、属性などを数値化する
    5. 統計処理：集計や平均、中央値などの統計的な処理
    6. 幾何処理：高さ・幅、面積や位置などを持つ幾何的な要素への変換処理
    7. 座標系処理：直交座標や極座標などにプロットする
    8. 装飾処理：色やテクスチャなどの装飾処理
2. 組み上げ（Assembly）：軸やラベル、凡例とを合わせて可視化表現をどのように組み上げるかを決める
3. 表示（Display）：紙やプロジェクタ、動画など、どのデバイス・どのメディアで見せるかを決める

### データ・データ変数・データ変数の性質

1. 名義尺度
2. 順序尺度
3. 間隔尺度
4. 比例尺度

### 視覚記号・視覚変数・視覚変数の性質

#### 視覚記号と視覚変数

Bertin (1966) の視覚記号

|視覚記号|大きさ|例|
|:--|:--|:--|
|点|0|点、半径が意味を持たない円、三角や十字といった記号|
|線|1|線、半径が意味を持つ円、面積がデータ変数と対応した正方形、三角形など|
|領域|2|高さ・幅を持つ矩形や半径・角度で定義される円弧など|
|立体|3|高さ・幅・奥行きなど3つの要素で決まる直方体など|

これらの視覚記号は、視覚変数によって表現される（Bertin, 1966; Halik, 2012）

1. 大きさ
2. 形状
3. 明るさ
4. 色
5. 角度・方向
6. テクスチャ
7. 位置
8. 色相
9. 彩度
10. 配置
11. 焦点
12. 解像度
13. 透明度
14. テクスチャの空間密度
15. 俯瞰の高さ

![](https://drive.google.com/uc?id=1Q6c2cHLI9ReC5MqvJyf1L3whi25pC89I)

Image retrieved from Halik (2012)

多くの視覚変数があるが、人の認知能力で理解しづらい視覚変数は利用すべきではない。視覚変数が多すぎる場合もかえって見る人の理解を妨げてしまうため利用すべきではない。

#### 視覚変数の性質

データ変数が尺度という性質を持つのと同様に、視覚変数は比較のしやすさ、同一か否かの把握のしやすさといった性質を持つ

1. 選択性（Selective）：視覚変数が異なる場合、他の視覚記号との分離が容易で際立つとすると、その視覚変数は選択性を持つ
2. 関連性（Associative）：視覚変数が異なる場合、他の視覚変数と同じグループ・同一であることがわかるとするとき、その視覚変数は関連性を持つ
3. 定量性（Quantitative）：視覚変数に数値的な違い（明るさなど）がある場合、2つの視覚記号が異なっていると識別できるときに、その視覚変数は定量性を持つ
4. 順序性（Order）：視覚変数による差の大小が認知できる場合、その視覚変数は順序性を持つ
5. 変種の数（Length）：視覚変数に関連付けられているタスクが求めている性質を維持できる変種の数（例：位置であれば1ピクセルごとの違い、色であれば#FF6600や「赤」、「青」のような色表現の数）

![](https://drive.google.com/uc?id=13CW6DWT3wdqtcG3ppEDWwzQkXgWkJv-D)

Image retrieved from Halik (2012)

### 可視化を構成する視覚記号

|可視化|視覚記号|備考|
|:--|:--|:--|
|棒グラフ|線|-|
|積上グラフ|線|線の長さは全体で正規化された割合の場合と絶対量の場合の2つがある|
|ヒストグラム|面|幅と高さの2つが階級（区間）と度数|
|ファンネルグラフ|線|-|
|折線グラフ|点|一連の系列であることを明示的にするために点を線分で結ぶ|
|パラレルチャート|点|同一のデータであることを表現するために点を線分で結ぶ|
|面グラフ|面|積上グラフを一連の系列データに対応させたもの。面積が意味を持つ|
|円グラフ・ドーナツグラフ|円弧|正規化され、割合を角度で表現する。鶏頭図の場合は半径にも値を利用できる|
|箱ひげ図|線、点|箱という名前だが幅に意味はなく箱の高さ（＝長さ）とそれぞれの位置に意味がある。計5つの同じ単位を持つ値を表現可能|
|散布図|点|-|
|バブルチャート|円|面積と値を対応付けるため、半径は値の平方根に対応させる|
|ヒートマップ|点|-|
|色付きテーブル|点|-|
|ツリーマップ|線|サイズに加えて位置関係や入れ子関係によってデータ間の関係を表現|
|パーティションダイアグラム|線|サイズに加えて位置関係や入れ子関係によってデータ間の関係を表現|
|Sankeyチャート|点または線または面|データ変数を複数載せることが可能。その数によって視覚記号は点・線・面のいずれかを取る。入れ子関係にデータ間の関係を表現|
|力学グラフ|点または面+線|点または面の大きさに何らかの値を載せる場合もあれば、載せない場合もある。値のない線で結ぶ場合もあれば、関係の強さ・大きさなどを線の太さとして表現することも可能|

### データセットと可視化の対応関係

可視化が持つ視覚記号および記号を表現する視覚変数によって、可視化はどのような水準のデータをいくつ表現できるかが決まる。視覚変数が増えれば増えるほど視覚変数の持つ性質はうまく利用できなくなる。そのため、ケースバイケースで適切な数の変数を表現することが重要である。

例：折線グラフの視覚変数と適切な尺度

|視覚変数|適切な尺度|必須／任意|
|:--|:--|:--|
|位置X|順序尺度以上|必須|
|位置Y|順序尺度以上|必須|
|色|名義尺度|任意|
|明るさ|間隔尺度以上|任意|
|テクスチャ|名義尺度|任意|

## 5 データ可視化の種類

|データ形式|説明|
|:--|:--|
|配列|各データは複数の属性値を持ち、1つのデータは1行で表現される|
|グラフ|ノードとノード間を結ぶエッジから構成される|

### 配列をあらわす可視化
1. 棒グラフ
2. 積上グラフ
3. ヒストグラム
4. ファンネルグラフ
5. 折線グラフ
6. パラレルチャート／レーダーチャート
7. 面グラフ
8. 円グラフ／ドーナツグラフ
9. 箱ひげ図
10. 散布図
11. 散布図行列
12. バブルチャート
13. ヒートマップ
14. 色つきテーブル

### グラフあらわす可視化
1. ツリーマップ
2. パーティションダイアグラム
3. Sankeyチャート
4. 力学グラフ

# データ可視化の実践

## 1 可視化ツール入門

References:

- https://magrawala.github.io/cs448b-wi20/
- https://courses.cs.washington.edu/courses/cse512/19sp/

- 演習ではPythonライブラリAltairを使用する（課題を作成する時のツールは自由）
- Altairは、簡潔な可視化文法を提供する宣言型統計可視化ライブラリである
- データと視覚記号の関係を宣言することでデータ可視化を行うことができる
- 公式ドキュメント: https://altair-viz.github.io/

### ライブラリのインポート

In [None]:
import pandas as pd
import altair as alt

In [None]:
pd.set_option('display.max_rows', 300)

### データ読み込み

- AltairではPandasデータフレームを利用してデータの読み込みを行う
- データセット、URL、直接入力などでデータを与えることができる
- この時、データフレームの形が[Tidy data](http://vita.had.co.nz/papers/tidy-data.html)であることが望ましい（Tidy dataになっていない時は事前に形を整える）
    - Tidy dataでは、各変数が列、各観測値が行、各観測単位がテーブルとなっている
    - このような形を維持することでデータの操作、モデル化、視覚化が容易となる

#### From dataset

In [None]:
from vega_datasets import data
cars = data.cars()
cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


#### From URL

In [None]:
data.cars.url

'https://cdn.jsdelivr.net/npm/vega-datasets@v1.29.0/data/cars.json'

In [None]:
pd.read_json(data.cars.url).head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


#### From input

ここでは例として、都市と月の平均降雨量（`precip`）を含む単純なデータフレームを扱う。

In [None]:
df = pd.DataFrame({
    'city': ['Seattle', 'Seattle', 'Seattle', 'New York', 'New York', 'New York', 'Chicago', 'Chicago', 'Chicago'],
    'month': ['Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec'],
    'precip': [2.68, 0.87, 5.31, 3.94, 4.13, 3.58, 3.62, 3.98, 2.56]
})

df

Unnamed: 0,city,month,precip
0,Seattle,Apr,2.68
1,Seattle,Aug,0.87
2,Seattle,Dec,5.31
3,New York,Apr,3.94
4,New York,Aug,4.13
5,New York,Dec,3.58
6,Chicago,Apr,3.62
7,Chicago,Aug,3.98
8,Chicago,Dec,2.56


気象庁

https://www.data.jma.go.jp/obd/stats/etrn/select/prefecture00.php?prec_no=44&block_no=47662&year=&month=&day=&view=

In [None]:
# df = pd.DataFrame({
#     'city': ['Tokyo', 'Tokyo', 'Tokyo', 'Osaka', 'Osaka', 'Osaka', 'Sapporo', 'Sapporo', 'Sapporo', 'Naha', 'Naha', 'Naha'],
#     'month': ['Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec'],
#     'temp': [14.3, 26.9, 7.7, 15.2, 29.0, 8.7, 7.3, 22.3, -0.9, 21.5, 29.0, 19.0],
#     'precip': [133.7, 154.7, 57.9, 101.9, 113.0, 55.5, 54.6, 126.8, 114.5, 161.0, 240.0, 110.0]
# })

# df

### Chartオブジェクト

Altairの基本的なオブジェクトはChartで、引数としてデータフレームを受け取る。

In [None]:
chart = alt.Chart(df)

### 視覚記号・視覚変数・エンコーディング

Chartオブジェクトに指示を与えることで、どの視覚記号を用いるかを指定する。

例えば、`Chart.mark_*`メソッドを使用することができる。

In [None]:
chart.mark_point()

ここでは、データセット1行につき1つの点が描かれているが、点の位置をまだ指定していないため、全ての点が重なっている。
点を分離するためには、様々な視覚変数をデータにマッピングすることができる。

例えば、データ`city`をY軸を表す視覚変数`y`にマッピングすることができる。これには`encode`メソッドを用いる。

In [None]:
chart.mark_point().encode(
    y='city'
)

`encode()`メソッドは、視覚変数（`x, y, color, shape, size`など）とデータとの間にマッピングを構築する。Pandasデータフレームに対して、Altairは自動的に適切なデータタイプを割り当てる。上記例では、名義タイプ（nominal type）となる。

各カテゴリ内ではまだ複数の点が重なっているため、データ`precip`を視覚変数`x`にマッピングすることでこれらを分離する。

In [None]:
chart.mark_point().encode(
    x='precip',
    y='city'
)

上図から、降雨量が最も少ない月と最も多い月の両方がシアトルに現れていることが分かる。

今回も、`precip`のデータタイプはAltairによって自動的に推論され、量的タイプ（quantitative type）となった。グリッド線とX軸の数値が自動で追加されている。

以上ではキーワード引数でマッピングを行ったが、Altairでは`alt.X('precip')`という構文を用いることもできる。この方法は、マッピングの際に更にパラメータを追加する時に便利である。

In [None]:
chart.mark_point().encode(
    alt.X('precip'),
    alt.Y('city')
)

これまではデータタイプをPandasデータフレームの型に基づいて自動的に推論してきた。これを明示的に指定することも可能である。

- 'b:N': 名義タイプ（nominal type）：順序付けされていないカテゴリデータ
- 'b:O': 順序タイプ（ordinal type）：順序付けされているデータ
- 'b:Q': 量的タイプ（quantitative type）：数値データ
- 'b:T': 時間タイプ（temporal type）：日付・時間データ

例えば、`alt.X('precip:N')`のように指定する。

> precipを量的タイプではなく、名義タイプや順序タイプとして扱うと上図はどのようになるでしょうか？

### データ変換：集約

より柔軟な視覚化のために、Altairにはデータを集約するための構文がある。

例えば、データ名と一緒に集約関数を指定すると全ての値の平均を算出することができる。

In [None]:
chart.mark_point().encode(
    x='average(precip)',
    y='city'
)

X軸の各カテゴリには、そのカテゴリ内の値の平均を示す1つのポイントが表示される。

> 果たしてシアトルは、これらの都市の中で最も平均降水量が少ないのでしょうか？

> この図はどのような誤解を招くでしょうか？

> データにはどの月が含まれているのでしょうか？

> 何をもって降水量とするのでしょうか？

Altairでは、`count, min, max, average, median, stdev`などの集約関数を使うことができる。また、自分で関数を新たに書くこともできる。

### 視覚記号の変更

集約された値を点ではなく棒で表現したい場合、`Chart.mark_point`を`Chart.mark_bar`に置き換える。

In [None]:
chart.mark_bar().encode(
    x='average(precip)',
    y='city'
)

縦の棒グラフにするには`x`と`y`のキーワードを入れ替えるだけでよい。

In [None]:
chart.mark_bar().encode(
    x='city',
    y='average(precip)'
)

### 可視化のカスタマイズ

`Chart.mark_*`メソッドのプロパティを使って軸のタイトルを変更したり、スケールを変更したり、色を変更したりすることができる。

In [None]:
chart.mark_point(color='firebrick').encode(
  alt.X('precip', scale=alt.Scale(type='log'), axis=alt.Axis(title='Log-Scaled Values')),
  alt.Y('city', axis=alt.Axis(title='Category')),
)

### 複数のビュー

ビュー合成演算子（view composition operators）を使うことで、複数のチャートを組み合わせてより複雑な図を作成することができる。

例として、まずは自動車データセットを製造年ごとの平均燃費を示す折線グラフにする。

In [None]:
alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(Miles_per_Gallon)')
)

このプロットの平均化されたデータポイントに丸を表示することができる。

折線グラフと散布図の2つのグラフを別々に定義し、`layer`演算子を使って組み合わせる。ここでは`+`演算子を使う。

In [None]:
line = alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(Miles_per_Gallon)')
)

point = alt.Chart(cars).mark_circle().encode(
    alt.X('Year'),
    alt.Y('average(Miles_per_Gallon)')
)

line + point

チャートの定義を再利用して同様のことができる。ここでは折れ線グラフを定義した上で、`mark_circle`メソッドを呼び出している。

In [None]:
mpg = alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(Miles_per_Gallon)')
)

mpg + mpg.mark_circle()

このグラフを他のグラフと並べたい場合は、別の演算子を用いることで実現することができる。

例えば、時間経過に伴う平均馬力の変化のグラフと並べたいとする。

`|`演算子を使うことで横に並べることができ、`&`演算子を使うことで縦に並べることができる。

In [None]:
hp = alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(Horsepower)')
)

(mpg + mpg.mark_circle()) | (hp + hp.mark_circle())

In [None]:
(mpg + mpg.mark_circle()) & (hp + hp.mark_circle())

このデータセットでは、1970年代から80年代前半にかけて、平均燃費が向上する一方で、平均馬力が低下していることが分かる。

### インタラクション

基本的な可視化に加えて、Altairではインタラクティブな図を作ることができる。

`interactive`メソッドを呼び出すことで、パン、ズーム、スクロールに対応した図を簡単に作成できる。

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin'
).interactive()

`tooltip`という視覚変数を使用することでマウスホバー時の情報を指定することができる。

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    tooltip=['Name', 'Origin']
).interactive()

より高度な機能として、リンクされた図やクロスフィルタリングなどの複雑なインタラクションが用意されている。

以下の例では、上段のヒストグラムは年間の自動車台数を示しており、年数を選択することで、馬力と走行距離の関係を示す下段の散布図の点の不透明度が変わり、各年の傾向を全体の中に位置づけて確認することができる。

In [None]:
# create an interval selection over an x-axis encoding
brush = alt.selection_interval(encodings=['x'])

# determine opacity based on brush
opacity = alt.condition(brush, alt.value(0.9), alt.value(0.1))

# an overview histogram of cars per year
# add the interval brush to select cars over time
overview = alt.Chart(cars).mark_bar().encode(
    alt.X('Year:O', timeUnit='year', # extract year unit, treat as ordinal
      axis=alt.Axis(title=None, labelAngle=0) # no title, no label angle
    ),
    alt.Y('count()', title=None), # counts, no axis title
    opacity=opacity
).add_selection(
    brush      # add interval brush selection to the chart
).properties(
    width=400, # set the chart width to 400 pixels
    height=50  # set the chart height to 50 pixels
).interactive()

# a detail scatterplot of horsepower vs. mileage
# modulate point opacity based on the brush selection
detail = alt.Chart(cars).mark_point().encode(
    alt.X('Horsepower'),
    alt.Y('Miles_per_Gallon'),
    # set opacity based on brush selection
    opacity=opacity
).properties(width=400).interactive() # set chart width to match the first chart

# vertically concatenate (vconcat) charts using the '&' operator
overview & detail

### 可視化の公開

理想の可視化ができたら、`Chart.save`メソッドを使うことでWebで公開可能なHTMLを生成することができる。

In [None]:
chart = alt.Chart(df).mark_bar().encode(
    x='average(precip)',
    y='city',
)
chart.save('chart.html')

# 課題の例

課題では小さなデータセットの可視化をデザインし、デザインについて厳密な説明をして頂きます。理論的には図に含まれる全ての要素の全ての属性について、なぜそのようにしたかを説明できるはずです。使用するツールは自由です（手書きでもOK）。

データセットとして、以下から1つ選んで使ってください。
1. Global Development Dataset
2. Historical Olympics Dataset
3. 自分が関心を持っている問題のオープンデータ
4. 講義の前半で収集したデータ（スクリーン時間など）

課題は、データに含まれる重要な情報を伝えることができる1枚の静的な図とその図のデザインを説明する短い文章を提出することです。
作成する図で答えようとする質問を選び、その質問に答えることができるような図を作成しましょう。また、この質問を図のタイトルにしてください。

Historical Olympics Datasetを選んだ場合、例えば以下のような質問を立てることができます。
1. ある国が開催国である場合、その事実はメダル獲得数とどのような関係があるのか？
2. 今からある競技を始めた場合、オリンピックに出場できる可能性が最も高いと考えられる競技は何か？

選んだデータセットを使用する必要がありますが、対数変換、割合や平均値の計算、グループ化、不要な変数やレコードの削除など、適切なデータ変換を行って構いません。質問に関係のない値を無視することは自由ですし、必要に応じて外部データを取り入れても結構です。

図は、説明文を読まなくても解釈できるものである必要があります。タイトル、軸ラベル、凡例などを忘れずに入れてください。

説明文では、図のデザインについて説明してください。使用した視覚変数とそれらがなぜデータと質問に適切に対応しているかを言語化しましょう。視覚記号の種類、サイズ、色、スケール、その他の要素の選択、ソート、その他のデータ変換などについて説明する必要があります。これらのデザインは、どのように効果的なコミュニケーションを促進すると考えられますか？

同様に、データのどの側面を最も効果的に伝えようとしているのかを言語化する必要があります。この図でどのようなストーリーを伝えようとしているか、ということです。また、この図のデザインによってデータのどの側面が曖昧になったり無視された可能性があるか、つまり、人に誤解を与える可能性があるかについても説明が必要です。