<a href="https://colab.research.google.com/github/mickeykubo/analytics_book/blob/master/Visualization1_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データを可視化するための方法

データには数値データとカテゴリーデータに分けられる。

データの種類を考えて、適切なグラフで描画する必要がある。

## 以下のサイトFrom Data to Vizの決定木を参照

https://www.data-to-viz.com/

## 例題のデータ（Data Story）

https://github.com/holtzy/data_to_viz/tree/master/Example_dataset

Pandasでデータを読み込み、Plotly Express で描画する。

JupyterLabでPlotlyの描画を表示させるには、
```
conda install nodejs
jupyter labextension install @jupyterlab/plotly-extension
```
とする必要がある。

In [0]:
import pandas as pd
import plotly.express as px
# Google Colab.でプロットするためには，以下を実行する．
import plotly.io as pio
pio.renderers.default = "colab"

## ヒストグラム

まずはヒストグラム（histgram, 度数分布表）を描画してみる．

ヒストグラムは数値データの分布の概要を知る際に便利である．

plotly.express (以下px）の**histgram**を用いる．

### 主な引数

- **data_frame**: データフレーム 
- **x**: $x$ 軸に用いる列名
- **color**: 色に用いる列名
- **nbins**: ビンの数（x軸の区分数）
- **marginal**: 上部に表示する付加グラフの種類．'rug', 'box', 'violin', 'histogram')から選択する．
- **opacity**: 透過度
- **range_x**: $x$ 軸の表示範囲
- **facet_row**: 行に複数のグラフを表示させるときのカテゴリーデータが入っている列名
- **facet_column**: 列に複数のグラフを表示させるときのカテゴリーデータが入っている列名

## その他のグラフ

- データそのものを見たい場合には絨毯プロット (rug)
- データの大まかな値を見たい場合には箱ひげ図 (box) 
- 分布を見たい場合にはバイオリン図 (violin)


### 例題1. AIRBNB PRICES ON THE FRENCH RIVIERA

Air B&B社が提供している宿泊施設の価格データ

参照
https://www.data-to-viz.com/story/OneNum.html

In [0]:
df1 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/1_OneNum.csv")
df1.head()

Unnamed: 0,price
0,75.0
1,104.0
2,369.0
3,300.0
4,92.0


In [0]:
fig = px.histogram(df1, x="price", range_x=(0,3000),nbins=1000,opacity=0.5,marginal="rug") # or "box" or violin
fig.show()

### 問題

アヤメのデータ(iris)を読み込み，アヤメの種類（3種）ごとのsepal_lengthのヒストグラムを描画せよ．
（ヒント：横に並べるには **facet_col**引数に種類を表す列名を入れる．）

In [0]:
iris = px.data.iris()
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


### 問題

http://logopt.com/data/SATGPA.csv データを読み込み，2種類のSATの成績とGPAのヒストグラムを描画せよ．

### 問題

以下のように読み込んだポケモンのデータフレームを用いて，攻撃力(Attack)，守備力（Defense)のヒストグラムを描画せよ．

In [0]:
pokemon = pd.read_csv("http://logopt.com/data/poke.csv",encoding="utf-8")
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Japanese
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,フシギダネ
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,フシギソウ
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,フシギバナ
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,フシギバナ・メガ進化
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,ヒトカゲ


## 散布図

散布図（scatter plot)は，2つの数値データの関係を知る際に便利である．

Plotly Expressの**px.scatter**を用いる．

### 主な引数

- **data_frame**: データフレーム 
- **x**: $x$ 軸に用いる列名
- **y**: $y$ 軸に用いる列名
- **color**: 色に用いる列名
- **nbins**: ビンの数（x軸の区分数）
- **marginal_x**: $x$ 軸データを上部に表示させるグラフの種類．'rug', 'box', 'violin', 'histogram')から選択する．
- **marginal_y**: $y$ 軸データを右部に表示させるグラフの種類．'rug', 'box', 'violin', 'histogram')から選択する．
- **animation_frame**: 列の数値を元にアニメーションフレームを作成
- **animation_group**: 列の要素ごとにアニメーションをグループ化
- **opacity**: 透過度
- **range_x**: $x$ 軸の表示範囲
- **facet_row**: 行に複数のグラフを表示させるときのカテゴリーデータが入っている列名
- **facet_column**: 列に複数のグラフを表示させるときのカテゴリーデータが入っている列名



### 例題2. APARTMENT PRICE VS GROUND LIVING AREA

価格と面積の関係を表すデータ

参照
https://www.data-to-viz.com/story/TwoNum.html

In [0]:
df2 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/2_TwoNum.csv")
df2.head()

Unnamed: 0,GrLivArea,SalePrice
0,1710,208500
1,1262,181500
2,1786,223500
3,1717,140000
4,2198,250000


In [0]:
fig = px.scatter(df2, x="GrLivArea", y="SalePrice", marginal_y="rug", marginal_x="histogram")
fig.show()

### 問題

アヤメのデータを読み込み，'がく片長 'sepal length'と花びら長 'petal length'の関係を散布図を描け．

### 問題
http://logopt.com/data/Diamond.csv からダイアモンドの価格データを読み込み，カラット"carat"と価格 "price"] の散布図を描け．

### 問題
http://logopt.com/data/SATGPA.csv からデータを読み込み，MathSATとGPAの関係を描画せよ。

### 問題

ポケモンのデータフレームに対して，攻撃力(Attack)，守備力（Defense)の関係を散布図に描画せよ．


In [0]:
pokemon = pd.read_csv("http://logopt.com/data/poke.csv",encoding="utf-8")
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Japanese
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,フシギダネ
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,フシギソウ
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,フシギバナ
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,フシギバナ・メガ進化
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,ヒトカゲ


### 問題

titanicデータ（教科書82ページ）を読み込み，客室クラス(class）と性別(sex)ごとの生存確率と運賃の関係を描画せよ．

（ヒント：カテゴリーデータを行（列）に分けて並べるには facet_row(facet_col)引数に分けたい列名を入れる．）

### 問題

散布図では、引数**trendline**に"ols"(ordinary least square)を指定することによって、最小二乗法による線形回帰の結果を表示することができる。

教科書79ページにあるtipsデータを読み込み、以下の例では，tipsデータに対して支払総額（'total_bill'）とチップ（'tip'）の関係を，
行に喫煙者か否か（facet_row='smoker'），列に性別（facet_col='sex'），色に昼食か夕食か（color='time')を設定して分析せよ。


# 線グラフ

時系列データを描画するには、線グラフを用いる。


## 例題3. EVOLUTION OF THE BITCOIN PRICE

ビットコインの価格の推移

参照
https://www.data-to-viz.com/story/TwoNumOrdered.html


In [0]:
df3 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/3_TwoNumOrdered.csv",sep=" ")
df3.head()

Unnamed: 0,date,value
0,2013-04-28,135.98
1,2013-04-29,147.49
2,2013-04-30,146.93
3,2013-05-01,139.89
4,2013-05-02,125.6


In [0]:
fig = px.line(df3, x="date", y="value")
fig.show()

### 問題
http://logopt.com/data/AirPassengers.csv" からデータを読み込み、横軸にMonth、縦軸に#Passengersを設定して線グラフで描画せよ。

In [0]:
df = pd.read_csv("http://logopt.com/data/AirPassengers.csv")
df.head()

Unnamed: 0,Month,#Passengers
0,1949-01,112
1,1949-02,118
2,1949-03,132
3,1949-04,129
4,1949-05,121


# 散布図にさらなる軸を加えるには

散布図は2次元の情報を効率的に視覚化してくれる。
3次元以上の情報はどのように視覚化すべきか？ ３軸目が連続量の場合には、3次元の散布図も考えられるが、大きさや色、もしくはアニメーションで視覚化した方がわかりやすい場合がある。

以下の例では、国別のGDP、平均寿命、人口のデータを可視化する。


## 例題4. LIFE EXPECTANCY, GDP PER CAPITA AND POPULATION SIZE

参照
https://www.data-to-viz.com/story/ThreeNum.html

In [0]:
print(px.data.gapminder.__doc__)


    Each row represents a country on a given year.

    https://www.gapminder.org/data/

    Returns:
        A `pandas.DataFrame` with 1704 rows and the following columns: `['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap',
       'iso_alpha', 'iso_num']`.
    


In [0]:
df4 = px.data.gapminder()
df4.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


In [0]:
fig = px.scatter(df4, x="gdpPercap", y="lifeExp", size="pop",color="continent",hover_name="country",animation_frame="year")
fig.show()

### 問題

以下のように読み込んだポケモンのデータフレームを用いて、自分で考えた（適当な列をx,y,size,color,animation_frameなどに設定し）散布図を描画せよ．

In [0]:
pokemon = pd.read_csv("http://logopt.com/data/poke.csv",encoding="utf-8")
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Japanese
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,フシギダネ
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,フシギソウ
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,フシギバナ
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,フシギバナ・メガ進化
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,ヒトカゲ


# 特徴間の関係の図示

複数の特徴をもつデータが与えられたとき、特徴間の関係を一度に図示したいことがある。

以下の例題では、車の11つの特徴から連続量である6つの特徴を抽出し、その間の関係を図示する。同時に、1つのカテゴリーデータを色で区別する。

## 例題5. ELEVEN FEATURES FOR 32 CARS

参照：
https://www.data-to-viz.com/story/SeveralNum.html


In [0]:
df5 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/6_SeveralNum.csv")
df5.head()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [0]:
fig = px.scatter_matrix(df5, 
                        dimensions=["mpg", "disp", "drat", "hp", "qsec", "wt"], 
                        color="gear")
fig.show()

### 問題
http://logopt.com/data/SATGPA.csv データを読み込み，MathSAT, VerbalSAT, GPAの相互関係を描画せよ．

# 棒グラフ

$x$軸がカテゴリーデータ、$y$軸が連続データの場合には、棒グラフを用いることが多い。

以下では、国別の兵器販売額を棒グラフで図示する。

## 例題6. WHO SELLS MORE WEAPONS?

https://www.data-to-viz.com/story/OneNumOneCat.html

In [0]:
df6 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/7_OneCatOneNum.csv")
df6.head()

Unnamed: 0,Country,Value
0,United States,12394.0
1,Russia,6148.0
2,Germany (FRG),1653.0
3,France,2162.0
4,United Kingdom,1214.0


In [0]:
fig = px.bar(df6, x='Country', y='Value')
fig.show()

# 積み上げ棒グラフ

棒グラフにもう1軸追加したい場合には、積み上げ棒グラフを用いる。

以下の例題では、国別、年代別の男女の賃金格差を表示する。

## 例題7. THE GENDER WAGE GAP

参照
https://www.data-to-viz.com/story/OneNumSevCatSubgroupOneObsPerGroup.html

In [0]:
df7 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/9_OneNumSevCatSubgroupOneObs.csv")
df7.head()

Unnamed: 0,Country,TIME,Value
0,Australia,2000,17.2
1,Australia,2005,15.8
2,Australia,2010,14.0
3,Australia,2015,13.0
4,Austria,2000,23.1


In [0]:
fig = px.bar(df7, x='Country', y='Value', color='TIME')
fig.show()

## 問題

上の賃金格差の例題において、$x$ 軸を年に設定し、国を積み上げた棒グラフを描画せよ。

# 地図の描画

散布図の $x,y$ 座標の代わりに、緯度・経度を使うと地図上へプロットすることができる。

以下の例では、英国の主要都市を人口を点の大きさに表示して描画する。

地図の描画には、mapboxのtokenが必要になる。以下のサイトで登録し、tokenを得てから"mapbox_token.txt"というテキストファイルを作成し、そこに保管しておく。

https://www.mapbox.com/

以下では、tokenがファイルに保管されていると仮定し、読み込んでから地図を描画する。また、引数**zoom**で地図上での拡大を設定できる。


## 例題8. THE BIGGEST UK CITIES

参照
https://www.data-to-viz.com/story/GPSCoordWithValue.html

In [0]:
df8 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/18_ListGPSCoordinatesWithValue.csv",sep=" ")
df8.head()

Unnamed: 0,lat,long,pop,name
0,51.65,-3.14,10146,Abercarn-Newbridge
1,51.72,-3.46,33048,Aberdare
2,57.15,-2.1,184031,Aberdeen
3,51.83,-3.02,14251,Abergavenny
4,53.28,-3.58,17819,Abergele


In [0]:
px.set_mapbox_access_token(open("mapbox_token.txt").read())
fig = px.scatter_mapbox(df8, lat="lat", lon="long", 
                        size="pop",hover_name="name",zoom=5)
fig.show()

## 問題

以下のカーシェアリングのデータを地図上に描画せよ。zoomを適切に設定し、car_hoursを点の大きさに、peak_hourを色で区別して描画せよ。

In [0]:
carshare = px.data.carshare()
carshare.head()

Unnamed: 0,centroid_lat,centroid_lon,car_hours,peak_hour
0,45.471549,-73.588684,1772.75,2
1,45.543865,-73.562456,986.333333,23
2,45.48764,-73.642767,354.75,20
3,45.52287,-73.595677,560.166667,23
4,45.453971,-73.738946,2836.666667,19


# コロプレス図

地図上に数値情報を色で表示した図を、コロプレス図と呼ぶ。

以下では、国別の人口を年をアニメーションとして表示する。

## 重要な引数
- location: 地名を表す列名を入れる。以下のlocationmodeで緯度・経度の情報に変換される。
- locationmode: locationの情報が、'ISO-3'（国の略称）, 'USA-states'（米国の州名）, 'country names'（国名）のいずれかであるかを指定する。

In [0]:
df4 = px.data.gapminder()
df4.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


In [0]:
fig = px.choropleth(df4, locations="iso_alpha", color="lifeExp", hover_name="country", animation_frame="year")
fig.show()

## 問題

世界のアルコール摂取量のデータを http://logopt.com/data/drinks.csv から読み込み、コロプレス図で各国のワイン摂取量 (wine_servings) を描画せよ。

In [0]:
drinks = pd.read_csv("http://logopt.com/data/drinks.csv")
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa


# 並行座標図

散布図では3次元までの図を可視化できるが，4次元以上だと人間の目では無理だ．

多次元データを可視化するための方法として**並行座標図**がある．

これは散布図の $y$ 軸を $x$ 軸と並行にしたものである．複数の $y$ 軸があっても大丈夫だが，あまり多いとよく分からなくなる．

ここではiris（アヤメ）のデータフレームを、アヤメの種類を表す番号 'species_id' で色分けして、並行座標図に描画する．

Plotlyでは、範囲をマウスで指定したり、軸を入れ替えたりして分析できる。

In [0]:
iris = px.data.iris()
fig = px.parallel_coordinates(iris, color="species_id")
fig.show()

カテゴリーデータに対する平行座標図を描画するには、**parallel_categories**を用いる。

以下では、tipsデータセットに対して、来客人数 (size) で色分けてして描画する。


In [0]:
tips = px.data.tips()
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [0]:
fig =px.parallel_categories(tips,color="size")
fig.show()

## 問題
以下の車のデータから，適当な列を４つ切り出し，parallel_coordinatesで可視化せよ．

In [0]:
df5 = pd.read_csv("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/6_SeveralNum.csv")
df5.head()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## まとめ問題

以下のポケモンデータに対して，「自分なりに考えて，興味深い結論を得られるような」分析を行い，その結論を導くために用いた図を示せ．また，図の種類を選んだ理由を説明せよ．TAが推奨する図は発表してもらい，加点する．

### ポケモンデータ豆知識
- 最初の♯の列の整数はポケモンの通し番号である．
- ポケモンの英語名はName列，日本語名はJapanese列に入っている．
- ポケモンはタイプをもつ．Type 1列に主要な種類（草タイプポケモンならGrass），Type 2に副次的な種類（毒タイプならPoisson）が入る．
- ポケモンの能力は体力(HP)から速度(Speed)までの列に数値として入っている．その合計がTotal列に入っている．
- Generationの列は，世代が入っており，初代は1で始まる整数である．
- Legendaryの列がTrueのポケモンは，伝説のポケモンといって珍しい．
- 同種のポケモンが，進化，メガ進化する．たとえばフシギダネは，フシギソウ，フシギバナと進化し，さらにメガ進化する．これらは，連続した行に入っている．

In [0]:
pokemon = pd.read_csv("http://logopt.com/data/poke.csv",encoding="utf-8")
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Japanese
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,フシギダネ
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,フシギソウ
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,フシギバナ
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,フシギバナ・メガ進化
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,ヒトカゲ
