In [None]:
import io

import numpy as np
import pandas as pd
import plotly_express as px

# Data frames 2. 可視化 (Visualization)



 この講義では、データフレームの可視化を紹介します。`plotly_express`というライブラリを使用します。

まずはデータをCSVファイルから読み込みましょう。

In [None]:
# CSVファイルからデータを読み込みましょう。 Read the data from CSV file.
df = pd.read_csv('data/16-July-2019-Tokyo-hourly.csv')
print("行数は %d です" % len(df))
print(df.dtypes)
df.head()

## `plotly_express`を用いて可視化 (Visualization with plotly_express)



`plotly_express`というライブラリはデータの簡単な可視化のために開発されました。可視化を簡単にするには、データフレームはキレイな状態に保たなければなりません。このライブラリを使うには、以下のインポートが必要です。

```python
import plotly_express as px
```

このコマンドがエラーを返していたら、ライブラリをインストール必要があります。インストール方法はコンピューターシステムによって異なりますので、
README.mdに参照するか、TAにお尋ねください。ご参考までこちらはPipを用いたインストール方法です。

```
pip install plotly_express
```

Anacondaを使う場合, 以下のコマンドをCondaシェルに入力してください。

```
conda install -c plotly plotly_express
```

可視化の命令は全て同じ形です。

    px.可視化方法(データフレーム, 変数1='列1', 変数2='列2', ...)
    
可視化方法はライブラリの説明書をご参照ください （https://www.plotly.express/plotly_express/)。

`データフレーム`はデータフレームを指定します。`変数1`, `変数2`は可視化の変数をしていします。可視化方法によって異なりますが、以下の
可視化変数はよく使われます：　`x`, `y`, `color`, `size`, `symbol`, `facet_col`, `facet_row`.　

`列1`, `列2`はデータフレームに入っている列の参照で、可視化変数とデータを関連づけます。

可視化方法によって変数は指定しなくてもよい場合もあります。その場合は可視化変数は自動で生成されます。簡単な例を見ましょう。

```python
px.line(df, y='Temperature_degC')
```

`px.line`は線の可視化を指定します。線の可視化には２つの可視化変数を使います： `x`と`y`を省略すれば、0からN-1の整数の区間に自動的になります（Nはデータフレームの行数です）。

以下の例では、`y`は気温(`Temperature_degC`)に指定して、`x`は自動で生成されます。

In [None]:
px.line(df, y='Temperature_degC')

 `x`の可視化変数を明確に指定することも可能です。　以下の例では、`x`に時間(`Time_Hour`)を指定すれば、グラフはほとんど変わりません。
違いはたった一つです。`Time_Hour`(時間)の区間は[1,24]ですが、先の自動的に生成された区間は[0,23]でした。

In [None]:
px.line(df, x='Time_Hour', y='Temperature_degC')

 データフレームに入っている変数は全て可視化できます。データフレームに入っている変数を一覧を見るために`df.dtypes`をご参考ください。

In [None]:
df.dtypes

In [None]:
px.line(df, y='Pressure_hPa')

`x`と`y`の他に可視化変数があります。`color`は色を使ってもう一つの変数を可視化することができます。以下の例は散布図です。`x`と`y`はそれぞれ違うデータ変数を可視化し、色は時間を表します。散布図は`px.scatter`によって指定します。

In [None]:
px.scatter(df, x='Temperature_degC', y='Pressure_hPa', color='Time_Hour')

もう一つの便利な可視化変数があります：`size`(大きさ)を使って、雨の量も可視化して、温度や気圧との関係をみてみましょう。

In [None]:
px.scatter(df, x='Time_Hour', y='Temperature_degC', size='Precipitation_mm')

同じデータ変数を複数の可視化変数に用いてもいいです。そうすれば、グラフが読みやすくなることがあります。
色などを使いすぎないように気をつけましょう。

In [None]:
px.scatter(df, x='Time_Hour', y='Temperature_degC', size='Precipitation_mm', color='Precipitation_mm')

最後になりますが、ほぼ自動的な可視化方法を紹介しましょう。そればデータに入っている変数を二つずつ利用して、散布図を描きます。　このグラフを見ながら変数同士はどのように関係するのか一目で確認できます。対角線のグラフは全て線に見えますが、それはなぜかというと、どの変数であっても、自分自身に対しては完全に相関するからです。

In [None]:
px.scatter_matrix(df)

## 予習課題. データフレームの可視化 （Visualize the dataset）



天気についてのデータを`data/15-July-2019-Tokyo-hourly.csv`から読み込んで、
日向の量（`SunshineDuration_h`）を可視化して、どの時間帯で日向が一番多かったかを見つけてください。

In [None]:
df15 = pd.read_csv(...)
px.___(...)

 答えは13時と14時です。両方とも日向の時間は0.1でした。可視化によってそれははっきり見えるかご確認ください。