In [None]:
import io

import numpy as np
import pandas as pd
import plotly_express as px

# Data frames 3: 簡単なデータの変換 (Simple data manipulation)




この講義では、簡単なデータの変換を紹介します。

* 行を条件によりフィルター（抽出）します
* データ変換によって新しい列を作ります
* 必要だけの列を抽出します

まずはデータを読み込みましょう。

In [None]:
# データをCVSファイルから読み込みます。 Read the data from CSV file.
df = pd.read_csv('data/15-July-2019-Tokyo-hourly.csv')

In [None]:
print("データフレームの行数は %d" % len(df))
print(df.dtypes)
df.head()

雨の中の傘の持ち方について考えましょう。風の向きによって、適切な持ち方が変わります。風が来ている方向に傾けると傘の効率がよくなります。
したがって、雨のときの風の向きを調べなければいけません。
まずは雨のなかったデータを除きましょう。そのために条件をつけてデータをフィルターします。
条件はデータフレームの参照の後に角括弧に入ります。

詳しく述べると：

* 角括弧に入っている`df['Precipitation_mm']`は一つの列を抽出します。それはpandasの`Series`オブジェクトになります。
* 比較表現　`df['Precipitation_mm'] > 0'` は各行ごとに評価されます、真理値のベクターになります。それも`Series`です。長さはデータフレームの行数です。
* データフレームの後に角括弧に真理値ベクターを入れるとFalseの行が除かれます。

結果のデータフレームは新しいデータフレームです。既存のデータフレームは変わらないままで、フィルターされたデータフレームを新しい変数に保存します。

In [None]:
# This is an example of filtering rows by a condition
# that　is computed over variables in the dataframe.
# 条件によってデータフレームをフィルターします。
df2 = df[df['Precipitation_mm'] > 0]
len(df2)

 一日の24時間の中に雨が降っていたは１１時間がありました。　風の向きを可視化しましょう。　`px.histogram`は`x`の値を数えて、個数を棒グラフとして可視化します。

In [None]:
px.histogram(df2, x='WindDirection_16compasspoints')

雨が降ったときに風はNEの方向に吹いたことがわかります。雨だけのデータにフィルターしなければ、グラフは異なる結果がえられます。
以下は`df`は元のデータフレームで、フィルターされたデータフレームは`df2`です。

In [None]:
px.histogram(df, x='WindDirection_16compasspoints')

フィルターに変わりに、可視化によって同じデータを確認ができます。たとえば、雨が降ったかどうかを色で表現します。
そのために新しい真理値の列を作らなければなりません。以下の例は`df`のデータフレームに新しい列を追加します。

In [None]:
# This creates a new column named "rained" that is a boolean variable 
# indicating whether it was raining in that hour.
# 新しい真理値の列'rained'を追加します。
df['rained'] = df['Precipitation_mm'] > 0
px.histogram(df, x='WindDirection_16compasspoints', color='rained')

 今まで解析してきたデータを表の形に表示について考えましょう。　`df`のデータフレームをそのまま表示するとたくさんの列が出て、
どのデータを見せたかったのはとてもわかりにくくなります。　それを解決するために、見せたい列だけを抽出しましょう。

In [None]:
# そのままだとデータが多すぎて混乱しやすい。
# その表を見せてなにがいいたいのか分かりづらい。
df

In [None]:
# 列の名前の一覧を見ましょう。
df.dtypes

In [None]:
# Indexing by list of column names returns a copy of the data frame just with the named
# columns.
# 列の名前を二重角括弧に入れると、列の抽出ができます。　列の名前は以上の`dtypes`の一覧によって確認できます。
df[['Time_Hour', 'WindDirection_16compasspoints', 'rained']]

## 予習課題: データの変換 (Data manipulation)




以上に定義した`df`のデータフレームを使って、以下のデータの表を抽出しましょう。
* 日が出ていた時間帯のみ (すなわち、`SunshineDuration_h` > 0)

以下の列だけを抽出しましょう。
* `Time_Hour` -- 元のデータフレームから抽出しましょう。
* `WindDirection_16compasspoints` -- 元のデータフレームから抽出しましょう。
* `rained` -- 雨があったかどうかの真理値列　（すなわち、`Precipitation_mm > 0`)。こちらの列は元のデータに入ってないため、追加しなければなりません。

In [None]:
# Note: you can do multiple steps to get the data frame you need.
# 複数の段階に分けてデータ処理してもよい。
df['rained'] = df[...]
sunny_df = df[...]
sunny_df = sunny_df[...]

もし`SettingWithCopyWarning`のエラーが出たら、データフレームのコピーに変更を行うという意味なのです。`pandas`は、データ抽出のときに
    自動的にコピーしないような最適化の副作用です。解決のために、データ変更は先にするか、抽出の後に`.copy()`を呼び出すことができます。

In [None]:
# Inspect the data frame
sunny_df

In [None]:
# Test your solution
assert len(sunny_df) == 2, "The result data frame should only have 2 rows, yours has %d" % len(sunny_df)
assert np.sort(np.unique(sunny_df['Time_Hour'])).tolist() == [13, 14], "Sunshine was during 13h,14h, but you got %s" % sunny_df['Time_Hour']
assert np.all(sunny_df['rained'] == False), "It was not raining during sunshine hours!"