In [1]:
import numpy as np
import pandas as pd

```
NumPy と　pandasをインポートしておきます
```

# 事前準備

## データ

- CSV: 201704health.csv
- HTML: 201704weather.html

## ライブラリインストール

- HTML解析用 (lxml): `$ pip install lxml`
- Excel操作用 (openpyxl): `$ pip install openpyxl`

# CSVファイルの読み込み

- 201704health.csv

## データ

- 日付
- 歩数
- 摂取カロリー



In [2]:
df = pd.read_csv("201704health.csv")

```
201704health.csv ファイルを、データフレームに変換します
```

In [3]:
df.head()

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930


```
データの先頭を見てみましょう
```

In [4]:
df.tail()

Unnamed: 0,日付,歩数,摂取カロリー
21,2017-04-26,7492,1850
22,2017-04-27,7203,1930
23,2017-04-28,7302,1850
24,2017-04-29,6033,2300
25,2017-04-30,4093,1950


```
データの最後を見てみましょう
```

In [5]:
df["歩数"]

0      5439
1      2510
2     10238
3      8209
4      9434
5      7593
6      9320
7      4873
8      7493
9      7289
10     6481
11    10287
12     8043
13     7435
14     8031
15     8475
16     8132
17    15328
18    12849
19     4029
20     7823
21     7492
22     7203
23     7302
24     6033
25     4093
Name: 歩数, dtype: int64

```
カラム 歩数のデータを確認します。
```

In [6]:
df.mean(axis=0)

歩数        7747.461538
摂取カロリー    2028.846154
dtype: float64

```
歩数と摂取カロリーの平均値を出力しました。
```

In [7]:
df['日付'].astype(np.datetime64)

0    2017-04-01
1    2017-04-02
2    2017-04-03
3    2017-04-04
4    2017-04-05
5    2017-04-06
6    2017-04-07
7    2017-04-08
8    2017-04-10
9    2017-04-11
10   2017-04-12
11   2017-04-13
12   2017-04-14
13   2017-04-15
14   2017-04-17
15   2017-04-18
16   2017-04-19
17   2017-04-20
18   2017-04-21
19   2017-04-22
20   2017-04-25
21   2017-04-26
22   2017-04-27
23   2017-04-28
24   2017-04-29
25   2017-04-30
Name: 日付, dtype: datetime64[ns]

```
CSVファイルからデータフレームにした際に、カラム 日付　は文字列になっています。
ソートなどに使用できるように、日付型に変換をします。
ここでは、変換結果を出力しているだけです
```

In [8]:
df['date'] = df['日付'].astype(np.datetime64)

```
新たなカラム date に カラム 日付 から日付型に変換したデータを入れます
```

In [9]:
df_health = df

```
新たなデータフレーム df_health にコピーします。
この後は、 df_health を使用していきます
```

In [10]:
df_health

Unnamed: 0,日付,歩数,摂取カロリー,date
0,2017-04-01,5439,2500,2017-04-01
1,2017-04-02,2510,2300,2017-04-02
2,2017-04-03,10238,1950,2017-04-03
3,2017-04-04,8209,1850,2017-04-04
4,2017-04-05,9434,1930,2017-04-05
5,2017-04-06,7593,1800,2017-04-06
6,2017-04-07,9320,1940,2017-04-07
7,2017-04-08,4873,2300,2017-04-08
8,2017-04-10,7493,1850,2017-04-10
9,2017-04-11,7289,1930,2017-04-11


```
df_healthの内容を確認します
```

# HTML表の読み込み

- 201704weather.html

以下のサイトから2017年4月の東京の気象データをダウンロード
http://www.data.jma.go.jp/obd/stats/etrn/view/daily_s1.php?prec_no=44&block_no=47662&year=2017&month=4&day=&view=

- 必要な表を選択
- 日にちと気温関係のデータのみにする
- ヘッダーの処理
- 日にちを、日付として扱えるように変換

In [11]:
tables = pd.read_html("201704weather.html")

```
pandasには、HTMLのテーブル構造をデータフレームに変換するツールが含まれています。
read_html関数に、HTMLファイルを渡すと、HTML内にある、複数のテーブルが取り込まれます
```

In [12]:
tables

[     0        1        2      3      4           5        6      7     8   \
 0     日  気圧(hPa)  降水量(mm)  気温(℃)  湿度(％)  風向・風速(m/s)  日照時間(h)  雪(cm)  天気概況   
 1    現地       海面      NaN    NaN    NaN         NaN      NaN    NaN   NaN   
 2    平均       平均       合計     最大     平均          最高       最低     平均    最小   
 3   1時間     10分間       風速     風向     風速          風向       合計      値   NaN   
 4     1   1010.9   1013.9    5.5    1.5         0.5      6.3    8.9   4.6   
 5     2   1011.0   1014.0     --     --          --      8.7   14.2   4.6   
 6     3   1013.5   1016.4    1.5    1.5         1.0      9.9   16.1   6.4   
 7     4   1021.3   1024.3     --     --          --     11.2   17.3   4.5   
 8     5   1023.3   1026.2     --     --          --     14.7   20.7   7.7   
 9     6   1019.7   1022.6    0.5    0.5         0.5     16.7   21.2  12.9   
 10    7   1012.6   1015.5    3.0    1.5         0.5     17.5   21.6  15.5   
 11    8   1009.5   1012.4    7.0    2.0         1.0     15.3   

```
取得したものを確認しています
```

In [13]:
len(tables)

2

```
このHTMLには、2つのテーブルが含まれていました
```

In [14]:
tables[1]

Unnamed: 0,0,1,2,3
0,利用される方へ,よくある質問（FAQ）,気象観測統計の解説,年・季節・各月の天候


```
2個目のテーブルを見てみます。
目的のものではないことがわかります。
```

In [15]:
df = tables[0]

```
一つ目のテーブルをデータフレームとして、変数dfに入れます
```

In [16]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
0,日,気圧(hPa),降水量(mm),気温(℃),湿度(％),風向・風速(m/s),日照時間(h),雪(cm),天気概況,,...,,,,,,,,,,
1,現地,海面,,,,,,,,,...,,,,,,,,,,
2,平均,平均,合計,最大,平均,最高,最低,平均,最小,平均風速,...,最大瞬間風速,降雪,最深積雪,昼(06:00-18:00),夜(18:00-翌日06:00),,,,,
3,1時間,10分間,風速,風向,風速,風向,合計,値,,,...,,,,,,,,,,
4,1,1010.9,1013.9,5.5,1.5,0.5,6.3,8.9,4.6,80,...,2.7,5.1,北北東,9.4,北東,0.0,--,--,雨後一時曇,曇時々晴


```
新たに作ったデータフレームの内容を見てみます。
4行目まで、ヘッダーが並んでいることがわかります。
今回取り込んだテーブルのヘッダーが複雑になっていることから、どのカラムが必要なのかがわかりにくい状況です。
元のHTMLを表示させて、今回使用したい、「日」「平均気温」「最高気温」「最低気温」だけを抜き出したいと思います。
```

In [17]:
df_weather = pd.DataFrame(df.iloc[:, [0, 6, 7, 8]])

```
カラムの 0, 6, 7, 8 が順に、「日」「平均気温」「最高気温」「最低気温」となっていましたので、
新たなデータフレーム df_weather を、必要なカラムだけにして生成します。
```

In [18]:
df_weather = df_weather.drop([0, 1, 2, 3])

```
ヘッダーが意味とあっていないので、不要なので、一旦削除します
```

In [19]:
df_weather.head()

Unnamed: 0,0,6,7,8
4,1,6.3,8.9,4.6
5,2,8.7,14.2,4.6
6,3,9.9,16.1,6.4
7,4,11.2,17.3,4.5
8,5,14.7,20.7,7.7


```
データの先頭を確認します。
```

In [20]:
df_weather = df_weather.rename(columns={0: '日', 6: '平均気温', 7: '最高気温', 8: '最低気温'})

```
カラム名が数字のままでは扱いにくいので、カラム名を変更します
```

In [21]:
df_weather.head()

Unnamed: 0,日,平均気温,最高気温,最低気温
4,1,6.3,8.9,4.6
5,2,8.7,14.2,4.6
6,3,9.9,16.1,6.4
7,4,11.2,17.3,4.5
8,5,14.7,20.7,7.7


```
あらためて、データフレームの先頭を確認します
```

In [22]:
df_weather.dtypes

日       object
平均気温    object
最高気温    object
最低気温    object
dtype: object

```
各データが、どのようなタイプかを確認します。
数値や日付となっていることを期待していましたが、残念ながらobjectと表示されました。
これは、HTMLから取り込んだ際に、先頭の4行目までに、文字列が入っていて、数値などに変換できなかったために発生しました。
このままでは、データ処理で扱えないので、データの型を整えます
```

In [23]:
df_weather[['平均気温', '最高気温', '最低気温']] = df_weather[['平均気温', '最高気温', '最低気温']].astype(np.float)

```
「平均気温」「最高気温」「最低気温」は、小数点以下を含んでいるので、floatで扱うことにしました。
データを変換してそのまま同じカラムに代入しています
```

In [24]:
df_weather

Unnamed: 0,日,平均気温,最高気温,最低気温
4,1,6.3,8.9,4.6
5,2,8.7,14.2,4.6
6,3,9.9,16.1,6.4
7,4,11.2,17.3,4.5
8,5,14.7,20.7,7.7
9,6,16.7,21.2,12.9
10,7,17.5,21.6,15.5
11,8,15.3,17.7,12.6
12,9,13.8,15.2,11.1
13,10,10.4,15.7,6.9


```
データの表示された状況には代わりがありません
```

In [25]:
df_weather.dtypes

日        object
平均気温    float64
最高気温    float64
最低気温    float64
dtype: object

```
データの型を再確認しています
気温関係の3つのカラムは、floatで扱われていることがわかりました
残るは、「日」のデータの変換です。日付で扱えるように変換していきましょう。
```

In [26]:
pd.to_datetime("2017-4-{}".format(1))

Timestamp('2017-04-01 00:00:00')

```
今回のデータには、日の文字列のみが入っています。
このデータを 2017年4月　として、日付型にする方法を確認します
```

In [27]:
df_weather['日'].apply(lambda x: pd.to_datetime("2017-4-{}".format(x)))

4    2017-04-01
5    2017-04-02
6    2017-04-03
7    2017-04-04
8    2017-04-05
9    2017-04-06
10   2017-04-07
11   2017-04-08
12   2017-04-09
13   2017-04-10
14   2017-04-11
15   2017-04-12
16   2017-04-13
17   2017-04-14
18   2017-04-15
19   2017-04-16
20   2017-04-17
21   2017-04-18
22   2017-04-19
23   2017-04-20
24   2017-04-21
25   2017-04-22
26   2017-04-23
27   2017-04-24
28   2017-04-25
29   2017-04-26
30   2017-04-27
31   2017-04-28
32   2017-04-29
33   2017-04-30
Name: 日, dtype: datetime64[ns]

```
カラム 日 に対して、applyメソッドを使うことで、データ変換した結果を表示しています。
apply は、データ一つづつに順次関数を適用するものです。
lambda は Pythonの無名関数です。ここでは、引数を x とし、先程実行した日付型を返すpandasの関数 to_datetime を実行しています。
```

In [28]:
df_weather['date'] = df_weather['日'].apply(lambda x: pd.to_datetime("2017-4-{}".format(x)))

```
上記で実行した カラム 日から、日付型を返す実行結果を、新たなカラム dateに代入しています。
```

In [29]:
df_weather.head()

Unnamed: 0,日,平均気温,最高気温,最低気温,date
4,1,6.3,8.9,4.6,2017-04-01
5,2,8.7,14.2,4.6,2017-04-02
6,3,9.9,16.1,6.4,2017-04-03
7,4,11.2,17.3,4.5,2017-04-04
8,5,14.7,20.7,7.7,2017-04-05


```
データの先頭を確認します
```

In [30]:
df_weather

Unnamed: 0,日,平均気温,最高気温,最低気温,date
4,1,6.3,8.9,4.6,2017-04-01
5,2,8.7,14.2,4.6,2017-04-02
6,3,9.9,16.1,6.4,2017-04-03
7,4,11.2,17.3,4.5,2017-04-04
8,5,14.7,20.7,7.7,2017-04-05
9,6,16.7,21.2,12.9,2017-04-06
10,7,17.5,21.6,15.5,2017-04-07
11,8,15.3,17.7,12.6,2017-04-08
12,9,13.8,15.2,11.1,2017-04-09
13,10,10.4,15.7,6.9,2017-04-10


```
データ型を変換し、この後使用しやす目的の物が得られました。
データの型の変換や新たなカラムに代入することをステップを追って確認してきました。

Excelなででは、マウスを使って、メニューから変換を行うことが多いと思います。それに比べると直感的にはわかりにくいかもしれません。
ただ、データが数千、数万と増えて行った場合、Excelでは処理が仕切れない場合があります。
また、プログラムであれば、再利用可能となり、多くの作業を行う場合は効率的になります。
```

# データフレームの応用

- 日付データを元に同じ行に列を増やす
- 上記で使用した、CSVとHTMLデータを元に一つのデータフレームを作る



In [31]:
df_health.head()

Unnamed: 0,日付,歩数,摂取カロリー,date
0,2017-04-01,5439,2500,2017-04-01
1,2017-04-02,2510,2300,2017-04-02
2,2017-04-03,10238,1950,2017-04-03
3,2017-04-04,8209,1850,2017-04-04
4,2017-04-05,9434,1930,2017-04-05


```
CSVから読みんでデータフレームに変換した、 df_health を再確認します。
```

In [32]:
df_weather.head()

Unnamed: 0,日,平均気温,最高気温,最低気温,date
4,1,6.3,8.9,4.6,2017-04-01
5,2,8.7,14.2,4.6,2017-04-02
6,3,9.9,16.1,6.4,2017-04-03
7,4,11.2,17.3,4.5,2017-04-04
8,5,14.7,20.7,7.7,2017-04-05


```
HTMLファイルから読み込んで各種データ変換を行った、 df_weather を確認します。
```

In [33]:
df_201704 = pd.merge(df_health, df_weather)

```
2つのデータフレームを 同じカラム名 date でつなげます。
```

In [34]:
df_201704

Unnamed: 0,日付,歩数,摂取カロリー,date,日,平均気温,最高気温,最低気温
0,2017-04-01,5439,2500,2017-04-01,1,6.3,8.9,4.6
1,2017-04-02,2510,2300,2017-04-02,2,8.7,14.2,4.6
2,2017-04-03,10238,1950,2017-04-03,3,9.9,16.1,6.4
3,2017-04-04,8209,1850,2017-04-04,4,11.2,17.3,4.5
4,2017-04-05,9434,1930,2017-04-05,5,14.7,20.7,7.7
5,2017-04-06,7593,1800,2017-04-06,6,16.7,21.2,12.9
6,2017-04-07,9320,1940,2017-04-07,7,17.5,21.6,15.5
7,2017-04-08,4873,2300,2017-04-08,8,15.3,17.7,12.6
8,2017-04-10,7493,1850,2017-04-10,10,10.4,15.7,6.9
9,2017-04-11,7289,1930,2017-04-11,11,8.5,10.7,6.4


```
2つのデータフレームをつなげた結果を確認します。
今回のデータは、df_health は4月の歩数などのデータですが、記録が残っていない日がありました。
その為、データをつなぎ合わせた時に、df_healthに無い日については、データが欠落しています。
```

In [35]:
df_201704 = pd.merge(df_weather, df_health, how='outer')

```
df_weather から df_health にマージするように変更し、更に、how='outer' オプションを付けることで、df_healthに無い日付についてもデータも取り込んでいます
```

In [36]:
df_201704

Unnamed: 0,日,平均気温,最高気温,最低気温,date,日付,歩数,摂取カロリー
0,1,6.3,8.9,4.6,2017-04-01,2017-04-01,5439.0,2500.0
1,2,8.7,14.2,4.6,2017-04-02,2017-04-02,2510.0,2300.0
2,3,9.9,16.1,6.4,2017-04-03,2017-04-03,10238.0,1950.0
3,4,11.2,17.3,4.5,2017-04-04,2017-04-04,8209.0,1850.0
4,5,14.7,20.7,7.7,2017-04-05,2017-04-05,9434.0,1930.0
5,6,16.7,21.2,12.9,2017-04-06,2017-04-06,7593.0,1800.0
6,7,17.5,21.6,15.5,2017-04-07,2017-04-07,9320.0,1940.0
7,8,15.3,17.7,12.6,2017-04-08,2017-04-08,4873.0,2300.0
8,9,13.8,15.2,11.1,2017-04-09,,,
9,10,10.4,15.7,6.9,2017-04-10,2017-04-10,7493.0,1850.0


```
4月分のデータが手に入りました。
```

In [37]:
df_2017_fix = pd.DataFrame(df_201704.sort_values(by='date'), columns=['date', '歩数', '摂取カロリー', '平均気温', '最高気温', '最低気温'], )

```
不要なカラムもあるので、改めて、データフレーム df_2017_fix を生成します。
この時、必要なカラムだけを残し、念のためカラム date でソートしています。
```

In [38]:
df_2017_fix

Unnamed: 0,date,歩数,摂取カロリー,平均気温,最高気温,最低気温
0,2017-04-01,5439.0,2500.0,6.3,8.9,4.6
1,2017-04-02,2510.0,2300.0,8.7,14.2,4.6
2,2017-04-03,10238.0,1950.0,9.9,16.1,6.4
3,2017-04-04,8209.0,1850.0,11.2,17.3,4.5
4,2017-04-05,9434.0,1930.0,14.7,20.7,7.7
5,2017-04-06,7593.0,1800.0,16.7,21.2,12.9
6,2017-04-07,9320.0,1940.0,17.5,21.6,15.5
7,2017-04-08,4873.0,2300.0,15.3,17.7,12.6
8,2017-04-09,,,13.8,15.2,11.1
9,2017-04-10,7493.0,1850.0,10.4,15.7,6.9


```
データを確認します。
```

In [39]:
df_2017_fill = df_2017_fix.fillna(0)

```
歩数、摂取カロリーの欠損値を、0とします
```

In [40]:
df_2017_fill

Unnamed: 0,date,歩数,摂取カロリー,平均気温,最高気温,最低気温
0,2017-04-01,5439.0,2500.0,6.3,8.9,4.6
1,2017-04-02,2510.0,2300.0,8.7,14.2,4.6
2,2017-04-03,10238.0,1950.0,9.9,16.1,6.4
3,2017-04-04,8209.0,1850.0,11.2,17.3,4.5
4,2017-04-05,9434.0,1930.0,14.7,20.7,7.7
5,2017-04-06,7593.0,1800.0,16.7,21.2,12.9
6,2017-04-07,9320.0,1940.0,17.5,21.6,15.5
7,2017-04-08,4873.0,2300.0,15.3,17.7,12.6
8,2017-04-09,0.0,0.0,13.8,15.2,11.1
9,2017-04-10,7493.0,1850.0,10.4,15.7,6.9


```
最終的に出来上がったデータを確認します。
```

# ExcelやCSVにデータを保存

In [41]:
df_2017_fill.to_excel('運動量と天気201704.xlsx')

```
生成したデータフレームは、このNotebookを閉じてしまうとデータを失います。
ここでは、Excelでデータフレームを保存しています。
```

In [42]:
df_2017_fill.to_csv('運動量と天気201704.csv')

```
CSVにも保存します。
これらの保存したデータを、デスクトップアプリで確認をしてみてください。
```

# Pickle形式でデータフレームを保存

In [43]:
df_2017_fill.to_pickle("./df_2017.db")

```
ExcelやCSVにデータの保存が出来ることがわかりました。
改めてロードして、場合によっては、データの加工・型の変更などが必要になる場合があります。

データフレームをそのままのPythonのオブジェクトとして保存する方法があります。
PickleというPython標準のデータシリアライズ化を用いた方法で、生成したデータフレームを保存しておきます。

df_2017.db というファイルができていることを確認してください。
次の章では、このデータを元に、可視化などを行っていきます。
```

# SQLite に保存
RDBMSの一つである、SQLiteのテーブルにデータを保存する方法を実行します。

O/Rマッパーである、SQLAlchemyを使用しますので、インストールを行います。
$ pip install sqlalchemy

In [44]:
from sqlalchemy import create_engine

```
必要なモジュールをインポート
```

In [45]:
engine = create_engine('sqlite:///mydata.sqlite')

```
データベースコネクションを生成
ここでは、mydata.sqlite というファイルにデータベースのデータが出来上がります
```

In [47]:
df_2017_fill.to_sql('data', engine)

```
dataテーブルに、データフレームの行列を保存しています。
```