データ取得・保存
==============

データ収集の方法として、手動でデータをノートへ記録する従来の方法があります。
しかし、この方法には以下の課題があります。

- 平均値の計算など、データ処理を手作業で行う必要がある。
- 時間と労力がかかる。
- 人為的ミスのリスクが高い。

これに対し、データをコンピュータで保存・管理する方法には以下の利点があります。

- Pythonなどのプログラミング言語を使用して効率的にデータ処理ができる。
- 作業時間が大幅に短縮される。
- 複雑な統計分析や可視化が容易に行える。

インターネット上の公開データを取得する方法として、{index}`Webスクレイピング<Webスクレイピング>`という方法があります。
これは、Webサイトから自動的に情報を収集する方法です。
Webスクレイピングを行うためには、それ専用のプログラムを作る必要があります。
今回そのようなプログラムは作成しません。
代わりに、Webからデータを直接取得します。

ここでは、気象庁が公開している[過去の気象データ](https://www.data.jma.go.jp/gmd/risk/obsdl/)を取得しました。
内容は2023年の4月から6月までの3ヶ月分の気温・天気・降水量データです。

収集したデータは`data.csv`というファイル名でCSV形式で保存されています。
これはCSVと呼ばれる形式になっています。
{index}`CSV（Comma-Separated Values）<CSV>`は以下の特徴を持つデータ形式です。

- テキストベースのファイル形式
- データの各項目がカンマ（,）で区切られている
- 表形式のデータを簡潔に表現できる

この形式は、多くのソフトウェアやプログラミング言語で容易に読み取り・処理が可能であり、
データの保存や交換に広く使用されています。

今回取得したファイルの構造は以下のようになっています。

- 各行が1つのデータ項目（例：1時間ごとの気温・天気・降水量の観測結果）を表しています。
- 各行内で、個別の情報（例：気温、天気、降水量）がカンマで区切られています。

`data.csv`の一部を示します。

```text
年月日時,気温(℃),天気,降水量(mm)
2023/4/1 1:00,14,2,0
2023/4/1 2:00,13,2,0
2023/4/1 3:00,12.7,2,0
2023/4/1 4:00,12.2,2,0
2023/4/1 5:00,13,2,0
```

この例では

- 1行目は列の名前（見出し）を示しています。
- 2行目以降が実際のデータで、各行が天気情報の1時間分を表しています。
- 各行内では、カンマで区切られた部分がそれぞれ異なる種類の情報（気温、天気、降水量）を表しています。

この構造により、CSVファイルは表形式のデータを簡単にテキストファイルとして保存し、多くのソフトウェアやプログラミング言語で扱えます。

このデータを確認するプログラムを作成します。

In [1]:
import pandas as pd

df = pd.read_csv('data.csv')
df.head()

Unnamed: 0,年月日時,気温(℃),天気,降水量(mm)
0,2023/4/1 1:00,14.0,2,0.0
1,2023/4/1 2:00,13.0,2,0.0
2,2023/4/1 3:00,12.7,2,0.0
3,2023/4/1 4:00,12.2,2,0.0
4,2023/4/1 5:00,13.0,2,0.0


出力結果は、`data.csv`の中身の5行分を表示しています。

プログラムの説明をします。
1行目は`pandas`というライブラリを`pd`という名前で使えるようにインポートしています。
Pandasはデータクリーニングやデータ変換などの処理に便利なライブラリで、よく使われています。
そのため、`pandas`という名前のまま使うのではなく、`pd`という省略した名前で使われています。

3行目の`read_csv`は、`data.csv`という名前のファイルを読み込み、データフレームと呼ばれる2次元の表形式のデータに変換します。
データフレームは、行と列で構成され、各列には一意の名前（列名）があります。

4行目の`df.head`は、データフレームの最初の5行を表示します。
これは、大きなデータセットの内容を素早く確認する時に便利です。

`df.head`という書き方は初めて出てきたので詳しく説明します。
今までは`pd.read_csv`というようにライブラリ名の後に関数名が続いていました。
今回は変数名の後に機能の名前が続いています。
このように変数が指しているデータに対しての機能名は**メソッド**と呼ばれ、データが属する**クラス**に書かれています。
クラスとは、データと、そのデータを操作する機能（メソッド）をまとめた概念で、例えるなら「設計図」や「テンプレート」のようなものです。

クラスを家の設計図を例に説明してみましょう。

- 家の設計図（クラス）には以下が含まれます。
   - 部屋の配置、サイズ、設備などの仕様（データ）
   - 家の機能（窓の開閉、照明のオン/オフなど）の操作方法（メソッド）

- 設計図を基に実際に家を建てることを、クラスの「**インスタンス**化」と呼びます。

- 同じ設計図（クラス）から複数の家（インスタンス）を建てれます。
   - 各家は同じ設計に基づいていますが、独立した建物です。
   - 内装を変えたり（データの変更）、機能を使用したり（メソッドの実行）できます。

- 設計図に記載された機能（メソッド）は、その特定の家（インスタンス）にのみ適用されます。
   - 「窓を開ける」という操作は、ある家の窓にのみ適用され、他の家の窓には影響しません。

- 新しい設計図（**サブクラス**）を作る際、既存の設計図（親クラス）を基に、新しい部屋や機能を追加できます（**継承**）。

Pandasには`DataFrame`クラスがあり、`pd.read_csv()`でCSVファイルを読み込むと、DataFrameの具体的なデータテーブル（インスタンス）が作られます。
`df.head()`はそのインスタンス（`df`）でメソッドの実行しています。

データテーブルの基本的な統計情報を表示したいときは、`describe`というメソッドを使います。

In [2]:
df.describe()

Unnamed: 0,気温(℃),天気,降水量(mm)
count,2183.0,2183.0,2183.0
mean,20.675218,4.59322,0.317224
std,4.86571,3.097912,1.33513
min,4.9,2.0,0.0
25%,17.2,2.0,0.0
50%,21.0,4.0,0.0
75%,24.35,4.0,0.0
max,33.0,15.0,20.5


出力結果は、以下の統計情報を計算し、表示しています。

- count: 非欠損値の数
- mean: 平均値
- std: 標準偏差
- min: 最小値
- 25%: 第1四分位数（25パーセンタイル）
- 50%: 中央値（メディアン）
- 75%: 第3四分位数（75パーセンタイル）
- max: 最大値

なお、**パーセンタイル**とは、小さいほうから順番に並べ、何パーセント目にあたるかを表しています。
例えば、気温の25パーセンタイルを見ると17.2になっており、
気温データのうち17.2度以下のデータが25%あるという意味になります。
降水量で見ると75パーセンタイルが0となっているため、ほとんどのデータが0だとわかります。
ちなみに、25パーセンタイルは第1四分位数、50パーセンタイルは中央値、75パーセンタイルは第3四分位数ともいいます。

年月日時の列の情報がないのは、数値データでないためです。
また、天気情報は数値データですが、**名義尺度**と呼ばれ平均値などに意味はありません。
天気の数値（コード）の意味は[こちら](https://www.data.jma.go.jp/obd/stats/data/mdrr/man/tenki_kigou.html)

このプログラムでは、前回の`import`文や`df`の定義を省略しています。
これはJupyter Notebookなどの対話型環境で実行している場合、前のセルで定義した変数や関数を引き継いで使用できるためです。
しかし、通常のPythonスクリプトとして実行する場合は、必要な`import`文や変数定義を毎回記述する必要があります。
これ以降、プログラムが冗長になる場合は、このように必要な部分のみを記述しますので、注意してください。