# Chapter 2 山梨県の気象データの取得と前処理

Pandasはデータの分析や操作を容易に行う機能を提供するPythonライブラリです

この教材ではPandasを使用して、山梨県の気象データを取得し、前処理を行います。

データの取得方法、データの読み込み、欠損値の処理、データ型の変換、列の選択という一連のデータ前処理の流れを学びます。

## 1. データ取得

まずは山梨県の気象データを取得します。データの取得は、Web上からダウンロードする方法やAPIを使用する方法などがあります。この教材では、気象庁の「過去の気象データ・ダウンロード」からCSVをダウンロードしてデータを取得します。

気象庁|過去の気象データ・ダウンロード
- https://www.data.jma.go.jp/risk/obsdl/index.php

![capture01](https://github.com/yuukis/yuukis.github.io/assets/2931035/0821c252-ed78-44b7-8427-f7c89461849f)

今回は例として、以下の項目を選択して2023年の日別の気象データをダウンロードします。
  - 「地点を選ぶ」で「山梨」を選択後、「甲府」を選択
  - 「項目を選ぶ」で以下の項目を選択
    - 「データの種類」で「日別値」を選択
    - 「気温」をクリック後、下記の項目を選択
      - 日平均気温
      - 日最高気温
      - 日最低気温
    - 「降水」をクリック後、下記の項目を選択
      - 降水量の日合計
    - 「日照/日射」をクリック後、下記の項目を選択
      - 日照時間
    - 「雲量/天気」をクリック後、下記の項目を選択
      - 天気概況（昼：06時～18時）c
  - 「期間を選ぶ」で「連続した期間で表示する」を選択後、下記の範囲を指定
    - 2023年1月1日から2023年12月31日まで の日別値を表示
  - 「表示オプションを選ぶ」で以下の項目を選択
    - 利用上注意が必要なデータの扱い
      - 値を表示(格納)しない。
    - 観測環境などの変化の前後で、値が不均質となったデータの扱い
      - 観測環境などの変化前の値を表示(格納)しない。
    - ダウンロードCSVファイルのデータ仕様
      - すべて数値で格納(現象あり・なし情報、品質情報は数値で格納)
        - 日付リテラルで格納
  - 「CSVファイルをダウンロード」をクリック
    - 「画面に表示」を選択して内容を確認してからダウンロードも可能

ダウンロードした CSV ファイルは、data.csv というファイル名で保存されます。

このCSVファイルを Colaboratory 画面内の「ファイル」にドラッグアンドドロップしてアップロードします。

![capture02](https://github.com/yuukis/yuukis.github.io/assets/2931035/9dbb8e29-02ae-49cc-a3d8-2f3cd5c526d1)

## 2. データ読み込み

取得したデータをPandasのDataFrameとして読み込みます。

PandasはCSV、テキストファイル、Excel、SQLデータベース等、各種のデータ形式をサポートしています。この教材ではCSV形式のデータを読み込みます。

まずは pandas ライブラリをインストールします。

In [None]:
!pip install pandas

インストールした pandas ライブラリをインポートし、data.csv を指定して読み込みます。

CSVファイルを読み込む際、エラーにならないよう文字コードは Shift JIS を指定します。

In [None]:
import pandas as pd

# CSVファイルの読み込み
df = pd.read_csv('data.csv', encoding='shift_jis')

# 確認のため、読み込み結果の先頭10行を表示する
df.head(10)

尚、CSVファイルの上の方の行が解析などに不要な場合、skiprowsでそれをスキップすることもできます。`skiprows` でスキップしたい行数を指定します。

In [None]:
import pandas as pd

# CSVファイルの読み込み
# skiprows=3: CSVファイルの先頭から3行の読み込みをスキップする
df = pd.read_csv('data.csv', encoding='shift_jis', skiprows=3)

# 確認のため、読み込み結果の先頭10行を表示する
df.head(10)

列の先頭に 0 から始まるインデックスが付与されています。

解析を容易にするため、年月日のデータをインデックス列に指定して読み込みます。

In [None]:
import pandas as pd

# CSVファイルの読み込み
# index_col=0: 最初の列をインデックスとして指定する
df = pd.read_csv('data.csv', encoding='shift_jis', skiprows=3, index_col=0)

# 確認のため、読み込み結果の先頭10行を表示する
df.head(10)

## 3. データの確認

データが正しく読み込まれたことを確認します。また、データの概観を把握するために各列のデータ型や欠損値の有無を確認します。

In [None]:
# 読み込んだデータの要約を確認する
print(df.info())

## 4. 欠損値処理

データに欠損値(NaN)が存在する場合、その処理方法を決定します。欠損値の処理方法には、欠損値を含む行や列を削除する方法や、欠損値を特定の値で補完する方法などがあります。

In [None]:
# 欠損値があれば削除する
df = df.dropna()

# 確認のため、読み込み結果の先頭10行を表示する
df.head(10)

## 5. データ型の変換

必要に応じて列のデータ型を変換します。例えば、日付や時間を表す列が文字列型である場合、これを日付型や時間型に変換するなどです。

In [None]:
# 年月日の操作を行いやすくするため、インデックスである年月日の列をdatetime形式に変換する
df.index = pd.to_datetime(df.index)

# 確認のため、読み込み結果の先頭10行を表示する
df.head(10)

## 6. 列の選択

分析に必要な列を選択します。不要な列はこの段階で除去します。

In [None]:
# 平均気温(℃)の列を選択する
df = df[['平均気温(℃)']]

# 確認のため、読み込み結果の先頭10行を表示する
df.head(10)

## 課題

1. 気象庁の「過去の気象データ・ダウンロード」から他のデータをダウンロードし、データの読み込みや欠損値の処理、データ型変換、列の選択を試してみましょう
2. Pandas の DataFrame には他にも便利なメソッドが様々提供されています。[公式リファレンス](https://pandas.pydata.org/docs/reference/frame.html)等を参考に、他のメソッドも実行してみましょう