# pandas　AMeDASデータクレンジング
* amedas_0962_mini.csvはAMeDAS熊本観測局のデータである
* 1時間当たりの降水量が10 (mm/h)以上であった時間数を返す関数test()を実装せよ
* ひな形の引数dfはpandasのDataFrame型とする
* main()内において、上記のAMeDASのデータを読み出し、test()に渡すことで動作を確認せよ

データソース：  
[https://raw.githubusercontent.com/KatsuhiroMorishita/numeric_calculation_with_python/master/Pandas/amedas_0962_mini.csv](https://raw.githubusercontent.com/KatsuhiroMorishita/numeric_calculation_with_python/master/Pandas/amedas_0962_mini.csv)


ヒント：
AMeDASの観測データには、数値に" )"や" ]"などがくっついていることがある。これは観測値の信頼性が低い場合などに付与される文字列である。統計処理上で気をつけるように付与されたものだが、数値化する際にエラーが発生してしまう。ここでは、エラーが出ないようにデータを処理する例を示す。なお、データを使えるように処理する事を単に前処理といったり、データクレンジング（洗濯）という。

In [None]:
#ひな形

def test(df):
    y = "ひな形"
    return y

def main():
    pass

if __name__ == "__main__":
    main()

## 解答例を示す前に、諸々試しておく

In [17]:
# データの読み込みと、列ごとの型の確認
import pandas as pd

# データの読み込み
df = pd.read_csv("https://raw.githubusercontent.com/KatsuhiroMorishita/numeric_calculation_with_python/master/Pandas/amedas_0962_mini.csv", na_values=["×", "--", "///"])    # 可能な限り、欠損値はNaNに置換する
print(df.dtypes)       # 型の確認
df

日時               object
時                 int64
降水量(mm)          object
気温(度)           float64
風速・風向(m/s)風速     object
風速・風向(m/s)風向     object
日照時間(h)          object
雪(cm)降雪         float64
雪(cm)積雪         float64
dtype: object


Unnamed: 0,日時,時,降水量(mm),気温(度),風速・風向(m/s)風速,風速・風向(m/s)風向,日照時間(h),雪(cm)降雪,雪(cm)積雪
0,2009-01-01 00:00:00,24,0.0,4.1,3,北北西,0.0,,
1,2009-01-01 01:00:00,1,0.0,4.4,4,北北西,0.0,,
2,2009-01-01 02:00:00,2,0.0,4.9,7,西北西,0.0,,
3,2009-01-01 03:00:00,3,0.0,4.3,4,北西,0.0,,
4,2009-01-01 04:00:00,4,0.0,3.4,2,北北西,0.0,,
5,2009-01-01 05:00:00,5,0.0,3.7,4,北西,0.0,,
6,2009-01-01 06:00:00,6,0.0,2.8,3,北,0.0,,
7,2009-01-01 07:00:00,7,0.0,2.9,3,北,0.0,,
8,2009-01-01 08:00:00,8,0.0,3.1,2,北北西,0.1,,
9,2009-01-01 09:00:00,9,0.0,4.2,4,北北東,0.5,,


↑降水量の列はObject型となっているが、これは基本的に文字列型か、複数の型が混じってることを示している。

In [18]:
# 型の変換の確認
import numpy as np

df2 = df.copy()                                           #  dfに影響を及ぼさないように、コピーを作る
rains = np.array(df2["降水量(mm)"])      # 降水量を取り出して、1次元のndarray型に変更

for i in range(len(rains)):
    val = rains[i]
    if isinstance(val, str) and " )" in val:    # valが文字列か確認して、更に" )"が入っているかチェック
        val = val.replace(" )", "")
        print("要素{0}番目の値は{1}で、' )'を含んでいます。".format(i, val))
    if isinstance(val, str) and " ]" in val:
        val = val.replace(" ]", "")
        print("要素{0}番目の値は{1}で、' ]'を含んでいます。".format(i, val))
    rains[i] = val

df2["降水量(mm)"] = rains
df2["降水量(mm)"] = df2["降水量(mm)"].astype("float")    # 型の変換
print(df2.dtypes)      # 型の変換効果の確認
df2

要素838番目の値は0.0で、' )'を含んでいます。
要素1506番目の値は0.0で、' )'を含んでいます。
要素1673番目の値は0.0で、' )'を含んでいます。
要素6692番目の値は0.0で、' )'を含んでいます。
要素8059番目の値は0.0で、' )'を含んでいます。
要素8363番目の値は0.0で、' )'を含んでいます。
要素8369番目の値は0.0で、' )'を含んでいます。
日時               object
時                 int64
降水量(mm)         float64
気温(度)           float64
風速・風向(m/s)風速     object
風速・風向(m/s)風向     object
日照時間(h)          object
雪(cm)降雪         float64
雪(cm)積雪         float64
dtype: object


Unnamed: 0,日時,時,降水量(mm),気温(度),風速・風向(m/s)風速,風速・風向(m/s)風向,日照時間(h),雪(cm)降雪,雪(cm)積雪
0,2009-01-01 00:00:00,24,0.0,4.1,3,北北西,0.0,,
1,2009-01-01 01:00:00,1,0.0,4.4,4,北北西,0.0,,
2,2009-01-01 02:00:00,2,0.0,4.9,7,西北西,0.0,,
3,2009-01-01 03:00:00,3,0.0,4.3,4,北西,0.0,,
4,2009-01-01 04:00:00,4,0.0,3.4,2,北北西,0.0,,
5,2009-01-01 05:00:00,5,0.0,3.7,4,北西,0.0,,
6,2009-01-01 06:00:00,6,0.0,2.8,3,北,0.0,,
7,2009-01-01 07:00:00,7,0.0,2.9,3,北,0.0,,
8,2009-01-01 08:00:00,8,0.0,3.1,2,北北西,0.1,,
9,2009-01-01 09:00:00,9,0.0,4.2,4,北北東,0.5,,


↑"降水量(mm)         float64"とあるので、降水量の列を文字列型からfloat型（数値型）に変換できた事がわかる。

In [20]:
#解答例

def str2float(df, coloum_name):
    """ 引数で指定された列の変数型を文字列からfloat型に変換したDataFrameを返す
    """
    df2 = df.copy()                                           #  dfに影響を及ぼさないように、コピーを作る
    rains = np.array(df2[coloum_name])      # coloum_name列を取り出して、1次元のndarray型に変更

    for i in range(len(rains)):
        val = rains[i]
        if isinstance(val, str) and " )" in val:    # valが文字列か確認して、更に" )"が入っているかチェック
            val = val.replace(" )", "")
            #print("要素{0}番目の値は{1}で、' )'を含んでいます。".format(i, val))    # 確認後にコメントアウト
        if isinstance(val, str) and " ]" in val:
            val = val.replace(" ]", "")
            #print("要素{0}番目の値は{1}で、' ]'を含んでいます。".format(i, val))
        rains[i] = val

    df2[coloum_name] = rains
    df2[coloum_name] = df2[coloum_name].astype("float")    # 型の変換
    
    return df2


def test(df):
    # 降水量の項目を数値化する
    df = str2float(df, "降水量(mm)")
    
    # 雨量が10 mmを超える時間のみ抽出して、その件数をカウント
    df_rain10 = df[df["降水量(mm)"] >= 10]
    y = len(df_rain10)
    
    return y


def main():
    # データの読み込み
    amedas_df = pd.read_csv("https://raw.githubusercontent.com/KatsuhiroMorishita/numeric_calculation_with_python/master/Pandas/amedas_0962_mini.csv", na_values=["×", "--", "///"])    # 可能な限り、欠損値はNaNに置換する
    
    # データの処理と表示
    print(test(amedas_df))

if __name__ == "__main__":
    main()

42


↑42が雨量が10 [mm/h]を超えた時間数である。