# 課題1 データの基本的な記述統計の計算
データの特徴を指標（統計値）によって記述することを記述統計と呼びます。データ分析の過程で、記述統計は分析対象のデータを観察し、理解するのに用いられます。

記述統計により対象データを理解することは、データの前処理（欠損値、外れ値、異常値の処理）の準備にもなります。

記述統計および前処理について次回以降の授業で詳しく説明します。

代表的な記述統計に平均があります。平均はデータの中心傾向を記述するための指標で、データが$n$個の数値要素からなる場合、平均は以下のように計算できます。$x_{i}$はデータの各要素を表しています。

$\frac{1}{n}\Sigma^{n}_{i=1}x_{i}$

以下では、Pythonの基礎で学んだ内容を元にして、数値データの平均に加えて最大値、最小値を求めるPythonコードを実装します。

## Q1
非負の整数（最大でも10,000,000とする）を要素とする任意の長さのリストを引数で入力として受け取り、以下を要素とするリストを返す`avg_max_min`関数を完成させてください。
- 入力リストの全ての要素の平均値
- 入力リストの全ての要素の中で最大の値
- 入力リストの全ての要素の中で最小の値

In [1]:
def avg_max_min(input_list):
    avg_value=0 # 平均値を初期化
    max_value=-1 # 最大値を初期化
    min_value= 10**7 # 最小値を初期化    
    sum_value=0 # 要素の和を初期化
    results=[] # 結果のリスト
    
    for value in input_list:
        sum_value += value
        
        if max_value <= value:
            max_value = value
            
        if min_value >= value:
            min_value = value
        
    avg_value = sum_value/len(input_list)
    
    results.append(avg_value) 
    results.append(max_value)
    results.append(min_value)
    return results    

`avg_max_min`関数が完成したら、以下のセルを実行して動作を確認してください。

In [2]:
avg_max_min([30,39,29,95,70,67,29,56,45,68])

[52.8, 95, 29]

以下のセルを実行して、実行結果が上記と同じであること確認してください。結果が異なる場合は、作成した`avg_max_min`関数に誤りがないか確認してください。

In [14]:
# avg_max_min関数の結果を検証するための関数
def avg_max_min_test(input_list):
    return [sum(input_list)/len(input_list), max(input_list), min(input_list)]

avg_max_min_test([30,39,29,95,70,67,29,56,45,68])

[52.8, 95, 29]

## Q2
以下のような形式の"SSDSE.csv"ファイルを読み込み、"人口総数", "人口総数(男)", "人口総数(女)"、の各列に対応するキーを、"total", "male", "female"、として、各列の平均値、最大値、最小値のリストを値に持つ以下のような辞書を返す`population_stat`関数を完成させてください。その際、先に作成した`avg_max_min`関数を利用してください。
```Python
## SSDSE.csvファイル
code, prefecture, municipality, A1101,	A110101, A110102, ...
地域コード, 都道府県, 市区町村, 人口総数, 人口総数（男）, 人口総数（女）, ...
R01100, 北海道, 札幌市, 1952356, 910614, 1041742
R01202, 北海道, 函館市, 265979, 120376, 145603
R01203, 北海道, 小樽市, 121924, 54985, 66939
...

## 結果の辞書
{'total': ['人口総数の平均', '人口総数の最大値', '人口総数の最小値'],
 'male': ['人口総数（男）の平均', '人口総数（男）の最大値', '人口総数（男）の最小値'],
 'female': ['人口総数（女）の平均', '人口総数（女）の最大値', '人口総数（女）の最小値']}
```

### 参考

- [教育用標準データセット](https://www.nstac.go.jp/SSDSE/)

In [3]:
import csv

def population_stat():
    total=[] # 人口総数のリストを初期化
    male=[] # 人口総数(男)のリストを初期化
    female=[] # 人口総数(女)のリストを初期化
    
    with open('SSDSE.csv', 'r', encoding="utf-8") as handler: # ファイルオープン
        csv_reader = csv.reader(handler) 
        for row in csv_reader: # 1行ずつ読み込み
            if csv_reader.line_num > 2: # 3行以降を処理する
                ### 各市町村の人口総数, int(row[3]), をtotalに追加するコード ###
                total.append(int(row[3]))
                ### 各市町村の人口総数(男), int(row[4]), をmaleに追加するコード ###
                male.append(int(row[4]))
                ### 各市町村の人口総数(女), int(row[5]), をfemaleに追加するコード ###
                female.append(int(row[5]))
    total_stat = avg_max_min(total) ### 人口総数の平均値、最大値、最小値のリストを計算するコード###
    male_stat = avg_max_min(male) ### 人口総数（男）の平均値、最大値、最小値のリストを計算するコード###
    female_stat = avg_max_min(female) ### 人口総数（女）の平均値、最大値、最小値のリストを計算するコード###
    
    results={"total":total_stat, "male":male_stat, "female":female_stat} # 結果の辞書
    return results

`poplation_stat`関数が完成したら、以下のセルを実行して動作を確認してください。

In [4]:
population_stat()

{'total': [73001.00229753015, 3724844, 0],
 'male': [35520.814474439976, 1855985, 0],
 'female': [37480.18782309018, 1868859, 0]}

以下のセルを実行して、実行結果が上記と同じであること確認してください。結果が異なる場合は、作成した`exam_stat`関数に誤りがないか確認してください。

In [15]:
import pandas as pd

def population_stat_test():
    stat = pd.read_csv('SSDSE.csv',  skiprows=[1])
    return {"total":[stat['A1101'].mean(), stat['A1101'].max(), stat['A1101'].min()],\
                 "male":[stat['A110101'].mean(), stat['A110101'].max(), stat['A110101'].min()], \
                 "female":[stat['A110102'].mean(), stat['A110102'].max(), stat['A110102'].min()]}

population_stat_test()

{'total': [73001.00229753015, 3724844, 0],
 'male': [35520.814474439976, 1855985, 0],
 'female': [37480.18782309018, 1868859, 0]}