# 課題1 データの基本的な記述統計の計算
データの特徴を指標（統計値）によって記述することを記述統計と呼びます。データ分析の過程で、記述統計は分析対象のデータを観察し、理解するのに用いられます。

記述統計により対象データを理解することは、データの前処理（欠損値、外れ値、異常値の処理）の準備にもなります。

記述統計および前処理について次回以降の授業で詳しく説明します。

代表的な記述統計に平均があります。平均はデータの中心傾向を記述するための指標で、データが$n$個の数値要素からなる場合、平均は以下のように計算できます。$x_{i}$はデータの各要素を表しています。

$\frac{1}{n}\Sigma^{n}_{i=1}x_{i}$

以下では、Pythonの基礎で学んだ内容を元にして、数値データの平均に加えて最大値、最小値を求めるPythonコードを実装します。

配点
- Q1 5P
- Q2 5P

## Q1
非負の整数（最大でも10,000,000とする）を要素とする任意の長さのリストを引数で入力として受け取り、以下を要素とするリストを返す`avg_max_min`関数を完成させてください。
- 入力リストの全ての要素の平均値
- 入力リストの全ての要素の中で最大の値
- 入力リストの全ての要素の中で最小の値

In [45]:
def avg_max_min(nonnegative_int_list):
    # 課題の意図と異なりますが、組み込み関数を再実装したくなかったので以下のようにしました
    avg = sum(nonnegative_int_list) / len(nonnegative_int_list)
    max_ = max(nonnegative_int_list)
    min_ = min(nonnegative_int_list)

    return [avg, max_, min_]

`avg_max_min`関数が完成したら、以下のセルを実行して動作を確認してください。

In [46]:
avg_max_min([30,39,29,95,70,67,29,56,45,68])

[52.8, 95, 29]

結果は`[52.8, 95, 29]`となります。結果が異なる場合は、作成した`avg_max_min`関数に誤りがないか確認してください。

## Q2
以下のような形式の"SSDSE.csv"ファイルを読み込み、"人口総数", "人口総数(男)", "人口総数(女)"、の各列に対応するキーを、"total", "male", "female"、として、各列の平均値、最大値、最小値のリストを値に持つ以下のような辞書を返す`population_stat`関数を完成させてください。その際、先に作成した`avg_max_min`関数を利用してください。
```Python
## SSDSE.csvファイル
code, prefecture, municipality, A1101,	A110101, A110102, ...
地域コード, 都道府県, 市区町村, 人口総数, 人口総数（男）, 人口総数（女）, ...
R01100, 北海道, 札幌市, 1952356, 910614, 1041742
R01202, 北海道, 函館市, 265979, 120376, 145603
R01203, 北海道, 小樽市, 121924, 54985, 66939
...

## 結果の辞書
{'total': ['人口総数の平均', '人口総数の最大値', '人口総数の最小値'],
 'male': ['人口総数（男）の平均', '人口総数（男）の最大値', '人口総数（男）の最小値'],
 'female': ['人口総数（女）の平均', '人口総数（女）の最大値', '人口総数（女）の最小値']}
```

### 参考

- [教育用標準データセット](https://www.nstac.go.jp/SSDSE/)

In [None]:
# Colaboratoryでは以下を実行して必要なファイルをダウンロード
!wget https://raw.githubusercontent.com/UTDataMining/2020A/master/ex1/SSDSE.csv

--2021-10-14 13:44:58--  https://raw.githubusercontent.com/UTDataMining/2020A/master/ex1/SSDSE.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 867732 (847K) [text/plain]
Saving to: ‘SSDSE.csv’


2021-10-14 13:44:58 (17.2 MB/s) - ‘SSDSE.csv’ saved [867732/867732]



In [47]:
import csv

def population_stat():
    population_total_list = []
    population_male_list = []
    population_female_list = []
    
    with open('SSDSE.csv', 'r', encoding="utf-8") as handler:
        csv_reader = csv.reader(handler) 
        for row in csv_reader:
            if csv_reader.line_num > 2:
                population_total_list.append(int(row[3]))
                population_male_list.append(int(row[4]))
                population_female_list.append(int(row[5]))
    
        population_total_stat = avg_max_min(population_total_list)
        population_male_stat = avg_max_min(population_male_list)
        population_female_stat = avg_max_min(population_female_list)
    
    return {
        "total": population_total_stat,
        "male": population_male_stat,
        "female": population_female_stat,
        }

`poplation_stat`関数が完成したら、以下のセルを実行して動作を確認してください。

In [48]:
population_stat()

{'female': [37480.18782309018, 1868859, 0],
 'male': [35520.814474439976, 1855985, 0],
 'total': [73001.00229753015, 3724844, 0]}

結果は`{'total': [73001.00229753015, 3724844, 0],
 'male': [35520.814474439976, 1855985, 0],
 'female': [37480.18782309018, 1868859, 0]}`となります。結果が異なる場合は、作成した`population_stat`関数に誤りがないか確認してください。

# 作成したコードのテスト

In [None]:
# コードのテストの前にこのセルを実行してください
!pip install prog_edu_assistant_tools
import re
import sys
import jinja2
from IPython.core import display
from google.colab import _message as google_message
from prog_edu_assistant_tools.magics import report, autotest, CaptureOutput
from prog_edu_assistant_tools.check import Check

Collecting prog_edu_assistant_tools
  Downloading prog_edu_assistant_tools-0.3.1-py3-none-any.whl (16 kB)
Installing collected packages: prog-edu-assistant-tools
Successfully installed prog-edu-assistant-tools-0.3.1


## Q1

In [49]:
# Run this cell to check your solution.
# If you get an error 'Check not defined', make sure you have run all preceding
# cells once (Runtime -> Run before)
Check('q1')

## Q2

In [50]:
# Run this cell to check your solution.
# If you get an error 'Check not defined', make sure you have run all preceding
# cells once (Runtime -> Run before)
Check('q2')