<a href="https://colab.research.google.com/github/szkjiro/program/blob/main/PyStat1First.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 統計処理を行う

統計学の第1回として，プログラムの実行を通じて基本概念のいくつかを確かめます．
データは何個かの数値からなります．
この何個にあたる量を標本の大きさ（または標本のサイズ）といいます．
似た語感のことばですが，標本数というと他の概念を表します．
こうした数値の集まりを数学では数ベクトル（数を省略して単にベクトルということが多い）といいます．

ベクトルを扱うのに，通常のプログラミング言語では配列というデータ構造を用います．
最初の実行例はデータフレームと呼ばれる時計処理向けのベクトルの扱いを利用し，ベクトル同士の演算ができることを確認しています．



In [None]:
# この例ではｘとｙという２つの大きさ（サイズ）の異なるベクトルを定義し，いくつかの演算を行う．
import pandas as pd
# 基本的なデータ処理を行うためのライブラリ
# pdという名前の利用は習慣
# 統計処理が簡単になるようにサイズの同じベクトルを束ねるデータフレームを利用する
# pd.DataFrameはその特別な形を利用するということ
first = pd.DataFrame({
    # import文で定義した名前pdで参照している
    # コロン；の左の名前（クォートで囲むこと）に対して以降の値を与えている
    'x':  [2,2,0,3,5],
    'y':  [3,1,4,1,6]})

# インデントは上の値の定義（初期化ともいう）まで
# 以下では変数名を通じて，変数の値や演算結果を確認している
# 第1列は単に０番目から（サイズ−１）番目の値という意味でデータではない
# 数ベクトルデータは成分ごとに計算していることに注意
# 0で割ればエラー表示をする，ｘをｙで割らせてみよう
print(first.x)
print(first.y)
print(first.y+first.x)
print(first.y-first.x)
print(first.y*first.x)
print(first.y/first.x)
print(10*first.x)
print(10+first.x)


次の例では平均値および分散を計算します．
$x_1,\dots,x_n$ の平均値 $\bar{x}$ は
$$
\bar{x} = \frac{1}{n} \sum_{k=1}^n x_k
$$
であり，（標本）分散 $s_{xx}$ は
$$
s_{xx} = \frac{1}{n} \sum_{k=1}^n (x_k-\bar{x})^2
$$
で定義されます．
なお，統計学を用いた分析のほとんどでは不偏分散
$$
s_{xx} '= \frac{1}{n-1} \sum_{k=1}^n (x_k-\bar{x})^2
$$
を用います．
なぜそうするかの理由は，Pythonで統計処理を行えることの体験が第１である本授業では説明しません．

Pythonで利用できる統計計算ライブラリにnumpyがあり，本授業ではそれを用います．
さまざまな用途に応じて，より高度な統計計算を行うライブラリもあります．


In [None]:
import numpy as np
# meanが平均値の計算
print(np.mean(first.x))
print(np.mean(first.y))
# varが分散の計算
print(np.var(first.x))
print(np.var(first.y))
# 平均値はデータを加減してから計算しても，平均値にしてから加減しても同じ
print(np.mean(first.x+first.y))
print(np.mean(first.x-first.y))
print(np.mean(first.x*10))
# varが分散の計算
print(np.var(first.x+first.y))
print(np.var(first.x-first.y))
print(np.var(first.x*10))

ここで計算した分散は上にあげた定義の標本分散と不偏分散のどちらになるでしょうか．
Pythonにはいずれかを指定するオプション引数ddofがあります．
ddof=1が不偏分散，０で標本分散になります．

In [None]:
print(np.var(first.x,ddof=1))
print(np.var(first.x,ddof=0))
# 両者の比がn/(n-1)であることの確認
v1 = np.var(first.x,ddof=1)
v2 = np.var(first.x,ddof=0)
print(v1/v2-5/4)

## ５数要約および箱ヒゲ図を描く

５数要約とは，最大値，中央値，最小値に加えて２つの四分位数を合わせたものです．
この５つの外にPythonでは以下の例に示すように，平均および標準偏差stdも与えています．
ヒストグラムも描かせました．

In [None]:
# ５数要約
first.describe()
# 箱ヒゲ図
first.boxplot()
# ヒストグラム
first.hist()
# ヒストグラム，階級数を３に指定
first.hist(bins=3)

これまでは，たった５つのデータ２組だけで進めてきました．
ここで乱数を扱うことにより，コンピュータにデータを生成させることにします．
これにより，労せずして，大量の練習用データを用意することができます．
多くの人工知能開発でも，乱数をうまく取り入れることが実際の応用につながっている場合が多くあります．

ライブラリはすでに利用しているnumpyです．
乱数により生成したデータを，最初の例と同様に，データフレームに与えています．
関数の利用例を一つだけ書きました．
他の関数や計算なども試してみましょう．
また，乱数も，以下の例ばかりでなくいろいろとやってみましょう．


In [None]:
import pandas as pd
import numpy as np

u = np.random.randint(
    # 整数値の乱数を作る
    low = 1,  # 最小値
    high = 7, # 最大値+1
    size = 100)

print(u)

v = np.random.randint(
    # 整数値の乱数を作る
    low = 1,  # 最小値
    high = 11, # 最大値+1
    size = 100) # 標本の大きさ

second = pd.DataFrame({
    'x': u,
    'y': v
})

second.x.hist()
second.y.hist()