# 統計量を求める

In [1]:
import numpy as np

In [12]:
std_norm = np.random.randn(5, 5)
std_norm

array([[-0.84350555, -0.89687687, -0.21019469, -1.58846107,  0.0831577 ],
       [-2.54031293, -0.26700184,  1.21274743,  1.77854921, -0.18349249],
       [-0.03108479,  0.33969688, -1.68986844, -1.07056465,  0.64537588],
       [ 0.39705756,  1.22723157,  0.53691643, -0.26783911, -1.32416946],
       [-1.36107193,  0.64515212, -2.01729248,  0.28735099,  0.26918282]])

- 平均　０　分散　１　の　**標準平均分布**　から random な値を取得したもの

In [3]:
# 最大値
std_norm.max()

3.1077359794286474

In [4]:
np.max(std_norm)

3.1077359794286474

In [5]:
# 最小値
std_norm.min()

-1.8307786615355675

In [6]:
np.min(std_norm)

-1.8307786615355675

In [7]:
# 最大値の index を取得
std_norm.argmax()

17

In [8]:
std_norm.flatten()[17]

3.1077359794286474

In [9]:
# 最小値の index を取得
std_norm.argmin()

20

In [10]:
std_norm.flatten()[20]

-1.8307786615355675

In [11]:
# 平均値 : mean
std_norm.mean()

0.10320881842773322

- 今回は　**標準平均分布**　から取得してきているので、 平均値は　０　にかなり近い

In [13]:
std_norm = np.random.randn(50, 50)
std_norm

array([[-1.36237744e+00, -1.04143690e+00, -4.21823640e-01, ...,
        -1.36631056e+00, -1.05751281e+00,  1.81794542e-01],
       [-5.55850229e-01, -1.33786972e+00, -1.38582660e-01, ...,
        -1.05958005e+00,  1.19970972e+00,  9.44287073e-01],
       [ 6.52369250e-01,  4.58677258e-01, -2.02816387e+00, ...,
        -1.29245799e+00, -6.28234565e-02,  1.76752526e-03],
       ...,
       [ 9.16960025e-01, -4.42835830e-01,  6.28294439e-01, ...,
        -9.13215637e-01, -4.66474266e-01,  3.30773692e-01],
       [-9.54295409e-02,  9.58635930e-01, -3.73360873e-02, ...,
         1.21313539e+00, -1.43317612e-02,  1.74601976e+00],
       [-9.72909646e-03, -7.90513545e-01,  1.26190232e-01, ...,
        -2.62273040e-01,  3.39575106e-01, -1.91399771e-01]])

In [14]:
std_norm.mean()

-0.0027739601215880255

- 値が増えれば増えるほど　**限りなく　0　に近づいている**

In [15]:
# 中央値　: median()
np.median(std_norm)

-0.0190590906060008

In [16]:
std_norm.median()

AttributeError: 'numpy.ndarray' object has no attribute 'median'

#### median( ) だけ　ndarray ではなく, np.median(ndarray) を使用する
- ndarray は直接使用できないので注意する！！
    - *上記のように　error がでる*

- <u>中央値</u>
    - *平均値より時間がかかる・外れ値に強い*
        - 5, 16, 22, 1, 530, 22, 10, 2, 21
        - 並び替える　↓　　※ <u>並び替えに結構時間がかかる</u>
        - 1, 2, 5, 10, 16, 21, 22, 22, 530(外れ値)
        - **中央値　=　16**


- <u>平均値</u>
    - *最初の数字から足していけばOK* ->　*並び替える必要がない*
        - 5, 16, 22, 1, 530, 22, 10, 2, 21　=　629 / 9　=　69.9
        - *530 = 外れ値*
        - **外れ値の値の影響をもろに受ける**
            - <u>平均値が実際より高く引き上げられてしまう</u>

In [26]:
# 中央値 vs 平均値
import time
a = np.random.randn(1000, 1000)
before = time.time()
np.median(a)
after_median = time.time()
np.mean(a)
after_mean = time.time() 
print('median took {} sec'.format(after_median-before))
print('mean took {} sec'.format(after_mean-after_median))

median took 0.015457868576049805 sec
mean took 0.0008039474487304688 sec


In [20]:
np.mean(a)

-0.0007122159101633893

## 標準偏差
- <u>平均との差を２乗した合計を, データ数で割った正の平方根</u>
    1. 5, 16, 22, 1, 530, 22, 10, 2, 21
    2. 5, 16, 22, 1, 530, 22, 10, 2, 21　=　629 / 9　=　69.9
    3. (69.9 - 5)**2 他もこのように計算して足していく
    4. 合計　238734 / 9 個　= 162.8(**分散**)　=　σ ２乗の部分


### **68 - 95 - 99.7rule**
- **正規分布では**
    - 平均から　**± １**　標準偏差には約　**68%**　のデータが　$$\mu-\sigma,  \mu+\sigma$$
    - 平均から　**± 2**　標準偏差には約　**95%**　のデータが　$$\mu-2\sigma,  \mu+2\sigma$$
    - 平均から　**± 3**　標準偏差には約　**99%**　のデータが　$$\mu-3\sigma,  \mu+3\sigma$$
        - 含まれるという経験則がある


- <u>あくまで上記は　**正規分布**　の時だけ</u>

In [32]:
# std = 分散の平方根 = σ（シグマ） / 標準偏差を取得
np.std(std_norm)

0.9914176570339613

### それぞれの行・列ごとの統計量も求める事ができる

In [33]:
std_norm.max()

3.201416384263837

In [35]:
# 列毎の最大
std_norm.max(axis=0)

array([2.35975051, 2.34691327, 2.38402261, 1.98771645, 2.56855142,
       2.33267372, 1.32557917, 1.5694112 , 2.85214793, 2.10102272,
       2.23534401, 2.08069931, 1.50590601, 2.36877158, 2.36386605,
       1.76066435, 2.64354473, 2.27164166, 1.70368497, 2.06024701,
       2.1043737 , 1.91955281, 2.15014024, 2.4980088 , 2.65514335,
       2.61238422, 2.2861764 , 2.40063633, 2.74781762, 1.54783131,
       1.61464652, 2.47537035, 1.53760819, 1.95822021, 2.28863821,
       2.321097  , 2.46526311, 1.80776783, 1.69248273, 2.43809471,
       2.53033987, 2.14800456, 3.20141638, 2.14604782, 3.12126819,
       3.10675458, 1.79302296, 2.1302237 , 2.06875214, 1.74601976])

In [37]:
# 行毎の最大
std_norm.max(axis=1)

array([2.18646054, 3.10675458, 1.59191727, 2.1043737 , 2.34691327,
       1.38342809, 1.86225104, 1.7885896 , 2.43474303, 2.08069931,
       2.61238422, 2.02966346, 1.73293721, 2.14604782, 2.36877158,
       2.25125823, 2.06875214, 2.32591592, 1.95822021, 2.64354473,
       2.33267372, 2.23534401, 1.98272256, 2.36386605, 2.28863821,
       2.85214793, 1.64596878, 2.06601691, 2.06382334, 1.79302296,
       2.10102272, 2.27100486, 2.43809471, 2.46526311, 1.31076312,
       2.4980088 , 2.45338198, 2.44124963, 2.40063633, 2.11251265,
       3.20141638, 2.53171978, 2.56855142, 2.74781762, 3.12126819,
       2.62929066, 1.88864165, 2.22166427, 1.74601976, 1.76066435])

- max, min などを指定することで、行毎、列毎の統計量を計算可能
    - **axis = 0**　:　列毎
    - **axis = 1**　:　行毎