# 1変量データの管理

1変量データ：1種類しかないデータ
1変量データを扱う場合に，fish_data という変数に10個のデータを格納しています．

In [1]:
fish_data = [2, 3, 3, 4, 4, 4, 4, 5, 5, 6]
fish_data

10-element Array{Int64,1}:
 2
 3
 3
 4
 4
 4
 4
 5
 5
 6

合計値を計算する場合にはsum関数を用います．

In [2]:
sum(fish_data)

40

サンプルサイズ（要素数）を求めるにはlength関数を用います．

In [3]:
length(fish_data)

10

# 平均値（期待値）

平均値（期待値）の計算式は以下のようになります．

$\mu = \cfrac{1}{N} \sum_{i = 1}^{N} x_{i}$

In [4]:
N = length(fish_data)
sum_value = sum(fish_data)
mu = sum_value / N
mu

4.0

Statisticsのmean関数を使うと平均値を簡単に計算できます．

In [5]:
using Statistics
mu = mean(fish_data)

4.0

# 標本分散

分散はデータが平均値からどれだけ離れているかを表す指標です．

計算式は以下のようになります．

$\sigma^{2} = \cfrac{1}{N} \sum_{i = 1}^{N} ( x_{i} - \mu)^{2}$

In [6]:
fish_data = [2, 3, 3, 4, 4, 4, 4, 5, 5, 6]
mu = mean(fish_data)
N = length(fish_data)

sigma_2_sample = 0
for i = fish_data
    sigma_2_sample += (i - mu)^2
end

sigma_2_sample

12.0

In [7]:
sample_variance = sigma_2_sample / N

1.2

# 不偏分散

標本分散は，標本平均を使ってさらに分散を計算した値です．この値は分散を過小に見積もってしまうというバイアスがあるので，このバイアスをなくしたものが不偏分散です．不偏分散の計算式は以下のようになります．

$\sigma^{2} = \cfrac{1}{N-1} \sum_{i = 1}^{N} ( x_{I} - \mu)^{2}$

In [8]:
unbiased_dispersion = sigma_2_sample / (N - 1)

1.3333333333333333

# 標準偏差

分散の平方根を取ったものが標準偏差です．不偏分散を用いた標準偏差の計算式は以下のようになります．

$\sigma = \sqrt{ \sigma^{2}} = \sqrt{\cfrac{1}{N-1} \sum_{i = 1}^{N} (x_{i} - \mu)^{2}}$

In [9]:
sigma = sqrt(unbiased_dispersion)

1.1547005383792515

In [10]:
sigma = sqrt(sigma_2_sample / (N - 1))

1.1547005383792515

# 標準化

標準化：データの平均を0に，標準偏差を1に変換すること

平均値は，大きな変数，もしくは小さな変数が入り混じっていると特徴が掴みにくいため，標準化してからデータを比較することがあります．

データの平均値を0にするには，全てのデータから一律に平均値を引けば良いことになります．

In [11]:
fish_data = [2, 3, 3, 4, 4, 4, 4, 5, 5, 6]
mu = mean(fish_data)

standardized_average = 0
for i = fish_data
    standardized_average += (i - mu)
end

standardized_average

0.0

Julia で配列の各要素に対して一律の計算する方法は現在調べている最中

In [12]:
fish_data = [2, 3, 3, 4, 4, 4, 4, 5, 5, 6]
mu_data = fill(mu, 10, 1)

standardized_fish_data = fish_data - mu_data

standardized_average2 = 0
for i = standardized_fish_data
    standardized_average += (i)
end

standardized_average2

0

# その他の統計量

最大値

In [13]:
fish_data = [2, 3, 3, 4, 4, 4, 4, 5, 5, 6]
maximum(fish_data)

6

最小値

In [14]:
minimum(fish_data)

2

中央値

In [15]:
median(fish_data)

4.0