# 第1章 Rと統計学

そもそもRとは何か。いろいろな統計送付とがある中でRを選ぶ理由とは。他の統計ソフトと比較してRにはどのような特徴があるのか。

## Rをもっと触ってみよう

Rを用いて簡単な統計処理を行ってみる。作業ディレクトリにある**giants_data.csv**を読み込んで、平均値や中央値を求めてみることにする。
ここでは読売ジャイアンツの選手10名に関する身長[cm]と推定年俸[万円]のデータが保存されている。

まずはデータを読み込む。**read.table()**はヘッダーがある場合**header=T**を指定し、カンマ区切りのデータになっている場合**sep=","**を指定することでデータを読み込むことができる。

In [1]:
data <- read.table("giants_data.csv", header=T, sep=",")
data

Unnamed: 0,height,salary
1,173,17000
2,178,14000
3,180,9000
4,183,50000
5,182,30000
6,174,12000
7,179,900
8,179,2100
9,174,1000
10,192,25000


身長（height）について、ベクトルとして変数に格納してみる。

In [20]:
height <- c(data$height)
print(height)

 [1] 173 178 180 183 182 174 179 179 174 192


### Rを使った統計

**summary()**を使うことで以下のような結果が表示される。

In [16]:
summary(height)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  173.0   175.0   179.0   179.4   181.5   192.0 

**Min.**は**最小値**、**Median.**は**中央値**、**Mean**は**平均**、**Max.**は**最大値**を表している。また、**1st Qu.**は**第一四分位数**、**3rd Qu.**は**第三四分位数**であり。それぞれ下から数えて25%、75%の順位に当たるデータの値となる。

この例では、下から2番目の値と下から3番目の値の平均、下から7番目と下から8番目の値の平均となっていることが分かる。

## Rの使い方のコツ

### 複数の値をまとめて使う

Rでは複数の値を1つのデータとしてまとめて扱うことが可能である。今回は読み込んだ身長と推定年俸の値を行列で表現してみる。

In [2]:
giants <- matrix(c(data$height, data$salary),10,2)
print(giants)

      [,1]  [,2]
 [1,]  173 17000
 [2,]  178 14000
 [3,]  180  9000
 [4,]  183 50000
 [5,]  182 30000
 [6,]  174 12000
 [7,]  179   900
 [8,]  179  2100
 [9,]  174  1000
[10,]  192 25000


行列で表現するためには、**matrix()**を利用する。c()でデータをまとめたものと、10,2という引数を与え、**10行2列**（縦に10個データを並べ、横に2個データを並べる）となるように指定した。

### 関数を作る

Rではユーザ自身がオリジナルの関数を作ることが可能である。

Rの関数としてvar()があるが、この関数は標本分散ではなく不偏分散を計算する。n個の標本 $x_1, x_2, \cdots, x_n$があり、その平均値を $\overline{X}$としたとき、不偏分散は

$$
    \hat{\sigma}^2=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\overline{X})^2
$$

である。不偏分散を求めるvar()に対して、標本分散を求める関数（これをvarp()とする）は、

$$
    s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{X})^2
$$
であるため、以下のような実装になる。

In [8]:
varp <- function(x) {
    samp_var <- var(x) * (length(x) - 1) / length(x)
}

データxに対して不偏分散var()と標本分散varp()を用いて計算させた結果は以下のようになる。

In [9]:
x <- c(10,13,8,15,8)
print(var(x))
print(varp(x))

[1] 9.7
[1] 7.76
