## Rの始め方

Rはオープンソースで開発されている統計解析ソフトウェアです．Rで利用できる追加機能（パッケージ）は世界中の研究者が関与しており，しかもオープンソースゆえに組み込まれた分析手法も細部まで閲覧できるため，分析方法も信頼がおけるものです．

欠点の一つにコマンド利用なのでわかりにくい，と言われることがあります．しかしコマンド利用は再現性の高さ（本人や他者が同じ処理を再現できる）という特徴もあるため，現代的な研究の潮流（他者によっても同様な結果が再現されること）にかなっているとして，逆に利点として評価されつつあります．

参考文献：石田基広・高橋康介『再現可能性のすすめ』共立出版，2018

### 表計算を使わない理由

データサイエンスのための環境として表計算ソフトは以下の問題を抱えています．

- コピペ汚染（コピー＆ペーストによる意図しないデータの書き換え）が起こりやすい
- データ型汚染（システムが入力データに勝手なデータ型，たとえば日付型などを付与することなど）により意図しない計算結果を生じる
- 再現性が低い．多くの解説書がスクリーンキャプチャを併用しないと処理の説明すらまともにできないことも，その一端を表しています

### インストールは不要

本授業ではRを利用するのにGoogle Colab（Colaboratory）を利用します．
Google Colabはインターネット接続とGoogleアカウントをもっていれば利用できます．
授業用に用意したファイル（今読んでいるこれもその一つ）をGoogle Colabにアップロードすればただちに実行できます．
自分のPCにRの実行環境を準備する必要もありません．
それでも，より詳しくRを使い込みたい場合には，自分のPCにRstudioをインストールするとよいでしょう．
Rstudioのインストールのための情報は[Rjpwiki](http://www.okadajp.org/RWiki/)を参考にしてください．

## Rを始めるための約束事

Rでは利用者が定義する変数や関数に日本語の文字を使うこともできます．
しかし，本授業ではそれはしません．
大きな理由は視覚的誤認が生じやすいことです．
たとえばカタカナの「カ」と漢字の「力（ちから）」，あるいは「日」と「目」など見た目で間違えやすい文字がおおくあります．
また，記号「＝」にしても全角文字の「＝」なのか半角文字の「=」なのかただちに違いを見てとれないこともよくあります．
全角文字を使わないことにすれば，こうしたエラーも生じません．

### 代入記号について

Rでは変数などへの代入に記号「<-」と「=」が使えます．
以下の例は変数（aとb）にそれぞれ値2と3を代入している例です．
代入式に続けて，その値を表示させています．

In [3]:
a<-2
b=3
a
b

本授業では原則として <- を使います．
記号上は長くなりますが，= 記号は別の用途にも使われることの混同を避けたいことと，
代入が行われていることを明確にするためにこの約束事を守ります．

### 四則計算

加減乗除の計算にそれぞれ +, -, *, / を使います．

In [4]:
a+b
a-b
a*b
a/b

割り算の場合には，設定された桁数で計算していることがわかります．
「0.666666...」ではありません．
この桁数を増やしたりもできますが，本授業の範囲では標準的設定のままで利用します．

### 冪（べき）乗計算

べき乗計算には記号「^」または「**」を用います．

In [5]:
a^b
a**b

### かっこの利用

数式計算の優先順を指定するのに丸かっこ () が使えます．角かっこ [] や波かっこ {} は特別な目的に使い，数式の優先順目的には使いません．

In [6]:
a+b*4
(a+b)*4
a+(b*4)

### ヒストリー機能の利用

数式の一部を書き直して再実行できると便利です．
ヒストリー機能によりそれを利用できます．
矢印キー↑でこれまでに実行した数式をたどることができます．

### ベクトルを扱う

データ処理では一連の数をひとまとまりとして扱うことが多くあります．
そのための処理単位がベクトルです．
扱いの多くでは数学の数ベクトルと同じところもありますが，
計算処理では便利のため，少し違った扱いのところもあります．
注意して慣れてください．

サンプルデータは計算結果の確認も簡単なので，連続した数字を与えることにします．
aには1から9まで，bには9から1までの値を与えてみました．

In [8]:
a<-1:9
b<-9:1
a
b

ベクトルの和と差は数学と同じです．

In [9]:
a+b
a-b

Rにおけるベクトルの積と商は，少し違います．
成分ごとの積および商を与えます．

In [10]:
a*b
a/b

ベクトルの長さというとき，数学ではベクトルの図形としてみた線分の長さを与えますが，
Rではベクトルの成分の個数，すなわちベクトルのサイズを与える関数lengthが用意されています．

In [11]:
length(a)

ベクトルのサイズが違うとき，ベクトル同士の計算ではサイズの小さい方を適当に繰り返し補完します．
結果の予測できないときには，サイズの違うベクトル同士の四則計算はしないよう注意しましょう．
まずはサイズ3のベクトルd=(1,2,3)と計算させてみます．
特定の成分をもつベクトルを与えるには関数cを用います．

In [13]:
d<-c(1,2,3)
a+d
a-d
a*d
a/d

次の計算例ではサイズ4のベクトルdに対して計算させてみます．

In [14]:
d<-c(1,2,3,4)
a+d
a-d
a*d
a/d

“longer object length is not a multiple of shorter object length”

“longer object length is not a multiple of shorter object length”

“longer object length is not a multiple of shorter object length”

“longer object length is not a multiple of shorter object length”

サイズ9のベクトルとサイズ3のベクトルの計算では，
サイズ3のベクトルに対してちょうど3回の繰り返しをすることにより補完できました．
しかし，サイズ4のベクトルに対してはちょうどの繰り返しはできません．
そのために，たぶん何かよくない計算をさせているのだろうと警告メッセージが出たのです．

### 数とベクトルの四則計算

数学ではやらないとしていたサイズの違うベクトル同士の計算をさせることに，
明らかに便利な場合があります．

次の例ではaに160からの連続した値を与えて身長の模擬データのように考え，
その各値を100で割ればメートル単位の身長が得られたとみなせる計算です．

In [15]:
a<-160:170
a/100

次の例は同じaから160を引くことで「160cm以上の身長はいくらか」の
問に答えたと見なせるものです．

In [18]:
a-160

この計算機能を利用すれば，平均との差（偏差という）を簡単に計算できます．
Rでは平均を計算する関数meanが用意されています．

In [19]:
a-mean(a)

上で確かめたように，ベクトル同士の積は対応する成分同士の積です．
ということは上の偏差の例に対して，ベクトルの積を求めると偏差の平方を求められます．

In [20]:
(a-mean(a))^2

偏差の平方の平均は分散，すなわち平均を $\bar{x}$ で表すとき $$\frac{1}{n}\sum_{k=1}^n (x_k-\bar{x})^2$$ です．
ここでベクトルの成分を計算する関数sumを用いると次のようにして分散が計算できます．
関数lengthはすでに説明したようにベクトルのサイズを与えます．

In [21]:
sum((a-mean(a))^2)/length(a)

このようにベクトルのための計算を利用すると分散を簡単に計算させることができます．
しかし統計計算に必須の分散を計算するには，そのための関数varも用意されています．

In [22]:
var(a)

上の数式よりも少し大きな値になっています．
このからくりは次回の授業で扱います．

## 模擬データを作る，使う

今回の最後にRに慣れるために便利な2つの機能を紹介します．
一つはRの用意するサンプルデータです．
もう一つは上の例題で扱ったような模擬データを簡単に作る仕掛けです．

### 模擬データを作るときの関数

1:10で1から10までの連続した数値を得られることを見ました．
より一般に関数seqを使うとある範囲の等差数列を簡単に作ることができます．
使い方は seq(初期値,終値,ステップ幅) です．
初期値はその値から始めますが，終値はその値を超えない範囲でコントロールするための値です．

In [25]:
seq(1,10,1)
seq(2.5,10,2)
seq(10,0,-1)

関数repはあるパターンをもつ数列を必要な回数だけ繰り返します．
使い方は rep(パターン,回数) です．

In [27]:
rep(1:3,4)
rep(3,4)

模擬データの作成は，乱数を使う方法も重要ですが，これは次回の授業で扱います．

### 模擬データを使う

Rにはたくさんの練習用データが用意されています．
たとえば次の例はirisという名前のデータです．
いろいろな関数の使い方の練習に役立ててください．

In [28]:
data(iris)

In [30]:
iris
summary(iris)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                