# Rの基礎


## はじめに

　**R** には、数値計算（ベクトルや行列の計算）や、統計解析、機械学習（Machine Learning）、深層学習（Deep Learning）、グラフ描画など、データ解析用の追加パッケージ（ライブラリ）が豊富に揃っています。そのため、データ解析の分野で最も使われているプログラミング言語の１つです。

この実習テキストでは、Rの基礎を学んでいきます。


## 今回の実習内容
1. 文字列や数値を表示する
1. 文字列や数値に呼び出し名を付ける
1. 簡単な計算、関数
1. ベクトルの作成
1. ベクトルの要素へアクセス
1. ベクトルの計算
1. ベクトルの置換・結合・挿入
1. 文字列の操作
1. 行列の作成
1. 行列の操作
1. 行列の計算
1. 繰り返し処理(ベクトルから値を１つずつ取り出す)
1. 条件分岐(ベクトルの要素に特定の配列があるか調べる)
---

## 1. 文字や数値を表示する
　プログラムを使って、文字列や数値を表示してみましょう。`print`関数というものを使用すると、文字列や数値を表示（出力）できます。

```R
# print関数の書き方
print("文字列")
print(数値)
```



In [1]:
# 例1
print("agriculture")

[1] "agriculture"


In [2]:
# 例2
print(234)

[1] 234


### 実習1

　print関数を使って、次の文字列を画面に表示させてください。
 
```
情報基礎演習
```

#### 解答例

In [None]:
print("情報基礎演習")

[1] "情報基礎演習"


### 「関数」とは  

　特定の機能を持ったコードのことを **関数 (Function)** と言います。 `print`関数は、「文字列や数値などの値（プログラミング用語で**引数**）が渡されると、それを画面に表示する」機能を持ったものです。Rには、`print`関数以外にも多くの関数があります。また、独自の関数を作成することも可能です。
 
<img src="https://lh3.googleusercontent.com/pw/ACtC-3d1dYl5Bv3sNkYyXOUJ6r5rH8BNbKylMXBO3eDldtuDAo2Enaip_fJYat293BpjZdOXSjHxh1Xt6KTqH2K_q6Bev04LqjyxmMLd025hqqwe7UcBEPsC4lKrVj59nxSGgJj8pwmVftzHTde-mz4uLA7v=w1487-h725-no?authuser=0" alt="function" height="200px">

### クオテーション

　Rでは、文字列を必ずクオテーションで挟む必要があります。

　クオテーションは、**シングルクオテーション**（`'`） と **ダブルクオテーション**（`"`）のどちらも使用可能です。ただし、ひとつの文字列に使うクオテーションは同じものでなければなりません。

　なお、クオテーションで挟まない場合、後ほど学ぶ「変数」として認識されてしまいます。


In [None]:
print('Kyoto')  # シングルクオテーション
print("University") # ダブルクオテーション

[1] "Kyoto"
[1] "University"


In [None]:
print('Agriculture") # シングルとダブルの併用はNG

ERROR: ignored

### プログラム中のコメント

　ここまでのプログラムの例でも使用してきましたが、プログラムの中にコメント（説明文やメモ）などを差し込むことが可能です。ハッシュ記号（`#`）を使うと、ハッシュ記号からその行末までは、プログラムとして認識されず、スキップされます。

In [3]:
# print("Hello")  # 次の一行はプログラムとして実行されません。
print("R")  # これはプログラムとして実行されます

[1] "R"


## 2. 文字列や数値に呼び出し名を付ける

　文字列 `Friday` に `informatics` という呼び出し名を付けてみましょう。

　下記のコードセルには、(1) 1行目で文字列に`informatics`という呼び出し名を付けて、(2) 2行目で呼び出し名に設定された文字列を表示させる、といったプログラムが書かれています。

In [None]:
informatics <- "Friday"
print(informatics)

[1] "Friday"


　呼び出し名を付けることをプログラミング用語で **変数を設定する（宣言する、定義する）** と言います。また、呼び出し名のことを **変数名** と言い、変数名に対応する文字列などのことを **値** と言います。上述の例では、`informatics`が変数名で、`"Friday"`が値です。

```python
# 変数を設定する
変数名 <- 値（文字列など）
変数名 = 値（文字列など）
```

　変数に設定した値は変数名を使って何度でも取り出せます。また、同じ名前の変数を再設定することで、対応する値を何度でも入れ替えられます。

In [None]:
# 値は何度でも取り出し可能
informatics <- "Friday"  # 変数を設定
print(informatics)
print(informatics)
print(informatics)

[1] "Friday"
[1] "Friday"
[1] "Friday"


In [None]:
# 値は何度でも入れ替え可能
informatics <- "Friday"      # 変数を設定
print(informatics)

informatics <- "Monday"  # 変数を再設定（上書き）
print(informatics)

informatics <- "Sunday"  # 変数を再設定（上書き）
print(informatics)

[1] "Friday"
[1] "Monday"
[1] "Sunday"


### 実習2

　xという変数に`start`という文字列を値にした変数を設定してあります。

まずxの変数の中身を出力し、その後xの変数に`next`という文字列を設定して、再び出力してください。

In [None]:
x <- "start"

print()
x <- 

#### 解答例

In [None]:
x <- "start"

print(x)
x <- "next"
print(x)

[1] "start"
[1] "next"


### 変数設定のイコール記号`=`について

　変数の設定では`<-`という記号と、イコール記号 `=`が使われています。通常`<-`を使用することが多いですが、イコール記号 `=`でも設定可能です。

このイコール記号は"等しい"という意味で使われていません。右辺の値を左辺の変数名に **代入**（登録）する、といった意味合いで使われています。今のところあまり意識する必要はありませんが、変数設定のイコール記号は「イコール（等しい）の意味ではない」と覚えておいてください。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3dXnLTVmks3JyRY6n-uMz9kkfdqIx2mlKDkqtbQFob7EURWPVJPp5q91463mPlpvNO4OYHBbaHaAuookELsZqVCjV_kMh_An50sxuFr0QpmAmycrJV6zuN3I7sRVip4mPDo85QOiTrPP2h9bieYMcRL=w1493-h737-no?authuser=0" alt="set_variable" height="200px">

### 変数名のルール

　変数は、以下のルールに従って、任意の名前を付けることが可能です。
- 使える文字は、半角英数のアルファベットと数字、アンダースコア
  - 例) `ABC_abc_123`は可
  - 例) `ABC-abc-123`は不可
- 数字から始まる変数名は不可  
  - 例) `123_ABC_abc`は不可
  - 例) アンダーバーから始まる変数`_123_ABC_abc`は可
- Rが定義している [予約語](https://so-zou.jp/robot/tech/numerical-analysis/r/grammar/reserved-words.htm) は使用不可
  - 例） `for`、`if`、`class`などは不可
  - 例） `forA`、`ifB`、`classC`などは可

### 変数名を`print`関数で表示する

　変数名を`print`関数の引数にすると、変数の中身が出力されます。変数名自体を出力したい場合にはどのようにすれば良いでしょうか？　答えは、変数名自体を「文字列」として`print`関数に認識させればOKです。変数名をクオテーションで挟んだものを`print`関数に渡します。

In [None]:
informatics = "Friday"
print(informatics)
print("informatics")

[1] "Friday"
[1] "informatics"


## 3. 簡単な計算、関数

Rでは数値計算を行うことが出来ます。

```R
15 + 5 #足し算
15 - 5 # 引き算
15 * 5 # かけ算
15 / 5 # 割り算
15 ^ 5 # 累乗
15 %/% 5 # 整数商
15 %% 5 # 余り
```

簡単な計算を動かしてみましょう

In [6]:
# 簡単な例
(100 + 200 - 30 * 4) / 100 %/% 5

### 数学関数の利用
また、Rには基本的な四則演算だけでなく、ルートや三角関数の計算が出来る関数も用意されています。

以下に一部の例を載せています。

```R
sqrt() # ルート
abs() # 絶対値
exp() # 指数関数
log() # 自然対数
log10() # 常用対数 （底が10の対数）
sin() # 正弦関数(サイン) 引数は弧度法の値
cos() # 余弦関数(コサイン)
tan() # 正接関数(タンジェント)
round() # 四捨五入
```


In [20]:
# 例
round(23.6)

### 実習3
xという変数に数字が設定されている。

xに500をかけた値の自然対数を計算して、xを上書きしてください。


In [None]:
x <- 1234567893141592

## 4. ベクトルの作成
Rでは、データを一つずつ単独で扱う代わりに，複数のデータをまとめたベクトルと呼ばれる形で取り扱うことが出来ます。

ベクトルを作成する基本的な関数は`c()`になります。

```R
vector <- c(12, 24, 36, 5, 10, 15)
```

```R
vector_moji <- c("a", "b", "c")
```

In [32]:
# ベクトルの作成例
vector <- c(12, 24, 36, 5, 10, 15)
vector

ベクトルに含まれる要素の数は`length()`関数で調べることが出来ます。

In [52]:
# nagasaという変数にvectorの要素数を入れる
vector <- c(12, 24, 36, 5, 10, 15)
nagasa <- length(vector)
print(nagasa)

# print関数内にまとめてしまう事も出来る。
length(vector)

また、Rでは、関数`c()`以外に、規則的なベクトルを生成する関数が多数用意されています。
例を以下に示します。

```R
1:5 # 1から5までの数値ベクトル
5:-3 # 5から-3までの数値ベクトル
rep(1:3, length=8) # 長さが8になるまで1:3を繰り返す
seq(1, 10, length=5) # 1から10までを5分割した数値ベクトル
seq(1, 10, by=2) # 1から10まで2ずつ増えていく数値ベクトル
```

In [41]:
print(5:-3)
print(seq(1, 10, length=5))

[1]  5  4  3  2  1  0 -1 -2 -3
[1]  1.00  3.25  5.50  7.75 10.00


ベクトルとベクトルを結合することも出来ます。

`c()`で2つ以上のベクトルを繋げることが出来ます。

In [51]:
vector1 <- c(1,2,3)
vector2 <- c(4,5,6)
vector3 <- c(7,8,9)
c(vector1, vector2, vector3)

## 5. ベクトルの要素にアクセスする
ベクトルに含まれている各要素にアクセスするには`vector[x]`のようにします。
以下の例では3番目の要素を取り出しています。
```R
vector <- c(100,200,300,400,500)
# 3番目の要素を取り出す
vector[3]
```
この[ ]内の位置番号のことを インデックス（添字; Index） と言います。
任意の要素を取り出すには、インデックスを指定します。

また、複数の要素を取り出したいときは、取り出したい要素のインデックスをベクトルとして指定します。

例えば1,3,5番目の要素を取り出したければ、以下の様になります。
```R
vector <- c(100,200,300,400,500)
# 1,3,5番目の要素を取り出す
vector[1,3,5]
```

In [30]:
vector <- c(100, 200, 300, 400, 500)
vector[3]

また、ベクトルの要素を入れ替えたいときには、インデックスで指定して`<-`で値を代入します。

3番目の値を1000にしたければ以下のようになります。

```R
vector <- c(100, 200, 300, 400, 500)
vector[3] <- 1000
```

In [33]:
vector <- c(100, 200, 300, 400, 500)
print(vector)
vector[3] <- 1000
print(vector)

[1] 100 200 300 400 500
[1]  100  200 1000  400  500


### 実習4
　↓の変数`vector`の3番目の値を1024×512の結果に入れ替えてください。

In [None]:
vector <- c(1024, 512, 256, 128, 64)


#### 解答例

In [34]:
vector <- c(1024, 512, 256, 128, 64)
vector[3] <- 1024*512
vector

## 6. ベクトルの計算

ベクトルの計算は各要素ごとに行われます。
また、ベクトルに値を足したりかけると、全ての要素に計算が適用されます。
```R
vector1 <- c(5, 50, 500, 5000)
vector2 <- c(1, 10, 100, 1000)

vector1 - vector2 # 結果は 5-1, 50-10, 500-100, 5000-1000となる
vector1 * 10 # 結果は5*10, 50*10, 500*10, 5000*10となる
```

In [38]:
# ベクトルの計算例
vector1 <- c(5, 50, 500, 5000)
vector2 <- c(1, 10, 100, 1000)

# ベクトル同士の引き算
print(vector1 - vector2)

# ベクトル同士のかけ算
print(vector1 / vector2)

# 各要素に同じ計算
print(vector1 * 10)

[1]    4   40  400 4000
[1] 5 5 5 5
[1]    50   500  5000 50000


Rにはベクトル計算用の関数がいくつもあり、平均値や標準偏差などが簡単に計算できます。

```R
vector <- c(100, 200, 300, 400, 500)
sum(vector) # 全ベクトル要素の合計
mean(vector) # ベクトル要素の平均値
var(vector) # ベクトル要素の不偏分散
median(vector) # ベクトル要素の中央値
```

In [46]:
# 例
vector <- c(100, 200, 300, 400, 500)
sum(vector) # 全ベクトル要素の合計

### 実習5
2から1000までの偶数すべてに、17をかけた数列を作成して、その合計を計算してください。

```R
seq(1, 10, by=2) # 2ずつ増えていく数値ベクトル
```
などを使ってみましょう。

## 7. 行列の作成・操作・計算
本講義ではそれほど複雑な行列計算をすることはないので簡単に紹介するにとどめますが、Rでは行列の計算も簡単にすることが出来ます。

まず、行列を作成するには、行列の要素をベクトルで用意する、そして関数`matrix()`でベクトルを行列に変換します。

1~24を要素とするベクトルを4行×6列の行列に変換したい場合は以下のようになります。

In [56]:
vector <- 1:24
matrix(vector, nrow=4, ncol=6) 

0,1,2,3,4,5
1,5,9,13,17,21
2,6,10,14,18,22
3,7,11,15,19,23
4,8,12,16,20,24


数字を並べる順序を上下左右変えたければ`byrow=T`というオプションを付けます。

In [57]:
matrix(vector, nrow=4, ncol=6, byrow=T) 

0,1,2,3,4,5
1,2,3,4,5,6
7,8,9,10,11,12
13,14,15,16,17,18
19,20,21,22,23,24


行列の各要素へのアクセス方法は行番号と列番号を指定して行います。

```R
vector <- 1:24
matrix <- matrix(vector, nrow=4, ncol=6)
# 2行目3列目の要素にアクセス
matrix[2, 3]
# 2行目の要素全て
matrix[2, ]
# 3列目の要素全て
matrix[ ,3]
```

In [59]:
vector <- 1:24
matrix <- matrix(vector, nrow=4, ncol=6)
matrix

# matrixの3行目4列目の要素
matrix[3,4]
# matrixの2列目の要素
matrix[ ,2]

0,1,2,3,4,5
1,5,9,13,17,21
2,6,10,14,18,22
3,7,11,15,19,23
4,8,12,16,20,24


行列の足し算、かけ算などの基本的な行列演算はベクトルと同じ様に行うことが出来る．

```R
matrix1 <- matrix(1:16, nrow=4, ncol=4)
matrix2 <- matrix(1:16, nrow=4, ncol=4)

# 行列同士の計算
matrix1 + matrix2

かけ算に関しては、気を付ける必要がある。
# 内積
matrix1 %*% matrix2
# 外積
matrix1 %o% matrix2  
#要素同士のかけ算
matrix1 * matrix2

```

In [None]:
matrix1 <- matrix(1:16, nrow=4, ncol=4)
matrix2 <- matrix(1:16, nrow=4, ncol=4)

matrix1

# 要素同士のかけ算
matrix1 * matrix2
# 内積
matrix1 %*% matrix2

### 実習6

　すべてが5で構成されている5行5列の行列を2つ作成し、それらの内積を求めて下さい。

行列を作るための要素には
```R
rep(1:3, length=8) # 長さが8になるまで1:3を繰り返す
```
などを使ってみましょう。

#### 解答例

In [None]:
vector <- rep(5, length=25)
matrix1 <- matrix(vector, nrow=5, ncol=5)
matrix2 <- matrix(vector, nrow=5, ncol=5)
matrix1 %*% matrix2

## 8. 繰り返し処理(ベクトルから値を１つずつ取り出す)

`for構文`というものを使うことで、同じ処理を何度も繰り返し行うことが出来ます。

同じ処理をコンピュータに繰り返させるというのは、プログラムを組む最大の目的の一つです。

`for ( ループ変数 in ベクトル ) { 繰り返し処理 }`という書き方になります。

ベクトルの要素の一番目から順に要素をループ変数に設定して{ }中の式を実行し，ベクトルの要素が無くなった時点で for ループから抜けるという動作をします。

```R
 for (i in 1:5) {              # for (ループ変数 in ベクトル)
   print(i)                       # { }内の処理がベクトルの要素の数だけ繰り返される
 }       
```

今回はベクトルの要素を先頭から１つずつ取り出して3乗の計算処理を行うといったことやってみます。

In [70]:
# 1~5までの各要素を順番に取り出し、３乗したものを表示
for (i in 1:5) {
  print(i*i*i)
}

[1] 1
[1] 8
[1] 27
[1] 64
[1] 125


In [72]:
# 要素を取り出すベクトルの要素数を増やすと、{}内の処理が繰り返される回数も増える
for (i in 1:10) {
  print(i*i*i)
}

[1] 1
[1] 8
[1] 27
[1] 64
[1] 125
[1] 216
[1] 343
[1] 512
[1] 729
[1] 1000


### 同じ処理を任意の回数繰り返す

　さきほどベクトルに対して`for`構文を使い各要素毎に計算をしました。`for`構文は、必ずしもベクトルの要素を使用する必要はありません。
同じ処理を何回か繰り返したいときにも使います。

```R
# 書き方: 同じ処理をベクトルの要素数だけ繰り返す
for (変数 in ベクトル) {
  処理
}
```

In [77]:
# 繰り返させる処理は何でも良い → 任意の処理を好きなだけ繰り返させることが出来る。
for (i in 1:5) {
  print("繰り返したい文字列")
}

[1] "繰り返したい文字列"
[1] "繰り返したい文字列"
[1] "繰り返したい文字列"
[1] "繰り返したい文字列"
[1] "繰り返したい文字列"


In [76]:
# 「xという変数の値に+1する」という処理をベクトルの要素の数だけ繰り返している
x <- 100
for (i in 1:5) {
  x <- x + 1
  print(x)
}

[1] 101
[1] 102
[1] 103
[1] 104
[1] 105


### 実習7
下のコードを埋めて、2500に１から100までの数字をかけた答えを求めて下さい。

In [None]:
x = 2500

for (i in 1:100) {
  
}

#### 解答例

In [79]:
x = 2500

for (i in 1:100) {
  x <- x * i
}

## 8. 条件分岐(ベクトルの要素に特定の配列があるか調べる)

　最後に、与えられた情報にしたがって、異なる処理をおこなう方法を勉強します。使用するのは `if構文`です。

ExcelにもIf関数というのはありましたが、似た様なものです。

```R
# 書き方: 条件分岐
if (条件1) {
  条件1を満たす時の処理
} else {
  条件1を満たさなかった時の処理
}

if (条件1) {
  条件1を満たす時の処理
} else if (条件2) {
  条件1を満たさないが条件2を満たす時の処理
} else {
  条件1も2も満たさない時の処理
}
```

<img src="https://lh3.googleusercontent.com/pw/ACtC-3fLpwUsnktp9SnsalwyGuc6GwKzSPS2ONyde9VLqmBXaT7Y_7s1DGIPN2JxqIe5kBaK-lfQL2RR-rFyta3Z5iZC9kwgHhZCK8FnPTtuMo-75_Wv9qORcgwNW0USPRK8YcpApQBa1sGfGblT6vG7uOMn=w1270-h862-no?authuser=0" alt="if_syntax" height="250px">

### 比較演算子

　条件文には、**比較演算子**というものを使います。

おもな比較演算子:
- AとBは等しい `A == B` 
<small>**イコール記号が2つであることに注意してください。**</small>
- AとBは等しくない `A != B` 
- AはBより大きい `A > B`
- AはBより小さい `A < B`
- AはB以上 `A >= B`
- AはB以下 `A <= B`

In [80]:
# 例1
rice = "Koshihikari"

if (rice == "Koshihikari") {
  print("Rice 1")
} else {
  print("Rice 2")
}


[1] "Rice 1"


In [85]:
# 例2
number = 1024

if (number < 0) {
  print("number is minus")
} else if (number < 100) {
  print("number is less than 100")
} else {
  print("number is over 100!!!")
}


[1] "number is over 100!!!"


### 実習8
変数xの値の常用対数（底が10の対数）が3以上なら"number is over 1000"、そうでないなら"number is less than 1000"と出力するプログラムを書いて下さい。

In [83]:
x <- 100000



#### 解答例

In [84]:
x <- 100000

if (log10(x) >= 3) {
  print("number is over 1000")
} else {
  print("number is less than 1000")
}

[1] "number is over 1000"


### for構文とif構文を組み合わせる

　for構文中でif構文を使うと、より複雑な自動化処理をおこなえます。

以下の例では、与えられた文字列に対して、次の処理をおこなっています。
- 例1: 相補鎖上の塩基を順番に表示する
- 例2: 例1で読み上げている塩基を繋いだ文字列を作る
- 例3: 例2で作った文字列を逆さにして、相補鎖配列（reverse complementary sequence）にする

In [None]:
# 例1: 相補鎖上の塩基を順番に表示する
rice = "ATAGAATTCT"
for i in rice:
  if i == "A":
    print("T")
  elif i == "T":
    print("A")
  elif i == "G":
    print("C")
  elif i == "C":
    print("G")
  else:
    print("N")

In [None]:
# 例2: 例1で読み上げている塩基を繋いだ文字列を作る
rice = "ATAGAATTCT"

rice_comp = "" # 空の文字列を用意する

for i in rice:
  if i == "A":
    rice_comp = rice_comp + "T"
  elif i == "T":
    rice_comp = rice_comp + "A"
  elif i == "G":
    rice_comp = rice_comp + "C"
  elif i == "C":
    rice_comp = rice_comp + "G"
  else:
    rice_comp = rice_comp + "N"

# 出来上がった文字列を表示
print(rice_comp)

In [None]:
# 例3: 相補鎖配列（reverse complementary sequence）を表示する
rice = "ATAGAATTCT"

rice_comp = "" # 空の文字列を用意する

for i in rice:
  if i == "A":
    rice_comp = rice_comp + "T"
  elif i == "T":
    rice_comp = rice_comp + "A"
  elif i == "G":
    rice_comp = rice_comp + "C"
  elif i == "C":
    rice_comp = rice_comp + "G"
  else:
    rice_comp = rice_comp + "N"
    
# 出来上がった文字列を表示
print(rice_comp)

# 文字列を逆さにし、相補鎖配列（reverse complementary sequence）をにする
rice_revcomp = rice_comp[::-1]
print(rice_revcomp)

　例3の22行目のコードで使われている`[::-1]`は、「5. DNA配列を切り出す」で勉強したスライス機能です。

　詳しい説明は省きますが、最初から最後までの文字列を切り出し、それを後ろから1文字ずつ並べ直しています。
```python
[(最初から):(最後まで):-1(後ろから1文字ずつ)]
```



---
## まとめ

　今回の実習では、短いDNA配列を使って、Pythonの基礎を勉強しました。
- `print`関数（文字列の出力）や`len`関数（文字列の長さの取得）
- 変数の設定
- 文字列の結合、切り出し
- `for`構文（繰り返し処理）、`if`構文（条件分岐処理）

　今回学んだことだけでも、下記のようなゲノム解析をおこなえます。
- ゲノム配列の塩基数を調べる
- 一部の塩基配列を取り出す
- 各塩基を精査する
- 任意の塩基配列が含まれているかどうかを調べる

　しかし、数千万塩基〜数十億塩基のゲノム配列をプログラム上にコピー＆ペーストするというのは現実的な方法ではありません。通常のゲノム解析では、ゲノム情報が書きこまれたファイルを読み込んで、なんらかの解析をおこないます。

　次回は、Biopythonライブラリを使って、次世代シーケンサーから出力されるファイル（FASTQ形式ファイル）を読み込み、多量の塩基配列データの処理を自動化する方法を勉強します。

<div align="right"><a href="https://github.com/CropEvol/lecture#section2">実習表ページに戻る</a></div>