<a href="https://colab.research.google.com/github/sugaya-findex/platform-ex/blob/main/R%E3%81%AB%E3%82%88%E3%82%8B%E7%B5%B1%E8%A8%88%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E5%85%A5%E9%96%80_04_%E8%A1%8C%E5%88%97%E3%81%A8%E3%83%AA%E3%82%B9%E3%83%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# １. 行列


## １.１. 行列の作成
行列は関数`matrix`を使って作成することができます。第１引数にはベクトル、第２引数には行数、第３引数には列数を指定して作成します。
行数と列数を同時に与えることもできますが、行数（または列数）の指定が間違っていなければ、もう片方の行列のサイズはベクトルの長さから自動的に決まってしまうため、省略することができます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A = matrix(1:9,3,3)
A
matrix(1:9,3)
matrix(1:9,,3)
```


デフォルトでは、ベクトル要素は１列目から順々に行列の要素に格納されていきます。
もしも、格納順を行方向に変更したい場合には、`byrow=T`のオプションを指定します。





```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A2 = matrix(1:9,3,3,byrow=T)
A2
```


行列を作成する別の方法として、関数`cbind`と`rbind`を使った方法があります。
`cbind`は列方向にベクトルを追加することで行列を作成し、
`rbind`は行方向にベクトルを追加することで行列を作成します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
a1 = 1:3
a2 = 4:6
a3 = 7:9
cbind(a1,a2,a3)
rbind(a1,a2,a3)
```


行列の列と行にはそれぞれ名前を付けておくことができます。行に名前を付けるには関数`row.names`を利用し、列に名前を付けるには関数`colnames`を利用します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
row.names(A) = 1:3
colnames(A) = c("A","B","C")
A
```


## １.２. 行列の要素の取り出し
行列の要素は、行番号と列番号を指定して取り出すことができます。
ブラケットの中身は、`[行番号, 列番号]`を表しています。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A[1,2]
A[3,1]
```


特定の行全体、あるいは列全体を取り出す場合には、以下のように記述します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
# 行番号、または列番号を指定して取り出す
A[2,]
A[,3]
# 行、または列の名前を指定して取り出す
A["1",]
A[,"A"]
```


ただし、この取り出し方法だと次元属性が失われ、ベクトルデータとして取り出されてしまっている点に注意してください。もしも、次元属性を保持したまま行列として取り出したい場合には、`drop=F`のオプションをブラケット内の３番目の引数に与えます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
# 行番号、または列番号を指定して取り出す
A[2,,drop=F]
A[,3,drop=F]
# 行、または列の名前を指定して取り出す
A["1",,drop=F]
A[,"A",drop=F]
```


また、ベクトルの場合と同じように論理値ベクトルを与えて、条件を満たす部分行列を取り出すこともできます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A[A[,2]<6,,drop=F]
```


行や列を入れ替える操作もベクトルのときと同様に行えます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A[c(3,1,2),]
A[order(A[,1],decreasing=T),]
```


## １.３. 行列の演算
行列の`+-*/`を用いた四則演算は、同じ大きさの行列同士で定義され、要素ごとの演算が行われます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A + A2
A - A2
A * A2
A / A2
```


もしも行列積を計算したい場合には、演算子`%*%`を利用します。また、行列の転置は関数`t`を使って実行します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
A %*% A2
t(A)
```


Rで作成するベクトルは列ベクトルが基本になっていますので、もしも(n×1)のベクトルと(1×m)のベクトルとの行列積を計算したい場合には以下のように記述します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
a1 %*% t(a2)
```


# ２. リスト


## ２.１. リストの作成
リストは木構造をしたオブジェクトで、各枝には異なる構造のオブジェクトを配置することができます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
l1 = 1:5
l2 = letters
l3 = NA
l4 = matrix(1:9,3)
list1 = list(l1=l1,l2=l2,l3=l3,l4=l4)
list1
```


リスト構造はRのいろいろな場面で利用されています。後で紹介するデータフレームも実はリストの一種ですし、線形モデルの当てはめ結果も当てはめ時の様々な情報を保持したリストデータになっています。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
# 乱数のデータを作成
x = rnorm(100)
y = rnorm(100)
# 線形モデルを構築
# 線形モデルの当てはめ結果がリスト形式になっていることを確認してみます
str(lm(y~x))
```


## ２.２. リストの要素の取り出し
リスト形式の各枝のデータを取り出す場合には、以下の３つの方法があります。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
list1$l1                 # $枝の名前
list1[["l1"]]            # [[枝の名前]]
list1[[1]]               # [[枝の番号]]
```


## ２.３. リストに対する演算
リストの各枝に同じ関数を適用したい場合、関数`sapply`または`lapply`を利用します。
計算結果をベクトルとして受け取りたい場合には`sapply`を使用し、リストとして受け取りたい場合には`lapply`を使用します。ただし、`sapply`を利用しても各枝の計算結果が同じ長さのベクトルでない場合には、
計算結果が自動的にリスト形式に変換されてしまいますので注意してください。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
lapply(iris,summary)
sapply(iris,summary)
sapply(iris[,1:4],summary)
```


# ３. 行列とデータフレーム
データ分析の対象は複数の観測項目についての記録の集まりで、行列のかたちをしています。観測項目が列方向に並び、ひとつの記録が1行に対応する形式をとりますが、Rでは一般的にデータフレームと呼ばれるクラスのオブジェクトを分析対象にします。ここでは、行列とデータフレームの違いについて整理しておきたいと思います。

## ３.１. 行列
行列は、すべての要素が「同じ型」「同じクラス」になっているのが特徴です。`mat1`は実数の行列、`mat2`は文字列の行列の例になっています。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
mat1 = matrix(1:12, 3, 4)
mat1
attributes(mat1)
mat2 = matrix(letters[1:6], 2, 3)
mat2
attributes(mat2)
```


## ３.２. データフレーム
一方、実際の分析の場面で対象になるデータは、異なる型やクラスのデータが混在していることの方が多いでしょう。以下はFisherのアヤメのデータの一部ですが、個体ごとに、花弁`Petal`とがく片`Sepal`それぞれの長さ`Length`と幅`Width`、品種`Species`が記録されています。初めの4列は数値データですが、5列目の品種は類別を表す因子データになっていて、先ほどのデータ型、データクラスが揃った「行列」とは異なっているようすが確認できると思います。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
data(iris)
head(iris)
tail(iris)
```


データ型の自動変換によってデータが自動変換されてしまうと、数値データを数値として扱えなくなってしまうなど大変不便です。そこで異なる型やクラスのデータを、その属性を保持したまま行列形式で組織化する方法がデータフレームです。



データフレームの実体はリストです。ただし、リストの各枝のデータ長が揃っているために、あたかも行列のように扱うことができるようになっています。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
mode(iris)
class(iris)
iris[2,]
iris[1:5,1]
iris[1:5,"Sepal.Length"]
```
