# **R基礎 その3**

このテキストでは、基本的な統計検定について触れた後、様々なパッケージを利用して、様々な図形を描写してみます。

細かいコードの意味は大丈夫なので、Rを使うとどういったことが出来るのか、体験してみましょう。

今後使う機会が出て来たり気になる機能があれば、より細かい使い方等は自分で調べてみて下さい。

# 統計解析

まだ統計学に関しては講義等で触れたことが無い人も多いかとは思いますが、

研究やサイエンスを学んでいく上で、「検定」や「回帰分析」などには必ず触れる機会があると思います。

今回はRに用意されている関数を用いて基本的な検定などを試してみます。

Rは統計解析用のパッケージも充実しており、今後、様々な検定や統計処理を学ぶ機会があると思いますが、その大部分はRで簡単に行うことが出来ることを覚えておくと良いでしょう。



## サッカー選手のデータを使って検定する

前回使ったサッカー選手のデータを使って試して見ます。

## t検定
「検定」と呼ばれるものの中で最もポピュラーな**t検定**というものをやってみます。

t検定とは、ものすごく簡単に言うと**2組のデータについて平均値に有意な差があるかどうか統計的に調べる方法**です。

(有意な差とは、誤差では済まされない意味のある差、という感じです。)


---


今回は**「ポジションがDefenderとForwardの選手の間で、得点数の平均値に差があるのか」**、**統計的に**確認してみましょう。

得点数は`goals_overall`という列のデータです。

In [None]:
# web上のデータを読む
df <- read.csv("https://raw.githubusercontent.com/slt666666/informatics_agri_1st/main/source/_static/data/england-premier-league-players-2018-to-2019-stats.csv")
# head(データフレーム) ... データフレームの最初の数行だけ表示
head(df)

### 平均値を計算してみる

まずは、データフレームからデータを取り出し、`mean`関数を使うことでDefender, Forwardそれぞれのゴール数の平均値を計算してみます。

In [None]:
# 平均値を計算してみる
# Defenderの得点平均値
DF_score <- df[df$position == "Defender", "goals_overall"]
print(mean(DF_score))

# Forwardの得点平均値
FW_score <- df[df$position == "Forward", "goals_overall"]
print(mean(FW_score))

### グラフで確認してみる

単純に得点数の平均を見ると、(当然ですが)Forwardの方が高い平均値になっています。

次に、前回扱った`ggplot2`ライブラリを使ってグラフを描き、差をもう少し詳しく見てみます。

In [None]:
library(ggplot2)
g <- ggplot(df, aes(x = position, y = goals_overall, color=position)) # データの指定、x軸にposition, y軸にゴール数を指定。色はポジションごとに分ける。
g <- g + geom_jitter() # 点が重ならない様にプロット
g <- g + stat_summary(fun = "mean", geom = "crossbar", colour = "black") # 平均値の黒線を引く関数があります。
plot(g)

### t検定をして統計的に確認してみる

グラフからも明らかにForwardの選手の方がDefenderの選手達よりたくさん得点していることが分かりますね。

それではこの差を**t検定**を使って、**統計的に**確認してみましょう。

Rでは、`t.test(データ1, データ2)`という関数でt検定を行うことが出来ます。まずはやってみましょう。

---

<small>※厳密には`t.test(データ1, データ2, var.equal=T)`という形でデータの等分散性を指定する必要がありますが今回は省略しています。</small>

<small>t検定について学んだ際に思い出してみて下さい。</small>

In [None]:
# Defenderの得点
DF_score <- df[df$position == "Defender", "goals_overall"]

# Forwardの得点平均値
FW_score <- df[df$position == "Forward", "goals_overall"]

 t.test(DF_score, FW_score)

<small>※読み飛ばして貰ってもOKです</small>

　3行目あたりにp-value(p値)というものが出てきていると思いますが、p値がどれだけ**小さいか**が統計検定では非常に重要になってきます。

検定では、ある仮説を立てて(FWとDFでゴール数に差が無い、等)、その仮説にデータが従っているかどうかを確認しています。

p値とは簡単に言うと、その仮説の下で、実際に観測された結果を取得する確率です。

* p値が小さい = 立てた仮説のもとでは発生しにくいデータである(=仮説が間違っている可能性が高い)

* p値が大きい = 立てた仮説のもとで発生しうるデータである(=仮説通りの可能性が高い)

ということを表します。

　今回の検定で説明すると、まずDefenderとForwardのゴール数の平均値に**差が無い**という仮説を立てています。

そしてt検定の結果として、とても小さなp値が得られたということは、今回の様なデータは**ゴール数の平均値に差が無いという仮説の下ではほとんど起きない**データということになります。

→ つまり、仮説(ゴール数の平均値に差が無い)が間違っている

→ つまり、ゴール数の平均値に差がある、というのが正しかった

という様な形です。

　サイエンスでは、p値に0.05や0.01といった基準を設けて、p値がそれ以下であれば、「ゴール数の差は5%水準で有意である」という風な言い方をしたりします。

### 実習

先程はDefenderとForwardのゴール数の平均値に差が有るか無いかをt検定で確認しました。

ここでは練習として、DefenderとForwardの年齢(age)の平均値に差が有るか無いかをt検定で確認してみましょう。

下のコードの`???`を埋めてみましょう。


In [None]:
# グラフでポジションごとの年齢を可視化
library(ggplot2)
g <- ggplot(df, aes(x = position, y = ???, color=position)) # データの指定、x軸にposition, y軸にageを指定。色はポジションごとに分ける。
g <- g + geom_jitter() # 点が重ならない様にプロット
g <- g + stat_summary(fun = "mean", geom = "crossbar", colour = "black") # 平均値の黒線を引く関数があります。
plot(g)

# このコードを埋めて下さい。
# ageの差をt検定
DF_age <- df[df$position == "Defender", ???]
FW_age <- df[df$position == "Forward", ???]
t.test(???, ???)

### 差を統計的に確認する必要がある理由

　そもそもなぜこの様な「検定」をする必要があるのでしょうか。

たとえばあるコインを投げて表になるか裏になるか調べたいとします。

そこで、

* コインを3回だけ投げて3回とも裏だった場合、「このコインは100%の確率で裏が出ます」と言ってしまって良いでしょうか？
  * 感覚的にはダメな気がするんじゃないでしょうか。
* では、10回投げて3回表7回裏だった場合、「このコインは表が30%の確率で出るコインです」と言えるでしょうか？
  * やっぱりまだ感覚的にはダメな気がしますね。
* 最後に、1000000000回投げて500000000回表、500000000回裏が出た場合はどうでしょうか。
  * 感覚的には...表裏が同じ確率出るコインだと言ってしまえそうな感じがしますね。

　最初の2つの例の様に、限られた試行回数やサンプル数をもとに差があるかどうか(今回だと表裏の確率に差があるかどうか)を断言するというのは、中々難しい場合が多いです。

　そこで、科学の世界では、検定と呼ばれる統計処理を行うことで、今回得られたデータからどの程度「差がある/ない」と言ってしまえるかを定量的に示すことが必要になります。

　今回のサッカー選手の例でいうと、DefenderとForwardの得点数の差は何億回試合をしても生じるようなものなのか、それとも今年度だけたまたまそういう結果になってしまう程度の差なのか、それを定量的に知る方法の1つが統計の検定になります。

　恐らく遅くとも2回生には統計学について触れることになると思いますが、その際に様々な検定や統計手法について詳しく学んでみてください。


## 回帰分析

　次は簡単な回帰分析も少しやっておきます。Excelでも少しやりましたね。

先程のグラフから、ポジションがForwardの選手達が(当然なんですが)主にゴールしていることが分かりました。ただ、Forwardの選手の中でもたくさんゴールしてる選手としていない選手がいることが分かります。

では、その原因を探るために、今回はポジションがForwardの選手達において、プレイ時間`minutes_played_overall`とゴール数`goals_overall`に関係性があるのか回帰分析で調べてみます。

### グラフで確認してみる

なにはともあれまずは目で見て関係性がありそうか、見てみます。

`ggplot2`で可視化してみましょう。

In [None]:
# positionがForwardの選手のデータだけforward_dfとして取り出す
forward_df <- df[df$position == "Forward", ]

g <- ggplot(forward_df, aes(x = minutes_played_overall, y = goals_overall)) 
g <- g + geom_point()
plot(g)

### 回帰分析してみる

グラフを見ると、どうやら(当たり前のことですが)プレイ時間が長い選手ほどゴール数が多いみたいですね。

プレイ時間とゴール数には正の関係がありそうです。この関係を回帰分析によって詳しく見てみます。

Rでは、`lm(y ~ x, data = データフレーム)`という関数で単回帰分析を行うことが出来ます。

($y = a x + e$の様なイメージです。)

ゴール数を`y`、プレイ時間を`x`として回帰分析してみましょう。

In [None]:
 result <- lm(goals_overall ~ minutes_played_overall, data = forward_df) # 回帰分析を行う
 summary(result) # 分析結果の要約

ここでは、`Coefficients:`と書いてある項目を確認します。

その下の`minutes_played_overall`と書いてある行の最後(`Pr(>|t|)`の列)に`< 2e-16 ***`と書いてありますね。この値が先程説明したp値の様なものです。

ここでも検定が行われており、詳しくは省略しますが、**プレイ時間はゴール数に影響を与えているかどうか**を検定しています。

2×10の－16乗未満ということで非常に小さいので、プレイ時間とゴール数の間に何の関係もないという仮説ではありえない結果である

→仮説が間違っていて、プレイ時間はゴール数に影響を与えていると統計的に言える、という形になります。

ちなみにggplotで回帰直線を引くことも出来ます。

In [None]:
# 回帰直線を加える
g <- ggplot(forward_df, aes(x = minutes_played_overall, y = goals_overall)) 
g <- g + geom_point()
g <- g + geom_smooth(method = "lm")
plot(g)

### 実習

先程はForwardのゴール数とプレイ時間の関係性を回帰分析で確認しました。

ここでは練習として、Forwardの年齢(age)とゴール数(goals_overall)の関係性を回帰分析で確認してみましょう。

下のコードの`???`を埋めてみましょう。

In [None]:
# 下記のコードを埋めてみて下さい。

# 年齢0のデータを省く
forward_df <- forward_df[forward_df$age > 0, ]

# まずはグラフで確認してみる
g <- ggplot(forward_df, aes(x = ???, y = goals_overall)) 
g <- g + geom_point()
g <- g + geom_smooth(method = "lm")
plot(g)

# ageとgoals_overallで回帰分析
result <- lm(??? ~ ???, data = forward_df) # 回帰分析を行う
summary(result) # 分析結果の要約

# 様々なパッケージ
Rでは様々なパッケージが用意されており、目的に応じた解析やグラフ描写を行うことが出来ます。

今回は、生物学で使いそうな幾つかのパッケージを試しに使ってみましょう。

使い方を覚えるのでは無く、どの様なことが出来るかを知ってもらうことが目的なので、関数などを覚える必要はありません。

研究等が始まった際に、各自必要だと思うものを探して使っていくような形になります。

<small>パッケージのインストールは`install.packages("パッケージ名")`で行うと前回言いましたが、時間がかかるので、予め用意しておきました</small>

In [None]:
# あらかじめ用意しておいたパッケージをインストールする
system("wget -q -O library.tgz https://github.com/slt666666/informatics_agri_1st/raw/main/source/_static/colab_notebook/library.tgz")
system("tar zxvf library.tgz")
.libPaths("library")

## ネットワーク図

ゲノム解析の世界では、遺伝子ネットワーク図というものが描かれることがあります。

<img src="https://github.com/slt666666/informatics_agri_1st/raw/main/source/_static/images/programming/network.png" alt="network" height="400px">

機能的に関係のある遺伝子同士を結んだり、同じ経路上で動く遺伝子をつなぐことで、

遺伝子間の関係性や働き方を可視化する方法の1つです。

この様な遺伝子ネットワークをはじめとして、様々な事象の関係性を分析する方法の１つとして、ネットワーク分析やネットワーク図と呼ばれるものが用いられています。

しかし実際にネットワーク図を手で描いたり、PowerPointで作成するのは手間がかかります。

### igraphによるネットワーク図の描写

そこで、ネットワーク図の描写には`igraph`というパッケージが良く用いられます。

今回は`igraph`パッケージを使用して、簡単なネットワーク図を描いてみましょう。

<small>(今回は基本的な機能しか使いませんが、より複雑な図を作ってみたい場合は以下のサイトなどを参考にしてみて下さい。

http://www.nemotos.net/igraph-tutorial/NetSciX_2016_Workshop_ja.html )</small>

---

`igraph`の一番基本的な使い方としては、結びたい点と点のデータからなるデータフレームを作成して、ネットワーク図を描く方法になります。

以下の例では、
* aとbがつながっている
* aとcがつながっている
* bとcがつながっている
* ...

というデータを用意してみます。

In [None]:
# 例
# データフレームの作成
gene1=c("a", "a", "b", "c", "d")
gene2=c("b", "c", "c", "a", "a")
test_data <- data.frame(node1=gene1, node2=gene2)
test_data

In [None]:
# igraphパッケージの呼び出し
library(igraph)

# test_dataをもとにgraph.data.frame関数でネットワーク図を描く
g <- graph.data.frame(test_data, directed = F)
plot(g)

### 実習:共発現している遺伝子のネットワーク図

次世代シーケンサー技術の普及により、遺伝子の発現量の測定が簡単に出来る様になっています。

同じような発現の仕方をしている遺伝子同士を共発現していると言います。

今回扱うデータには遺伝子1、遺伝子2、この2遺伝子の共発現の度合い(0~1)の順に値が入っています。

今回は共発現の度合いが0.75より大きい遺伝子1と遺伝子2の組み合わせに線を引いてネットワーク図を描いてみましょう。

In [None]:
# データの読み込み
df <- read.table("https://raw.githubusercontent.com/slt666666/informatics_agri_1st/main/source/_static/data/Gene_expression.csv", sep=",", header=T)
head(df)

以下の「???」の部分を埋めて、図を描いてみて下さい。

(やることはデータフレームの操作です。)

In [None]:
# データの読み込み
df <- read.table("https://raw.githubusercontent.com/slt666666/informatics_agri_1st/main/source/_static/data/Gene_expression.csv", sep=",", header=T)
df_coexpressed <- df[df$value >= ???, ]
g <- graph.data.frame(???, directed = F)

# 見栄えを色々設定出来る
node_num <- length(V(g))
V(g)$size  <- rep(10, node_num)
V(g)$label.cex   <- rep(1, node_num)
plot(g)

## 系統樹

進化的な解析をする際に、系統樹を描くことがあります。遺伝子レベルでの系統樹や生物種レベルでの系統樹など、目的は様々です。

生物を扱う研究をすることになれば、系統解析をする機会も出て来るかと思われます。

系統解析の流れとしては、

1. DNA配列やアミノ酸配列等の情報を元に、RAxML, BEAST, MEGAといった系統樹推定を行えるソフトによって系統樹を推定(通常テキストファイルで出力されます)
2. その結果を描写ソフト・プログラム等で図にし、解釈を行う

という形になります。

系統樹の描写に関しては、RやPythonなどのプログラムを使ったり、Figtreeといったソフトウェアや、最近はiTOLなどのwebアプリケーションが使われることも多いです。

### apeによる系統樹の描写

今回は`ape`パッケージを使用して、簡単な系統樹を描いてみましょう。

<small>(こちらも基本的な機能しか使わないので、より複雑な系統樹を作ってみたい場合は以下のサイトなどを参考にしてみて下さい。

https://cran.r-project.org/web/packages/ape/vignettes/DrawingPhylogenies.pdf )</small>

In [None]:
library(ape)

# 系統樹の推定結果はこのようなテキストになります。newickフォーマットと言います。
tree_text <- "(((((Stickleback:0.1,Fugu:0.75)68:0.1,Medaka:0.1)93:0.1,Zebrafish:1.85)90:0.1,((Chicken:0.1,Human:0.1)92:0.1,Xenopus:0.1)87:0.1)99:0.1,SeaSquirt:0.1)100;"
mytree <- read.tree(text = tree_text)
plot(mytree)

## 地図の描写
フィールドワークなどを行う研究をする人は、地図を描写する機会が多くなります。

PowerPointで作成したり、模式的な図を自分で描いたりしても良いのですが、Rを使うことで座標レベルで指定した地図を容易に描写することが出来ます。

`maps`パッケージや`leaflet`パッケージ等が有名です。

---

`maps`パッケージのマニュアル

https://cran.r-project.org/web/packages/maps/maps.pdf

`leaflet`パッケージのマニュアル

https://cran.r-project.org/web/packages/leaflet/leaflet.pdf


### mapsによる地図の描写

mapsパッケージを使う事で、基本的な地図の描写が出来ます。

ベースとなる地図の領域を表示して、あとは画像編集ソフトで色分けやデザイン等を編集していくと良いかもしれません。

In [None]:
# パッケージの読み込み
library(maps)
library(mapdata)

# 世界地図を表示
map()

In [None]:
# 世界地図の中で日本を描写
map("world2", "Japan")
# 地図上に都市を描写
map.cities(country = "Japan", capitals = 1)
#  緯度経度を描写
map.axes()

In [None]:
# 緯度経度を指定して描写(経度135~137度、緯度34~36度)
map("japan", interior = FALSE, xlim = c(135, 137), ylim = c(34, 36))
# 都道府県で境界線を描写
map("japan", boundary = FALSE, lty = 2, add = TRUE)
# 緯度経度を指定した点に点を描写
points(135.782545, 35.027638, col = "red", pch = 20)
# 緯度経度を指定した点に文字を描写
text(135.782545, 35.127638, "KyotoUiv", col = "red")
# 緯度経度を描く
map.axes()

### 実習
???を埋めて、緯度経度を適当に設定して好きな地図を描いてみて下さい。


In [None]:
# 緯度経度を指定して描写
map(xlim = c(???, ???), ylim = c(???, ???))
# 緯度経度を描く
map.axes()

### leafletによる地図の描写

よりカラフルかつ機能的な地図を作成したければ、leafletというパッケージが良いです。

(Google Colabのシステム上表示が難しいので、htmlファイルとして作成する形にしています。)

In [None]:
# パッケージの読み込み(leafletと、htmlファイル作成に必要なパッケージ等。)
library(magrittr)
library(leaflet)
library(htmlwidgets)

# 京都大学と舞鶴の研究所を表示する地図
m <- leaflet()
m <- addTiles(m)
m <- setView(m, lng=135.5, lat=35.25, zoom=9)
m <- addPopups(m, lng=135.782545,lat=35.027638,popup="Kyoto University")
m <- addPopups(m, lng=135.368182,lat=35.488623,popup="Maizuru Campus")
m <- addPolylines(m, lng=c(135.782545, 135.368182), lat=c(35.027638, 35.488623), color="#f30", weight="10")
saveWidget(m, file="japan.html")

# 最後に

今回はR言語を使ってプログラミングの基礎・幾つかのパッケージの紹介を行ってきました。

少しパッケージを使うと分かったと思いますが、パッケージ毎に様々な文法・関数が用意されています。

なので、基本的な関数の使い方やfor構文、if構文、データフレームの扱いあたりが出来る様になっていれば、後は目的に応じて(必要なら)パッケージ等を探し、マニュアルや使い方のページを参考に関数の使い方等を知っていくという流れになると思います。

他のプログラミング言語に関しても、同じように基本的な関数の使い方・for・if構文などの書き方が分かれば、あとは目的に応じたライブラリ(パッケージ)の使い方を知っていく流れは変わりません。

今回は４~5回の講義で基本的な部分しか触れられませんでしたが、興味の出た方は色々調べてみて下さい。