# Let’s Using R

### Quarto

`#`を使ったコメントよりも長い文章とともにコードを書きたい場合はQuartoファイルがおすすめです.
皆さんが開いているこのファイルがQuartoファイルです.
Quartoファイルの上部を少し設定するだけで簡単にhtmlファイルやpdfファイルが作成できます.

以下の範囲に書かれたコードがRのコードとして認識されます.
`{}`内を変更すればR以外の言語も実行できます.

In [None]:
# code

右上の実行ボタンもしくは`ctrl + Enter`や`command + Enter`で実行できます.

### 作業ディレクトリの指定

現在の作業ディレクトリ(フォルダ)を確認するためには`getwd()`関数を利用します.

In [None]:
getwd()

[1] "/cloud/project/Lecture-01"

任意のディレクトリを指定するためには, `setwd()`関数を利用します.
ここでは移動するディレクトリがないので,
`#`をつけてRを実行しないようにしています.

In [None]:
#setwd("ここにパスを打ち込む")

### 新しいディレクトリ(フォルダ)の作成

新しいディレクトリ(フォルダ)を作成するためには`dir.create()`関数を利用します.
ここでは, `data`という名前の新しいディレクトリを作成します.
このquarto上で新しいディレクトリを作成するとこのqmdファイルがあるディレクトリにフォルダが作成されます.

In [None]:
dir.create("data")



### ディレクトリの内容を確認

現在のディレクトリにきちんと新しいフォルダが作成できたか確認してみましょう.
作業ディレクトリ内のファイルやフォルダを確認するには,
`list.files()`関数を利用します.

In [None]:
list.files()

[1] "data"                   "ggplot2.ipynb"          "ggplot2.qmd"           
[4] "Introduction.ipynb"     "Introduction.qmd"       "Introduction.rmarkdown"

### パッケージのインストール

パッケージのインストールをしてみましょう.
CRANに登録されたパッケージをインストールするには,
`install.packages()`関数を利用します.
すでに`tidyverse`パッケージをインストールしている方は実行する必要はありません.

In [None]:
install.packages("dplyr")

Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
(as 'lib' is unspecified)

### パッケージの利用

インストールしたパッケージを利用するには,
`library()関数`で利用するパッケージ名を指定し, パッケージを読み込みます.
この作業はセッションを再開する度に必要です.

In [None]:
library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

### `pacman`パッケージ

パッケージ管理については`pacman`が便利です.
CRANに登録されているパッケージは`p_load()`関数を利用します.

インストールされていなければパッケージをインストールの上読み込み,
パッケージに更新があればアップデートの上で読み込み,
特に何もなければ読み込みを行ってくれます.

github上のパッケージは`p_load_gh()`関数を利用します.

In [None]:
install.packages("pacman")

Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
(as 'lib' is unspecified)

### HELPの利用

パッケージや関数の利用についてわからないことがあればHELPを利用してみましょう.
HELPの出し方は`?`を知りたい関数やパッケージ名の前につけるだけです.
?を2個つける(`??`)と単語検索のように利用できます.

In [None]:
?library
?ggplot2
??dplyr

### 四則演算

簡単な四則演算を行ってみましょう. `*`は掛け算, `/`は割り算を示します.
数学と同じく`()`内は優先して評価されます.

In [None]:
1 + 2 * 3 / 4

[1] 2.5

[1] 2.25

### 関数を利用した計算

関数を利用した計算をしてみましょう. `exp()`関数はネイピア数$e$を底とし,
引数を指数として計算します. `sqrt()`関数は$\sqrt{}$を表しています.
`log()`関数は自然対数であり, 2を底とするときは`log2()`,
10を底とするときは`log10()`を利用します. `^`は累乗,
`10E04`は100,000をそれぞれ表しています.

In [None]:
exp(2) * 10^2

[1] 738.9056

[1] 141421.4

[1] 0.6931472

### 数値をオブジェクトに格納する

数値をオブジェクトに格納して計算してみましょう.
`<-`は左側の名前のオブジェクトに右側の要素を代入することを示しています.
`=`でも構いませんが, Rではよく`<-`が利用されます. `sum()`関数は,
引数を足し合わせる関数です.

In [None]:
x <- 3
y <- 9
x + x

[1] 6

[1] 12

また, オブジェクトは, 単一の数値だけでなく, ベクトルや行列,
データフレームを格納できます. 他にも,
いくつかの動作を関数として格納したり, 式などを格納することもできます.

`c()`は数値などを連結するコンバイン関数です.
`:`は`start:end`となっており,
startからendまでの公差を1とする等差数列を作成します.

In [None]:
a <- c(1, 2, 3)
b <- 4:6
a / b

[1] 0.25 0.40 0.50

### データフレームの作成

実際にデータフレームを作成してみましょう.
`rep()`関数は要素を複製する関数です.

In [None]:
c <- 1:10
d <- c * 2
e <- c(rep("aa",3),
       rep("bb",4), 
       rep("cc",3))
f <- data.frame(y   = c,
                x   = d,
                cha = e)

### 変数名の確認

そのオブジェクトがどのような変数によって構成されているか確認してみましょう.
変数名を確認するためには, `names()`を利用します.

In [None]:
names(f)

[1] "y"   "x"   "cha"

### 先頭から数行を表示

オブジェクトを先頭から数行を表示してみましょう.
先頭行から6行分表示するためには, `head()`を利用します.

`head(x, n = 5L)`などと`n = 5L`のように表示する行数を指定できます.
第2引数に指定する場合は`n =`は省略可能です. なお, `5L`の`L`は,
5が整数であることを示しています.

In [None]:
head(f)

  y  x cha
1 1  2  aa
2 2  4  aa
3 3  6  aa
4 4  8  bb
5 5 10  bb
6 6 12  bb

### データ構造の確認

変数の型なども含めて構造を確認してみましょう.
第一引数に指定した変数がどのようなデータであるのか示しています.
今回はデータフレームのため, 観察数(行)と列数が示されています.
各列ごとに列名と:の後にそのデータ型と最初からいくつかのデータが表示されます.

In [None]:
str(f)

'data.frame':   10 obs. of  3 variables:
 $ y  : int  1 2 3 4 5 6 7 8 9 10
 $ x  : num  2 4 6 8 10 12 14 16 18 20
 $ cha: chr  "aa" "aa" "aa" "bb" ...

### 別の方法でデータ構造を確認

データ構造を別の方法で確認してみましょう.
`dplyr`パッケージの`glimpse`関数を利用します.

なお,
`dplyr::glimpse`は`dplyr`パッケージの`glimpse`関数を利用することを明示的に示す記法であり,
`library(dplyr)`すれば基本的には必要はありません.

In [None]:
dplyr::glimpse(f)

Rows: 10
Columns: 3
$ y   <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
$ x   <dbl> 2, 4, 6, 8, 10, 12, 14, 16, 18, 20
$ cha <chr> "aa", "aa", "aa", "bb", "bb", "bb", "bb", "cc", "cc", "cc"

### 記述統計

記述統計を見るには, `summary()`を利用します. データ型が数値の場合には,
最小値, 第一四分位数(25%), 中央値, 平均, 第三四分位数(75%),
最大値が示されます. 欠損値がある場合には, その数も合わせて表示されます.

文字列の場合には, 基本的にいくつデータが存在するのかしか表示されません.

In [None]:
summary(f)

       y               x            cha           
 Min.   : 1.00   Min.   : 2.0   Length:10         
 1st Qu.: 3.25   1st Qu.: 6.5   Class :character  
 Median : 5.50   Median :11.0   Mode  :character  
 Mean   : 5.50   Mean   :11.0                     
 3rd Qu.: 7.75   3rd Qu.:15.5                     
 Max.   :10.00   Max.   :20.0                     

### データの書き出し

`g`というデータフレームを作成し, `write.csv()`関数を利用して,
`data`フォルダに`data.csv`というcsvファイルを作成してみましょう.

`seq()`関数は等差数列を作る関数で, `from`は初項, `to`は末項, `by`は公差,
`length.out`は項数を表しています.

In [None]:
ABCDE    <- c("A",  "B",  "C",  "D",  "E")
Japanese <- c("壱", "弐", "参", "四", "五")
g <- data.frame(
  Int  = 1:300000, 
  Int2 = seq(from       = 0, 
             by         = 2.5,
             length.out = 300000), 
  fac  = rep(ABCDE,
             each  = 2, 
             times = 30000),
  jpn  = rep(Japanese,
             each  = 2,
             times = 30000))
write.csv(g, 
          "data/data.csv", 
          quote     = FALSE, 
          row.names = FALSE)

以下読み込む場合も同じです.

### データの読み込み

最もオーソドックスな読み込み方は, `read.csv()`関数です.
header=TRUEで先頭行が行名になっていることを明示します.

In [None]:
dat1 <- read.csv("data/data.csv", header = TRUE)

最近増えてきているのは, `readr`パッケージに含まれる`read_csv()`関数です.
自由度も高く, やや速いです.

In [None]:
dat2 <- readr::read_csv("data/data.csv")

Rows: 300000 Columns: 4
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (2): fac, jpn
dbl (2): Int, Int2

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

最後に`data.table`パッケージの`fread()`関数を紹介します.
とても読み込みのスピードが早いですが, やや自由度に欠けます.
大量のデータを読み込む際にはおすすめです.

In [None]:
p_load(data.table)
dat3 <- data.table::fread("data/data.csv",
                          data.table = FALSE)

### 速度の比較

各関数によって, 読み込む速さが異なるため, 比較してみましょう.

In [None]:
system.time(read.csv("data/data.csv"))

   user  system elapsed 
  0.485   0.020   0.514 

Rows: 300000 Columns: 4
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (2): fac, jpn
dbl (2): Int, Int2

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

   user  system elapsed 
  0.195   0.008   0.265 

   user  system elapsed 
  0.058   0.000   0.015 

### 文字コード

日本語を含むデータを読み書きする際, 文字コードに注意が必要です.
特にOSをまたいで利用する際には文字化けをしないように工夫が必要となります.

Windowsで作られたファイルを読み込む際には `encoding = cp932`
(Shift-JIS), MacやLinuxで作られたファイルを読み込む際には
`encoding = UTF8`を指定します.
ファイルを書き出す際に文字コードを指定するには,
`fileEncoding = "UTF-8"`を引数に追加しましょう.

In [None]:
dat1 <- read.csv("data/data.csv",
                 header       = TRUE, 
                 fileEncoding = "UTF8")
dat2 <- readr::read_csv("data/data.csv", 
                        locale = locale(encoding = "UTF8"))

Rows: 300000 Columns: 4
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (2): fac, jpn
dbl (2): Int, Int2

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

### Excelファイルの読み込み

Excelファイルを読み込むための関数も様々あります. ここでは,
`readxl`パッケージの`read_excel()`を紹介します.
下記のコードは紹介用のため動きません.

In [None]:
p_load("readxl")
# excel <- readxl::read_excel("data.xlsx", 
#                             sheet = "シート名or番号")

以上です. 大まかなRの使い方は理解できましたでしょうか?