# Juliaの基本的な使い方

## はじめに

Juliaは科学技術計算を得意とするプログラミング言語である。行列演算を得意とし、統計解析に有用な機能を多く備えている。この研修では、Juliaを用いて統計解析の基礎を学ぶ。なお、以下の説明の一部は厳密ではない。より厳密な説明は、統計解析の各論の中で取り扱う。

## Juliaの開始と終了

Juliaを開始すると、以下の表示が現れる。

```julia
               _
   _       _ _(_)_     |  Documentation: https://docs.julialang.org
  (_)     | (_) (_)    |
   _ _   _| |_  __ _   |  Type "?" for help, "]?" for Pkg help.
  | | | | | | |/ _` |  |
  | | |_| | | | (_| |  |  Version 1.6.1 (2021-04-23)
 _/ |\__'_|_|_|\__'_|  |  Official https://julialang.org/ release
|__/                   |

julia>
```

最下行の`julia>`は、Juliaがキーボード入力を待っていることを意味する。
ここで、キーボードから各種コマンドを入力すると、Juliaがそれを処理して、結果を画面に表示する。
この対話型のプログラミング実行環境を、Read-Eval-Print-Loopの頭文字をとって、REPL（レプル・リプル）という。

Juliaを終了するには、この画面で以下のように入力する（これ以降、`julia>`を省略する）。

```julia
exit()
```

## 数値の入力と演算

### 基本演算

REPLでは、数値の演算ができる。以下に例を示す。なお、Juliaは`#`ではじまる行を無視するので、注釈を記入するためにこれを利用できる。

In [1]:
# 四則演算(+, -, *, /)は、数学で定義される演算順序に従う
2+5*8/2

22.0

In [2]:
# かっこをつけると演算順位を変えることができる
(2+5)*8/2

28.0

In [3]:
# 数値と演算子の間にスペースを入れても良い
(2 + 5) * 8 / 2

28.0

In [4]:
# かっこは何重にも入れ子にできる
((2 + 5) * 8) / 2

28.0

In [5]:
# べき乗 ^ は最優先される
# 3*(2^2)+1 と書く方が混乱が少ない
3*2^2+1

13

### 整数と実数(浮動小数点数)の区別

Juliaは、整数と実数（正確には浮動小数点数）を区別する。

In [6]:
# 数字のみを羅列すると整数として扱われる
1 + 2 + 3

6

In [7]:
# 小数点付きの数値は実数として扱われる
1.0 + 2.0 + 3.0

6.0

In [8]:
# 実数には指数表記が利用できる
# たとえば 3.14e3 は 3.14*(10^3) を意味する
1.23e3 + 2.23e2

1453.0

In [9]:
# 指数部分に負の値が入っていてもよい
# たとえば 1.23e-3 = 1.23*(10^(-3)) である
1.23e-3 * 1e2

0.123

In [10]:
# 整数と実数を混ぜると、実数を返す
1 + 2 + 1e3

1003.0

In [11]:
# 実数は近似値である
# 計算結果が理論値と一致するとは限らない
1/7 + 1/7 + 1/7 + 1/7 + 1/7 + 1/7 + 1/7

0.9999999999999998

### 数値関数

演算記号だけで処理できない演算は、関数を用いて計算できる。関数は、英数字と`()`の組み合わせで表現される。かっこ内の数値が処理される。

In [12]:
# 平方根; 結果は実数になる
sqrt(2)

1.4142135623730951

In [13]:
# 自然対数
log(8)

2.0794415416798357

In [14]:
# 指数関数（自然対数の底）
exp(1)

2.718281828459045

In [15]:
# 三角関数（単位はラジアン）
cos(0)

1.0

In [16]:
# いくつかの定数は最初から用意されている
# 例 π: 結果は近似値だが実質的に0であり正しい
sin(pi)

1.2246467991473532e-16

### 変数の利用

変数は、数値を一時的に記憶する目的で利用できる。

In [17]:
# 変数 a に値を代入する
# 等号は代入記号であって、値の等しさを表す数学的記号ではない
# 変数名を事前に宣言しておく必要はない
a = 10

10

In [18]:
# 同じ変数に代入すると、値は上書きされる
a = 20

20

In [19]:
# 長い変数名も利用できる
# 変数名には英数文字やアンダースコアが利用できる
long_variable_name = 1234567890

1234567890

In [20]:
# 変数を演算に利用できる
log(a) / a

0.14978661367769955

In [21]:
# 変数の内容を表示するには、単に変数名をタイプする
a

20

In [22]:
# 変数の大文字と小文字は区別される
# 変数 a はすでに定義されたが、まだ A は定義されていない
A + 1

LoadError: UndefVarError: A not defined

## パッケージ

いくつかの高度な関数は、Julia本体とは切り離されて、パッケージとして保存されている。これらの関数を使う前に、それが定義されているパッケージを呼び出しておく（ロードする）必要がある。これには `using` を使う。

In [23]:
# たとえば今日の日付を表示する関数 today() は、パッケージ Dates に保存されている
# まずはこのパッケージの利用を明示する
# このコマンドはjulia終了まで有効である
using Dates

In [24]:
# 続いて、目的とする関数を呼び出す
today()

2021-09-28

In [25]:
# この関数は、パッケージ名をつけて呼び出すこともできる
Dates.today()

2021-09-28

Juliaにはいくつかのパッケージが同梱されている。以下のパッケージは頻用するので、Julia起動時に`using`で読み込んでおくとよい。なお、パッケージ名は（可能な場合には）複数形の英単語である。

|パッケージ名 |目的 |
|:------------|:----|
|`Statistics`|統計解析関数|
|`LinearAlgebra`|ベクトルと行列の演算|
|`DelimitedFiles`|ファイルの読み込み|
|`Pkg`|パッケージ管理|
|`Random`|乱数の生成|
|`SparseArrays`|疎行列の生成|

一方、Juliaユーザーは、誰でも独自のパッケージを開発し、公開することができる。これらの外部パッケージは、公式サイトで公開されている。Juliaでは、外部パッケージをからダウンロードしてインストールする処理は自動化されている。以下の手順を参照のこと。

In [26]:
# 外部パッケージをインストールする前に、以下のコマンドを入力する
using Pkg

In [27]:
# Pkg.install() を使って、外部パッケージをダウンロードしてインストールする
# いちどこれを完了すれば、次回からはインストール作業は不要である
# 以下の例は Distributions パッケージを利用可能にするものである
# これには数秒から数分かかる
Pkg.add("Distributions")

In [28]:
# インストール終了後、usingでパッケージをロードする
using Distributions

以下の外部パッケージは特に有用で、多くの人が利用している。すべてインストールしておくことを勧める。

|パッケージ名 |目的 |
|:------------|:----|
|`Plots`|作図|
|`Distributions`|確率分布にかかわる関数|
|`StatsBase`|やや高度な統計解析関数|
|`DataFrames`|データフレーム（データ構造）|
|`GLM`|一般線形モデル|

## 単変量の確率分布

In [29]:
# 以下のプログラムを実行する前に Distribution パッケージを読み込んでおく
using Distributions

### 確率関数と確率密度関数

確率関数や確率密度関数の「高さ」は`pdf`関数で得られる。これはprobability density functionの略である。この関数には、分布をあらわすキーワードを与える。

In [30]:
# パラメータ n と p をもつ二項分布の、値 x における確率
n = 10
p = 0.1
x = 0
pdf(Binomial(n,p),x)

0.34867844010000004

In [31]:
# パラメータ m をもつポアソン分布の値 x における確率
m = 5
x = 3
pdf(Poisson(m),x)

0.1403738958142806

In [32]:
# 平均が m で標準偏差が s の正規分布の、値 x における高さ
m = 0
s = 1
x = 2
pdf(Normal(m,s),x)

0.05399096651318806

In [33]:
# 標準正規分布 N(0,1)の場合、以下のように省略できる
# 慣例として ϕ(x) と表記される
pdf(Normal(),x)

0.05399096651318806

### 累積分布関数

累積分布関数の高さ（ある分位点までの累積確率）は、`cdf`により得られる。これはcumulative distribution functionの略である。利用方法は`pdf`と似ている。

In [34]:
# パラメータ n と p をもつ二項分布の、値 x までの累積確率
n = 10
p = 0.1
x = 5
cdf(Binomial(n,p),x)

0.9998530974

In [35]:
# パラメータ m をもつポアソン分布の値 x までの累積確率
m = 5
x = 3
cdf(Poisson(m),x)

0.2650259152973618

In [36]:
# 平均が m で標準偏差が s の正規分布の、値 x までの累積確率
m = 0
s = 1
x = 2
cdf(Normal(m,s),x)

0.9772498680518208

In [37]:
# 標準正規分布 N(0,1)の場合、以下のように省略できる
# 慣例として Φ(x) と表記される
cdf(Normal(),x)

0.9772498680518208

### 累積分布関数の逆関数

累積分布関数CDFの逆関数は、`quantile`である。この関数は、累積確率を与えるとき、それに対応する分位点を返す。上記の結果と対応することに注意せよ。

In [38]:
# パラメータ n と p をもつ二項分布の、累積確率 pval に対応する分位点x
p = 0.1
pval = 0.9998530974
quantile(Binomial(n,p),pval)

5

In [39]:
# パラメータ m をもつポアソン分布の累積確率 pval に対応する分位点x
m = 5
pval = 0.2650259152973618
quantile(Poisson(m),pval)

3

In [40]:
# 平均が m で標準偏差が s の正規分布の、累積確率 pval に対応する分位点x
# 無視できる微少な誤差が含まれることに注意せよ
m = 0
s = 1
pval = 0.9772498680518208
quantile(Normal(m,s),pval)

2.0000000000000036

In [41]:
# 標準正規分布 N(0,1)の場合、以下のように省略できる
quantile(Normal(),pval)

2.0000000000000036