# Introduction to Data Science with Julia

<img src="http://julialang.org/images/logo_hires.png" alt="Julia Logo" width="300"></img>

## 目次
- [ループ処理の中断](#ループ処理の中断)
- [ループ処理の一部中断](#ループ処理の一部中断)
- [変数のデータ型](#変数のデータ型)
- [関数](#関数)
 - [関数 （発展編）](#関数-（発展編）)
- [外部パッケージの利用](#外部パッケージの利用)
 - [プロット](#プロット)
- [練習問題](#練習問題)

# ループ処理の中断

for 文や while 文を使っていると、ある条件になったら繰り返し処理を止めたい場合があります。

たとえば、ある数 $n$ が素数かどうかを判定するプログラムを考えます。力任せにやるならば $n$ を $2 \sim \sqrt{n}$ までの整数で割って余りが $0$ になるものが一つでもあったら $n$ は素数でない、余りが $0$ にならなかったら $n$ は素数と判定することが出来ます。

例として $n=30$ とすると、30 は 2 で割り切れるのでこれ以上の計算は不必要ですが、このプログラムを for 文で書くと $ \lfloor \sqrt{n} \rfloor$ の数まで計算が続いてしまいます。

In [None]:
# n = 30 の場合、無駄な計算が2度入る
n = 30
for i in 2:√n
    if n % i == 0
        println(n, " は素数ではありません")
    end
end

このようなときには、break を使うと for文から抜け出すことが出来ます

In [None]:
n = 30
for i in 2:√n
    if n % i == 0
        println(n, " は素数ではありません")
        break
    end
end

break は while文でも使用することが出来ます

In [None]:
i = 0
while true
    if i > 5
        break
    end
    println(i)
    i += 1
end

[目次に戻る](#目次)

# ループ処理の一部中断

break ではループを抜けることが出来ました。次はループを抜けはしないけれど、ループの先頭に戻る continue を紹介します。

例として、$1 \sim 10$ の数を表示するけど、8 だけは表示しない場合は次のように書けます。

In [None]:
for i in 1:10
    if i == 8
        continue # i = 8 のときだけ for 文の先頭に戻る。そのため println は実行されない
    end
    
    println(i)
end

[目次に戻る](#目次)

# 変数のデータ型

前回までの講義資料中にも整数型や配列型など「型」という言葉が度々出てきましたが、今回はその「型 (データ型) 」について詳しく勉強していきましょう。

データ型とはデータの分類のことです。日常的によく使うものとして、整数型や浮動小数点型などの数値型や文字列型などあらゆるデータは一つの型に分類されます。

## 静的型付き言語と動的型付き言語
- 静的型付き言語:<br>
C言語や Java などはプログラミング言語のなかでは静的型付き言語という言語に分類されます。静的型付け言語の特徴として、変数使用時にその変数がどのような種類のデータを保存する変数なのかを宣言(型宣言)する必要が有ります。
```C
int x // C言語での型宣言。x は整数型の変数であることを宣言
```
一度型宣言された変数は他の型のデータを保存することは出来ません。そのため上の例では x に浮動小数点や文字列を入れることは出来ません。


- 動的型付き言語:<br>
C言語や Java と違い、Julia や Python, R, MATLAB などでは変数の型宣言は必要ありません。変数 x に整数型のデータが代入されれば x のデータ型は整数型になりますし、変数 x に文字列が入れば文字列型になります。このように代入されたデータ型に応じて自動的に変数のデータ型が決まるような言語は動的型付き言語と呼ばれます。動的型付き言語は型宣言が必要ないので手軽に書けますが、一方で変数の型をコンピュータが判断しなくてはならないので実行スピードは静的型付き言語に比べると遅くなります。しかし、Julia は JIT compile  という方法を採用することによって動的型付き言語なのに C言語並みの速さが出ます。

In [None]:
x = 10
x = "Hello!" # 動的型付きなのでエラーは出ない

[目次に戻る](#目次)

## Julia でのデータ型
Julia は動的型付き言語なのでデータ型を意識することなく書けますが意識しても書くことも出来ます。ここでは簡単な紹介程度にとどめますが、詳しく知りたい場合は[公式ドキュメント](http://docs.julialang.org/en/stable/manual/types/)を読みましょう。

Julia では typeof 関数を使うことによって変数のデータ型を確認することが出来ます。

In [None]:
x = 10
typeof(x)

In [None]:
x = 10.0
typeof(x)

データ型を自分で明示的に指定したい場合は次のようにします。

In [None]:
x = Int32(10) # Int32: 単精度整数型
typeof(x)

In [None]:
x = Float32(10) # Float32: 単精度整数型
typeof(x)

整数は浮動小数点に変換できますが、逆は出来る場合と出来ない場合があります。10.0 など小数部が 0 の場合は整数に自動的に変換されますが、そうでない場合は自動的には変換されません。整数に変換したい場合は先に小数部を丸める必要があります。

In [None]:
Int(10.0) # Int はアーキテクチャが32bit だったら Int32, 64 bit だったら Int64 になる。

In [None]:
Int(10.5) # InexactError()。整数に変換することは出来ない

In [None]:
Int(round(10.5)) # round(Int, 10.5) でも可

In [None]:
Int(floor(10.5)) # floor(Int, 10.5) でも可

In [None]:
Int(ceil(10.5)) # ceil(Int, 10.5) でも可

In [None]:
Int(trunc(10.5)) # trunc(Int, 10.5) でも可

round, floor, ceil, trunc の違いは ?round などとして見るか、[公式ドキュメント](http://docs.julialang.org/en/release-0.4/manual/mathematical-operations/#rounding-functions)を参照してください。

[目次に戻る](#目次)

## 型を作る
今までは整数型や文字列型など既存の型を使ってきましたが、型は自分で作ることも出来ます。

型を作る時の基本構文
```julia
    type Mytype
        body
    end
````
Julia では型の変数名の頭文字は大文字にするのが慣例です。

例として学生を表す Student 型を作ってみましょう。

In [None]:
type Student
    statistics::Int # 型を指定しないと Any 型になる
    programming::Int
end

In [None]:
太郎 = Student(60, 74)

In [None]:
typeof(太郎)

In [None]:
太郎.statistics

In [None]:
太郎.programming

In [None]:
太郎.statistics = 100

In [None]:
太郎 # 値が更新された

In [None]:
太郎.statistics = 100.5 # statistics は Int 型と指定したため 浮動小数点を入れることは出来ない

値を更新することができない型を作るには immutable を使います。

In [None]:
immutable GoodStudent
    statistics::Float64
    programming::Int
end

In [None]:
勉 = GoodStudent(90.7, 98)

In [None]:
勉.statistics = 99.9

[目次に戻る](#目次)

# 関数

プログラムを書いていると計算式は同じだけど値だけが違うという計算が何度も出てきます。こういう時には関数を使って再利用性を上げましょう。

※ プログラミングでの関数は数学での関数とは意味が少し異なります。引数を何も入れなくても値を返すこともありますし、引数をいれても何も値を返さないこともあります。

Julia では関数の定義の仕方が以下の3通りあります。
```julia
    f(x) = ...
        or
        
    function f(x)
        body
    end
    
        or
    
    x -> ...

```

一行で定義できるようなものは一番上の方法で、body が長くなりそうなら真ん中の方法で、わざわざ関数名をつけるほどでもないときは一番下の方法で定義することが多いです。

In [None]:
# 一行書きで関数を定義
# sin を2乗するような関数
sin2(x) = sin(x)^2

In [None]:
sin(1), sin(1)^2, sin2(1)

In [None]:
function sinpow2(x)
    return sin(x)^2 # return の有無は任意。end の直上にある値が返り値となる
end

In [None]:
sinpow2(1)

In [None]:
# 無名関数
# 一度きりしか使わないような場合には便利です。以下の例では使う意味は全くありませんが、map 関数と組み合わせてよく使います。
(x -> sin(x)^2)(1)

引数には数字だけでなく文字列や配列、関数など何でも入れることが出来ます。引数の数は複数個でも構いません。同様に返り値もなんでも大丈夫です。

In [None]:
# 数字 a, b を引数にとり、a + b, a - b を返すような関数
# 一行書きすると plusminus(a, b) = a + b, a - b

function plusminus(a, b)
    return a + b, a - b
end
plusminus(10, 5)

In [None]:
# フィボナッチ数列の第 n 項を返す関数
# fib(0) = 0, fib(1) = 1, fib(n) = fib(n-1) + fib(n-2)
function fib(n)
    if n < 2
        return n
    end
    
    a, b, c = 0, 1, 0
    for iter in 2:n
        c = a + b
        a = b
        b = c
    end
    
    return c
end
fib(10)

In [None]:
# 引数を取らない関数
function hoge()
    println("hoge")
end
hoge()

In [None]:
# 引数に関数 f と数字 x をとり、f(x)^2 を返すような関数
function pow2fn(func, x)
    func(x)^2
end
pow2fn(sin, 1), sin(1)^2

[目次に戻る](#目次)

## オプション引数

オプション引数を使うと、デフォルトの値を設定が出来ます。

オプション引数
```julia
    function myfunc(x, y, a=1, b=2, ...) # a, b, ...がオプション引数
        body
    end
```

In [None]:
sin_mul_a(x, a=3) = a * sin(x) # オプション引数は普通の引数の後に書く
sin_mul_a(1), 3 * sin(1)

In [None]:
sin_mul_a(1, 6)

オプション引数は複数入れることも出来ます

In [None]:
function foo(x, y, a=1, b=3)
    println("x = ", x)
    println("y = $y")
    println("a = ", a)
    println("b = ", b)
end

In [None]:
foo(1, 3)

In [None]:
foo(1, 3, 10)

In [None]:
foo(1, 3, 10, 20)

[目次に戻る](#目次)

## キーワード引数

オプション引数はデフォルトの値を設定することができるので便利ですが、数が多くなると大変です。上の例というと b の値だけデフォルトの値とは違う値を使いたい場合でも a の値を入力する必要が有ります。キーワード引数を使うと b = 10 などと明示的に指定することによって b の値だけを変えることが出来ます。
キーワード引数を使う場合、; の後にキーワード引数にしたいものを書きます。

キーワード引数
```julia
    function myfunc(x, y, ..., a=1, b=2...; c =3, d=4, ...) # x, yは普通の引数。a, b はオプション引数。c, dがキーワード引数。
        body
    end
```

In [None]:
function piyo(x, y, a=1, b=2; c=3, d=4)
    println("x = ", x)
    println("y = $y")
    println("a = ", a)
    println("b = ", b)
    println("c = ", c)
    println("d = ", d)
end

In [None]:
piyo(100, 200)

In [None]:
piyo(100, 200, c=300)

In [None]:
piyo(100, 200, d=200, c=100) # キーワード引数の順序は任意

In [None]:
piyo(d=200, 1000, c=300, 2000, 3000, 4000) # キーワード引数がついていない部分から順に x, y, a, b に割り当てられる。
                                           # ただしこのような書き方は可読性が低くなるので使わないようにしましょう。

[目次に戻る](#目次)

## 関数 （発展編）

以下の内容は余裕のある人だけ読んでください。

### 再帰処理

関数定義時に返り値として自分自身を返す関数も作ることが出来ます。これを使うと上のフィボナッチ数列がよりスマートに書けます。

In [None]:
function fib_rec(n)
    if n < 2 # 終了条件。これがないと無限ループに陥る
        return n
    else
        return fib_rec(n-1) + fib_rec(n-2)
    end
end
fib_rec(10)

三項演算子と組み合わせると次のように一行で定義できます

In [None]:
fib_rec2(n) = n < 2 ? n : fib_rec2(n-1) + fib_rec2(n-2)
fib_rec2(10)

[目次に戻る](#目次)

### 無名関数

sin 2乗の例では無名関数の有り難みは全くありませんでしたが、使うと嬉しい例を少し紹介します。

次のように要素が Tuple であるような配列があったとします。

In [None]:
AA = [(i,j) for (i,j) in zip(rand(1:100,10), rand(1:100,10))]

この配列から Tuple の第1成分を要素とする配列を作りたいと思った時、愚直にやると次のような感じでしょう

In [None]:
tmparray = zeros(Int, length(AA))
for i in 1:10
    tmparray[i] = AA[i][1]
end
tmparray

なかなか野暮ったいです。ですが、無名関数と map を使うと以下のようになります。

map の使い方
```julia
    map(func, collection)
```
map 関数は collecttion (配列やTupleなど) の各要素に関数を作用させる

In [None]:
map(x -> x[1], AA)

だいぶスマートになったのではないでしょうか？ 

※今の場合なら内包表記でも書けますけどね

In [None]:
[x[1] for x in AA]

次の例として要素数 100 の正規分布に従った乱数の配列を 10 個作り、それをまた別の配列に保存します。

In [None]:
A = [randn(100) for i in 1:10] # このコマンドの意味がわからなければ内包表記 (comprehension) で検索
                               # Array{Array{Float64,1},1}: A は配列でその要素も配列

配列に var 関数を作用させると分散が計算できます

In [None]:
var(A[1])

しかし、配列 A に作用させると ...

In [None]:
var(A) # エラーが出る

配列 A[1] 〜 A[10] までそれぞれの分散を知りたい場合は、map 関数を使う。

In [None]:
map(var, A) # [var(A[1]), var(A[2]), ..., var(A[10])] と等価

Julia の var 関数は標準で不偏分散を計算しますが、補正のない分散を計算する場合にはキーワード引数で corrected=false とする必要があります。しかし、map 関数ではキーワード引数を取ることが出来ません。このようなとき、わざわざ次のように corrected=false にした関数を作り map 関数を利用するのは不便です。なにより、この場限りでしか使わない関数に名前をつけるのも面倒です。
```julia
    var_no_correction(x) = var(x, corrected=false)
    map(var_no_correction, A)
```

このような時に無名関数を使えば、わざわざ関数名を考えずに済みます。
```julia
    map(x -> var(x, corrected=false), A)
```

In [None]:
var_no_correction(x) = var(x, corrected=false)
map(var_no_correction, A)

In [None]:
map(x -> var(x, corrected=false), A)

まぁ、分散の場合ならば map を使わずとも var.(A) とすれば計算できるのですけど。
この 関数名.(arg...) という使い方は配列演算の項目でまた詳しく説明します。

In [None]:
var.(A, corrected=false)

一応、無名関数と map 関数の説明はしましたが、軽くプログラミングをする程度ならこの2つの関数は知らなくても大丈夫です。
ただし、スピードを求めて並列化をする場合、map の並列版の pmap という関数があるので、後々並列化に挑戦したいなら覚えておいて損はないです。
しかし、並列化はこの講義のレベルを遥かに超えるので、詳しく知りたい人は Julia の公式ドキュメントを読んでください。

[目次に戻る](#目次)

### 多重ディスパッチ

Julia では関数の引数の型を明示的に書く必要はありませんが、明示的に指定することも出来ます。明示的に指定することで引数のデータ型によって関数の挙動を変えることができたり、また、実行スピードの向上につながります。この時の型には自分で作ったものも指定することが出来ます。

例として、まずは引数に整数型をとる関数を定義します。

In [None]:
print_num_type(x::Int) = println("整数です")

In [None]:
print_num_type(10) # 整数値を入れると動作します

In [None]:
print_num_type(10.9) # 整数以外のものを入れるとエラーが出ます

In [None]:
print_num_type("Hello") # 整数以外のものを入れるとエラーが出ます

次に、同じ関数名で浮動小数点を引数にとるように定義します

In [None]:
print_num_type(x::Float64) = println("浮動小数点です")

In [None]:
print_num_type(10.9) # 先程はエラーが出ましたが、今回はエラーが出ません。

In [None]:
print_num_type(5) # 整数を入れるとエラーは出ず、前と同じ動作になります

Julia では関数名が同じでも引数の型を変えて定義すれば関数は上書きされません。

関数定義時の出力結果を見ると始めの定義時は
```julia
    print_num_type (generic function with 1 methods)
```
でしたが、2回目では
```julia
    print_num_type (generic function with 2 method)
```
と 2 methods になっています。これは引数の型によって 2 通りの挙動をすること示しています。

現在、どのような引数に対して定義されているのか確認するには methods 関数を使います。

In [None]:
methods(print_num_type) # これより Float64, Int64 で定義されていることがわかります。

現在の状態だと引数に 倍精度整数 Int64 の数字を入れることは出来ますが、単精度整数 Int32 などの他の整数は入れることが出来ません。

In [None]:
print_num_type(Int32(10)) # エラーが出る

全ての整数に対して動作するようにするためにはより抽象的な型(abstract type)である Integer 型を使います。今まで使ってきた Int32, Int64 などは具体的な型 (concrete type) と呼ばれ、 Int32, Int64 は 抽象的な型 Integer 型の subtype です。

In [None]:
Int32 <: Integer # subtype かどうかは Type1 <: Type2 として調べることが出来ます。

In [None]:
print_num_type(x::Integer) = println("整数です")

In [None]:
print_num_type(Int32(10))

[目次に戻る](#目次)

# 外部パッケージの利用

Julia では標準機能として平均、分散の計算やフーリエ変換などが出来ますが、外部パッケージを利用することさらに様々なことが出来るようになります。

パッケージを追加するには
```julia
    Pkg.add("パッケージ名")
```
とします。導入できるパッケージは Julia の[公式ページ](http://pkg.julialang.org/)より確認することが出来ます。

パッケージのアップデートは
```julia
    Pkg.update()
```
とします。これをすることで、今までインストールしたパッケージ全てをアップデートすることが出来ます。


今回は外部パッケージの一例としてプロット関連のパッケージの導入から簡単な使い方を紹介します。

## プロット

プロット関連の有名なパッケージとしては次のようなものが有ります。
- [PyPlot](https://github.com/JuliaPy/PyPlot.jl): Python の matplotlib を使用している
- [GR](https://github.com/jheinen/GR.jl)
- [Plotly](https://plot.ly/)

これらのパッケージは作図するまでの文法がそれぞれ違うため、どれか一つの文法を覚えたとしても他の作図パッケージでは使えません。
ですが、[Plots](https://github.com/JuliaPlots/Plots.jl) というパッケージを使うと、文法は変えずにバッグエンドを変えることで、ある時は PyPlot で作図し、あるときは GR で作図しと使い分けることが出来ます。

In [None]:
# パッケージの追加
# ローカルで Julia 使っている人はコメントを外してコードを実行する。
# JuliaBox を使っている人は標準で入っているため実行する必要はない。

# Pkg.add("Plots"); Pkg.add("GR")

### パッケージの読み込み
追加したパッケージを利用するには

```julia
import パッケージ名

or

using パッケージ名
```
とします。これで読み込んだパッケージの関数が使えるようになります。

import と using の違いは、import で読み込んだ場合はパッケージの関数を使うときに
```julia
    パッケージ名.関数名(arg...)
```
と " パッケージ名. " を入れて使用しますが、using で読み込んだ場合は
```julia
    関数名(arg...)
```
と関数名だけで読み込んだパッケージの関数を使うことが出来ます。(import 同様パッケージ名を入れても使えます)<br>
一見すると import など使わずに常に using を使うのが便利そうです。しかし、複数のパッケージを同時に読み込むと関数名が衝突することが有ります。
例えば、PyPlot と GR にはどちらにも plot という関数があるので、どちらのパッケージも using を使って読み込むと plot がどちらのパッケージに依存した関数なのかわからなくなってしまいます。import を使えばパッケージ名を指定するのでこのような関数の衝突はなくなります。

今後、講義資料中ではどの関数がどのパッケージに依存する関数なのか明白にするために、パッケージ名.関数名(arg...) と書きますが、みなさんの日頃のプログラミングではこうする必要はありません。

In [None]:
import Plots
Plots.gr() # バックエンドを GR に指定. PyPlot にしたい場合は pyplot(), plotly を使いたい場合は plotly() とする。
# Plots.pyplot()
# Plots.plotly()

まずは sin 関数を描写してみましょう。

Plots.jl のプロットの基本文法。 ある関数を $a < x < b$ の範囲でプロットする場合
```julia
    plot(function, a, b)
```

In [None]:
Plots.plot(sin, -3π, 3π)

関数には自分で定義した関数も使用することが出来ます

In [None]:
sin3(x) = sin(x)^3 # sin の3乗
Plots.plot(sin3, -3π, 4π)

In [None]:
# 無名関数はプロットするときにも便利です
Plots.plot(x -> sin(x)^3, -3π, 4π) 

[目次に戻る](#目次)

# 練習問題

## 1. 

3つの数 a, b, c を入力すると平均値を返すような関数を作成せよ

出力例
```julia
avg3(10, 20, 30) # -> 20.0
```

## 2.
```julia
    x = [74,51,98,27,29,2,40,75,75,12]
```
のような配列を引数にとり、要素の平均を出力する関数 mymean を作成せよ. (mean 関数は使ってはいけない)

出力例
```julia
mymean(x) #-> 48.3
```

## 3.
半径 r の球の表面積と体積を計算する関数を作成せよ

出力例
```julia
areavol(4) #-> (201.06192982974676,268.082573106329)
```

## 4.
西暦を入力すると、うるう年かどうか判定する関数を作成せよ

うるう年
- 西暦年が4で割り切れる年は閏年。
- ただし、西暦年が100で割り切れる年は平年。
- ただし、西暦年が400で割り切れる年は閏年。

Wikipedia より<br><br>

出力例
```julia
leap(2000)
2000 年はうるう年です

leap(2100)
2100 年はうるう年ではありません
```

## 5.
$y = x^2 + 3$ を $-3 < x < 3$の範囲で図示せよ

## 6.

福岡市の平均気温を調べ、横軸を月、縦軸を平均気温として図示せよ

[目次に戻る](#目次)