# データサイエンティストのための優しいJulia入門（基本文法編）
Juliaと言えば、その高速性やマクロ、多重ディスパッチといった豊富な言語仕様が特徴です。ですが、ここではそのあたりの優位性にあまり突っ込まず、普段PythonやRを使っているデータサイエンティストのためのJulia入門コースを整備しました。   
実行環境はv1.0.2です。   

このNotebookでは、基本文法を扱います。

## 基本文法
Juliaに登場する主な型として次の７つについて簡単に学びます。   
Pythonを使い慣れている人は違和感なく入れると思いますが、少しづつ違うところがあるので気をつけてください。   

* 数値   
* 文字列
* ブール値
* 配列
* 辞書
* タプル
* 集合

それから基本的なステートメントについて簡単に説明します。   
* For文
* If文
* 関数（function）

では、進みましょう。   

## 変数と型

### 数値（Integers and Floating-Point Numbers）
数値型の中でも大きくは整数（Int）と浮動小数点数（Float)に分かれます。   
基本的な文法はPythonとほとんど変わりません。ここでは簡単に型の説明と演算について触れます。

変数の定義の仕方（リテラル）や演算子はPythonと同じです。   

In [1]:
a = 2   # 整数の変数の定義

2

In [2]:
b = 0.1   # 浮動小数点数の変数の定義

0.1

<b>typeof()</b>で型を見ることができます。   

In [3]:
typeof(a)  # 型の確認

Int64

In [4]:
typeof(b) # 型の確認

Float64

整数の中でも符号の有無やバイト数で11種類、浮動小数点数の中でも3種類の型があり、<b>Int64</b>, <b>Float64</b>はデフォルトの型です。使っているシステムのアーキテクチャによってデフォルトは変わります。  
詳しくは[公式](https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/index.html)を見てみてください。   

型を明示することで、デフォルト以外の型で変数を定義できます。例えば<b>UInt32</b>は0以上の３２ビットの値です。

In [5]:
c = UInt32(2)
typeof(c)

UInt32

演算子は多くの言語と同様です。   
なお、出力には<b>println()</b>を使います。<b>print()</b>だと改行なしになります。

In [6]:
a = 2
b = 12

println("足し算：", a + b)
println("引き算：", a - b)
println("掛け算：", a * b)
println("割り算：", a / b)
println("あまり：", a % b)
println("累乗：", a ^ b)

足し算：14
引き算：-10
掛け算：24
割り算：0.16666666666666666
あまり：2
累乗：4096


おなじみの<b>+=</b>や<b>-=</b>の記法もあります。

In [7]:
a += 1

3

IntとFloatの演算の結果はFloat型に変換されます。<b>Int()</b>でくくってキャストできます。

In [8]:
c = 1 / 0.1

println(c)
println(Int(c))

10.0
10


Int / Int はFloatにしてくれます。Python3と同じです。（Python2と異なります）

In [9]:
e = 1 / 2

0.5

In [10]:
round(3.14, 1)

MethodError: MethodError: no method matching round(::Float64, ::Int64)
Closest candidates are:
  round(::Float64, !Matched::RoundingMode{:Nearest}) at float.jl:368
  round(::Float64, !Matched::RoundingMode{:Up}) at float.jl:366
  round(::Float64, !Matched::RoundingMode{:Down}) at float.jl:364
  ...

数値周りで演算以外でよく使うのは<b>abs</b>, <b>round</b>, <b>floor</b>, <b>ceil</b>ですよね。

In [11]:
abs(-1999) # 絶対値

1999

In [12]:
round(1.23741) # 小数点丸め

1.0

In [13]:
round(1.23741, digits=3) # 小数点以下の桁数指定で丸め

1.237

In [14]:
round(1.23741, sigdigits=3) # 頭からの桁数指定で丸め

1.24

In [15]:
ceil(1.23741, digits=3) # 繰り上げ

1.238

In [16]:
floor(1.23741, digits=3) # 繰り下げ

1.237

対数変換、指数変換、平方根もデフォルトであります。

In [17]:
log(10) # 自然対数

2.302585092994046

In [18]:
log2(10) # 定数を2に指定

3.321928094887362

In [19]:
log10(10) # 定数を10に指定

1.0

In [20]:
log(3, 10) # 定数を3に指定

2.095903274289385

In [21]:
exp(10) # 指数

22026.465794806718

In [22]:
sqrt(10) # 平方根

3.1622776601683795

数値は他にも他にも複素数型、有理数型、多倍長型(BigInt, BigFloat)があります。   
詳しく知りたい方はこちらがわかりやすいです。[bicycle1885/Julia-Tutorial/Julia高速チュートリアル.ipynb](https://github.com/bicycle1885/Julia-Tutorial/blob/master/Julia%E9%AB%98%E9%80%9F%E3%83%81%E3%83%A5%E3%83%BC%E3%83%88%E3%83%AA%E3%82%A2%E3%83%AB.ipynb)

### 文字列（String）

<b>文字列型（String）</b>は、Pythonの文字列と同じように、スライス、分割、結合、置換などの操作ができます。ただし、変数の定義方法（リテラル）はダブルクオーテーション("あ")のみであり、シングルクオーテーション（'あ'）で定義しようとすると別の型である<b>文字型（Char）</b>になるので注意が必要です。   
ここでは文字列型を中心に、文字型についても軽く触れます。

まず基本的な文字列型の操作をいくつかあげます。<b>インデックスが1始まり</b>なのでPythonユーザは注意が必要です。

In [23]:
s = "abc"   # 文字列の定義

"abc"

In [24]:
length(s)   # 文字列の長さの取得

3

In [25]:
s[1:2]   # 文字列のスライス

"ab"

分割・結合・置換です。<b>オブジェクト名.処理名</b>の構文ではなく、<b>処理名（オブジェクト名）</b>の構文になります。

In [26]:
split(s, "b")　　　# 文字列の分割

2-element Array{SubString{String},1}:
 "a"
 "c"

In [27]:
string(s, "d")　　　# 文字列の結合

"abcd"

In [28]:
replace(s, "b" => "B")   # 文字列の置換

"aBc"

文字列の結合は以下のように<b> * </b>記号を使ってもできます。Pythonでは<b> + </b>で文字列の結合でしたがエラーになります。

In [29]:
s * "d"　　　# 文字列の結合　その２

"abcd"

In [30]:
s + "d" # 文字列の結合（エラー）

MethodError: MethodError: no method matching +(::String, ::String)
Closest candidates are:
  +(::Any, ::Any, !Matched::Any, !Matched::Any...) at operators.jl:502

次に特定の文字列が含まれるかの判定です。真偽を返す<b>occursin</b>と、その文字が何文字目にあるかのインデックスを返す<b>findfirst</b>,<b>findlast</b>,<b>findnext</b>があります。(注：v1.0より古いヴァージョンであった<b>contains</b>,<b>search</b>はなくなりました。)

In [31]:
s = "abbcb"   # 文字列の定義

println(occursin("b", s))   # 指定する文字列が含まれるかの判定

println(findfirst("b", s))   # 指定する文字列が前から何文字目にあるか

println(findlast("b", s))   # 指定する文字列が後ろから何文字目にあるか

println(findnext("b", s, 4))   #　指定する文字列が４文字目以降だと何文字目にあるか

true
2:2
5:5
5:5


find~の出力は範囲を示すJuliaの型（範囲型）のオブジェクトで返ってきます。以下のようにして整数値として取得できます。

In [32]:
findfirst("b", s)[1]

2

### 文字（Char）

次に文字（Char）の型について。Char型で定義できるのは1つの文字です。   

In [33]:
cha_1 = 'a'   # Char型の定義

'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)

In [34]:
cha_2 = 'あ'   # Char型の定義

'あ': Unicode U+3042 (category Lo: Letter, other)

２文字以上を入れようとするとエラーになります。

In [35]:
cha_error = 'ab'   # Char型の定義

LoadError: syntax: invalid character literal

文字型はIntにキャストすることで、Unicode コードポイントの整数値に変換することができます。   

In [36]:
Int(cha_1)

97

### ブール値（Boolean）

ブール型は概ねPythonと同じように使えます。<b>true</b>, <b>false</b>で定義します。   

In [37]:
bool_t = true

true

In [38]:
bool_f = false

false

Pythonでもそうですが、実態は整数型の1と0で、キャスト可能です。

In [39]:
println(Int(true))
println(Int(false))

1
0


### 配列（Array）
複数のオブジェクトが格納される型の一つで、Pythonのリストと近い型です。   
Juliaの配列は格納される値の種類によって型が変わるので、注意が必要です。

まずは配列の基本的な操作について示します。

In [40]:
c = [1,  2,  3]   # 配列の定義

len_c = length(c)   # 要素数を数える
println("長さ：", len_c)

size_c = size(c)   # サイズを数える
println("サイズ：", size_c)

println("要素のスライス：", c[1])   # 要素のスライス

d = [x for x in 1:10]   # 内包表記
println("内包表記", d)

長さ：3
サイズ：(3,)
要素のスライス：1
内包表記[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


要素の追加には<b>push!()</b>を使います。Juliaでは「!」が末尾につく関数は破壊的な関数で、もとのオブジェクトに変更を加えます。

In [41]:
# 要素の追加
push!(c, 10)
println("要素の追加：", c)

要素の追加：[1, 2, 3, 10]


要素の削除はpop!を使います。最後の要素を消します。

In [42]:
# 要素の削除
pop!(c)
println("要素の追加：", c)

要素の追加：[1, 2, 3]


配列の結合はappend!を使います。

In [43]:
# 配列の結合
arr_e = [1, 2, 3]
arr_f = [4, 5, 6]
append!(arr_e, arr_f)
println(arr_e)

[1, 2, 3, 4, 5, 6]


Pythonではリストの結合は、<b>＋</b>演算子を用いていましたが、Juliaの配列では値の足し算になります。長さが違う配列同士だとエラーになります。

In [44]:
# 配列の足し算
arr_g = [1, 2, 3]
arr_h = [4, 5, 6]
arr_i = arr_g + arr_h
println(arr_i)

[5, 7, 9]


ソートです。逆順もできるし、非破壊も破壊もどちらもできます。

In [45]:
l = [1,3,4,2] # 配列の定義

sorted1 = sort(l)  # ソート
sorted2 = sort(l, rev=true) # ソート（逆順）

println(sorted1)
println(sorted2)

sort!(l) # !をつけると破壊になります
println(l)

[1, 2, 3, 4]
[4, 3, 2, 1]
[1, 2, 3, 4]


map処理です。無名関数を定義することで色々できます。無名関数の定義方法もPythonとほとんど同じです。

In [46]:
map(round, [1.234, 1.789]) # マップで丸め処理

2-element Array{Float64,1}:
 1.0
 2.0

In [47]:
map(x -> round(x, digits=1), [1.234, 1.789]) # 無名関数でマップ処理を定義

2-element Array{Float64,1}:
 1.2
 1.8

Juliaでは配列に格納可能な要素によって配列の型を変えることができます。   
何でも入れていいAny, 整数しか入れないInt, 浮動小数点数しか入れないFloatなどです。

In [48]:
typeof([1,2,3]) # 要素がIntの配列の型を出力

Array{Int64,1}

In [49]:
typeof(["a", 1]) # 要素が複数型の配列の型を出力

Array{Any,1}

In [50]:
typeof([]) # 要素が空の配列の型を出力

Array{Any,1}

Int型の配列にfloatの要素を加えようとするとエラーになります。

In [51]:
int_arrray = [1,2,3]
push!(int_array, 0.1)

UndefVarError: UndefVarError: int_array not defined

型を指定して配列を定義することもできます。

In [52]:
typeof(Any[]) # 型を指定して配列を定義

Array{Any,1}

In [53]:
typeof(Int64[]) # 型を指定して配列を定義

Array{Int64,1}

この配列に型を定義する意味ですが、<b>処理速度に大きく影響します</b>。   

AnyとFloatのそれぞれ型の配列に入れた１千万行の乱数のソート時間を比べてみます。筆者環境では10倍程度の差となりました。   

@timeを処理の頭につけると処理時間が出力されます。


In [54]:
@time sorted_any = sort(Any[rand() for _ in 1:10000000])
@time sorted_float = sort(Float64[rand() for _ in 1:10000000])

 11.774127 seconds (10.00 M allocations: 343.324 MiB, 3.82% gc time)
  1.044887 seconds (6.09 k allocations: 152.876 MiB)


10000000-element Array{Float64,1}:
 3.4347630073483515e-8
 8.415208219147985e-8 
 1.551899599938622e-7 
 1.7340311697644495e-7
 2.6862553070827744e-7
 3.7764591764855027e-7
 4.629972889524936e-7 
 5.079785476702625e-7 
 5.409444612247682e-7 
 6.029986785449637e-7 
 6.62143254004377e-7  
 7.041589076273169e-7 
 7.218942899012148e-7 
 ⋮                    
 0.9999983454256487   
 0.9999983923248772   
 0.9999987963590307   
 0.9999988189101965   
 0.9999989387170125   
 0.9999992983344137   
 0.9999993145999406   
 0.9999995156375883   
 0.9999996693053133   
 0.9999998337038227   
 0.9999998401340422   
 0.9999998435329107   

### 辞書（Dictionary）
Pythonでよく使う辞書型です。関数名の違いなどはありますががだいたい同様の使い方ができます。   
リテラルはPythonでは<b>{}</b>でしたが、Juliaでは<b>Dict()</b>です。

In [55]:
data_dict = Dict("a" => 1, "b" => 2) #辞書の定義
println(data_dict)

println(length(data_dict)) # 長さの取得

println(data_dict["a"]) # キーからバリューへのアクセス

println(keys(data_dict)) # キーの取得

println(values(data_dict)) # バリューの取得

Dict("b"=>2,"a"=>1)
2
1
["b", "a"]
[2, 1]


要素の追加・削除、haskey（要素有無の真偽確認）もあります。

In [56]:
data_dict["c"] = 3　# 要素の追加
println(data_dict)

delete!(data_dict, "c")　# 要素の削除
println(data_dict)

println(haskey(data_dict, "a")) # 要素有無の確認

Dict("c"=>3,"b"=>2,"a"=>1)
Dict("b"=>2,"a"=>1)
true


配列と同じように、辞書にも格納される要素による型があります。キーとバリューそれぞれの型になります。

In [57]:
println(typeof(Dict("a" => 1, "b" =>  "k"))) #辞書の定義
println(typeof(Dict(1 => "a", 2 =>  "b"))) #辞書の定義

Dict{String,Any}
Dict{Int64,String}


Pythonではキーに可変オブジェクト（リストや辞書）を設定することができます。   
うまく使いこなせば、より豊富な処理ができそうです。

In [58]:
typeof(Dict([100] => 1, 12 =>  2)) #辞書の定義

Dict{Any,Int64}

for文を使った典型的な処理例を一つ載せます。

In [59]:
# keyリストでfor文を回して、全valueを出力
for key in keys(data_dict)
    println(data_dict[key])
end

2
1


### タプル（Tuple）
こちらもPythonでよく使う型です。Pythonと同様の使い方ができます。辞書はリテラル<b>Dict</b>でしたが、タプルは頭文字小文字の<b>tuple</b>です。

In [60]:
t = tuple(1,2,3) # タプルの定義

(1, 2, 3)

In [61]:
t[1] # スライス

1

### 集合型（Collection）
集合型は個人的にはリスト（配列）のユニークをとるときによく使うため、まずその使い方を示します。   
Pythonと同じように（ただし頭文字は大文字の）<b>Set</b>で定義できます。   

In [62]:
l = [1,2,3,1,2,3,4] # 配列の定義

set = Set(l) # 集合型に変換

Set([4, 2, 3, 1])

集合演算はこちらです。入力を配列にすると、出力も配列になります。

In [63]:
union([1,2,3], [3,4,5])

5-element Array{Int64,1}:
 1
 2
 3
 4
 5

In [64]:
intersect([1,2,3], [3,4,5])

1-element Array{Int64,1}:
 3

In [65]:
setdiff([1,2,3], [3,4,5])

2-element Array{Int64,1}:
 1
 2

### 制御構文（Statement）
ここまでで変数と型の話は終了です。次に、制御構文としてfor, if, try-catch, 関数（function）を見ていきます。ここまでできると基本文法がある程度身についたと言えるでしょう。ここもPythonでやってきている人ならすぐに馴染める内容です。

まず初めに、for文を含む関数を定義して、これを実行する例文を見ましょう。   

In [66]:
# 配列を受け取って、各要素の値を２乗した配列を返す関数を定義
function calc_square(data)
    
    new_data = []
    for d in data
        push!(new_data, d ^ 2)
    end
    
    return new_data

end

# 配列の定義
a = [10, 2, 13, 43]

# 関数の適用
b = calc_square(a)

# 関数の返り値の出力
println(a)
println(b)

[10, 2, 13, 43]
Any[100, 4, 169, 1849]


上述の通り、関数は「function- end」の構文です。returnで値を返します。省略した場合は、最後に評価された式の値が返り値になります。   
for文は「for - end」の構文です。Pythonのようにインデントに構文としての役割はありません。関数もfor文もendで閉じます。   

次に、if文を使ったコードを見てみましょう。

In [67]:
# バリューが偶数の場合は値を２乗する関数を定義
function calc_square_even_number(data_dict)    
    for key in keys(data_dict)
        if data_dict[key] % 2 == 0
            data_dict[key] ^= 2 
        end
    end
end

data_dict = Dict("a" => 1, "b" => 2, "c" => 3, "d" => 4)
calc_square_even_number(data_dict)

println(data_dict)

Dict("c"=>3,"b"=>4,"a"=>1,"d"=>16)


上述の通り、if文は「if- end」の構文です。

だいたいの雰囲気をつかんで頂けたでしょうか。それぞれについて、もう少し詳細を追記します。

### For文
For文は<b>for - end</b>の構文です。イテレーションの指定方法として典型的な4通りを示します。範囲指定、配列指定、enumerate、zipです。

In [68]:
# 範囲を指定して実行
for i in 1:5
    println(i)
end

1
2
3
4
5


In [69]:
# 配列を指定して実行
for i in ["a", "b", "c"]
    println(i)
end

a
b
c


In [70]:
# enumerateで実行
for (i, d) in enumerate(["a", "b", "c"])
    println("$i $d")
end

1 a
2 b
3 c


In [71]:
# zipで実行
for (i, d) in zip(1:3, 4:6)
    println("$i $d")
end

1 4
2 5
3 6


次にネストのfor文です。通常の書き方はもちろん、こんな書き方もできます。

In [72]:
for i in 1:3, j in 4:5
        println("$i $j")
end

1 4
1 5
2 4
2 5
3 4
3 5


<b>continue</b>と<b>break</b>もあります。

In [73]:
# i==3はcontinue
for i in 1:5
    if i == 3
        continue
    end
    println(i)
end

1
2
4
5


In [74]:
# i==3でbreak
for i in 1:5
    if i == 3
        break
    end
    println(i)
end

1
2


### If文
If文もendで閉じる必要があります。また、Pythonでの<b>else</b>は<b>elseif</b>で記述します。   
条件文の書き方について。<b>==</b>,<b>!=</b>,<b>>=</b>などが使えます。   

In [75]:
for i in 1:3
    if i == 1
        println("ifで出力")
    elseif i !=3
        println("elseifで出力")
    else
        println("elseで出力")
    end
end

ifで出力
elseifで出力
elseで出力


条件分岐に関して、Pythonで可能な<b>if A not in B</b>のような<b>not</b>を使った書き方はできません。

In [76]:
a = 1
a not in [1,2,3]  # エラーで落ちます

LoadError: syntax: extra token "not" after end of expression

複数条件に関しては、AND条件が<b> && </b>で、OR条件が<b> || </b>を使います。   

In [77]:
# AND条件
a = 1 
b = 2
if a ==1 && b == 2
    println(true)
end

true


In [78]:
# OR条件
a = 1 
c = 3
if a ==1 || c == 2
    println(true)
end

true


### 関数（Function）
最後に関数の書き方について、通常の定義の仕方は<b>function 関数名(引数1, 引数2) - end</b>です。   
この他にも、<b>assignment form</b>と呼ばれる定義方法があります。簡単な関数はこちらの方がスッキリした記法になります。   

In [79]:
# 通常の書き方
function f(x)
    return x ^ 2
end

f(2)

4

In [80]:
# assignment form
f(x) = return x ^ 2

f(2)

4

Pythonとの違いとして、<b>return</b>がなくても最後に定義された変数を自動でリターンしてくれるという機能があります。

In [81]:
# returnの省略
function f2(x)
    x ^2
end

result = f2(2)
println(result)

4


すでにmap処理のところで出てきましたが、無名関数は<b>-></b>を使って定義します。   

In [82]:
map(x -> x^2, [2,4])

2-element Array{Int64,1}:
  4
 16

以上で終わりです。おつかれさまでした。   
Juliaについては言語仕様を色々掘っていくと面白いのですが、ここでは実践的な内容に留め、まず使い方を学ぶ形に仕上げました。     
これを機にもっとJuliaのことを知りたいと思ってもらえると幸いです。では。   