In [1]:
using Pkg; Pkg.activate("."); Pkg.instantiate()

 Activating environment at `/tmpdir/notebook/Project.toml`


# Chapter 2 - Python..ではなくJulia入門

Juliaでは、改行あり出力は`println`

In [2]:
println("hello")

hello


## 2.2 変数と変数出力
変数や計算の埋め込みは`$()`で行う。
型を調べるのは`type`ではなく`typeof`を用いる。

In [3]:
num = 10
string = "Hello World"
println("num=$(num), typeof(num)=$(typeof(num))")
println("string=$(string), typeof(string)=$(typeof(string))")

num=10, typeof(num)=Int64
string=Hello World, typeof(string)=String


フォーマット書式ありの出力は標準ライブラリに含まれている`Printf.@sprintf`を使う。
Pythonの`.format`に近い表記になる。

In [4]:
using Printf

num = 10.5678
println(@sprintf("小数2位:%.2f, 小数5位:%.5f, 小数2位の指数表記:%.2e", num, num, num))

小数2位:10.57, 小数5位:10.56780, 小数2位の指数表記:1.06e+01


## 2.3 データ構造
### 2.3.1 リスト
Juliaではベクトル型が組み込まれているので、Pythonのようにリストとnumpy.ndarrayの相互変換
を意識するする必要はない

In [5]:
price1 = [120, 180]
price2 = [300, 150]
all = [price1, price2]
all

2-element Array{Array{Int64,1},1}:
 [120, 180]
 [300, 150]

### 2.3.2 リストの大きさ

In [6]:
length(price1)

2

### 2.3.3 リストの各要素へのアクセス
インデックスが0から始まるPythonと違い、Juliaのインデックスは1から始まる

In [7]:
# 最初(1番目)の要素: 120
price1[1]

120

最初の要素はfirstでもアクセスできる

In [8]:
first(price1)

120

In [9]:
# 2番目の要素
all[2]

2-element Array{Int64,1}:
 300
 150

In [10]:
# 2行 2番目の要素: 150
all[2][2]

150

### 2.3.4 リストの拡張
リストの拡張は`push!`を使う

In [11]:
# 空のリスト
price = []

Any[]

In [12]:
# 要素の追加: [120, 180]
push!(price, [120, 180])

1-element Array{Any,1}:
 [120, 180]

In [13]:
# 要素の追加: [[120, 180], [300, 150]]
push!(price, [300, 150])

2-element Array{Any,1}:
 [120, 180]
 [300, 150]

### 2.3.5 Vector, Array
Juliaではリストと行列、ベクトルの区別を意識しなくて良い

In [14]:
price1 = [120, 180]

2-element Array{Int64,1}:
 120
 180

In [15]:
# Juliaはcolumn oriented
price2 = [200 300; 50 150.0]

2×2 Array{Float64,2}:
 200.0  300.0
  50.0  150.0

要素の型は`eltype`を使って確認できる

In [16]:
eltype(price1)

Int64

In [17]:
eltype(price2)

Float64

### 2.3.6 Arrayの大きさ
`Array`のサイズは`size`で調べる

In [18]:
size(price1)

(2,)

In [19]:
size(price2)

(2, 2)

### 2.3.7 Arrayのスライシング

In [20]:
price = [120, 180, 300, 150]

# 最初(1番目)の要素: 120
price[1]

120

In [21]:
# 2番目の要素: 180
price[2]

180

In [22]:
# 最後の要素: 150
price[end]

150

In [23]:
# 最後から2番目の要素: 300
price[end-1]

300

In [24]:
# 2番目から3番目の要素: [180, 300]
price[2:3]

2-element Array{Int64,1}:
 180
 300

In [25]:
# 最初から2番目までの要素: [120, 180]
price[1:2]

2-element Array{Int64,1}:
 120
 180

In [26]:
# 最初から3番目までの要素: [120. 180, 300]
price[1:end-1]

3-element Array{Int64,1}:
 120
 180
 300

In [27]:
# 最初から最後までの要素
price[:]

4-element Array{Int64,1}:
 120
 180
 300
 150

### 2.3.8 Arrayの簡単な計算

In [28]:
price = [120, 180, 300, 150]

# 和: 750
sum(price)

750

In [29]:
# 積: 972000000
prod(price)

972000000

In [30]:
# 二乗: [14400, 32400, 90000, 22500]
# `.`でbroadcastする
price .^ 2

4-element Array{Int64,1}:
 14400
 32400
 90000
 22500

In [31]:
# 平方根: [10.9544515, 13.41640786, 17.32050808, 12.247448711]
sqrt.(price)

4-element Array{Float64,1}:
 10.954451150103322
 13.416407864998739
 17.320508075688775
 12.24744871391589

統計関連の計算には標準ライブラリであるStatisticsを使う

In [32]:
using Statistics

# 平均値: 187.5
mean(price)

187.5

In [33]:
# 分散: 4668.75
# Statistics.varはデフォルトで不偏分散を計算するので、標本分散は`corrected=false`とする
var(price, corrected=false)

4668.75

In [34]:
var(price)

6225.0

In [35]:
# 標準偏差
std(price, corrected=false)

68.32825184358224

In [36]:
# 最小値: 120
minimum(price)

120

In [37]:
# 最大値: 300
maximum(price)

300

In [38]:
# 最小のインデックス: 1
argmin(price)

1

In [39]:
# 最大のインデックス: 3
argmax(price)

3

### 2.3.9 Vectorのソート

In [40]:
price = [120, 180, 300, 150]

# 昇順に並び替えた値: [120, 150, 180, 300]
sort(price)

4-element Array{Int64,1}:
 120
 150
 180
 300

In [41]:
# 降順に並び替えた値: [300, 180, 150, 120]
sort(price, rev=true)

4-element Array{Int64,1}:
 300
 180
 150
 120

In [42]:
# 昇順に並び替えた値のインデックス: [1, 4, 2, 3]
sortperm(price)

4-element Array{Int64,1}:
 1
 4
 2
 3

In [43]:
# 降順に並び替えた値のインデックス: [3, 2, 4, 1]
sortperm(price, rev=true)

4-element Array{Int64,1}:
 3
 2
 4
 1

### 2.3.10 Vectorのユニーク

In [44]:
price = [120, 180, 300, 150, 150]

# unique後: [120, 180, 300, 150]
# 順番は保存される
unique(price)

4-element Array{Int64,1}:
 120
 180
 300
 150

### 2.3.11 Vectorの条件を満たすインデックス

In [45]:
price = [120, 180, 300, 150]

# 条件を満たすインデックスを取得するにはfindall
findall(x -> x > 150, price)

2-element Array{Int64,1}:
 2
 3

In [46]:
# マスクを作成するのはbroadcastを使えば簡単
indices = price .> 150

4-element BitArray{1}:
 0
 1
 1
 0

### 2.3.12 Arrayの結合

In [47]:
price1 = [120, 180]
price2 = [300, 150]

# horizontal方向への結合
hcat(price1, price2)

2×2 Array{Int64,2}:
 120  300
 180  150

In [48]:
# catを使っても書ける
cat(price1, price2; dims=2)

2×2 Array{Int64,2}:
 120  300
 180  150

In [49]:
# vertical方向への結合
vcat(price1, price2)

4-element Array{Int64,1}:
 120
 180
 300
 150

In [50]:
# catを使っても書ける
cat(price1, price2; dims=1)

4-element Array{Int64,1}:
 120
 180
 300
 150

In [51]:
price1 = reshape([120, 180], 1, 1, :)
price2 = reshape([300, 150], 1, 1, :)

1×1×2 Array{Int64,3}:
[:, :, 1] =
 300

[:, :, 2] =
 150

In [52]:
hcat(price1, price2)

1×2×2 Array{Int64,3}:
[:, :, 1] =
 120  300

[:, :, 2] =
 180  150

In [53]:
vcat(price1, price2)

2×1×2 Array{Int64,3}:
[:, :, 1] =
 120
 300

[:, :, 2] =
 180
 150

In [54]:
cat(price1, price2; dims=3)

1×1×4 Array{Int64,3}:
[:, :, 1] =
 120

[:, :, 2] =
 180

[:, :, 3] =
 300

[:, :, 4] =
 150

### 2.3.13 Arrayの変形

In [55]:
price = [120, 180, 300, 150]

4-element Array{Int64,1}:
 120
 180
 300
 150

In [56]:
# 2行 2列に変形
reshape(price, 2, 2)

2×2 Array{Int64,2}:
 120  300
 180  150

In [57]:
# 2行 2列に変形(自動)
reshape(price, 2, :)

2×2 Array{Int64,2}:
 120  300
 180  150

In [58]:
# 4行 1列に変形
reshape(price, 4, 1)

4×1 Array{Int64,2}:
 120
 180
 300
 150

### 2.3.14 Arrayの繰り返し

In [59]:
price = [120, 180, 300, 150]

# 行方向に2回、列方向に1回繰り返す
repeat(price, 2, 1)

8×1 Array{Int64,2}:
 120
 180
 300
 150
 120
 180
 300
 150

In [60]:
# 行方向に1回、列方向に2回繰り返す
repeat(price, 1, 2)

4×2 Array{Int64,2}:
 120  120
 180  180
 300  300
 150  150

In [61]:
# 奥方向に2回、行・列方向に1回繰り返す
repeat(price, 1, 1, 2)

4×1×2 Array{Int64,3}:
[:, :, 1] =
 120
 180
 300
 150

[:, :, 2] =
 120
 180
 300
 150

### 2.3.15 Arrayの次元拡張

In [62]:
price = [120, 180, 300, 150]

size(price)

(4,)

In [63]:
# 行方向に増やした後のsize
size(reshape(price, 1, :))

(1, 4)

In [64]:
# 列方向に増やした後のsize
size(reshape(price, :, 1))

(4, 1)

### 2.3.16 Arrayの(軸方向の)回転

In [65]:
price = [120 180; 300 150]

2×2 Array{Int64,2}:
 120  180
 300  150

In [66]:
# 行方向に1つ回転する
circshift(price, (1, 0))

2×2 Array{Int64,2}:
 300  150
 120  180

In [67]:
# 列方向に1つ回転する
circshift(price, (0, 1))

2×2 Array{Int64,2}:
 180  120
 150  300

In [68]:
# 回転
rotr90(price, 1)

2×2 Array{Int64,2}:
 300  120
 150  180

In [69]:
rotl90(price, 2)

2×2 Array{Int64,2}:
 150  300
 180  120

### 2.3.17 Arrayのインデックスの生成

In [70]:
price = [120, 180, 300, 150]

# 1:4
1:length(price)

1:4

In [71]:
# [1, 2, 3, 4]
collect(1:length(price))

4-element Array{Int64,1}:
 1
 2
 3
 4

### 2.3.18 Arrayのインデックスのシャッフル

In [72]:
using Random

# シードを固定しておく
Random.seed!(1234)

price = [120, 180, 300, 150]

randperm(length(price))

4-element Array{Int64,1}:
 2
 1
 4
 3

### 2.3.19 単位行列の生成

In [73]:
using LinearAlgebra

Matrix(I, 5, 5)

5×5 Array{Bool,2}:
 1  0  0  0  0
 0  1  0  0  0
 0  0  1  0  0
 0  0  0  1  0
 0  0  0  0  1

### 2.3.20 CSV.jl & DataFrames.jl
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=train.csv
からファイルをダウンロードしてdataフォルダに保存しているとする

In [74]:
# CSVファイルの読み込み

pandas.DataFrameのようなDataFrameの構造を扱うにはDataFrames.jlを使う。

In [75]:
using CSV
using DataFrames

In [76]:
data = CSV.read("../data/house-prices-advanced-regression-techniques/train.csv", DataFrame)

Unnamed: 0_level_0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour
Unnamed: 0_level_1,Int64,Int64,String,String,Int64,String,String,String,String
1,1,60,RL,65,8450,Pave,,Reg,Lvl
2,2,20,RL,80,9600,Pave,,Reg,Lvl
3,3,60,RL,68,11250,Pave,,IR1,Lvl
4,4,70,RL,60,9550,Pave,,IR1,Lvl
5,5,60,RL,84,14260,Pave,,IR1,Lvl
6,6,50,RL,85,14115,Pave,,IR1,Lvl
7,7,20,RL,75,10084,Pave,,Reg,Lvl
8,8,60,RL,,10382,Pave,,IR1,Lvl
9,9,50,RM,51,6120,Pave,,Reg,Lvl
10,10,190,RL,50,7420,Pave,,Reg,Lvl


In [77]:
# 5行目まで
first(data, 5)

Unnamed: 0_level_0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour
Unnamed: 0_level_1,Int64,Int64,String,String,Int64,String,String,String,String
1,1,60,RL,65,8450,Pave,,Reg,Lvl
2,2,20,RL,80,9600,Pave,,Reg,Lvl
3,3,60,RL,68,11250,Pave,,IR1,Lvl
4,4,70,RL,60,9550,Pave,,IR1,Lvl
5,5,60,RL,84,14260,Pave,,IR1,Lvl


In [78]:
# カラムの一覧
names(data)

81-element Array{String,1}:
 "Id"
 "MSSubClass"
 "MSZoning"
 "LotFrontage"
 "LotArea"
 "Street"
 "Alley"
 "LotShape"
 "LandContour"
 "Utilities"
 ⋮
 "PoolQC"
 "Fence"
 "MiscFeature"
 "MiscVal"
 "MoSold"
 "YrSold"
 "SaleType"
 "SaleCondition"
 "SalePrice"

In [79]:
# 建物の特徴(MSSubClass)
unique(data[!, :MSSubClass])

15-element Array{Int64,1}:
  60
  20
  70
  50
 190
  45
  90
 120
  30
  85
  80
 160
  75
 180
  40

### 2.3.21 DataFrameからArrayへの変換

In [80]:
Array(data[!, [:GrLivArea, :SalePrice]])

1460×2 Array{Int64,2}:
 1710  208500
 1262  181500
 1786  223500
 1717  140000
 2198  250000
 1362  143000
 1694  307000
 2090  200000
 1774  129900
 1077  118000
    ⋮  
 1578  287090
 1072  145000
 1140   84500
 1221  185000
 1647  175000
 2073  210000
 2340  266500
 1078  142125
 1256  147500

### 2.3.22 DafaFrameのカラムの削除

In [81]:
length(names(data))

81

In [82]:
# PoolAreaカラムを削除
select!(data, Not(:PoolArea))

Unnamed: 0_level_0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour
Unnamed: 0_level_1,Int64,Int64,String,String,Int64,String,String,String,String
1,1,60,RL,65,8450,Pave,,Reg,Lvl
2,2,20,RL,80,9600,Pave,,Reg,Lvl
3,3,60,RL,68,11250,Pave,,IR1,Lvl
4,4,70,RL,60,9550,Pave,,IR1,Lvl
5,5,60,RL,84,14260,Pave,,IR1,Lvl
6,6,50,RL,85,14115,Pave,,IR1,Lvl
7,7,20,RL,75,10084,Pave,,Reg,Lvl
8,8,60,RL,,10382,Pave,,IR1,Lvl
9,9,50,RM,51,6120,Pave,,Reg,Lvl
10,10,190,RL,50,7420,Pave,,Reg,Lvl


In [83]:
length(names(data))

80

## 2.4 グラフのプロット
別ファイル

### 2.5 if文とfor文

In [84]:
values = [10, 3, 1, 5, 8, 6]

# 通常のfor文
# 空のリスト
passed_values = Int64[]
for v in values
    if v > 5
        push!(passed_values, v)
    end
end

# 結果を標準出力
println("5以上の値 $(passed_values)")

5以上の値 [10, 8, 6]


In [85]:
# リスト内表記のforとif
passed_values = [v for v in values if v > 5]

# 結果を標準出力
println("5以上の値 $(passed_values)")

5以上の値 [10, 8, 6]


In [86]:
# filterを使った表記
passed_values = filter(v -> v > 5, values)

# 結果を標準出力
println("5以上の値 $(passed_values)")

5以上の値 [10, 8, 6]


### 2.5.3 例外処理

In [87]:
# Juliaでは1/0はInfになる
for i in [-1, 0, 1]
    println("$(1/i)")
end

-1.0
Inf
1.0


In [88]:
# 例外を発生させてみる
# for i in [-1, 0, 1]
#     println("$(i//i)")
##∂ end

In [89]:
for i in [-1, 0, 1]
    try
        println("$(i//i)")
    catch
        continue
    end
end

1//1
1//1


---

*This notebook was generated using [Literate.jl](https://github.com/fredrikekre/Literate.jl).*