# Julia 檔案處理與資料庫連線

## 1. 流 (Stream) 與 IO

各種 Julia 不同 stream 的上層型別均為 IO，也都繼承了 read() 和 write() 函式。

最常見的標準流為輸入 (stdin)、輸出 (stdout)、錯誤 (stderr)。

### 1.1 標準輸入 (stdin)、輸出 (stdout)、錯誤 (stderr)

In [None]:
# 標準輸入 (stdin)
# 並且將輸入值指定給變數 a
a = readline()

In [None]:
a

在 Jupyter / IJulia 環境中, 無法實現用 `read()` 函式來做為 stdin, IJulia 僅實作了 `readline()`

在 REPL 中執行標準輸入 `read()`, 例如:
```julia
# 標準輸入, 並指定輸入值為 Char
read(stdin, Char)
```

In [None]:
# 標準輸出 (stdout)
write(stdout, "Welcome to \nJulia!")

In [None]:
# 上面的例子中, out 的部分也輸出了成功輸出的字元數, 如果不要顯示的話, 可以加入 ; 隠藏
write(stdout, "Welcome to \nJulia!");

In [None]:
# 標準錯誤 (stderr)
write(stderr, "This is an error.")

### 1.2 檔案讀取

要操作文件檔案時，需要的時候可以透過函式 open() 及 close() 進行開啟和關閉。

開啟檔案時，預設的模式是唯讀。若需要進行寫入或添加 (append) 的話，需要指定相對應的模式。

|模式 (Mode)|操作說明|
|---|---|
|r|開啟並為唯讀。|
|r+|開啟可讀且可寫入。|
|w|檔案不存在時建立檔案、存在的話清空內容，可寫入。|
|w+|可讀且可寫入，檔案不存在時建立檔案、存在的話清空內容。|
|a|檔案不存在時建立檔案、存在的話添加內容，可寫入。|
|a+|可讀且可寫入，檔案不存在時建立檔案、存在的話添加內容。|

In [None]:
# 逐行讀取文字檔並顯示內容
f = open("iris.names")

while !eof(f)
    println(readline(f))
end

透過下列函式查詢 IOStream 物件的屬性。

In [None]:
println("已開啟的檔案物件的類型:", typeof(f))

# 察看 IOStream 的狀態
println("是否已開啟: ", isopen(f))
println("是否可讀取: ", isreadable(f))
println("是否為唯讀: ", isreadonly(f)) # 預設未設定模式的話, 開啟後為唯讀
println("是否可寫入: ", iswritable(f))

In [None]:
close(f)

#### `readlines()` 函式

In [None]:
f = open("iris.names")
# 使用 readlines() 函式逐行讀取內容, 傳回值為向量類型
str_vec = readlines(f)
close(f)

typeof(str_vec)

### 1.3 檔案寫入

In [None]:
# 開啟檔案, 若檔案不存在就新建; 檔案存在的話, 寫入時不覆蓋原內容, 將新內容繼續添加至檔案中.
f = open("hello.txt", "a+")

println("已開啟的檔案物件的類型:", typeof(f))

# 察看 IOStream 的狀態
println("是否已開啟: ", isopen(f))
println("是否可讀取: ", isreadable(f))
println("是否為唯讀: ", isreadonly(f))
println("是否可寫入: ", iswritable(f))

write(f, "Hello\nJulia.")
write(f, "Learning Julia is fun!")

close(f)

### 1.4 讀寫緩衝 (IOBuffer)

有時候因為傳輸及處理的需求，我們需要先將 stream 裡面的資料暫存，再進行後續的處理，這時候就可以使用 `IOBuffer`。

`IOBuffer` 內容除了資料流本身之外，也包含了豐富的屬性來標示及做為操作 buffer 之用。使用 `dump()` 函式可以列出資料及所有屬性及其值。

透過 `take!()` 函式，可以取出 buffer 內容並重置 buffer。

In [None]:
# 初始化緩衝區, 設定最大大小為5個字元
buff = IOBuffer(maxsize = 5)

In [None]:
# 可以看出緩衝區的內容
buff.data

In [None]:
# 欲寫入6個字元到 buffer內, 但因超過緩衝區 maxsize, 所以僅成功寫入5個字元
write(buff, "123456")
buff.data

In [None]:
println("緩衝區大小: ", buff.size)
println("緩衝區目前游標位置 (為 size = 1): ", buff.ptr)

In [None]:
# 因為緩衝區已滿, 所以寫入成功字元數為 0
write(buff, "789")

In [None]:
# 查看緩衝區狀態
dump(buff)

In [None]:
# 取出緩衝區內容並且重置緩衝區
take!(buff)

In [None]:
dump(buff)
# 可以看出緩衝區已經被清空回到初始狀態

### 1.5 序列化 (Serialization)

序列化可以將資料在不同的類型與 stream 之間互相轉換，例如在資料傳輸之前先將字串 `serialize()`，在收到資料後進行反序列化 `deserialize()` 還原資料。

In [None]:
using Serialization

In [None]:
# 序列化
str = "Hello Julia"

io = IOBuffer()
s = Serializer(io)
println(typeof(s))
Serialization.writeheader(s)
for i in str
    serialize(s, i)
end

dump(io)

In [None]:
# 反序列化
io = IOBuffer(take!(io))

while !eof(io)
    @show deserialize(io)
end

## 2. CSV 及 JSON 檔案讀取及寫入

### 2.1 CSV.jl: 讀取及寫入 CSV 檔

In [None]:
using Pkg

In [None]:
# 如果尚未安裝, 需先安裝套件
Pkg.add(PackageSpec(name="CSV", version="0.5.26"))

In [None]:
# 目前安裝版本
Pkg.installed()["CSV"]

In [None]:
using CSV

以下的資料集為 UCI Machine Learning Repository 的 Auto MPG Data Set

如果沒有 header 的話, 可以設定 header 為 false. delim 可以指定分隔符號, 若未指定的話, 讀取時會自動判斷.

在有空值的資料列, 讀取時會顯示 warning, 可以忽略

In [None]:
df = CSV.read("auto-mpg.data", header=false, delim=",")

空值會自動取代為 missing 值

In [None]:
df[29, :]

如果沒有 header 的話, 也可以將 column 名稱設定至 header

In [None]:
df = CSV.read("auto-mpg.data", header=["mpg", "cylinders", "displacement", "horsepower", "weight", "acceleration", "model year", "origin", "car name"], delim=',')

In [None]:
# DataFrames 的用法, 會在之後的內容中進行詳細介紹和實作
# 此處僅是呼叫 DataFrames.show() 函式來顯示所有 column

# 如果尚未安裝, 需先安裝套件
Pkg.add(PackageSpec(name="DataFrames", version="0.20.2"))

using DataFrames

# 顥示所有 column
show(df[1:5, :], allcols=true)

#### 從 Zip 壓縮檔讀取 CSV 檔案

In [None]:
# 如果尚未安裝, 需先安裝套件
Pkg.add(PackageSpec(name="ZipFile", version="0.8.4"))

In [None]:
using ZipFile

z = ZipFile.Reader("iris.zip")
df = CSV.read(z.files[1], header=false)

#### 將 DataFrame 寫入 CSV 檔案

In [None]:
CSV.write("a.csv", df, delim=";")

### 2.2. JSON.jl: 讀取及寫入 JSON 檔

In [None]:
# 如果尚未安裝, 需先安裝套件
Pkg.add(PackageSpec(name="JSON", version="0.21.0"))

In [None]:
using JSON

從 JSON 檔讀取 UCI Machine Learning Repository Iris data set

In [None]:
j = JSON.parsefile("iris.json")

In [None]:
typeof(j)

#### 儲存 JSON 檔案

將物件轉換為 JSON 字串, 並存入 JSON 檔案

In [None]:
str = JSON.json(j)

In [None]:
f = open("b.json", "w")
println(f, str)
close(f)

## 3. 資料庫連線

![](https://avatars3.githubusercontent.com/u/6539129?s=200&v=4)

以下範例將以 JuliaDatabases 的套件示範。

GitHub: [https://github.com/JuliaDatabases](https://github.com/JuliaDatabases)

### 3.1 透過 ODBC.jl 連接 SQLite 資料庫

在 Windows 10 中要透過 ODBC 連接 SQLite 資料庫，須先安裝及設定 ODBC Driver for SQLite，範例中以 devart 的驅動程式為例。

免費下載試用版路徑為 [ODBC Driver for SQLite](https://www.devart.com/odbc/sqlite/download.html)。

設定 devart ODBC Driver for SQLite ，請參考文件：[Connecting to SQLite](https://www.devart.com/odbc/sqlite/docs/driver_configuration_and_conne.htm)

另外，需安裝 `ODBC.jl` 套件，在 Julia 中呼叫 ODBC 介面。

In [None]:
# 如果尚未安裝, 需先安裝套件
Pkg.add("ODBC")

In [None]:
using ODBC

利用 DSN 連接資料來源, 在 Windows 環境中, 須先到控制台的系統管理工具中, 設定 ODBC 資料來源, 下面範例的 DSN 名稱為 "iris-dsn", 資料庫中 table 名稱為 "iris".

設定 DSN 時, 請將資料庫檔案為 iris_dataset.db

In [None]:
dsn = ODBC.DSN("iris_dsn")
df = ODBC.query(dsn, "select * from iris")

In [None]:
ODBC.disconnect!(dsn)

### 3.2 透過原生套件連接 SQLite 資料庫

In [None]:
# 如果尚未安裝, 需先安裝套件
Pkg.add(PackageSpec(name="SQLite", version="0.8.1"))

In [None]:
# 目前安裝版本
Pkg.installed()["SQLite"]

In [None]:
using SQLite

In [None]:
# 從 SQLite 資料庫中讀取資料並傳回 DataFrame
cond = "Iris-setosa"

db = SQLite.DB("iris_dataset.db")
df = SQLite.Query(db, "SELECT * FROM iris where species = \'$cond\'") |> DataFrame