![Julia](http://104.224.129.42/media/julia-logo.svg)

#### 一种科学计算的新尝试

## 没有银弹

**没有银弹: 软件工程的本质性与附属性工作** 是IBM大型机之父 Fred Brooks 所发表的一篇关于软件工程的经典论文。指没有任何一项技术或方法可以使软件工程的生产力在十年内提高十倍。

- **Python** 胶水，简单，灵活，生态丰富，好上手，...
- **MATLAB** 有大量历史积累，速度足够快，商业软件有充分支持，对矩阵计算支持好...
- **Fortran** 速度最快，有大量历史代码，...
- **C** 充分接近底层，几乎所有的硬件都支持，语法足够简单（容易制定标准），...
- **C++** 有大量工程实践，能够保证低抽象，工具丰富...


- **Python** 慢，作为胶水需要写大量胶水代码进行封装，...
- **MATLAB** 商业软件收费，不够工程化，...
- **Fortran** 过于古老，历史遗留问题多，生态不够好，没有包管理器 ...
- **C** 语法简单，缺乏足够的抽象能力 ...
- **C++** 开发效率低（某种程度上正是因为工具太丰富了），为了兼容有很多的妥协 ...


## 劣势往往是优势所带来的

## 科学计算的问题

简单来说是已有的工具对于新出现的问题不够好用，影响了效率。使用 `MATLAB` 难以开发大型的程序库（起初并非一般目的的编程语言），此外作为商业软件需要收费（很多学校和机构也只买了部分功能）。

而使用 `Python` 在 `Python` 层面的逻辑过多的时候，会有不能使用例如 `numba` 等特定加速器的情况，而一般的JIT编译器又由于Python本身的简单和动态性变得难以优化，例如 `Pyston`/`PyPy` ，于是需要用 `C/C++/Fortran/Cython` 重写，而后者的开发效率则要低很多。此外，进入了2010年之后，随着计算能力的提高，很多数值任务的计算量和复杂度都提高了，我们的模型越来越复杂，以至于在很多任务里性能是非常关键的，它或许直接决定了一个项目能否进行下去。

我们的问题是：是否能在科学计算，这个场景下在 `Python` 和 `C/C++/Fortran` 之间找到一个平衡点？让我们可以用**一种语言**开发和实践想法。

## Julia语言的特点

## 性能好

![](https://plot.ly/~Roger-luo/9.png?share_key=Lf91Q3vXngwR4BCCAxVHa2)

## 其它特点

- 可读性更好，更贴近数学表达式的代码
- 内建的包管理器
- 继承自Lisp的宏
- 为并行计算和分布式系统设计
- 协程：“绿色”的线程
- 从语言层面支持的GPU编程：JuliaGPU/CUDAnative

详见：[juliacn.com/julialang](http://juliacn.com/julialang/)

## 适用于科学计算

- 机器学习（内建的GPU编程，无缝调用Python，更快的native代码，etc.）
- 数据处理（支持HDF5和DataFrame，CSV等常用数据格式，自带分布式特性）
- 仿真模拟（自带多维数组和各类稀疏矩阵）
- 数值分析（高性能的代码和方便的并行计算）
- etc.

## 缺点

*这只是部分缺点，不存在没有坑的语言，没有坑只是你学的不到位*

- 基于JIT，启动有预热时间，不适合小规模，只运行一次的任务（例如shell脚本，这是几乎所有JIT编译器都会有的问题）
- 新语言的生态还不够强，不适合 **调库** 党（即便能使用所有Python和大部分R的库）
- CLI工具缺乏，不适合在终端（Terminal）开发，需要借助能够热重启（reload）和IDE开发

**micro-benchmark** 实际上很难说明问题，Julia官网的benchmark实际上也常常被指出不是按照某种语言特定的方式编写。但是举例而言，如果大家都比矩阵乘法 `gemm` ，没有任何意义，大家都是调 `mkl`/`openBLAS`。对于语言来讲，纯Julia编写的库更加有说服力


## 标准库和一些官方支持的库

- [StaticArrays.jl](https://github.com/JuliaArrays/StaticArrays.jl) 纯Julia实现的静态数组（更快的小型线性代数计算）
- [SparseArrays.jl](https://docs.julialang.org/en/latest/stdlib/SparseArrays/) 纯Julia实现的稀疏矩阵库（一些操作，例如kronecker乘积远超`scipy.sparse`）


以下是一些纯Julia的实践：

## 我们自己的实践

用Julia语言实现比同类 `Python` + `C++` 实现更快的量子线路模拟器：[Github/Yao.jl](https://github.com/QuantumBFS/Yao.jl)

## 一些其它的实践

- [TensorOperations.jl](https://github.com/Jutho/TensorOperations.jl) 比 `numpy.einsum` 快将近十倍的，语法更加自然的张量收缩
- [DifferentialEquations.jl](https://github.com/JuliaDiffEq/DifferentialEquations.jl) 性能更好，功能更加强大的偏微分方程求解器
- [CUDAnative.jl](https://github.com/JuliaGPU/CUDAnative.jl) 唯一一个在动态语言上支持CUDA编程的工具包
- [Knet.jl](https://github.com/denizyuret/Knet.jl) 纯Julia实现的深度学习框架
- [Turing.jl](https://github.com/TuringLang/Turing.jl) 纯Julia实现的统计推断语言（DSL）
- [JuMP.jl](https://github.com/JuliaOpt/JuMP.jl) 利用Julia实现的优化器DSL（Domain Specific Language）


## 如何安装和配置Julia开发环境

我推荐直接安装全家桶：Julia Pro：

https://shop.juliacomputing.com/Products/juliapro-2-2-2-2-2/

像Python一样，Julia可以通过从官网下载编译器安装：

https://julialang.org/downloads/

但是国内有些地区的速度可能较慢，所以我们也准备了境内的服务器：

http://juliacn.com/downloads/


## 如何从源码编译Julia

从源码编译Julia非常简单（这部分仅限Linux和Mac系统）：

### 1.下载源码

下载源码有很多方式，你可以从官网的服务器或者中文社区的服务器上下载到某个Julia版本的源代码（Tarball）。

或者也可以选择使用 `git` 从GitHub上直接下载Julia的源码：

```sh
git clone https://github.com/JuliaLang/julia.git
```

### 2. 编译前的准备

在编译前有一些基本准备，你需要保证你的系统上安装了：

- GNU make 编译工具
- GCC（>=4.7） （Julia的parser等是依赖于C/C++的）
- libatomic 一般来说由gcc提供，用于支持原子操作
- python (>=2.7) 用于编译LLVM
- gfortran 用于编译和链接一些fortran库
- perl 用于预处理头文件
- wget/curl/fetch其中之一 用于自动下载依赖
- m4 用于编译GMP
- awk 用于帮助编写Makefiles
- patch 用于修改源代码
- cmake 用于编译 `libgit2`
- pkg-config 用于编译 `libgit2`


在Debian系统上（例如Ubuntu），你可以直接用 `apt-get` 安装它们：

```sh
sudo apt-get install build-essential libatomic1 python gfortran perl wget m4 cmake pkg-config
```

其它平台请自行使用各自的包管理器安装，例如在Mac上你可以使用`brew`

## 安装jupyter notebook

我们这次主要使用jupyter notebook来展示Julia。Julia和jupyter都是开源组织NumFocus的项目，所以jupyter实际上来自于：Julia，Python，R的开头。除了jupyter notebook以外，你还可以使用：

- 在线的Julia环境：http://juliabox.com 
- 以及Atom上的Julia插件Juno
- Jetbrain平台上的Julia插件：https://plugins.jetbrains.com/plugin/10413-julia （千里冰封）


首先打开你的Julia交互式环境（REPL）：

- Linux用户请打开你的命令行，运行Julia的可执行文件：`你的Julia安装路径/julia`
- Mac用户请在app里找到Julia然后点击打开，或者如果下载了其它二进制版本的，也请打开命令行运行可执行文件
- Windows用户请在桌面/安装目录中找到Julia的快捷方式活着可执行文件，然后双击打开

然后按`]`键进入pkg模式：

```
(v0.7) pkg> add IJulia PyCall
```

`PyCall`的编译时间可能会比较久，不用着急，如果你之前没有安装过Python（或者Python不在标准路径里）那么它将会自动下载Python。

如果你下载的是 `v0.6` 不用担心，也可以通过下面的命令安装

```julia
julia> Pkg.add("IJulia"); Pkg.add("PyCall");
```

先别着急，在启动notebook之前，我们先了解一下Julia的REPL：

```
               _
   _       _ _(_)_     |  A fresh approach to technical computing
  (_)     | (_) (_)    |  Documentation: https://docs.julialang.org
   _ _   _| |_  __ _   |  Type "?" for help, "]?" for Pkg help.
  | | | | | | |/ _` |  |
  | | |_| | | | (_| |  |  Version 0.7.0-beta2.33 (2018-07-18 08:33 UTC)
 _/ |\__'_|_|_|\__'_|  |  Commit 565bd4d265* (5 days old master)
|__/                   |  x86_64-apple-darwin17.6.0
```

如果对什么有疑问，可以按`?`进入 `help` （帮助）模式来查看文档：

```
help?> julia
search:

  Welcome to Julia 0.7.0-beta2.33. The full manual is available at

  https://docs.julialang.org/

  as well as many great tutorials and learning resources:

  https://julialang.org/learning/

  For help on a specific function or macro, type ? followed by its name, e.g. ?cos, or
  ?@time, and press enter.
```

如果需要临时进入shell进行操作，按 `;` 可以进入 `shell` 模式：

```julia
shell> ls
Applications	Documents	Library		Music		Public
Desktop		Downloads	Movies		Pictures	test.jl
```

顺便一提，你还可以通过重载 `REPL` 模块里的方法创建个性的交互式界面，比如 `OhMyREPL`

![oh-my-repl](https://camo.githubusercontent.com/3cc1b639c8e0c129b419bb4727266cb56432241e/68747470733a2f2f692e696d6775722e636f6d2f777452304153442e706e67)

以及 `Cxx`：

![cxx](https://github.com/Keno/Cxx.jl/raw/master/docs/screenshot.png)

现在使用julia kernel吧，在Julia REPL里调用 `IJulia` 模块：


```julia
julia> using IJulia

julia> IJulia.notebook() # 启动notebook
```

## 基本语法

这一部分我们将简单地学习Julia的语法，包括它的字符串，变量，控制流还有函数的声明。

### Hello World

打印一个字符串非常简单，在Julia里类似于C语言，字符串使用双引号，而字符使用单引号。

In [None]:
println("Hello World!")

In [None]:
@show "Hello World!"

### 变量

你也可以绑定一个变量

In [None]:
x = "Hello World"

变量名称不仅仅可以是ASCII字符，也可以是其它的Unicode字符，甚至是中文

In [None]:
你好 = "Hello!"
你好

还可以是Emoji，输入 `\:smile` 然后再按 `tab`

In [None]:
😄 = "smile"

还可以利用LaTeX来输入特别的数学符号，在notebook或者REPL里输入 `\` + `epsilon` 按 `tab` 键

In [None]:
ϵ = 2.2

Julia还利用了LLVM的一些常数（无限精度）：

In [None]:
π

## 任务一：对数组求和

我们定义一个求和函数 `sum(a)`，它会计算
$$
\mathrm{sum}(a) = \sum_{i=1}^n a_i,
$$
这里 $n$ 是 `a` 的长度。

In [None]:
function mysum(A)
    s = 0.0 # s = zero(eltype(A))
    for a in A
        s += a
    end
    s
end

In [None]:
A = rand(1000)
mysum(A)

对偶数角标求和：

In [None]:
is_even(x::Int) = x % 2 == 0

In [None]:
function sum_even(A)
    s = 0.0
    for i in eachindex(A)
        if is_even(i)
            s += A[i]
        end
    end
    s
end

sum_even(A)

所有的Julia对象都有类型，当标注了类型而输入了错误的参数类型时就会报错。

In [None]:
is_even(2.0)

最后让我们为 `is_even` 加上文档（文档是 `markdown` 格式，细则请参见文档：[英文](https://docs.julialang.org/en/latest/manual/documentation/)）

In [None]:
"""
    is_even(x::Int) -> Bool

判断一个整数 `x` 是否是偶数
"""
is_even

在notebook等环境下不能使用REPL的 `help` 模式，请用 `@doc` 宏来查看文档

In [None]:
@doc is_even

## 一切都是对象

Julia里所有的一切都是对象，Julia语言也是一个支持面向对象的语言。但是Julia的对象皆为**类型**的**实例**，而非 `class` 的实例，Julia没有 `class`，但是有更轻量级的类型。

## 任务二：定义一个复数类型

复数是很多数值计算和数据分析算法都会用到的类型，然而一般的处理器上并不是自带复数类型的，我们往往使用两倍精度的浮点数来模拟一个复数，例如在 `C` 语言里，双精度的复数可以写作：

```c
double _Complex a;
```

或者在 `C++` 中，双精度的复数可以写作：

```c++
std::complex<double> a;
```

在 `Python` 里，没有显示类型，但是我们可以使用 `j`：

```ipython
In [1]: 1 + 1.j
Out[1]: (1+1j)
```

而实际上和 `C`/`C++` 一样，Julia的复数类型也是纯Julia实现的，我们这里会简单地实现一个复数类型 `MyComplex`。Julia的类型使用 `struct` 关键字，然后用 `end` 表示这一段表达式的结束。每个Julia类型有一个默认的构造函数，这个构造函数的变量即为类型声明的成员。

In [None]:
struct MyComplex
    real::Float64
    imag::Float64
end

# 一个复数就是 MyComplex 类型的一个实例，也就是一种对象
a = MyComplex(1.0, 2.0)

In [None]:
a.real

In [None]:
a.imag

但是仅仅声明了类型还远远不够，我们还需要对复数定义复数运算，方便起见我们这里仅重载 `*` 算符：

$$
(a + b \cdot i) (c + d \cdot i) = (ac - bd) + (ad + bc)i
$$


首先我们需要将要重载的东西从 `Base` 模块中拿出来（而不是自己声明一个新的，为什么？留给大家之后思考），在Julia里，**运算符** 只是一种特殊的函数，并不会被特别对待

In [None]:
import Base: *

*(a::MyComplex, b::MyComplex) = MyComplex(a.real * b.real - a.imag * b.imag, a.real * b.imag + a.imag * b.real)

In [None]:
b = MyComplex(1.0, 3.0)

a * b

现在输出不是很好看，我们重载一下 `show` 方法把默认打印出来的字符串修改一下，这里字符串里的 `$` 是字符串插入，可以将一个Julia表达式的输出转换为字符串（ `String` 类型）然后插入到字符串里。

In [None]:
import Base: show

show(io::IO, ::MIME"text/plain", x::MyComplex) = print(io, "$(x.real) + $(x.imag)im")

In [None]:
a * b

## 任意精度的复数类型

我们已经有了一个简单的复数类型，但是实际上真正在用的时候，我们可能会需要不同精度的复数类型，例如使用 `32`位浮点精度的复数类型。为了能够使用不同的复数类型，我们需要使用参数类型，而复数的实部和虚部都是实数，我们还需要限制其类型范围

In [None]:
struct MyComplex2{T <: Real}
    real::T
    imag::T
end

参数类型也有默认的构造函数

In [None]:
MyComplex2{Float32}(1.0f0, 2.0f0)

但是实际上你还可以定义一些自己的构造函数，在 Julia 里因为是没有 `class` 的，除了 **构造函数** 以外的方法都不能写在类型声明内部。而一旦你在类型声明中声明了一个自己的构造函数，**默认的构造将被覆盖**。比如试试下面这个例子

In [None]:
struct MyComplex3{T <: Real}
    real::T
    imag::T

    MyComplex3(real::T) where {T <: Real} = new{T}(real, 0)
end

MyComplex3(1.0)

### 什么时候用内部构造函数，什么时候用外部构造函数？

内部构造函数往往是为了在生成这个实例前做一些预处理（例如判断输入变量是否符合要求等）更详细的例子请参见文档：[英文](https://docs.julialang.org/en/latest/manual/constructors/)


## 多重派发和Julia的面向对象

Julia语言是没有 `class` 的，但这并不意味着 Julia 无法面向对象，Julia对象的方法（method）通过 **多重派发** 和 **类型树** 进行分配，而不依赖于 `class` 这种结构。

想了解什么是多重派发，我们要先从**单重派发（single dispatch）** 说起，大部分支持 `class` 的语言都是单重派发，我们用`C++`举例：

```C++
#include <iostream>

struct A {};
struct B : public A {};

class Foo {
public:
    virtual void wooo(A *a, A *b) { std::cout << "A/A" << std::endl; };
    virtual void wooo(A *a, B *b) { std::cout << "A/B" << std::endl; };
};
```

```c++
void CallMyFn(Foo *p, A *arg1, A *arg2) {
    p->wooo(arg1, arg2);
}

int main(int argc, char const *argv[]) {
    Foo *f = new Foo();
    A *a = new A(); B *b = new B();
    CallMyFn(f, a, b);
    return 0;
}
```

运行上面的 `C++` 代码将会得到

```sh
A/A
```

而我们预期的是

```sh
A/B
```

这是因为 `C++` 只支持 Single Dispatch (多重派发在提案中：[Report on language support for Multi-Methods and Open-Methods for C++](http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2007/n2216.pdf))，对于动态类型，编译器只能通过 `class` 名称决定调用的方法，当需要根据参数等信息决定方法的时候就无能为力了。注意，多重派发是一个动态类型的特性，这里 `A`，`B`都是做成了动态类型，于函数重载不同，一些类似于多重派发在 `C++` 中实际上是函数重载，出现歧义（ambiguous）是由于 `C++` 的隐式类型转换。

如果你不是很懂 `C++` 也没有关系，我再用 `Python` 举个例子，Python 3.4有一个的提案（[PEP 443](https://www.python.org/dev/peps/pep-0443/)）里有一个对单重派发通用函数的提案：

```python
from functools import singledispatch

@singledispatch
def fun(arg, verbose=Falase):
    print(arg)
    
@fun.register(int)
def _(arg, verbose=False):
    print(arg)
```

## 总结一下

单派发，**Single Dispatch** ，是说只按照一种类型进行派发，例如在 `C++` 的例子里，只按照所调用的 `Foo` 来派发动态类型，于是遇到方法里面重载了两种不同动态类型时，编译器不会报错，但是会调用 `A/A`。亦或者是PEP443里，会按照第一个参数的类型进行派发。

## 多重派发

顾名思义，就是会根据所有的参数来进行派发。例如让我们在Julia里重新实现 `C++` 里的例子，注意由于 Julia 没有继承，我们在这里用抽象类型代替。Julia会匹配参数类型最符合的方法，然后调用。在Julia里，由于Julia本身是动态语言，函数的重载（overload）与多重派发是一个意思，但是实际上Julia的派发会发生在运行时和编译时，而这在很少的情况下有可能影响性能。

In [None]:
abstract type TypeA end

struct TypeB <: TypeA end
struct TypeC <: TypeA end

wooo(a1::TypeA, a2::TypeA) = println("A/A")
wooo(a::TypeA, b::TypeB) = println("A/B")

callme(a1::TypeA, a2::TypeA) = wooo(a1, a2)

b = TypeB(); c = TypeC();
callme(c, b)

## 类型系统

Julia的类型主要分为抽象类型（Abstract Type）和实体类型（Concrete Type），实体类型主要分为可变类型（Mutable Type）和不可变类型（Immutable Type）

In [None]:
abstract type AbstractType end

struct ImmutableType <: AbstractType
end

mutable struct MutableType <: AbstractType
end

一个抽象类型的所有子类型会构成一颗树，其中实体类型一定在树的叶子结点

In [None]:
using InteractiveUtils

function view_tree(T, depth=0)
    println("  "^depth, T)
    for each in subtypes(T)
        view_tree(each, depth+1)
    end
end

view_tree(AbstractType)

再看一个复杂一些的例子：

In [None]:
abstract type AbstractAnimal end

abstract type AbstractBird <: AbstractAnimal end
abstract type AbstractDog <: AbstractAnimal end
abstract type AbstractCat <: AbstractAnimal end

struct Sparrow <: AbstractBird end
struct Kitty <: AbstractCat end
struct Snoope <: AbstractDog end

view_tree(AbstractAnimal)

可以看到，Julia总会匹配类型树里总的来说最靠下的方法

In [None]:
combine(a::AbstractAnimal, b::AbstractAnimal, c::AbstractAnimal) = "three animals get together!" # method 1
combine(a::Sparrow, b::AbstractCat, c::AbstractAnimal) = "a sparrow, a cat and some animal" # method 2

combine(Sparrow(), Kitty(), Sparrow()) # 这个会匹配方法2

类型在 Julia 里是非常廉价的，利用多重派发和廉价的类型，我们可以针对数学对象实现更详细的优化，例如对于满足不同性质的矩阵，我们有对它们之间互相乘积的优化方法，我们可以将部分操作作为懒惰求值（Lazy Evaluation）加入运算中，然后再为满足不同性质的矩阵派发精细的优化方法：

- 对满足 $A^T A = I$ 的矩阵，如果遇到了自己的转置可以什么都不算
- 对满足上三角的矩阵（或者下三角矩阵），在一些矩阵分解等操作的时候可以调用更快的数值方法
- 而对于单位矩阵，我们总可以什么都不算

实际上Julia在标准库里已经这么做了 （但实际上依然还有更多的特殊矩阵）

In [None]:
view_tree(AbstractMatrix);

## 总结一下

Julia有这样的特点：**廉价的类型**和**多重派发**+**类型树**的结构，我们可以**继承类型的行为（behavior）**而不能**继承类型的成员**，而多重派发让所有Julia类型很自然地变成了鸭子类型（Duck Type），我们只要定义好不同的**接口**/**interface**就足以定义类型的行为。

实际上由于严格保持了树的结构，Julia也不允许多重继承，这避免了**钻石继承的问题**。

需要说明的是，以上仅仅是Julia的特点，它带来了一些好处，也同时带来了一些缺点。限于篇幅暂且不表。

## 一切都是表达式

在Julia里，所有的东西不仅仅可以是**对象**，他们也都是**表达式**，当然**表达式**也是**对象**。也许你一开始还在讨厌Julia的 `end` 不够简洁，但是学了这一部分，你就会发现 `end` 关键字的妙处了。

为了理解Julia的元编程，我们首先需要大致了解一下Julia的编译过程

![](compile-process.png)

### 如何获得Julia的表达式？

在Julia里获得表达式的方法被称为引用（quote），可以有两种方法进行引用

对于短小的表达式使用 `:( blabla )` 进行引用

In [None]:
ex = :(a + b)

对于大段的表达式，使用 `quote` 关键字进行引用

In [None]:
quote
    a + b
    b + c
end

到了这里你也许已经发现了，实际上任何一部分Julia代码都是表达式，而不同的表达式有不同的 `tag` 而正是因为使用了 `end` 才能够和各种不同的代码块进行匹配。例如实际上函数关键字 `function` 和 `end` 本身定义了一个代码块

In [None]:
ex = quote
    function foo()
        println()
    end
end

ex.args

所有的表达式都是 `Expr`，`QuoteNode`，`Symbol` 三种类型之一。

In [None]:
typeof(:(a + b))

In [None]:
typeof(:(a))

In [None]:
typeof(:(:(a)))

在 Julia 里我们可以使用语言本身的语法来处理 Julia 自己的表达式，这被称为元编程（Meta Programming），那么元编程有什么用呢？

- 代码生成，产生更加高效的代码（低抽象的代码）
- 预处理表达式，提高代码可读性（例如实现一个DSL）

在我开头提到的 **TensorOperations** 之所以比 `numpy` 快，很大的原因是因为作者使用元编程将大部分预处理挪到了编译时期（compile time）然后还顺便支持了数学上的einsum格式，而尽管`numpy.einsum`实际上有不少优化，但是仍然需要跑很多遍for循环。

## 在Julia里调用Python

## 编写高性能Julia代码的建议