# 2.2 基本数据类型

日期： 2021.10.17

作者：陈久宁

如果你有其他语言的基础的话，不妨先阅读文档 [Julia 与其他语言的差异](https://docs.julialang.org/en/v1/manual/noteworthy-differences/)

这部分只是一个非常简略的介绍，如果想要更详细的阅读的话，请参考文档的以下几个部分：

- [变量](https://docs.julialang.org/en/v1/manual/variables/)
- [整数与浮点数](https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/)
- [有理数与复数](https://docs.julialang.org/en/v1/manual/complex-and-rational-numbers/)
- [多维数组](https://docs.julialang.org/en/v1/manual/arrays/)

---

### 加载包使用 `using` 命令

In [1]:
using BenchmarkTools

## 2.1 变量和基本数据类型

Read more:

- https://docs.julialang.org/en/v1/manual/variables/
- https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/#Integers-and-Floating-Point-Numbers

### 整型 `Int`

In [2]:
x = 1

1

In [3]:
typeof(x)

Int64

### 浮点数类型 `Float64`

每日小知识： Julia 允许 Unicode 符号来命名变量，可以通过 latex 输入: `\lambda<TAB>`

In [4]:
λ = 0.1 # \lambda<TAB>

0.1

In [5]:
typeof(λ)

Float64

### 复数 `Complex64`

In [6]:
cᵢ = 1.0 + 0.1im # c\_i<TAB>

1.0 + 0.1im

In [7]:
typeof(cᵢ)

ComplexF64 (alias for Complex{Float64})

### Julia 浮点数的特殊值： `Inf` 和 `NaN`

- Inf: Infinity
- NaN: Not-A-Number

Read more: https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/#Special-floating-point-values

In [8]:
1/0

Inf

In [9]:
typeof(Inf)

Float64

In [10]:
0 * Inf

NaN

In [11]:
0/0

NaN

In [12]:
typeof(NaN)

Float64

### 缺失值 `missing`

常用于统计类的工具箱中

In [13]:
1 * missing

missing

In [14]:
typeof(missing)

Missing

### `nothing`

`nothing` 则是另一回事，常用于表达函数没有返回值（等价于 Python 的 `None`)

In [15]:
typeof(nothing)

Nothing

In [16]:
function f()
    return # 等价于 return nothing
end
typeof(f())

Nothing

### 无理数

Julia 有专门的无理数类型来保证在任意精度下的准确性

In [17]:
pi # or π

π = 3.1415926535897...

In [18]:
typeof(pi)

Irrational{:π}

In [19]:
Float64(pi), BigFloat(pi)

(3.141592653589793, 3.141592653589793238462643383279502884197169399375105820974944592307816406286198)

Julia 非常在意数值精度，甚至还有专门的 `sin`/`cos`

In [20]:
sinpi(1), cospi(1)

(0.0, -1.0)

In [21]:
sin(pi), cos(pi)

(1.2246467991473532e-16, -1.0)

字面量常数可以和变量或者括号结合在一起作为乘法

In [22]:
θ = 1.0
y = 2π*θ

6.283185307179586

In [23]:
2(y+1)

14.566370614359172

### 抑制输出

每日小知识：在交互式 REPL 模式下，可以通过在行末尾添加 `;` 来抑制输出

In [24]:
x = 1
y = x + 2

3

macro

In [25]:
x = rand() # Julia 默认只会输出每一个代码块最后一行的结果
# 如果想要输出中间结果的话，可以通过 `print`/`println`, `@show`, `@info` 来得到
@show x
@info x
@info "一些中间结果" x x^2
y = x + 2;

x = 0.8406384738422907


┌ Info: 0.8406384738422907
└ @ Main In[25]:4
┌ Info: 一些中间结果
│   x = 0.8406384738422907
│   x ^ 2 = 0.7066730437038957
└ @ Main In[25]:5


### 字符 `Char` 与字符串 `String`

单引号为字符 `''`

In [26]:
char = 'c'

'c': ASCII/Unicode U+0063 (category Ll: Letter, lowercase)

In [27]:
typeof(char)

Char

双引号 `""`为字符串

In [28]:
str = "Hello"

"Hello"

In [29]:
typeof(str)

String

In [30]:
'c' == "c"

false

In [31]:
"c"[1] == 'c'

true

三重双引号为多行字符串 (自动补充换行符 `\n`）

In [32]:
s = """
This is
a
multiline
string
"""

"This is\na\nmultiline\nstring\n"

字符串的插值使用 `$`

In [33]:
msg = "world"
"hello $msg" # f"hello {msg}"

"hello world"

`$` 中也可以是函数

In [34]:
x = 2
"x^2 = $(x^2)"

"x^2 = 4"

字符串的拼接用 `*` 而不是 `+`

In [35]:
"hello, " * "world" # surprise

"hello, world"

注解：字符串的拼接并不可以交换，这一点在代数上对应于一个群而不是交换群。

字符串转换为数值类型使用 `parse`

In [36]:
@show parse(Int, "1") # int("1")
@show parse(Float64, "1.23")

parse(Int, "1") = 1
parse(Float64, "1.23") = 1.23


1.23

## 2.2 常用的内置容器类型

列表类型：

- 矩阵 `Array`：可变
- 元组 `Tuple`：不可变

集合类型：

- 字典 `Dict`：可变
- 命名元组 `NamedTuple`：不可变
- 集合 `Set`：不包含重复元素

More:

- [StaticArrays.jl](https://github.com/JuliaArrays/StaticArrays.jl) 将尺寸信息记录在类型中，从而对于小矩阵来说可以拿到比 `Array` 更好的计算效率
- 矩阵并不是一定要以 1 作为下标起点，[OffsetArrays.jl](https://github.com/JuliaArrays/OffsetArrays.jl) 允许构造任意下标起点的矩阵
- 更多的典型数据类型可以在 [DataStructures.jl](https://github.com/JuliaCollections/DataStructures.jl) 找到

### 矩阵 `Array`

Julia 默认情况下是按列存储的，并且通过 `[]` 来构造

In [37]:
x = [1, 2, 3] # Vector (column vector)

@show typeof(x)
x

typeof(x) = Vector{Int64}


3-element Vector{Int64}:
 1
 2
 3

矩阵以 `1` 作为下标起点，用 `[]` 进行下标取值

In [38]:
x[1]

1

In [39]:
x[1:2] # 取值范围是左闭右闭 []

2-element Vector{Int64}:
 1
 2

查询基本属性用的函数：

- `size(x)`: 尺寸
- `length(x)`: 长度 (等价于 `prod(size(x)`)
- `axes(x)`: 带坐标的尺寸
- `ndims(x)`: 维度
- `eltype(x)`: 元素类型

In [40]:
x = rand(4, 4)
@show size(x)
@show length(x) # prod(size(x))
@show axes(x) # OneTo(4) 等价于 1:4
@show ndims(x)
@show eltype(x)
@show typeof(x);

size(x) = (4, 4)
length(x) = 16
axes(x) = (Base.OneTo(4), Base.OneTo(4))
ndims(x) = 2
eltype(x) = Float64
typeof(x) = Matrix{Float64}


行向量

In [41]:
x = [1, 2, 3] # column vector

3-element Vector{Int64}:
 1
 2
 3

In [42]:
y = [1 2 3] # Matrix (row vector)

1×3 Matrix{Int64}:
 1  2  3

矩阵的尺寸不相同时无法直接比较

In [43]:
x == y # surprise!

false

In [44]:
size(x), size(y)

((3,), (1, 3))

即使表面上看起来一样，他们也并不一样

In [45]:
y'

3×1 adjoint(::Matrix{Int64}) with eltype Int64:
 1
 2
 3

In [46]:
x

3-element Vector{Int64}:
 1
 2
 3

In [47]:
x == y' # surprise

false

因为他们的维度并不相同

In [48]:
ndims(x), ndims(y')

(1, 2)

注解： 之所以这样做，是因为 Julia 希望能够根据数据类型上的不同 `Vector`, `Matrix` 来构造不同的实现从而得到最佳性能。对于 `Vector` 来说，遍历完整的数据的方式是唯一的，而 `Matrix` 则可能有多种可能方式（比如按行遍历，或者按列遍历）。

如果你坚持的话，那就手动转换成合适的尺寸

In [49]:
x' == y

true

In [50]:
reshape(x, size(y')) == y'

true

### 多维矩阵的构造

- 利用 `;` 进行分割
- 利用换行进行分割

In [51]:
[1 2 3 4; 5 6 7 8]

2×4 Matrix{Int64}:
 1  2  3  4
 5  6  7  8

In [52]:
[1 2 3 4
 5 6 7 8]

2×4 Matrix{Int64}:
 1  2  3  4
 5  6  7  8

当然，矩阵是可变的

In [53]:
x = [1, 2, 3]
x[1] = 0

0

### 元组 `Tuple`

元组的构造使用小括号 `()`

In [54]:
x = (1, 2, 3)

(1, 2, 3)

In [55]:
typeof(x)

Tuple{Int64, Int64, Int64}

不同于矩阵中只定义元素类型，在元组中，每一项的类型都是单独确定的，因为元组常常用来将多个数据整合在一起，这样做可以传递足够的类型信息给编译器

元组在构造时也经常省略括号

In [56]:
x = 1, 2, 3

(1, 2, 3)

In [57]:
typeof(x)

Tuple{Int64, Int64, Int64}

元组的拆解

In [58]:
t = (1, 2)
x, y = t
@show x y

x = 1
y = 2


2

不同于 Python，Julia 下多余的值会直接丢弃

In [59]:
x, y = 1, 2, 3, 4, 5
@show x y

x = 1
y = 2


2

省略括号并且进行拆解的话，就经常出现下面这种写法

In [60]:
x, y = 1, 2
@show x y

x = 1
y = 2


2

元组是不可修改的

In [61]:
x = (1, 2, 3)
x[1] = 0 # error!

LoadError: MethodError: no method matching setindex!(::Tuple{Int64, Int64, Int64}, ::Int64, ::Int64)

一般来说，修改一个元组等于重新构造一个新的

In [62]:
(0, x[2:end]...)

(0, 2, 3)

编译器足够聪明，因此不需要担心对元组的拆分组合操作会导致性能降低

In [63]:
modify_first!(t::Tuple, x) = (x, t[2:end]...)

t = (1, 2, 3)
@btime modify_first!($t, 0)

  0.020 ns (0 allocations: 0 bytes)


(0, 2, 3)

字典 `Dict`

字典是构造了一种映射结构

Julia 不使用 `{}`+`:` 构造字典，而是使用 `Dict` + `=>`

In [64]:
d = Dict(
    1 => "first item",
    "2" => "second item",
    (3, 4) => "3rd, 4th items"
)

Dict{Any, String} with 3 entries:
  "2"    => "second item"
  (3, 4) => "3rd, 4th items"
  1      => "first item"

In [65]:
d[1]

"first item"

In [66]:
d["2"]

"second item"

In [67]:
d[(3, 4)]

"3rd, 4th items"

字典也是可以修改的

In [68]:
d["a new entry"] = "something"

"something"

In [69]:
d

Dict{Any, String} with 4 entries:
  "a new entry" => "something"
  "2"           => "second item"
  (3, 4)        => "3rd, 4th items"
  1             => "first item"

实际上，`=>` 也构造了一个数据类型

In [70]:
x = 1=>2

1 => 2

In [71]:
typeof(x)

Pair{Int64, Int64}

因此可以将字典的构造拆分成两个阶段：1) 数据的构造和 2) 转换成字典

In [72]:
items = (x=>x^2 for x in 1:10)
d = Dict(items)

Dict{Int64, Int64} with 10 entries:
  5  => 25
  4  => 16
  6  => 36
  7  => 49
  2  => 4
  10 => 100
  9  => 81
  8  => 64
  3  => 9
  1  => 1

### 命名元组 `NamedTuple`

可以简单理解成不可变的字典类型

In [73]:
d = (
    x = "first item",
    y = "second item"
)

(x = "first item", y = "second item")

In [74]:
d[:x]

"first item"

或者更常用的方式是

In [75]:
d.x

"first item"

同样的，`NamedTuple` 中每一项的类型是单独确定的

In [76]:
typeof(d)

NamedTuple{(:x, :y), Tuple{String, String}}

## 集合 `Set` 与集合操作

集合不包含重复元素

In [77]:
x = [1, 2, 3, 1, 2, 3]

6-element Vector{Int64}:
 1
 2
 3
 1
 2
 3

In [78]:
Set(x)

Set{Int64} with 3 elements:
  2
  3
  1

In [79]:
x = [1, 2, 3]
y = [2, 3, 4]
@show setdiff(x, y)
@show union(x, y)
@show intersect(x, y)

setdiff(x, y) = [1]
union(x, y) = [1, 2, 3, 4]
intersect(x, y) = [2, 3]


2-element Vector{Int64}:
 2
 3