<font face="微软雅黑" color=green size=5>Julia基础Ⅰ</font>

# Julia程序语言介绍

Julia程序语言是一种计算机编程语言， 就像C、C++、Fortran、Java、R、Python、Matlab等程序语言一样。 Julia语言历史比较短，发布于**2012**年， 是MIT的几位作者（Jeff Bezanson, Stefan Karpinski, Viral Shah, Alan Edelman）和全世界的参与者共同制作的。 主网站在https://julialang.org/。

Julia与R、Python等一样是动态类型语言， 程序与R、Python一样简单， 但是它先进的设计使得Julia程序的效率基本达到和C、Fortran等强类型语言同样的高效率。 尤其适用于数值计算，在现今的大数据应用中也是特别合适的语言， 排在Python、R之后，已经获得广泛的关注， 现在用户较少只是因为历史还太短。

注意， Julia使用即时编译技术， 用**LLVM虚拟机**执行， 这使得其程序在初次运行时好像与R、Python这些动态语言相比响应很慢， 这其实是在进行即时编译， 用编译的等待换取运行时的高效率， 对于不能向量化程序中Julia可以比R、Python这些动态语言快一个数量级。

julia的代码文件后缀名为“jl”

In [1]:
VERSION

v"1.7.1"

# Jupyter笔记本软件的安装和使用

基于Anaconda 3的Jupyter软件安装方法如下：

在安装Julia软件之前先安装Anaconda3， 从Anaconda3的程序组中启动Jupyter笔记本软件， 就已经可以支持Python语言的笔记本。

然后安装Julia的命令行程序。

为了在Julia中安装对已有的Anaconda3中的Jupyter软件的支持， 在anaconda命令行用如下where命令找到python和jupyter软件的安装位置：

其中user是用户在操作系统中的用户名。

在Julia中，先设置Python和Jupyter的位置，然后安装和构建IJulia：

如果中间出错，可以运行

安装好IJulia以后， 可以从操作系统启动按钮的Anaconda3程序组中启动Jupyter， Jupyter会自动显示在系统默认网络浏览器中（最好是Chrome浏览器）。

# REPL使用

在Julia模式REPL模式下，有多种模式：


- help模式：按?进入help模式，可以查看各种帮助文档，相当于执行@doc 命令；  
- shell模式：按;进入shell模式，可以执行linux命令；  
- package模式：按]进入package模式，可以增加删除各种库；  
- 按backspace键返回正常的Julia模式。

+ import Pkg; Pkg.status() —— 查看已经安装的包（方法一）  

- import Pkg; Pkg.installed() —— 查看已经安装的包（方法二） 

- import Pkg; Pkg.update() —— 更新已经安装的包  

- import Pkg; Pkg.add(“包的名字”) —— 安装在官方上已经注册的包  

- import Pkg; Pkg.rm("包的名字") —— 删除已经安装的包  

- import Pkg; Pkg.test("包的名字") —— 测试已经安装的包

- import Pkg; Pkg.precompile() —— 编译已经安装的包

- using 包的名字 —— 使用已经安装的包 

- add包的名字@版本号 —— 安装固定版本的包 

# Julia的基本数据和相应运算

## 整数与浮点数

Julia程序中的整数值可以直接写成如123或者-123这样。 虽然整数有多种类型， 一般程序中不必特别关心整数常量的具体类型。 Julia允许使用特别长的整数，这时其类型为BigInt。

Julia的浮点数可以写成带点的形式如123.0, 1.23, 也可以写成带有10的幂次如1.23e3(表示 1.23×103 ), 1.23e-3(表示 1.23×10−3 )。 这些写法都属于Float64类型的浮点数。 Julia还有其他类型的浮点数，但是科学计算中主要使用Float64类型， 在别的语言中这称为双精度浮点数。

Julia还提供了任意精度整数BigInt与任意精度浮点数BigFloat。

布尔类型Bool只有两个值：true和false。

## 四则运算

表示加、减、乘、除、乘方的运算符分别为：

    +  -   *  /  ^
浮点数的四则运算遵循传统的算数运算规则和优先级规定。 用圆括号改变优先级。如

In [2]:
(1.3 + 2.5)*2.0 - 3.6/1.2 + 1.2^2

6.039999999999999

## 整数的四则运算

整数加法、减法、乘法结果仍为整数， 这样因为整数的表示范围有限，有可能发生溢出。 如

In [3]:
10 + 2*3 - 3*4

4

整数用“/”作的除法总是返回浮点数，即使结果是整数也是一样：

In [4]:
10/2

5.0

求整数除法的商，用÷运算符, 如

In [5]:
5÷3

1

其中÷的输入方法是在命令行中输入\div后按TAB键。 这种方法可以输入许多数学符号， 如α(alpha)，π(pi)，∑(sum)，等等。

整数用a % b表示a整除b的余数，结果符号总是取a的符号。如

In [6]:
10 % 3

1

整数与浮点数的混合运算会将整数转换成浮点数再计算。

## 数学函数

和其它科学计算语言类似， Julia也支持常见的数学函数， 如log, exp, sqrt, sin, cos, tan等。

**round(x)将x四舍五入为整数， round(x, digits=2)将x四舍五入到两位小数。 floor(x)求小于等于x的最大整数（向下取整）， ceil(x)求大于等于x的最小整数（向上取整）**。

## 字符串

**单个字符在两边用单撇号界定**，如'A'，'囧'。 字符都是用Unicode编码存储，具体使用UTF-8编码。 每个字符可能使用1到4个字节表示。 字符的类型为Char， 自定义函数中的字符参数可声明为AbstractChar。

**零到多个字符组成字符串， 程序中的字符串在两边用双撇号界定**，如 "A cat"，"泰囧"。 字符串数据类型名称为String， 自定义函数中的字符串参数可声明为AbstractString。

**对于占据多行的字符串， 可以在两侧分别用三个双撇号界定**。如

In [7]:
"""
这是第一行
这是第二行
三个双撇号界定的字符串中间的单个双撇号"不需要转义
"""

"这是第一行\n这是第二行\n三个双撇号界定的字符串中间的单个双撇号\"不需要转义\n"

注意多行内容的首行不需要紧挨着写在开头的三个双撇号后面同一行内。

字符串属于不可修改类型(immutable)， 即不能直接修改字符串的内容， 但可以给保存了字符串的变量赋值为一个新的字符串。

用**星号“*”连接两个字符串，也可以将字符连接成字符串**，如

In [8]:
'#' * "这是" * "美好的一天" * "。"

"#这是美好的一天。"

## 符号类型

首先 什么是符号（Symbols ）？答案是能够将自定义的语言代码表示为语言本身的数据结构。

In [9]:
foo == "foo"

LoadError: UndefVarError: foo not defined

符号和字符串之间的区别是左边的foo和右边的“foo”之间的区别。在左边，foo是一个标识符，它的计算结果是当前作用域中绑定到变量foo的值(可以是赋值、函数调用 、可以写成文本值的表达式 等等)。在右边，“foo”是一个字符串文本，它的计算结果是字符串值“foo”。

In [10]:
eval(:foo)

LoadError: UndefVarError: foo not defined

In [11]:
foo = "hello"

"hello"

In [12]:
eval(:foo)

"hello"

In [13]:
eval("foo")

"foo"

符号foo的计算结果取决于绑定到变量foo的对象（如果有,可以是赋值、函数调用 、可以写成文本值的表达式 等等），而“foo”的计算结果总是“foo”。 **如果你想在Julia中构造使用变量的表达式，那么你使用的就是符号**，例如：  

In [14]:
foo = "hello"
sym = :foo #将foo声明成符号类型，并赋予初始值hello
eval(sym) #eval()函数用于输出表达式的值

"hello"

In [15]:
ex = :($sym = "bar"; 1 + 2) #foo被重新赋值
eval(ex)

3

In [16]:
foo #重新赋值后的结果

"bar"

In [17]:
sym = "foo"
ex = :($sym = "bar"; 1 + 2)
eval(ex) #不会起作用，"foo" != "bar"

LoadError: syntax: invalid assignment location ""foo""

不起作用的作用的原因很清楚，比如你试图手动分配“foo”=“bar”，它也不会起作用。也就是说sym 必须被赋值为一个 Symbols 时，才会起作用。

这是符号（Symbols）的本质：符号用于表示元编程中的变量。当然，一旦将符号作为数据类型，就很容易将它们用作其他用途，例如散列键。

### 冒号:的用法

在 julia 中，只需**在关键字前放置冒号即可写入符号**。

In [18]:
typeof(:sym) #变量sym被声明成了符号类型

Symbol

# 变量

变量名是一个标识符， 用来指向某个值在计算机内存中的存储位置。 变量名可以用英文大小写字母、下划线、数字、允许的Unicode字符， 区分大小写。 **变量名不允许使用空格、句点以及其它标点符号和井号之类的特殊字符**。

为兼容性起见，尽可能不要用汉字作为变量名。 **变量名主要使用小写字母、数字和下划线构成， 两个英文单词之间可以用下划线连接**， 如total_number， 也可以在单词之间使用开头字母大写来区分单词， 如totalNumber， 第一个单词仍全部用小写。

给变量赋值，即将变量名与一个内存中的内容联系起来，也称为绑定（binding）， 使用等号“=”，等号左边写变量名，右边写要保存到变量中的值。如

In [19]:
x = 123

123

In [20]:
y = 1+3/2

2.5

In [21]:
addr10086 = "北京市海淀区颐和园路5号"

"北京市海淀区颐和园路5号"

变量的类型是由它保存的（指向的内存中的）值的类型决定的， **不需要说明变量类型**（Julia允许说明变量类型，但一般不需要）。

变量赋值后，就可以参与运算，如：

In [22]:
x = 123
y = 1+3/2
x + y*2

128.0

变量名前面紧挨着数字表示相乘，如

In [23]:
x + 2y

128.0

赋值还有一种计算修改简写方式， 即将变量值进行四则运算后保存回原变量， 格式为x op= expr， 其中op是某种四则运算， 这等价于x = x op expr， 如：

In [24]:
x = 123
x += 100
x

223

# 比较和逻辑运算

## 比较运算

两个数值之间用如下的比较运算符进行比较：

==   !=   <   <=   >   >=
分别表示等于、不等于、小于、小于等于、大于、大于等于。 要特别注意“等于”比较用两个等号表示。

比较的结果是true(真值)或者false(假值)。 结果类型为布尔型（Bool）。

如

In [25]:
1 == 1.0

true

In [26]:
2 != 2.0001

true

In [27]:
3.5 > -1

true

In [28]:
3.5 < -1.5

false

In [29]:
-3.5 >= 1.2

false

In [30]:
-3.5 <= 1.2

true

两个字符串之间也可以比较， 比较时按字典序比较， 两个字符的次序按照其Unicode编码值比较。如

In [31]:
"abc" == "ABC"

false

In [32]:
"ab" < "abc"

true

In [33]:
"陕西省" == "山西省"

false

## 逻辑运算

比较通常有变量参与。如

In [34]:
age = 35; sex="F"
age < 18

false

In [35]:
sex == "F"

true

有时需要构造复合的条件， 如“年龄不足18岁且性别为女”， “年龄在18岁以上或者性别为男”等。

用&&表示要求两个条件同时成立， 用||表示只要两个条件之一成立则结果为真， 用!cond表示cond的反面。 如

In [36]:
age < 18 && sex == "F"

false

In [37]:
age >= 18 || sex == "M"

true

# 简单的输出

## println()用法

在Julia命令行，键入变量名或者计算表达式直接在下面显示结果。 可以用println()函数显示指定的变量和结果。如

In [38]:
println(x + y*2)

228.0


**在println()中多个要输出的项用逗号分开。 两项之间没有默认的分隔， 如果需要分隔可以自己写在输出项中**。

In [39]:
println("x=", x, " y=", y, " x + y*2 =", x+y*2)

x=223 y=2.5 x + y*2 =228.0


**println()函数输出会将后续输出设置到下一行， 而print()函数与println()类似但是将后续输出设置在当前行**。

在命令行运行时， 表达式的值自动显示。 在表达式末尾用分号结尾表示不要显示该表达式的结果。

在用include()命令执行整个脚本文件时， 每个表达式的结果默认不自动显示。

## $的用法

**字符串中可以用\\$变量名或\$(表达式)的格式插入变量或表达式的值**。例如

In [40]:
name="John"
"My name is $name"

"My name is John"

In [41]:
"100$(name)999"

"100John999"

# 向量

Julia的向量实际是一维数组。 在程序中直接定义一个向量， 只要用方括号内写多个逗号分隔的数值，如

In [42]:
v1 = [1, 3, 4, 9, 13]

5-element Vector{Int64}:
  1
  3
  4
  9
 13

In [43]:
v2 = [1.5, 3, 4, 9.12]

4-element Vector{Float64}:
 1.5
 3.0
 4.0
 9.12

其中v1是整数型的向量， v2是浮点型Float64的向量。

用length(x)求向量x的元素个数，如

In [44]:
length(v1)

5

可以用1:5定义一个范围， 在仅使用其中的元素值而不改写时作用与[1, 2, 3, 4, 5]类似。 1:2:9定义带有步长的范围，表示的值与[1, 3, 5, 7, 9]类似。 范围只需要存储必要的开始、结束、步长信息， 所以更节省空间， 但是不能对其元素进行修改。

In [45]:
1:5

1:5

In [46]:
1:2:9

1:2:9

范围不是向量，**用collect()函数可以将范围转换成向量**，如：

In [3]:
collect(1:3:9)

3-element Vector{Int64}:
 1
 4
 7

## 向量下标

若x是向量，i是正整数， x[i]表示向量的第i个元素。 **第一个元素的下标为1，这种规定与R、FORTRAN语言相同， 但不同于Python、C、C++、JAVA语言**。 如

In [48]:
v1[2]

3

用**end**表示最后一个元素位置，如：

In [49]:
v1[end]

13

对元素赋值将在原地修改元素的值，如

In [50]:
v1[2] = -999
v1

5-element Vector{Int64}:
    1
 -999
    4
    9
   13

### 范围作为下标

下标可以是一个范围，如

In [51]:
v1[2:4]

3-element Vector{Int64}:
 -999
    4
    9

在这种范围中，用end表示最后一个下标，如

In [52]:
v1[4:end]

2-element Vector{Int64}:
  9
 13

In [53]:
v1[1:(end-1)] 

4-element Vector{Int64}:
    1
 -999
    4
    9

### 数组作为下标

向量的下标也可以是一个下标数组，如

In [54]:
v1[[1, 3, 5]]

3-element Vector{Int64}:
  1
  4
 13

取出的多个元素可以修改，可以用.=运算符赋值为同一个标量，如：

In [55]:
v1[1:3] .= 0
v1

5-element Vector{Int64}:
  0
  0
  0
  9
 13

也可以分别赋值，如

In [56]:
v1[[1, 3, 5]] = [101, 303, 505]
v1

5-element Vector{Int64}:
 101
   0
 303
   9
 505

## 向量与标量的运算

向量与一个标量作四则运算， 将运算符前面加句点“.”：

     .+   .-   .*   ./   .^
表示向量的**每个元素分别与该标量作四则运算， 结果仍是向量**。如

In [57]:
v1 = [1, 3, 4, 9, 13]
v1 .+ 100

5-element Vector{Int64}:
 101
 103
 104
 109
 113

In [58]:
100 .- v1

5-element Vector{Int64}:
 99
 97
 96
 91
 87

In [59]:
v1 .* 2

5-element Vector{Int64}:
  2
  6
  8
 18
 26

In [60]:
v1 ./ 10

5-element Vector{Float64}:
 0.1
 0.3
 0.4
 0.9
 1.3

In [61]:
v1 .^ 2

5-element Vector{Int64}:
   1
   9
  16
  81
 169

## 向量与向量的四则运算

两个等长的向量之间作加点的四则运算，表示对应元素作相应的运算。如

In [62]:
v1 = [1, 3, 4, 9, 13]
v3 = [2, 5, 6, 7, 10]
v1 .+ v3

5-element Vector{Int64}:
  3
  8
 10
 16
 23

**向量加减法也可以用不加点的运算符，但对应元素间乘除必须用加点的“.*”和“./”：**

In [63]:
v1 + v3

5-element Vector{Int64}:
  3
  8
 10
 16
 23

In [64]:
v1 - v3

5-element Vector{Int64}:
 -1
 -2
 -2
  2
  3

In [65]:
v1 .* v3

5-element Vector{Int64}:
   2
  15
  24
  63
 130

In [66]:
v1 ./ v3

5-element Vector{Float64}:
 0.5
 0.6
 0.6666666666666666
 1.2857142857142858
 1.3

## 向量的比较运算

两个标量之间可以进行如下的比较运算：

    ==   !=  =  <  <=  >  >=
向量每个元素与标量之间、两个向量对应元素之间比较， 只要在前面的比较运算符前面增加句点：

    .==  . !=  .<  .<=  .>  .>=
标量比较结果之间可以用&&表示“同时成立”, ||表示“至少其中之一成立”。 布尔型标量与向量、向量之间可以用.&表示元素间“与”， .|表示元素间“或”。

## 向量初始化

用zeros(n)可以生成元素类型为Float64、元素值为0、长度为n的向量，如

In [67]:
zeros(3)

3-element Vector{Float64}:
 0.0
 0.0
 0.0

用zeros(Int64, 3)可以生成指定类型的（这里是Int64）初始化向量。如

In [68]:
zeros(Int64, 3)

3-element Vector{Int64}:
 0
 0
 0

用Vector{Float64}(undef, n)可以生成元素类型为Float64的长度为n的向量， 元素值未初始化，如

In [69]:
Vector{Float64}(undef, 3)

3-element Vector{Float64}:
 0.0
 2.0e-323
 5.4365532167065e-311

类似可以生成其它元素类型的元素值未初始化向量，如

In [70]:
Vector{Int}(undef, 3)

3-element Vector{Int64}:
 1
 0
 1

用这样的办法为向量分配存储空间后可以随后再填入元素值。

可以用collect()将一个范围转换成可修改的向量。

## 向量的循环遍历

**可以用for循环和eachindex()对向量的每个元素下标遍历访问**。 使用in关键字，格式如

In [71]:
for i in eachindex(v1)
  println("v1[", i, "] = ", v1[i])
end

v1[1] = 1
v1[2] = 3
v1[3] = 4
v1[4] = 9
v1[5] = 13


这里i是循环产生的向量下标。

也可以直接写下标范围，使用“=”或者in，如：

In [72]:
for i = 1:length(v1)
    println("v1[", i, "] = ", v1[i])
end

v1[1] = 1
v1[2] = 3
v1[3] = 4
v1[4] = 9
v1[5] = 13


也可以不利用下标而是直接对元素遍历，如

In [73]:
for xi in v1
    println(xi)
end

1
3
4
9
13


## 向量的输出

在脚本文件中， 为了显示某个向量， 可以用**show()** 函数， 比如，设v2 = [1.5, 3, 4, 9.12]：

In [74]:
v2 = [1.5, 3, 4, 9.12]
show(v2)

[1.5, 3.0, 4.0, 9.12]

为了将向量v2按文本格式保存到文件“tmp1.txt”中， 可用：
  
using DelimitedFiles  
writedlm("tmp1.txt", v2, ' ')  
结果文件中每个数占一行。

## 向量的输入

假设文件“vecstore.txt”中包含如下的内容：

1.2 -5  3.6  
7.8 9.12 4.11  
可以用如下代码将文件中的数据读入到一个向量v4中：
  
using DelimitedFiles  
v4 = readdlm("vecstore.txt")[:]; v4

## 向量类型的变量

由于Julia的变量仅仅是向实际存储空间的绑定， 所以两个变量可以绑定到同一个向量的存储空间， 修改了其中一个变量的元素值，则另一个变量的元素也被修改了。 如

In [75]:
x1 = [1,2,3]
x2 = x1
x2[2] = 100
x1

3-element Vector{Int64}:
   1
 100
   3

用===可以比较两个变量是否同一对象， 如：

In [76]:
x2 === x1

true

允许两个变量指向同一个对象是有用的， 尤其在函数自变量传递时， 但是在一般程序中这种作法容易引起混淆。 向量（或者数组）作为函数自变量时， 调用函数时传递的是引用， 在函数内可以修改传递进来的向量的元素值。

**如果需要制作数组的副本， 用copy()函数**。 如

In [77]:
x1 = [1,2,3]
x2 = copy(x1)
x2[2] = -100
x1

3-element Vector{Int64}:
 1
 2
 3

In [78]:
x2 === x1

false

## 向量的有关函数

若x是向量， sum(x)求各个元素的和， prod(x)求各个元素的乘积。

rand(n)可以用来生成n个标准均匀分布的随机数， 结果为双精度向量。 randn(n)可以用来生成n个标准正态分布的随机数， 结果为双精度向量。

为了判断元素x是否属于数组v，可以用表达式x in v判断， 结果为布尔值。

若v是向量，x是一个元素， **push!(v, x)修改向量v， 将x添加到向量v的末尾**。

 **函数名以叹号结尾时此函数会修改其第一个自变量**。 如

In [79]:
v3 = [2,3,5]
push!(v3, 7)
v3

4-element Vector{Int64}:
 2
 3
 5
 7

若v是向量，u也是一个向量， **append!(v, u)修改向量v， 将u的所有元素添加到向量v的末尾**。 如

In [80]:
v3 = [2,3,5]
append!(v3, [7,11])
v3

5-element Vector{Int64}:
  2
  3
  5
  7
 11

**pop!(v)** 可以返回v的最后一个元素并从v中删除此元素。 popfirst!(v)类似。 **splice!(v, k)** 函数可以返回指定下标位置的元素并从v中删除此元素。 **insert!(v, k, xi)** 函数可以在向量v的指定下标插入指定的一个元素。

**sort(v)** 返回向量v按**升序**排序的结果； **sort!(v)** 直接修改v，将其元素按升序排序。 如果要用降序排序，可以加选项**rev=true**。 **sortperm(v)** 返回将v的元素从小到大排序所需要的**下标序列**， 在多个等长向量按照其中一个的次序同时排序时此函数有用。

## 向量化函数

许多现代的数据分析语言， 如Python, Matlab, R等都存在循环的效率比编译代码低一两个数量级的问题， 在这些语言中， 如果将对向量和矩阵元素的操作向量化， 即以向量和矩阵整体来执行计算， 就可以利用语言内建的向量化计算获得与编译代码相近的执行效率。

Julia语言依靠其LLVM动态编译功能， 对向量和矩阵元素循环时不损失效率， 用显式循环处理向量、矩阵与向量化做法效率相近， 有时显式循环效率更高。 但是，向量化计算的程序代码更简洁， 比如上面的两个向量之间的四则运算的加点格式。

**Julia中的函数， 包括自定义函数， 如果可以对单个标量执行， 将函数名加后缀句点后， 就可以变成向量化版本， 对向量和矩阵执行**。 如

In [81]:
sqrt.([1,2,3])

3-element Vector{Float64}:
 1.0
 1.4142135623730951
 1.7320508075688772

这种向量化对于多个自变量的函数也成立。

# 元组

与向量类似的一种数据类型称为元组（tuple）。 如

In [82]:
(1, 2, 3)

(1, 2, 3)

In [83]:
(1, "John", 5.1)

(1, "John", 5.1)

元组的元素不要求属于同一类型。

单个元素的元组要有逗号分隔符，如(1,)是单个元素的元组， 而(1)不是元组。

元组表面上类似于一维数组， 但是元组属于不可修改(immutable)类型， 不能修改其中的元素。 其存储也与数组不同。

可以用tuple()函数生成元组。 可以用类似一维数组的方法对元组取子集， 如x[1], x[2:3]等。 如：

In [84]:
x = ('a', 'b', 'c', 'd')
typeof(x)

NTuple{4, Char}

In [85]:
x[1]

'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)

In [86]:
x[2:3]

('b', 'c')

元组可以看作一个整体参加比较， 比较方法类似于字典序，如：

In [87]:
(1, 3, 5) < (1, 3, 6)

true

可以利用元组写法对变量同时赋值， 如

In [88]:
a, b = 13, 17
println("a=", a, " b=", b)

a=13 b=17


元组赋值的右侧也可以是数组等其它序列类型，如

In [89]:
a, b = [19, 23]
println("a=", a, " b=", b)

a=19 b=23


自定义函数可以返回元组， 从而返回多个值，见下面的自定义函数章节。

# 字典

Julia提供了一种Dict数据类型， 是映射的集合， 每个元素是从一个“键值”到另一个“值”的映射， 元素之间没有固定次序。如

In [90]:
d = Dict("name" => "Li Ming", "age" => 18)

Dict{String, Any} with 2 entries:
  "name" => "Li Ming"
  "age"  => 18

访问单个元素如

In [91]:
d["age"]

18

这种功能类似于R语言中用元素名作为下标, 但R中还可以用序号访问元素， 而字典中的元素没有次序，不能用序号访问。

读取字典中单个键的对应值也可以用**get(d, key, default)** 的格式， 其中**default是元素不存在时的返回值**。如：

In [92]:
get(d, "age", "")

18

可以用**haskey(d, key)** 检查某个键值是否存在，如：

In [93]:
haskey(d, "gender")

false

给不存在的键值赋值就可以增加一对映射，如

In [94]:
d["gender"] = "Male"

"Male"

也可以用**二元组的数组作为初值定义字典**，如

In [95]:
d2orig = [('a', 1), ('b', 2), ('c', 3), ('d', 4)]
d2 = Dict(d2orig)

Dict{Char, Int64} with 4 entries:
  'a' => 1
  'c' => 3
  'd' => 4
  'b' => 2

**delete!(d, key)** 可以删除指定的键值对。 **get!(d, key, default)** 可以在指定键值不存在时用default值填入该键值， 已存在时就不做修改， 两种情况下都返回新填入或原有的键对应的值。

可以用**keys()函数遍历各个键**，次序不确定：

In [96]:
for k in keys(d2)
    println(k)
end

a
c
d
b


字典存储并没有固定的存储次序。 为了在遍历时按键值的次序， 需要使用如下的效率较低的方法：

In [97]:
for k in sort(collect(keys(d2)))
    println(k, " => ", d2[k])
end

a => 1
b => 2
c => 3
d => 4


可以用**values()遍历各个值**，但也没有固定次序。比如

In [98]:
for k in values(d2)
    println(k)
end

1
3
4
2


In [99]:
collect(values(d2))

4-element Vector{Int64}:
 1
 3
 4
 2

可以直接用**二元组对字典遍历**，如

In [100]:
for (k,v) in d2
    println(k, " => ", v)
end

a => 1
c => 3
d => 4
b => 2


查找某个键值或者值是否存在用in运算， 这比在数组中查找要高效， 因为字典的基础是杂凑表(hash table)， 其查找时间不随元素个数增加而增加。 如：

In [101]:
"age" in keys(d)

true

In [102]:
19 in values(d)

false

字典的键值可以是字符串、整数值、浮点数值， 还可以是元组， 不允许取数组这样的可变类型（mutable）。

可以在生成字典时指定键值和值的数据类型， 格式为Dict{S, T}(...)。如：

In [103]:
Dict{String, Int64}("apple" => 1, "pear" => 2, "orange" => 3)

Dict{String, Int64} with 3 entries:
  "pear"   => 2
  "orange" => 3
  "apple"  => 1

元组是可以命名的， 这使得其在一定程度上类似于字典。 如

In [104]:
tn1 = (name="John", age=32)
tn1[:name]

"John"

但是要注意**有名元组用变量名访问时用的是符号(Symbol)， 即不写成字符串的变量名前面有冒号**。

## 字典应用：频数表

在基本的描述统计中， 经常需要对某个离散取值的变量计算其频数表， 即每个不同值出现的次数。 如果不利用字典类型， 可以先找到所有的不同值， 将每个值与一个序号对应， 然后建立一个一维数组计数， 每个数组元素与一个变量值对应。

利用字典， 我们不需要预先找到所有不同值，而是直接用字典计数， 每个键值是一个不同的变量值， 每个值是一个计数值。 如

In [105]:
sex = ["F", "M", "M", "F", "M"]
freqs = Dict()
for xi in sex
    if xi in keys(freqs)
        freqs[xi] += 1
    else
        freqs[xi] = 1
    end
end
freqs

Dict{Any, Any} with 2 entries:
  "M" => 3
  "F" => 2

对字典可以用get()函数提取某个键值对应的值， 并在键值不存在时返回指定的缺省值。 这样，上面的例子可以简化写成：

In [106]:
sex = ["F", "M", "M", "F", "M"]
freqs = Dict()
for xi in sex
    freqs[xi] = get(freqs, xi, 0) + 1
end
freqs

Dict{Any, Any} with 2 entries:
  "M" => 3
  "F" => 2

# 集合类型

Julia中Set是集合类型。 用Set()生成一个集合，如Set(1:3), Set(['a', 'b', 'c'])。 支持集合的常见运算， union(), intersect(), setdiff(), symdiff(), issetequal(), issubset()。 子集关系也可以用运算符⊆, ⊇, ⊈, ⊈表示。 属于关系用in, ∈，∋，∉, ∌表示。

对数组x, **unique(x)** 返回由x的不同元素组成的数组。

# 矩阵和数组

前面讲的向量当元素类型相同时可以看作一维数组，不区分行向量还是列向量， 在参与矩阵运算时看作列向量。

矩阵是二维数组，有两个下标：行下标和列下标。

数组(Array)是Julia中的数据类型， 有一维、二维、多维等， 区别在于引用一个元素时所用下标个数， 数组中的元素属于相同的基本类型， 比如， 元素类型都是Int64， 都是Float64， 都是String， 等等。

**为了在程序中直接输入一个矩阵， 可以在方括号内两个同行的元素之间用空格分隔， 两行之间用分号分隔**，如

In [107]:
A1 = [1 2 3; 4 5 6]

2×3 Matrix{Int64}:
 1  2  3
 4  5  6

注意结果显示这是一个2×3 Array{Int64,2}， 即一个两行三列的元素都是Int64类型的二维数组。

**对矩阵x，size(x,1)返回行数，size(x,2)返回列数**。如

In [108]:
println("(", size(A1, 1), ", ", size(A1, 2), ")")

(2, 3)


输入行向量的例子：

In [109]:
[1 2 3]

1×3 Matrix{Int64}:
 1  2  3

**Julia将一维向量看作列向量**。所以，如下的用分号分隔的输入列向量的程序得到的是一维数组：

In [110]:
[1; 2; 3]

3-element Vector{Int64}:
 1
 2
 3

## 矩阵下标

设A是矩阵，则A[i,j]表示A的第i行第j列元素，如:

In [111]:
A1[2,3]

6

给元素赋值可以在矩阵中修改元素值，如：

In [112]:
A1[2,3] = -6
A1

2×3 Matrix{Int64}:
 1  2   3
 4  5  -6

### 矩阵列和行

设A是矩阵， 则A[:, j]表示A的第j列元素组成的向量（一维数组），如

In [113]:
A1[:, 2]

2-element Vector{Int64}:
 2
 5

A[i, :]表示A的第i行元素组成的向量（一维数组），如

In [114]:
A1[2, :]

3-element Vector{Int64}:
  4
  5
 -6

**取出后的列或者行不分行向量和列向量**。

### 子矩阵

如果A是矩阵，I和J是范围或者向量， 则A[I,J]表示A的行号在I中的行与列号在J中的列交叉所得的子矩阵，如

In [115]:
A1[1:2, 2:3]

2×2 Matrix{Int64}:
 2   3
 5  -6

**用冒号“:”作为行下标或列下标表示取该维的全部下标**。 如果取出的子矩阵仅有一行或者仅有一列， 则结果退化成一维数组， 不再是矩阵。

给子矩阵赋值为一个同样大小的子矩阵给对应元素赋值，如

In [116]:
A1[1:2, 2:3] = [102 103; 202 203]
A1

2×3 Matrix{Int64}:
 1  102  103
 4  202  203

## 矩阵初始化

用zeros(m, n)可以生成元素类型为Float64、元素值为0的 m×n 矩阵，如

In [117]:
zeros(2, 3)

2×3 Matrix{Float64}:
 0.0  0.0  0.0
 0.0  0.0  0.0

在用方括号格式生成向量或矩阵时， 可以在方括号前面写元素类型名称， 要求生成某种类型的数组。如：

In [118]:
Float64[1,3,5]

3-element Vector{Float64}:
 1.0
 3.0
 5.0

在上例中，如果不指定类型，结果将自动解析为Int64类型， 因为给出的元素值都是整数。

又如：

In [119]:
Float64[1 3 5; 2 4 6]

2×3 Matrix{Float64}:
 1.0  3.0  5.0
 2.0  4.0  6.0

用Array{Float64}(undef, m, n)可以生成元素类型为Float64的 m×n 矩阵， 元素值未初始化，如

In [120]:
Array{Float64}(undef, 2, 3)

2×3 Matrix{Float64}:
 6.36599e-314  1.0e-323  0.0
 1.6976e-313   0.0       0.0

类似可以生成其它元素类型的矩阵，如

In [121]:
Array{Int64}(undef, 2, 3)

2×3 Matrix{Int64}:
 0  -256     1
 1     1  -255

用这样的办法先为矩阵分配存储空间，然后可以再填入元素值。

Array{T}(undef, m, n, k[, ...])这种格式可以生成元素类型为T， 初始值无定义，维数和每一维的下标长度由undef后面的参数给出， 如Array{Char}(undef, 99)是元素为字符的长度为99的字符数组， 元素初值无定义。 Array{UInt8}(undef, 3, 2, 5)是元素类型为UInt8，  3×2×5 形状的三维数组， 可以看成是5个 3×2 矩阵， 元素初值无定义。

## 矩阵元素遍历

可以对行下标和列下标分别循环，行下标变化最快，如

In [122]:
A1 = [1 2 3; 4 5 6]

2×3 Matrix{Int64}:
 1  2  3
 4  5  6

In [123]:
for j = 1:size(A1,2), i = 1:size(A1,1)
  println("A1[", i, ", ", j, "] = ", A1[i, j])
end

A1[1, 1] = 1
A1[2, 1] = 4
A1[1, 2] = 2
A1[2, 2] = 5
A1[1, 3] = 3
A1[2, 3] = 6


In [124]:
for j = 1:size(A1,2)
    for i = 1:size(A1,1)
      println("A1[", i, ", ", j, "] = ", A1[i, j])
    end
end

A1[1, 1] = 1
A1[2, 1] = 4
A1[1, 2] = 2
A1[2, 2] = 5
A1[1, 3] = 3
A1[2, 3] = 6


之所以在两重循环时让行下标变化最快是因为矩阵的存储是按列存储的， 所以遍历时先遍历第一列的各个行，再遍历第二列的各个行，……，这样效率较高。 如果不考虑效率问题，也可以逐行遍历如下：

In [125]:
for i = 1:size(A1,1), j = 1:size(A1,2)
  println("A1[", i, ", ", j, "] = ", A1[i, j])
end

A1[1, 1] = 1
A1[1, 2] = 2
A1[1, 3] = 3
A1[2, 1] = 4
A1[2, 2] = 5
A1[2, 3] = 6


另一种办法是用类似于向量遍历的方法，如：

In [126]:
for i in eachindex(A1)
  println("A1[", i, "] = ", A1[i])
end

A1[1] = 1
A1[2] = 4
A1[3] = 2
A1[4] = 5
A1[5] = 3
A1[6] = 6


从上例可以看出**矩阵是按列存储的**。

## 矩阵读写

设当前目录中文件“vecstore.txt”中包含如下内容：

    1.2 -5  3.6
    7.8 9.12 4.11
将文件中的内容每一行看作矩阵的一行， 文件中保存了一个 2×3 矩阵。 读入方法如下:

    using DelimitedFiles
    Ain = readdlm("vecstore.txt"); Ain
考虑上面的Ain矩阵，为了将其按文本文件格式保存到“tmp2.txt”中， 用如下程序：

    writedlm("tmp2.txt", Ain, ' ')

## 矩阵与标量的四则运算

矩阵与一个标量之间用加点的四则运算符号进行运算， 与向量和标量之间的运算类似， 表示矩阵的每个元素和该变量的四则运算， 结果仍为矩阵。如

In [127]:
A1 = [1 2 3; 4 5 6]

2×3 Matrix{Int64}:
 1  2  3
 4  5  6

In [128]:
A1 .+ 100

2×3 Matrix{Int64}:
 101  102  103
 104  105  106

In [129]:
100 .- A1

2×3 Matrix{Int64}:
 99  98  97
 96  95  94

In [130]:
A1 .* 2

2×3 Matrix{Int64}:
 2   4   6
 8  10  12

In [131]:
A1 ./ 10

2×3 Matrix{Float64}:
 0.1  0.2  0.3
 0.4  0.5  0.6

In [132]:
A1 .^ 2

2×3 Matrix{Int64}:
  1   4   9
 16  25  36

## 两个矩阵之间的四则运算

两个同样大小的矩阵之间用加点的四则运算符号进行运算， 表示两个矩阵的对应元素的运算。如

In [133]:
A2 = A1 .* 100

2×3 Matrix{Int64}:
 100  200  300
 400  500  600

In [134]:
A1 .+ A2

2×3 Matrix{Int64}:
 101  202  303
 404  505  606

In [135]:
A2 .- A1

2×3 Matrix{Int64}:
  99  198  297
 396  495  594

In [136]:
A1 .* A2

2×3 Matrix{Int64}:
  100   400   900
 1600  2500  3600

In [137]:
A2 ./ A1

2×3 Matrix{Float64}:
 100.0  100.0  100.0
 100.0  100.0  100.0

矩阵加减也可以用不加点的运算符:

In [138]:
A1 + A2

2×3 Matrix{Int64}:
 101  202  303
 404  505  606

A1 - A2也可以。

但是， **A1 * A2表示矩阵乘法， A1 / A2表示解方程组或者最小二乘， 都不是对应元素间的运算**。

## 矩阵乘法

用A * B表示矩阵乘法。 如

In [139]:
A3 = [11 12; 21 22]

2×2 Matrix{Int64}:
 11  12
 21  22

In [140]:
A3 * A1

2×3 Matrix{Int64}:
  59   82  105
 109  152  195

一个矩阵与一个向量（一维数组）作矩阵乘法， 向量自动变成列向量，如:

In [141]:
A3 * [1, -1]

2-element Vector{Int64}:
 -1
 -1

注意结果是向量（一维数组），而不是 2×1 矩阵（二维数组）。

行向量可以直接表示成方括号内多个数值之间用空格分隔的格式，如

In [142]:
[1,  -1] * [1  -1]

2×2 Matrix{Int64}:
  1  -1
 -1   1

又如

In [143]:
[1  -1] * A3

1×2 Matrix{Int64}:
 -10  -10

注意结果是 1×2 矩阵，即行向量，而不是向量。 **向量是一维数组，行向量是二维数组**。

从以上例子可以看出在**矩阵运算中向量可以看成是列向量， 矩阵乘法结果如果是列向量，也会表示成向量（一维数组）**。

## 矩阵转置

用A’表示矩阵A的共轭转置，对实值矩阵就是转置。 如

In [144]:
A1

2×3 Matrix{Int64}:
 1  2  3
 4  5  6

In [145]:
A1'

3×2 adjoint(::Matrix{Int64}) with eltype Int64:
 1  4
 2  5
 3  6

**两个向量x和y的内积用LinearAlgebra包的dot(x, y)表示，结果为一个标量**。如

In [146]:
import LinearAlgebra
LinearAlgebra.dot([1, -1], [2, 3])

-1

## 矩阵合并

设A, B, C是矩阵， **[A B C]将三个矩阵横向合并**， 这等同于hcat(A, B, C)； **[A; B; C]将三个矩阵纵向合并**， 这等同于vcat(A, B, C)。

## 矩阵求逆和解线性方程组

inv(A)表示 $A^{-1}$ 。如

In [147]:
A4 = [1 3; 3 1]

2×2 Matrix{Int64}:
 1  3
 3  1

In [148]:
inv(A4)

2×2 Matrix{Float64}:
 -0.125   0.375
  0.375  -0.125

用A \ B表示 $A^{−1}B$ ， 当B是向量或者列向量时， 就是求解线性方程组 Ax=B 中的 x 。 如

In [149]:
A4 \ [-2, 2]

2-element Vector{Float64}:
  1.0
 -1.0

Julia提供了线性代数计算所需的一些函数， 有些在Base包中，有些则在LinearAlgebra包中。 参见LinearAlgebra包的文档。

# 字符串处理

## 字符串下标与遍历

**length()** 求字符串中字符个数， 每个汉字算一个字符。 **对字符串用下标访问，是按字节计算的**， 因为一个汉字可能占据多个字节， 所以有些下标位置能返回字符， 有些下标会出错。 如

In [150]:
s = "汉字123"
length(s)

5

In [151]:
s[1]

'汉': Unicode U+6C49 (category Lo: Letter, other)

In [152]:
s[2]

LoadError: StringIndexError: invalid index [2], valid nearby indices [1]=>'汉', [4]=>'字'

In [153]:
s[7]

'1': ASCII/Unicode U+0031 (category Nd: Number, decimal digit)

In [154]:
s[1:1]

"汉"

In [155]:
s[2:4]

LoadError: StringIndexError: invalid index [2], valid nearby indices [1]=>'汉', [4]=>'字'

这种设计是为了能够高效地访问字符串中的字符， 因为使用**UTF-8编码，每个字符所用字节个数可能会不同**。

**函数firstindex(s)返回s中第一个字符的下标， lastindex(s)返回s中最后一个字符的下标， thisind(s, i)返回字节i所在字符的开始字节位置， nextind(s, i)返回s中跟随在下标i后面的合法字符字节下标， prevtind(s, i)返回s中跟随在下标i前面的合法字符字节下标**。 如：

In [156]:
s[1]

'汉': Unicode U+6C49 (category Lo: Letter, other)

In [157]:
nextind(s, 1)

4

In [158]:
s[4]

'字': Unicode U+5B57 (category Lo: Letter, other)

对字符串s， **collect(s)可以将字符串s转换成一个字符数组**， 每个元素是字符串中的一个字符：

In [159]:
collect(s)

5-element Vector{Char}:
 '汉': Unicode U+6C49 (category Lo: Letter, other)
 '字': Unicode U+5B57 (category Lo: Letter, other)
 '1': ASCII/Unicode U+0031 (category Nd: Number, decimal digit)
 '2': ASCII/Unicode U+0032 (category Nd: Number, decimal digit)
 '3': ASCII/Unicode U+0033 (category Nd: Number, decimal digit)

In [160]:
collect(s)[1]

'汉': Unicode U+6C49 (category Lo: Letter, other)

对字符串中每个字符也可以用for循环遍历，如

In [161]:
for ch in "汉字123"
    println(ch)
end

汉
字
1
2
3


## 读写字符串

函数readlines(filename)指定一个输入的文本文件名， 将文件的各行读入为一个字符串数组， 每个元素保存一行，默认不带有换行标志

可以用如下方式对输入文件的每行循环：

In [162]:
for line in eachline(filename)
    ## 对line进行一些操作
end

LoadError: UndefVarError: filename not defined

Julia没有提供一个writelines()函数， 自定义及测试如下：

In [163]:
function writelines(lines::Array{AbstractString, 1}, filename::AbstractString)
    open(filename, "w") do io
        for line in lines
            println(io, line)
        end
    end
    return
end

lines = map(string, 1:3)
writelines(lines, "tmp1.txt")

LoadError: MethodError: no method matching writelines(::Vector{String}, ::String)
[0mClosest candidates are:
[0m  writelines([91m::Vector{AbstractString}[39m, ::AbstractString) at In[163]:1

## 字符串函数

Julia有很多与字符串处理的函数。 如length, sizeof, ^或repeat， lpad, rpad, strip, lstrip, rstrip, chop, chomp, uppercase, lowercase, titlecase, uppercasefirst, lowercasefirst, reverse。

**join(x, dlm)将字符串数组x的元素用指定的分隔符分隔后连接成一个长字符串**，如

In [164]:
join(["abc", "汉字", "1"], "-+-")

"abc-+-汉字-+-1"

collect(s)将字符串s转换成一个字符数组。

string(x)将数值x转换成字符串表示， string(x, y, z)将x, y, z都转换成字符串然后连接起来。 repr(x)将表达式x的值表示成字符串。 parse(Int64, s)将字符串s中的数值转换成整数类型， parse(Float64, s)将字符串s中的数值转换成Float64类型。

occursin(needle, haystack)(v1.0)返回needle是否出现在haystack中， 如

In [165]:
occursin("oar", "board")

true

startswith(s, prefix), endswith(s, suffix)检查字符串前缀和后缀。

**first(s, n), last(s, n)取出头或者尾部指定个数的字符**。

**split()函数将分隔的字符串拆分成字符串数组**，如

In [166]:
println(split("1, 2, 3", ","))

SubString{String}["1", " 2", " 3"]


## 字符串插值

在字符串中可以用\\$变量名或\$(表达式)的格式插入变量值或者表达式值。 如：

In [167]:
x = 123
"x = $x"

"x = 123"

In [168]:
"123 + 100 = $(123+100)"

"123 + 100 = 223"

## 正则表达式

Julia支持正则表达式功能。 Julia的正则表达式采用Perl规则。

正则表达式的写法对初学者比较困难， 这里不进行详细讲解， 读者可以找一本专门讲正则表达式的书， 或者其它编程语言中讲到正则表达式的书。 例如， 本文作者讲R语言的书中有一章讲文本处理， 其中比较详细地讲解了正则表达式的语法， 见： http://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/text.html

Julia中正则表达式模式字符串是双撇号界定的特殊字符串开始双撇号之前加r字母作为前缀， 还可以在字符串结尾的双撇号滞后增加一些表示选项的字母， 遵从Perl语言的约定， 如i表示不区分大小写， m表示行首和行尾的匹配是针对每一行进行的， s表示句点可以匹配换行符，等等。 比如，

pat=r"John"i
会不区分大小写地匹配John单词。

加了r前缀的正则表达式中的特殊字符\不需要写成两个， 如r"\w"就表示一个字母、数字、下划线， 而不是写成r"\\w"。

可以用Regex()函数将一个字符串型的表达式转换成正则表达式类型， 这样可以动态地构造正则表达式。

下面的正则表达式对电子邮箱地址进行简单地匹配：

In [169]:
pat = r".+@.+"
occursin(pat, "jason@abc.com")

true

occursin()仅返回是否匹配。 用match()函数返回匹配结果， 设结果为m， 则m.match()返回匹配的整个字符串， m.offset()返回匹配的开始字符下标， m.offsets()返回匹配的各个子模式的开始字符下标， m.captures()返回匹配的各个子模式。 如

In [170]:
pat = r"([a-zA-Z0-9_.]+)@([a-zA-Z0-9_.]+)"
m = match(pat, "==jason@abc.com==")
println(m.match)
println(m.offset)
println(m.offsets)
println(m.captures)

jason@abc.com
3
[3, 9]
Union{Nothing, SubString{String}}["jason", "abc.com"]


用findfirst找到某个模式首次出现, findlast找到某个模式最后一次出现， findnext找到某个模式在指定位置之后的首次出现， findprev找到某个模式在指定位置之前的首次出现。 返回值为匹配的字节位置范围。 如：

In [171]:
pat = r"([a-zA-Z0-9_.]+)@([a-zA-Z0-9_.]+)"
s = "张三：jason@abc.com; 李四: tom@bde.com"
findfirst(pat, s)

10:22

In [172]:
s[10:22]

"jason@abc.com"

In [173]:
findnext(pat, s, 23)

33:43

In [174]:
s[33:43]

"tom@bde.com"

In [175]:
findlast(".com", s)

40:43

replace()函数可以用来从字符串中替换某个指定的模式为另外的替换值， 替换字符串使用s前缀的字符串， 也可以用SubstitutionString()将一个字符串型表达式转换成替换字符串类型。

In [176]:
pat = r"([a-zA-Z0-9_.]+)@([a-zA-Z0-9_.]+)"
reppat = s"\1-nospam@\2"
replace("==jason@abc.com==", pat => reppat)

"==jason-nospam@abc.com=="

其中包含s前缀的字符串是替换字符串，其中的\1等的反斜杠不需要重复。

可以用eachmatch()函数提供对对多处匹配的循环。如

In [177]:
pat = r"\w+"
for imatch in eachmatch(pat, "It is raining.")
    println("\"$(imatch.match)\"")
end

"It"
"is"
"raining"


# Julia互操作性

## 文本文件读写

对文本文件， **readlines(filename)** 函数根据输入的文件名读入文件的各行为字符串数组， 每个元素是一行， 缺省不包含换行符。 用**read(filename, String)** 将整个文件读入为一个长字符串。**write(filename, lines)** 写入文件。

用**fh = open(filename)** 打开指定的文件用于读取， 这里fh称为一个文件句柄。 读取如readline(fh)。 用close(fh)关闭fh对应的文件。

用**fh = open(filename, "w")** 打开指定的文件用于输出， 写入如println(fh, "x = ", x)。 结束写入后用close(fh)关闭输出文件。

用**CSV.read("xx.csv", DataFrame)** 函数读取CSV文件
用**CSV.write("xx.csv", table)** 函数写入CSV文件，用using Tables Tables.table(x)将向量转为table格式

Julia 1.0中没有writelines()函数， 可以自定义如下的函数：

In [4]:
function writelines(filename, lines)
    open(filename, "w") do io
        for line in lines
            println(io, line)
        end
    end
    return
end

#fh = "C://Users//TR//Desktop//MLJ.txt"
#x = "lines"
#writelines(fh, x)
#close(fh)

writelines (generic function with 1 method)

In [1]:
# filename = joinpath(pwd(), "dist.txt")
# Distance = "euclidean"
# open(filename, "w") do io
#     print(io, Distance)
# end

filename文件路径，用//来衔接路径，lines要读的数据。

### DelimitedFiles

In [6]:
using DelimitedFiles #可以用来读写矩阵等

readlm(filename)读文件；writelm(filename,lines)写文件

### JLD2

In [7]:
using JLD2

jldopen(filename)读文件；write(filename,lines)写文件

### IOBuffer

## 文件和目录信息

文件保存在目录（directory）中。 用**pwd()** 返回当前的工作目录， 不给定具体路径的文件名默认在工作目录中。 用**cd(path)** 设定path为当前工作目录。

用**abspath(filename)** 求一个文件的绝对路径。 用**joinpath()** 将目录与文件连接成一个完整路径。

用**ispath(filename)** 判断每个文件或者目录是否存在。 用**isdir(filename)** 判断某个路径是否目录， 用**isfile(filename)** 判断某个路径是否文件。

用**readdir(path)** 返回指定目录的文件和子目录列表， 无path时对应当前工作目录。

用**mkdir()** 创建空目录及该目录的权限。

用**cp()** 将一个文件复制到另一个文件中，用**mv()** 将一个文件移动到其他路径或文件中。

## 从Julia调用Python

首先需要安装名为PyCall的包，它将用于将Python代码导入Julia中。如果需要调用python中的第三方库，则需要使用@pyimport宏，它允许我们调用第三方库。

In [179]:
using PyCall

In [180]:
@pyimport numpy as np
np.sin(120)

0.5806111842123143

# 程序控制结构

## 复合表达式

用begin ... end可以将多行的多个表达式组合起来当作一个表达式， **复合表达式的值是其中最后一个表达式的值**。 如

In [181]:
z = begin
  x = 1
  y = 2
  x + y
end
z

3

**多个表达式也可以用分号分隔后写在圆括号中，作为一个复合表达式**，如

In [182]:
z = (x = 1; y = 2; x + y)
z

3

## 短路与&&运算以及分支结构

**&& 是一种短路与运算， 表达式cond && expr 仅当cond为true时才计算（运行）expr**， 所以这种写法经常用作程序分支的简写： 条件cond为真时执行expr， 否则不执行。

比如，在计算x的平方根之前，先判断其非负：

In [183]:
x = -1.44
x < 0 && println("平方根计算：自变量定义域错误，x=", x)

平方根计算：自变量定义域错误，x=-1.44


## 短路或||运算以及分支结构

**||是一种短路或运算，表达式cond || expr 仅当cond为false时才计算（运行）expr**， 所以这种写法经常作为程序分支的缩写： 条件cond为假时才执行expr，否则不执行。

比如，求平方根时当自变量不为负时才计算平方根：

In [184]:
x < 0 || (y = sqrt(x))

true

## if–end结构

可以用if cond ... end结构在条件cond成立时才执行某些语句，如

In [185]:
x = 1.44
if x >= 0
  y = sqrt(x)
  println("√", x, " = ", y)
end

√1.44 = 1.2


注意条件不需要用括号包围，**结构以end语句结尾**。

## if–else–end结构

if cond ... else ... end结构当条件成立时执行第一个分支中的语句， 当条件不成立时执行第二个分支中的语句。 如

In [186]:
x = -1.44
if x >= 0
  y = sqrt(x)
  println("√", x, " = ", y)
else
  y = sqrt(-x)
  println("√", x, " = ", y, "i")
end

√-1.44 = 1.2i


## if-elseif-else-end结构

if cond1 ... elseif cond2 ... else ... end可以有多个分支， 有多个条件cond1, cond2, ……， 依次判断各个条件，那个条件成立就执行对应分支的语句， 所有条件都不成立则执行else分支的语句。 条件cond2隐含条件cond1不成立， cond3隐含cond1和cond2都不成立， 依此类推。 例如

In [187]:
age = 35
if age < 18
  println("未成年")
elseif age < 60
  println("中青年")
elseif age < 100
  println("老年")
else
  println("老寿星！")
end

中青年


## 三元运算符

可以用**cond ? expr1 : expr2**表示比较简单的两分支选择， 当cond成立时结果为expr1的结果， 当cond不成立时结果为expr2的结果。 如

In [188]:
x = -1.44
x >= 0 ? sqrt(x) : sqrt(-x)

1.2

## for循环

for循环一般是沿着某个范围进行计算或处理，格式如下：

        for loopvar = a:b
          expr1
          expr2
          ...
        end
其中loopvar是自己命名的循环变量名， for结构块内的语句（表达式）先对loopvar=a运行， 再对loopvar=a+1运行, 最后对loopvar=b运行，然后结束。 如

In [189]:
for i=1:3
  y = i^3
  println(i, "^3 = ", y)
end

1^3 = 1
2^3 = 8
3^3 = 27


范围也可以是1:2:9, 0:0.1:1这样的带有跨度（增量）的， **可以是倒数的如3:-1:1表示3, 2, 1，中间-1为步长**。

要小心的是，循环内的变量都是循环的局部变量， 比如上例中的i和y都是局部的， 退出循环后无法访问i和y的值。 循环内可以读取循环外部的变量值但是不能修改循环外部变量的值。

当循环在自定义函数内时， 可以读写循环外的变量， 但是循环变量以及循环内新定义的变量仍不能在退出循环后保留。

**在自定义函数之外使用循环外的变量时， 应该在循环开始处用global关键字声明该变量**。 如：

In [190]:
n = 5
p = 1
for i = 1:n
    global p
    p *= i
end
println(p)

120


Julia程序在Jupyter界面运行时， 可以用选项使得循环内的变量能够直接访问循环外的变量， 不需要global声明。 但是，为兼容性起见， 还是应该按语法要求加上global声明。

## 对向量元素循环

用**in**关键字，可以使得循环变量遍历某个向量的元素，如：

In [191]:
x = [2, 3, 5, 7, 11]
for i in x
  y = i^3
  println(i, "^3 = ", y)
end

2^3 = 8
3^3 = 27
5^3 = 125
7^3 = 343
11^3 = 1331


## 向量下标循环

设x是一个向量，上面的做法可以遍历x每个元素。 有时还需要按照向量的下标遍历，这时使用eachindex(x)，如

In [192]:
x = [2, 3, 5, 7, 11]
for i in eachindex(x)
  println("Prime No. ", i, " = ", x[i])
end

Prime No. 1 = 2
Prime No. 2 = 3
Prime No. 3 = 5
Prime No. 4 = 7
Prime No. 5 = 11


用**enumerate()可以对下标与值同时循环**，如

In [193]:
x = [2, 3, 5, 7, 11]
for (i, xi) in enumerate(x)
  println("Prime No. ", i, " = ", xi)
end

Prime No. 1 = 2
Prime No. 2 = 3
Prime No. 3 = 5
Prime No. 4 = 7
Prime No. 5 = 11


## 理解(Comprehension)

对向量的循环，经常可以表达成一种称为comprehension的语法（类似于python中的列表推导式）。 例如，为了生成1, 2, 3的立方的向量，可以写成

In [194]:
xcube = [i^3 for i=1:3]

3-element Vector{Int64}:
  1
  8
 27

对前5个素数作立方，可以写成

In [195]:
x = [2, 3, 5, 7, 11]
y = [z^3 for z in x]

5-element Vector{Int64}:
    8
   27
  125
  343
 1331

当然，这样的简单运算也可以用加点四则运算表示：

In [196]:
x = [2, 3, 5, 7, 11]
y = x .^ 3

5-element Vector{Int64}:
    8
   27
  125
  343
 1331

## 两重for循环

for循环可以嵌套，如

In [197]:
for i=1:9
  for j=1:i
    print(j, "×", i, " = ", i*j, "  ")
  end
  println()
end

1×1 = 1  
1×2 = 2  2×2 = 4  
1×3 = 3  2×3 = 6  3×3 = 9  
1×4 = 4  2×4 = 8  3×4 = 12  4×4 = 16  
1×5 = 5  2×5 = 10  3×5 = 15  4×5 = 20  5×5 = 25  
1×6 = 6  2×6 = 12  3×6 = 18  4×6 = 24  5×6 = 30  6×6 = 36  
1×7 = 7  2×7 = 14  3×7 = 21  4×7 = 28  5×7 = 35  6×7 = 42  7×7 = 49  
1×8 = 8  2×8 = 16  3×8 = 24  4×8 = 32  5×8 = 40  6×8 = 48  7×8 = 56  8×8 = 64  
1×9 = 9  2×9 = 18  3×9 = 27  4×9 = 36  5×9 = 45  6×9 = 54  7×9 = 63  8×9 = 72  9×9 = 81  


**这种两重循环可以简写为一个for语句，外层循环先写， 内层循环后写，中间用逗号分隔**。 如

In [198]:
for i=1:9, j=1:i
  print(j, "×", i, " = ", i*j, "  ")
  j==i && println()
end

1×1 = 1  
1×2 = 2  2×2 = 4  
1×3 = 3  2×3 = 6  3×3 = 9  
1×4 = 4  2×4 = 8  3×4 = 12  4×4 = 16  
1×5 = 5  2×5 = 10  3×5 = 15  4×5 = 20  5×5 = 25  
1×6 = 6  2×6 = 12  3×6 = 18  4×6 = 24  5×6 = 30  6×6 = 36  
1×7 = 7  2×7 = 14  3×7 = 21  4×7 = 28  5×7 = 35  6×7 = 42  7×7 = 49  
1×8 = 8  2×8 = 16  3×8 = 24  4×8 = 32  5×8 = 40  6×8 = 48  7×8 = 56  8×8 = 64  
1×9 = 9  2×9 = 18  3×9 = 27  4×9 = 36  5×9 = 45  6×9 = 54  7×9 = 63  8×9 = 72  9×9 = 81  


## 矩阵元素遍历

矩阵元素按照行列下标遍历，可以写成两重循环的形式。 **Julia的矩阵是按列存储的， 所以循环时先对第一列各个元素循环**， 再对第二列各个元素循环， ……，按这样的次序遍历是效率较高的。 如

In [199]:
A1 = [1 2 3; 
      4 5 6]
for j=1:3, i=1:2  #先列后行
  println("A1[", i, ", ", j, "] = ", A1[i,j])
end

A1[1, 1] = 1
A1[2, 1] = 4
A1[1, 2] = 2
A1[2, 2] = 5
A1[1, 3] = 3
A1[2, 3] = 6


for结构的两重循环中写在前面的是外层循环, 循环变量变化较慢， 写在后面的是内层循环，循环变量变化较快。 上例中列下标j写在前面，行下标i写在后面， 所以关于列的循环j是外层循环，关于行的循环i是内层循环， 这样的矩阵元素遍历方式是按列次序遍历。

## 矩阵的comprehension

**在方括号内用两重的循环变量遍历可以定义矩阵**。如

In [1]:
Ac = [i*100+j for i=1:2, j=1:3]

2×3 Matrix{Int64}:
 101  102  103
 201  202  203

这里写在前面的循环变量i对应于行下标， 写在后面的循环变量i对应于列下标。 执行时行下标i在内层循环，列下标j在外层循环。

这种格式也允许在方括号前写出要求的元素类型，如：

In [2]:
Float64[i*100+j for i=1:2, j=1:3]

2×3 Matrix{Float64}:
 101.0  102.0  103.0
 201.0  202.0  203.0

如下程序返回矩阵对角化的结果：

In [202]:
[(i==j ? Ac[i,i] : 0) for i=1:2, j=1:3]

2×3 Matrix{Int64}:
 101    0  0
   0  202  0

## while循环

for循环适用于对固定的元素或者下标的遍历， 在未预先知道具体循环次数时，需要使用当型循环循环或者直到型循环。

Julia中用**while cond ... end表示当型循环**， 在条件cond成立时执行结构内的语句， 直到cond不成立时不再循环。

这种循环一定要使得循环条件是在有限步内会成立的， 否则就产生无限循环，称为死循环，程序将无法终止。

与for循环类似， while循环内的变量也是局部的， 在非自定义函数内while循环访问外部变量时也要用global关键字声明。 如：

In [203]:
s = 1
i = 0
while i < 5
    global i, s
    i += 1
    s *= i 
end 
println(s)

120


### 例：随机数查找

设向量x中保存了许多[0,1]上的随机数， 依次查询直到找到第一个大于0.99的为止：

In [204]:
n = 1000
x = rand(n)
i = 1
while i <= n && x[i] <= 0.99
    global i
    i += 1
end
if i <= n
  println("i = ", i, " y = ", x[i])
else
  println("Not found!")
end

i = 38 y = 0.9923555879129766


## 直到型循环与break语句

当型循环每次进入循环之前判断循环条件是否成立， 成立才进入循环。

直到型循环每次先进入循环，在循环末尾判断循环退出条件是否满足， 满足退出条件时就不再循环。 Julia语言没有提供专门的直到型循环语法，可以用如下的方法制作直到型循环：

    while true
     expr1
     expr2
     ...
     cond && break
    end
其中cond是循环退出条件。**break语句表示退出当前循环**。

## continue语句

break语句可以在循环内退出当前所在的循环， 去继续执行当前所在循环后面的程序。 **continue语句不是退出整个循环， 而是中止当前一轮循环， 进入循环的下一轮**。 在for循环和while循环中都可以使用break语句和continue语句。 如：

In [205]:
for i = 1:5
    println(i)
    if i==3
        break
    end
    y = i*i 
    println(y)
end

1
1
2
4
3


In [206]:
for i = 1:5
    println(i)
    if i==3
        continue
    end
    y = i*i 
    println(y)
end

1
1
2
4
3
4
16
5
25


## 异常处理

只要是程序， 就难以避免会有出错的时候。 为了在程序出错的时候造成严重后果， 传统的办法是对程序增加许多判断， 确保输入和处理是处于合法和正常的状态。 这样的做法过于依赖于程序员的经验， 程序代码也过于繁复。

现代程序设计语言增加了“异常处理”功能。 程序出错时， 称为发生了异常(exception)， 编程时可以用专门的程序“捕获”这些异常， 并进行处理。 这并不能保证程序不出错， 而是出错时能得到及时的、不至于造成严重后果的处理。

Julia中捕获异常并处理的基本结构是：

try  
  可能出错的程序  
catch 异常类型变量名  
  异常处理程序  
end  

In [207]:
x = [2, -2, "a"]
for xi in x 
    try
        y = sqrt(xi)
        println("√", xi, " = ", y)
    catch ex 
        if isa(ex, DomainError)
            println("√", xi, ": 平方根函数定义域异常")
        else
            print("√", xi, ": 平方根函数其它异常")
        end
    end 
end

√2 = 1.4142135623730951
√-2: 平方根函数定义域异常
√a: 平方根函数其它异常

异常处理代码会降低程序效率， 一些常见错误还是应该使用逻辑判断预先排除。

throw()函数可以当场生成（称为“抛出”）一个异常对象， 如throw(DomainError())。 Julia中内建了一些异常类型， 详见Julia的手册。

error(msg)可以直接抛出ErrorException对象， 使得程序停止， 并显示给出的msg字符串的内容。

# 函数初步

Julia语言支持自定义函数。 在计算机程序语言中， 函数是代码模块化、代码复用的基础。 将常用的计算或者操作写成函数以后， 每次要进行这样的计算或者操作， 只要简单地调用函数即可。 将复杂的任务分解成一个个函数， 可以使得任务流程更加明晰， 任务的不同阶段之间减少互相干扰。

Julia用户需要了解的一点是， Julia利用一个叫做LLVM的即时编译(JIT)系统执行程序， Julia编译器先将程序编译为LLVM中间代码， LLVM再将中间代码转换成本地二进制代码执行， 这使得Julia程序运行效率可以与C++等强类型编译语言相比拟， 但这种做法使得Julia函数在第一次运行时产生额外的时间开销， 第二次运行时就没有额外开销了。 写成函数的Julia代码通常比没有写成函数的代码运行速度快很多， 因为函数的代码在编译时会进行许多优化， 而不写成函数的代码优化较少。

**Julia程序中， 用#表示本行后面的内容是注释， 不参与执行。 可以用#=开始一段注释，用=#结束注释**。

## 内建函数

Julia提供了许多内建函数，丰富了Julia基本库。

**typeof()** ：此函数主要用于显示传递给它的参数类型。  
**methods()** ：在用户想要知道自己定义的函数有几个相对应的可用方法时使用。  
**enumerate()** ：当需要遍历列表项，并在同一时间跟踪特定项目的索引位置时。  
**parse()** ：用于解析给定的字符串并返回一个表达式，它可以将一个字符串参数代表的值，解析为该值本身的数据类型。  
**maximum()** ：返回一个序列的最大值。  
**minimum()** ：返回一个序列的最小值。  
**size()** ：返回数组的大小。  

符号也可以当函数使用：

In [2]:
+(1,2,3)

6

In [3]:
f = +
f(1,2,3)

6

## 自定义函数的单行格式

In [208]:
f(x) = x^2 + 3*x + 1

f (generic function with 1 method)

In [209]:
f(2)

11

In [210]:
f(1.1)

5.510000000000001

## 自定义函数的多行格式

需要用多行才能完成的计算或者操作， 就需要写成多行的形式。格式如

         function funcname(x, y, z)
            ...
         end
其中funcname是函数名称， x, y, z等是自变量名， ...是函数内的语句或表达式， 定义以end关键字结尾， end也是许多其它程序块的结尾标志。 函数体内的语句（表达式）一般缩进2到4个空格对齐， 但不像Python那样是必须的， 缩进主要是为了程序的可读性。 函数以最后一个表达式为返回值（结果）， 也可以用**return**关键字指定返回值。 不需要返回值的函数可以返回特殊的**nothing**值。 nothing是类似R中的Null的值， 表示不存在。 Julia中用**missing**表示缺失值。

In [211]:
function mysd(x)
  n = length(x)
  mx = sum(x) / n
  s = 0.0
  for z in x
    s += (z - mx)^2
  end
  sqrt(s / (n-1))
end

mysd (generic function with 1 method)

调用如

In [212]:
mysd([1, 2, 3, 4, 5])

1.5811388300841898

事实上，上面的函数定义可以用向量化方法进行简化，如

In [213]:
function mysd_simple(x)
  n = length(x)
  mx = sum(x)/n
  sqrt( sum(x .- mx) / (n-1) )
end

mysd_simple (generic function with 1 method)

第二个版本x .- mx表示向量x每个元素与一个标量mx相减。 这样的做法在Julia中运行效率并不比第一个版本直接循环的效率更好， 甚至可能还不如第一个版本。 **Julia语言与R、Matlab等语言不同， 显式的循环一般有更高的执行效率， 向量化写法仅仅是可以使得程序比较简洁**。

## 可选参数(Optional argument)和关键词参数(Keyword arguments)

函数的某些参数可以在定义时指定缺省值， 称为可选参数， 在调用时可以省略这些参数。 比如：

In [214]:
f_quad(x, a=1, b=0, c=0) = a*x^2 + b*x + c

f_quad (generic function with 4 methods)

In [215]:
f_quad(1,2)

2

这样，调用f_quad(x)相当于f_quad(x, 1, 0, 0), f_quad(x, 2)相当于f_quad(x, 2, 0, 0), f_quad(x, 2, 4)相当于f_quad(x, 2, 4, 0)。 调用时总是假定最后的参数取缺省值而不能令中间的某个参数取缺省值而后续的参数取指定值， 所以f_quad(x, 2, 4)相当于f_quad(x, 2, 4, 0)。 不带缺省值的参数和带有缺省值的参数都称为按位置对应的参数(positional arguments)， **参数（称为虚参）与调用时的值（称为实参）按位置次序对应， 实参个数少于虚参个数时，缺少的必须是排在最后可选参数，按缺省值调用**。

另外一种带有缺省值的参数称为**关键字参数**， **在定义函数时这些参数必须写在分号的后面， 调用时必须使用“参数名=参数值”的格式输入实参值**， 而不允许按位置对应。 关键字参数一般是函数的一些选项， 调用函数时仅当需要使用与缺省选择不同的选项时才输入关键字参数的值。 例如：

In [216]:
function f_quad2(x, a=1, b=0, c=0; descending=true)
    if descending
        return a*x^2 + b*x + c
    else
        return c*x^2 + b*x + a
    end
end

f_quad2 (generic function with 4 methods)

则调用f_quad(x)相当于f_quad(x, 1, 0, 0)即x^2, 调用f_quad(x, descending=false)相当于f_quad(x, 0,0,1)即1。 调用时关键字参数与位置参数之间可以用分号分隔也可以用逗号分隔， 比如调用时f_quad(x, descending=false)和f_quad(x; descending=false)都可以。

可以定义有多个关键字参数的函数， 关键字参数与位置参数之间用分号分隔。

注意可选参数与关键字参数表面相似， 但是有本质差别：

关键字参数在定义时必须用分号与位置参数分隔；  
关键字参数在调用时，必须使用“变量名=变量值”的写法，次序不重要；  
所有位置参数，不论是有缺省值的还是没有缺省值的， 都不允许写成“变量名=变量值”的写法, 只能按位置对应， 省略时只能从后向前省略；  
Julia函数允许同一函数名根据不同的参数个数和类型（signature）而进行不同的操作， 每一个不同的参数组合称为一个“方法”， 这样的特性称为“多重派发”（multiple dispatch）， 这样的参数组合只考虑位置参数而不考虑关键字参数。

## 可变个数参数与元组实参

**在自定义函数的自变量名后面加上三个句点作为后缀，如args...， 则此函数可以有可变个数的位置参数， args为一个元组**。

如：

In [217]:
function f_vara1(x, args...)
    println("x=", x)
    println("其它参数：", args)
end
f_vara1(11, 1, 2, 3)

x=11
其它参数：(1, 2, 3)


有时需要传递给一个多自变量函数的实参保存在了一个变量中， 比如， 函数max()求各个自变量中最大值， 如

In [218]:
max(1, 3, 1, 4)

4

**如果要求最大值的数已经在一个元组或数组中如何利用max()求最大值？ 可以用“展开”（scatter）的方法将一个变量中的多个值展开成函数的自变量， 方法是在作为实参的自变量名后面加三个句点后缀**，如

In [219]:
x = [1, 3, 1, 4]
max(x...) #max(x)会报错

4

## 多返回值

函数的最后一个表达式为函数的返回值， 也可以用return y这样的方法返回值。

**如果需要返回多个值， 可以将多个值组成一个元组(tuple)返回， 通过这样的方式就可以返回多个结果**。 给元组赋值可以从结果中拆分出多个结果。 如

In [220]:
function summ(x)
  xm = sum(x) / length(x)
  xs = sum(x .^2) / length(x)
  return (xm, xs)
end
res1, res2 = summ([1, 2, 3, 4, 5]) #拆包
println(res1, ", ", res2)

3.0, 11.0


## 参数传递模式

Julia的参数传递是“共享传递”(pass by sharing)， 而不是按值传递，这样可以省去复制的开销。 **如果参数是可变(mutable)的数据类型，如数组， 则函数内修改了这些参数的值，传入的参数也会被修改**。

例如：

In [221]:
function double!(x)
    for i in eachindex(x)
        x[i] *= 2
    end
end
xx = [1, 2, 3]
double!(xx)
xx

3-element Vector{Int64}:
 2
 4
 6

**Julia函数的命名习惯是， 如果函数会修改其第一个自变量的值， 将函数名末尾加上一个叹号后缀**。

## 匿名函数

Julia的函数也是所谓“第一类对象”（first class objects）， 可以将函数本身绑定在一个变量上， 函数名并非必须， 允许有匿名函数。 **匿名函数在“函数式编程”(functional programming)范式中有重要作用**。

匿名函数格式是： **参数表 $->$返回值表达式, 其中参数表即自变量表， 没有自变量时参数表写()， 只有一个自变量时可以不写圆括号而只写自变量名， 有多个自变量时将自变量表写成一个元组格式**。

In [222]:
x -> x^2 + 1

#14 (generic function with 1 method)

匿名函数的另一种写法如

In [223]:
function (x)
    x^2 + 1
end

#16 (generic function with 1 method)

这样就产生了一个匿名函数。

匿名函数经常用在map(), filter()，reduce()这样的函数式编程函数中。

**map(f, x)将函数f应用到变量x的每个元素**，如：

In [224]:
map(x -> x^2 + 1, [1,2,3])

3-element Vector{Int64}:
  2
  5
 10

在调用map()函数时， 如果对每个元素执行的操作需要用多行代码完成， 用匿名函数就不太方便。 例如，对数组的每个元素， 负数映射到0， 大于100的数映射到100， 其它数值不变，用有名函数可以写成：

In [225]:
function fwins(x)
    if x < 0
        y = 0
    elseif x > 100
        y = 100
    else
        y = x
    end
    return y
end
fwins.([-1, 0, 80, 120]) #函数加点对向量执行,不加点会报错

4-element Vector{Int64}:
   0
   0
  80
 100

也可以写成map(fwins, [-1, 0, 80, 120])。 如果要用匿名函数的格式， Julia还提供了map函数的一种do块格式，如

In [226]:
map(fwins, [-1, 0, 80, 120])

4-element Vector{Int64}:
   0
   0
  80
 100

In [227]:
map([-1, 0, 80, 120]) do x
    if x < 0
        y = 0
    elseif x > 100
        y = 100
    else
        y = x
    end
    return y
end

4-element Vector{Int64}:
   0
   0
  80
 100

注意这样调用map()时圆括号中仅有要处理的数据， 要进行的操作写在do关键字后面， 操作写成了不带$->$符号的匿名函数格式。

**函数filter(f, x)中f是返回布尔值的函数， x是向量， filter(f, x)的结果是将f作用在x的每个元素上， 输出f的结果为真值的那些元素组成的数组**。如

In [228]:
filter(x -> x>0, [-2, 0, 1,2,3])

3-element Vector{Int64}:
 1
 2
 3

**reduce(f, x)中f是接受两个自变量的函数， 如加法、乘法，结果是将x中的元素用f反复按结合律计算结果**。 比如， 求x的元素和， 除了sum(x)函数， 也可以写成reduce(+, x)。

**map()、filter()、reduce()对非数值元素的数组也是适用的**。

In [229]:
reduce(+ , [1,2,3,4,5])

15

## 闭包

**可以在函数内定义内嵌函数并以此内嵌函数为函数返回值， 称这样的内嵌函数为闭包（closure）**。 闭包的好处是可以保存定义时的局部变量作为一部分， 产生“有状态的函数”， 类似于面向对象语言中的方法， 而Julia并不支持传统的面向对象语言中那样的类。

例如， 某个函数希望能记住被调用的次数。 传统的方法无法解决问题，比如下面的版本是无效的：

In [230]:
function counter_old()
    n = 0
    n = n+1
    return n
end
println(counter_old(), ", ", counter_old())

1, 1


可以用如下的闭包做法：

In [231]:
function make_counter()
    n = 0
    function counter()
        n += 1
        return n
    end
end
my_counter = make_counter()
typeof(my_counter)

var"#counter#24"

In [232]:
println(my_counter(), ", ", my_counter())

1, 2


## 递归调用

函数定义时允许调用自己， 这使得许多本质上是递推的计算程序变得很简单， 比如， $n!=n(n−1)! $， 用递归函数可以写成：

In [233]:
function myfact(n)
    if n==1
        return 1
    else
        return n*myfact(n-1)
    end
end
myfact(5)

120

再比如Fibonacci序列，  F0=0 ,  F1=1 ,  Fn=Fn−1+Fn−2 ， 前几个数是0, 1, 1, 2, 3, 5, 8, 13, 21, 34。 用递归调用写成

In [234]:
function myfib(n)
    if n==0
        return 0
    elseif n==1
        return 1
    else
        return myfib(n-1) + myfib(n-2)
    end
end
for n in 0:9
    println(n, ": ", myfib(n))
end

0: 0
1: 1
2: 1
3: 2
4: 3
5: 5
6: 8
7: 13
8: 21
9: 34


但是，这样的递归在反复调用自身以后效率会很低， 因为对每个 n 都要多次调用自变量为 0,1,2,… 的情形。 可以用闭包的方法将已有结果保存， 使得计算效率大大提高：

In [235]:
function makefib()
    saved = Dict(0=>0, 1=>1)
    function fib(n)
        if !(n in keys(saved))
            saved[n] = fib(n-1) + fib(n-2)
        end
        return saved[n]
    end
end
myfibnew = makefib()
for n in 0:9
    println(n, ": ", myfibnew(n))
end

0: 0
1: 1
2: 1
3: 2
4: 3
5: 5
6: 8
7: 13
8: 21
9: 34


这种方法也可以用来解决判断素数的问题。 可以用字典类型保存一个已经确认的素数表， 然后为了判断某个数是否素数， 先在已保存素数表中查找， 查找不到再用除法判断。 之所以用字典类型而不是数组类型保存素数表， 是因为数组类型的查找是线性查找而字典类型则为杂凑表查找， 效率更高。

# 模块

## 基础知识

前面的例子都是相当于在命令行直接运行的。 这样，变量和函数属于命令行对应的名字空间， 称为Main模块。 如果要写比较长的程序， 所有变量和函数都在同一个名字空间中就很容易发生名字冲突。

Julia使用模块来区分名字空间， 不同模块的同名变量、函数没有关系， 不会发生冲突。

在一个模块内， 可以有模块本身的全局变量， 不同模块的全局变量即使同名也没有关系。

一个简单的模块定义如：

In [9]:
module MyStat

push!(LOAD_PATH, ".")

export mean, rmse 

function mean(x)
  sum(x) / length(x)
end

function rmse(x)
  sqrt(sum(x .^2) / length(x))
end

end

Main.MyStat

有时因为Julia中未找到该模块的位置，会报错，我们可以手动添加进来，在程序的最开始，加上**push!(LOAD_PATH, ".")**，.表示当前工作目录，也可以把.换成绝对目录;也可以先用cd dir的命令切换到我们的模块的目录，再直接使用push!(LOAD_PATH, ".")，这样就可以正确的调用MyStat了。

**export**是将这两个函数导出来，这样using之后就可以直接使用mean和rmse函数，而不必非要使用MyStat.mean和MyStat.rmse

**调用一个模块中的全局变量或者函数时， 需要将模块用using或者import关键字引入到当前的名字空间中**。

using MyStat使得当前模块可以直接使用MyStat模块中用export声明过的函数，如

In [237]:
using .MyStat
rmse([1,2,3,4])

2.7386127875258306

**这里的.MyStat是表示找到MyStat模块定义就在当前环境中**。 using整个模块是比较不安全的做法， 这样会引入多个用户自己不一定了解的函数和全局变量进入当前模块， 建议慎用。

比较安全的方法是用using指定将模块中的哪些函数名导入到当前名字空间，如

In [238]:
using .MyStat: mean, rmse
rmse([1,2,3,4])

2.7386127875258306

注意**上面的冒号要紧跟着.MyStat，不能有空格隔开**。

可以用import声明导入单个的函数。如

In [239]:
import .MyStat.mean, .MyStat.rmse
rmse([1,2,3,4])

2.7386127875258306

也**可以用import仅导入模块名， 其中的函数需要用“模块名.函数名”的格式调用**。如

In [240]:
import .MyStat
MyStat.rmse([1,2,3,4])

2.7386127875258306

用import导入的函数都可以定义新方法， 但是如果仅导入了模块名， 则定义新方法时函数名还要用“模块名.函数名”的格式表示。

使用using导入的单个函数不能添加新的方法， 用using导入整个模块则可以为导入的的函数添加新的方法。

当一个模块的全局变量通过using或者import导入到当前模块后， 当前模块不允许存在同名的全局变量， 而且也只允许读取其它模块中的全局变量值而不允许对其进行修改。 

模块和文件并没有关系，一个模块可以有多个文件，一个文件也可以有多个模块，可以用**include()** 函数来表示。

一个模块多个文件

一个文件多个模块

在Julia中，Main，Core和Base是三个重要的模块。Main是最顶层的模块，我们打开REPL时就已经身在Main模块中了。Core这个名字起得就很核心了，是Julia语言的核心组成。Base是最基本的标准库。

## names()用法

In [241]:
?names #获取模块导出的名称数组，即获得模块中的函数列表

search: [0m[1mn[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22m[0m[1ms[22m field[0m[1mn[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22m[0m[1ms[22m property[0m[1mn[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22m[0m[1ms[22m [0m[1mn[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22m [0m[1mn[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22mof [0m[1mN[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22mdTuple @[0m[1mN[22m[0m[1ma[22m[0m[1mm[22m[0m[1me[22mdTuple



```
names(x::Module; all::Bool = false, imported::Bool = false)
```

Get an array of the names exported by a `Module`, excluding deprecated names. If `all` is true, then the list also includes non-exported names defined in the module, deprecated names, and compiler-generated names. If `imported` is true, then names explicitly imported from other modules are also included.

As a special case, all names defined in `Main` are considered "exported", since it is not idiomatic to explicitly export names from `Main`.

See also: [`@locals`](@ref Base.@locals), [`@__MODULE__`](@ref).


In [242]:
names(Main)

61-element Vector{Symbol}:
 :A1
 :A2
 :A3
 :A4
 :Ac
 :Base
 :Core
 :Main
 :MyStat
 :a
 :addr10086
 :age
 :b
 ⋮
 :tn1
 :v1
 :v2
 :v3
 :writelines
 :x
 :x1
 :x2
 :xcube
 :xx
 :y
 :z

In [243]:
names(Core)

102-element Vector{Symbol}:
 :<:
 :(===)
 :AbstractArray
 :AbstractChar
 :AbstractFloat
 :AbstractString
 :Any
 :ArgumentError
 :Array
 :AssertionError
 :Bool
 :BoundsError
 :Char
 ⋮
 :isdefined
 :modifyfield!
 :nfields
 :nothing
 :replacefield!
 :setfield!
 :swapfield!
 :throw
 :tuple
 :typeassert
 :typeof
 :undef

In [244]:
names(Base)

933-element Vector{Symbol}:
 :!
 :!=
 :!==
 :%
 :&
 Symbol("'")
 :*
 :+
 :-
 :/
 ://
 :(:)
 :<
 ⋮
 :≢
 :≤
 :≥
 :⊆
 :⊇
 :⊈
 :⊉
 :⊊
 :⊋
 :⊻
 :⊼
 :⊽

In [245]:
using HMMBase
names(HMMBase) #或者采用代码补全，HMMBase.同时按住Tab，即可查看。

┌ Info: Precompiling HMMBase [b2b3ca75-8444-5ffa-85e6-af70e2b64fe7]
└ @ Base loading.jl:1423


30-element Vector{Symbol}:
 :AbstractHMM
 :HMM
 :HMMBase
 :backward
 :compute_transition_matrix
 :copy
 :fit_mle
 :forward
 :forward_backward
 :gettransmat
 :istransmat
 :likelihoods
 :log_likelihoods
 ⋮
 :messages_forwards_log
 :n_parameters
 :nparams
 :permute
 :posteriors
 :rand
 :rand_transition_matrix
 :randtransmat
 :remapseq
 :size
 :statdists
 :viterbi

## ?的用法

In [246]:
using MLJ

In [247]:
?MLJ #?可以显示模块中的函数

search: [0m[1mM[22m[0m[1mL[22m[0m[1mJ[22m [0m[1mM[22m[0m[1mL[22m[0m[1mJ[22mOpenML [0m[1mM[22m[0m[1mL[22m[0m[1mJ[22m_VERSION [0m[1mM[22m[0m[1mL[22m[0m[1mJ[22mIteration l2_[0m[1mm[22margin_[0m[1ml[22moss dwd_[0m[1mm[22margin_[0m[1ml[22moss



No docstring found for module `MLJ`.

# Exported names

`@constant`, `@from_network`, `@iload`, `@load`, `@load_ames`, `@load_boston`, `@load_crabs`, `@load_iris`, `@load_reduced_ames`, `@more`, `@node`, `@pipeline`, `AUC`, `AbstractNode`, `Accuracy`, `Annotator`, `AnnotatorComposite`, `AnnotatorSurrogate`, `AreaUnderCurve`, `BAC`, `BACC`, `BalancedAccuracy`, `Binary`, `BinaryThresholdPredictor`, `BrierLoss`, `BrierScore`, `CPU1`, `CPUProcesses`, `CPUThreads`, `CV`, `Callback`, `ColorImage`, `Composite`, `ConfusionMatrix`, `ConstantClassifier`, `ConstantRegressor`, `Continuous`, `ContinuousEncoder`, `Count`, `CrossEntropy`, `CycleLearningRate`, `DWDMarginLoss`, `Data`, `Deterministic`, `DeterministicComposite`, `DeterministicNetwork`, `DeterministicSupervisedDetector`, `DeterministicSupervisedDetectorComposite`, `DeterministicSupervisedDetectorSurrogate`, `DeterministicSurrogate`, `DeterministicUnsupervisedDetector`, `DeterministicUnsupervisedDetectorComposite`, `DeterministicUnsupervisedDetectorSurrogate`, `Disjunction`, `EnsembleModel`, `Error`, `ExpLoss`, `Explicit`, `FDR`, `FNR`, `FPR`, `FScore`, `FalseDiscoveryRate`, `FalseNegative`, `FalseNegativeRate`, `FalsePositive`, `FalsePositiveRate`, `FeatureSelector`, `FillImputer`, `Finite`, `Found`, `GL`, `GrayImage`, `Grid`, `HANDLE_GIVEN_ID`, `Holdout`, `HuberLoss`, `Image`, `Infinite`, `Info`, `Interval`, `IntervalComposite`, `IntervalSurrogate`, `InvalidValue`, `IteratedModel`, `IterationControl`, `JointProbabilistic`, `JointProbabilisticComposite`, `JointProbabilisticSurrogate`, `Kappa`, `Known`, `L1EpsilonInsLoss`, `L1HingeLoss`, `L2EpsilonInsLoss`, `L2HingeLoss`, `L2MarginLoss`, `LPDistLoss`, `LPLoss`, `LatinHypercube`, `LogCosh`, `LogCoshLoss`, `LogLoss`, `LogScore`, `LogitDistLoss`, `LogitMarginLoss`, `MAE`, `MAPE`, `MAV`, `MCC`, `MCR`, `MFDR`, `MFNR`, `MFPR`, `MLJIteration`, `MLJOpenML`, `MLJ_VERSION`, `MNPV`, `MPPV`, `MTNR`, `MTPR`, `Machine`, `MatthewsCorrelation`, `MeanAbsoluteError`, `MeanAbsoluteProportionalError`, `MisclassificationRate`, `ModifiedHuberLoss`, `Multiclass`, `MulticlassFScore`, `MulticlassFalseDiscoveryRate`, `MulticlassFalseNegative`, `MulticlassFalseNegativeRate`, `MulticlassFalsePositive`, `MulticlassFalsePositiveRate`, `MulticlassNegativePredictiveValue`, `MulticlassPrecision`, `MulticlassRecall`, `MulticlassSpecificity`, `MulticlassTrueNegative`, `MulticlassTrueNegativeRate`, `MulticlassTruePositive`, `MulticlassTruePositiveRate`, `NPV`, `NegativePredictiveValue`, `Never`, `Node`, `NotANumber`, `NumberLimit`, `NumberSinceBest`, `OneHotEncoder`, `OpenML`, `OrderedFactor`, `PPV`, `PQ`, `Patience`, `PerceptronLoss`, `PeriodicLoss`, `Pipeline`, `Precision`, `Probabilistic`, `ProbabilisticComposite`, `ProbabilisticNetwork`, `ProbabilisticSupervisedDetector`, `ProbabilisticSupervisedDetectorComposite`, `ProbabilisticSupervisedDetectorSurrogate`, `ProbabilisticSurrogate`, `ProbabilisticUnsupervisedDetector`, `ProbabilisticUnsupervisedDetectorComposite`, `ProbabilisticUnsupervisedDetectorSurrogate`, `QuantileLoss`, `RMS`, `RMSL`, `RMSLP`, `RMSP`, `RMSPV`, `RSQ`, `RSquared`, `RandomSearch`, `Recall`, `Resampler`, `ResamplingStrategy`, `RootMeanSquaredError`, `RootMeanSquaredLogError`, `RootMeanSquaredLogProportionalError`, `RootMeanSquaredProportionalError`, `Save`, `Scientific`, `SigmoidLoss`, `SmoothedL1HingeLoss`, `Specificity`, `SphericalScore`, `Stack`, `Standardizer`, `Static`, `StaticComposite`, `StaticSurrogate`, `Step`, `StratifiedCV`, `Supervised`, `SupervisedAnnotator`, `SupervisedAnnotatorComposite`, `SupervisedAnnotatorSurrogate`, `SupervisedComposite`, `SupervisedDetector`, `SupervisedDetectorComposite`, `SupervisedDetectorSurrogate`, `SupervisedSurrogate`, `Surrogate`, `TNR`, `TPR`, `Table`, `Textual`, `Threshold`, `TimeLimit`, `TimeSeriesCV`, `TransformedTargetModel`, `TrueNegative`, `TrueNegativeRate`, `TruePositive`, `TruePositiveRate`, `TunedModel`, `UnivariateBoxCoxTransformer`, `UnivariateDiscretizer`, `UnivariateFinite`, `UnivariateStandardizer`, `UnivariateTimeTypeToContinuous`, `Unknown`, `Unsupervised`, `UnsupervisedAnnotator`, `UnsupervisedAnnotatorComposite`, `UnsupervisedAnnotatorSurrogate`, `UnsupervisedComposite`, `UnsupervisedDetector`, `UnsupervisedDetectorComposite`, `UnsupervisedDetectorSurrogate`, `UnsupervisedNetwork`, `UnsupervisedSurrogate`, `Warmup`, `Warn`, `WithEvaluationDo`, `WithFittedParamsDo`, `WithIterationsDo`, `WithLossDo`, `WithMachineDo`, `WithModelDo`, `WithNumberDo`, `WithReportDo`, `WithTrainingLossesDo`, `ZeroOneLoss`, `accuracy`, `aggregate`, `aggregation`, `anonymize!`, `area_under_curve`, `auc`, `autotype`, `bac`, `bacc`, `balanced_accuracy`, `brier_loss`, `brier_score`, `categorical`, `classes`, `coerce`, `coerce!`, `color_off`, `color_on`, `complement`, `confmat`, `confusion_matrix`, `corestrict`, `cross_entropy`, `decoder`, `deep_properties`, `default_measure`, `default_resource`, `distribution_type`, `docstring`, `dwd_margin_loss`, `elscitype`, `evaluate`, `evaluate!`, `exp_loss`, `f1score`, `fallout`, `false_discovery_rate`, `false_negative`, `false_negative_rate`, `false_positive`, `false_positive_rate`, `falsediscovery_rate`, `falsenegative`, `falsenegative_rate`, `falsepositive`, `falsepositive_rate`, `fdr`, `fit!`, `fit_data_scitype`, `fit_only!`, `fitresults`, `fitted_params`, `fnr`, `fpr`, `freeze!`, `hit_rate`, `huber_loss`, `human_name`, `hyperparameter_types`, `hyperparameters`, `info`, `input_scitype`, `int`, `inverse_transform`, `inverse_transform_scitype`, `is_feature_dependent`, `is_pure_julia`, `is_supervised`, `is_wrapper`, `iteration_parameter`, `iterator`, `kappa`, `l1`, `l1_epsilon_ins_loss`, `l1_hinge_loss`, `l2`, `l2_epsilon_ins_loss`, `l2_hinge_loss`, `l2_margin_loss`, `learning_curve`, `learning_curve!`, `levels`, `levels!`, `load`, `load_ames`, `load_boston`, `load_crabs`, `load_iris`, `load_path`, `load_reduced_ames`, `localmodels`, `log_cosh`, `log_cosh_loss`, `log_loss`, `log_score`, `logit_dist_loss`, `logit_margin_loss`, `logpdf`, `lp_dist_loss`, `machine`, `machines`, `macro_avg`, `macro_f1score`, `mae`, `make_blobs`, `make_circles`, `make_moons`, `make_regression`, `mape`, `matching`, `matthews_correlation`, `mav`, `mcc`, `mcr`, `mean`, `mean_absolute_error`, `mean_absolute_value`, `measures`, `median`, `micro_avg`, `micro_f1score`, `misclassification_rate`, `miss_rate`, `mode`, `models`, `modified_huber_loss`, `multiclass_f1score`, `multiclass_fallout`, `multiclass_false_discovery_rate`, `multiclass_false_negative`, `multiclass_false_negative_rate`, `multiclass_false_positive`, `multiclass_false_positive_rate`, `multiclass_falsediscovery_rate`, `multiclass_falsenegative`, `multiclass_falsenegative_rate`, `multiclass_falsepositive`, `multiclass_falsepositive_rate`, `multiclass_fdr`, `multiclass_fnr`, `multiclass_fpr`, `multiclass_hit_rate`, `multiclass_miss_rate`, `multiclass_negative_predictive_value`, `multiclass_negativepredictive_value`, `multiclass_npv`, `multiclass_positive_predictive_value`, `multiclass_positivepredictive_value`, `multiclass_ppv`, `multiclass_precision`, `multiclass_recall`, `multiclass_selectivity`, `multiclass_sensitivity`, `multiclass_specificity`, `multiclass_tnr`, `multiclass_tpr`, `multiclass_true_negative`, `multiclass_true_negative_rate`, `multiclass_true_positive`, `multiclass_true_positive_rate`, `multiclass_truenegative`, `multiclass_truenegative_rate`, `multiclass_truepositive`, `multiclass_truepositive_rate`, `negative_predictive_value`, `negativepredictive_value`, `no_avg`, `node`, `nonmissing`, `npv`, `nrows`, `orientation`, `origins`, `output_scitype`, `package_license`, `package_name`, `package_url`, `package_uuid`, `params`, `partition`, `pdf`, `perceptron_loss`, `periodic_loss`, `positive_predictive_value`, `positivepredictive_value`, `ppv`, `precision`, `predict`, `predict_joint`, `predict_mean`, `predict_median`, `predict_mode`, `predict_scitype`, `prediction_type`, `pretty`, `quantile_loss`, `rebind!`, `recall`, `report`, `reports_each_observation`, `restrict`, `return!`, `rms`, `rmse`, `rmsl`, `rmsle`, `rmslp1`, `rmsp`, `roc`, `roc_curve`, `root_mean_squared_error`, `root_mean_squared_log_error`, `rsq`, `rsquared`, `sampler`, `schema`, `scitype`, `scitype_union`, `selectcols`, `selectivity`, `selectrows`, `sensitivity`, `shuffle`, `shuffle!`, `sigmoid_loss`, `skipinvalid`, `smoothed_l1_hinge_loss`, `source`, `sources`, `specificity`, `spherical_score`, `std`, `support`, `supports_class_weights`, `supports_training_losses`, `supports_weights`, `table`, `target_scitype`, `thaw!`, `tnr`, `tpr`, `training_losses`, `trait`, `transform`, `transform_scitype`, `true_negative`, `true_negative_rate`, `true_positive`, `true_positive_rate`, `truenegative`, `truenegative_rate`, `truepositive`, `truepositive_rate`, `unpack`, `value`, `zero_one_loss`

# Displaying contents of readme found at `D:\TongYuan\.julia\packages\MLJ\hw6oD\README.md`

<div align="center">     <img src="material/MLJLogo2.svg" alt="MLJ" width="200"> </div>

<h2 align="center">A Machine Learning Framework for Julia <p align="center">   <a href="https://github.com/alan-turing-institute/MLJ.jl/actions">     <img src="https://github.com/alan-turing-institute/MLJ.jl/workflows/CI/badge.svg"          alt="Build Status">   </a>   <a href="https://alan-turing-institute.github.io/MLJ.jl/dev/">     <img src="https://img.shields.io/badge/docs-stable-blue.svg"          alt="Documentation">   </a>   <a href="https://opensource.org/licenses/MIT">     <img src="https://img.shields.io/badge/License-MIT-yelllow"        alt="bibtex">   </a>   <a href="BIBLIOGRAPHY.md">     <img src="https://img.shields.io/badge/cite-BibTeX-blue"        alt="bibtex">   </a>

</p> </h2>

MLJ (Machine Learning in Julia) is a toolbox written in Julia providing a common interface and meta-algorithms for selecting, tuning, evaluating, composing and comparing over [160 machine learning models](https://alan-turing-institute.github.io/MLJ.jl/dev/list_of_supported_models/) written in Julia and other languages.

**New to MLJ?** Start [here](https://alan-turing-institute.github.io/MLJ.jl/dev/).

**Integrating an existing machine learning model into the MLJ framework?** Start [here](https://alan-turing-institute.github.io/MLJ.jl/dev/quick_start_guide_to_adding_models/).

MLJ was initially created as a Tools, Practices and Systems project at the [Alan Turing Institute](https://www.turing.ac.uk/) in 2019. Current funding is provided by a [New Zealand Strategic Science Investment Fund](https://www.mbie.govt.nz/science-and-technology/science-and-innovation/funding-information-and-opportunities/investment-funds/strategic-science-investment-fund/ssif-funded-programmes/university-of-auckland/) awarded to the University of Auckland.

MLJ been developed with the support of the following organizations:

<div align="center">     <img src="material/Turing*logo.png" width = 100/>     <img src="material/UoA*logo.png" width = 100/>     <img src="material/IQVIA_logo.png" width = 100/>     <img src="material/warwick.png" width = 100/>     <img src="material/julia.png" width = 100/> </div>

### The MLJ Universe

The functionality of MLJ is distributed over a number of repositories illustrated in the dependency chart below. These repositories live at the [JuliaAI](https://github.com/JuliaAI) umbrella organization.

<div align="center">     <img src="material/MLJ_stack.svg" alt="Dependency Chart"> </div>

*Dependency chart for MLJ repositories. Repositories with dashed connections do not currently exist but are planned/proposed.*

<br> <p align="center"> <a href="CONTRIBUTING.md">Contributing</a> &nbsp;•&nbsp;  <a href="ORGANIZATION.md">Code Organization</a> &nbsp;•&nbsp; <a href="ROADMAP.md">Road Map</a>  </br>

#### Contributors

*Core design*: A. Blaom, F. Kiraly, S. Vollmer

*Lead contributor*: A. Blaom

*Active maintainers*: A. Blaom, S. Okon, T. Lienart, D. Aluthge


In [248]:
?MLJ.MAE #进一步可以查看函数中的参数及使用方法

```
MLJBase.MeanAbsoluteError
```

A measure type for mean absolute error, which includes the instance(s): `mae`, `mav`, `mean_absolute_error`, `mean_absolute_value`.

```
MeanAbsoluteError()(ŷ, y)
MeanAbsoluteError()(ŷ, y, w)
```

Evaluate the mean absolute error on predictions `ŷ`, given ground truth observations `y`. Optionally specify per-sample weights, `w`. 

$\text{mean absolute error} =  n^{-1}∑ᵢ|yᵢ-ŷᵢ|$ or $\text{mean absolute error} = n^{-1}∑ᵢwᵢ|yᵢ-ŷᵢ|$

Requires `scitype(y)` to be a subtype of `AbstractArray{<:Union{Infinite,Missing}}`; `ŷ` must be an array of `deterministic` predictions. 

For more information, run `info(MeanAbsoluteError)`. 
