## “不求甚解”和“拿来主义”学习法？

- 本课程内容比较零散，没有一个推演的体系，与一般的物理课不同
  - 一定程度上反映了实验物理学家工作的状态
- 要不要把一切都搞懂再做作业呢？
  - 要不要把实验做完再去吃饭呢？
  - 要不要理解计算机的第一个电子元件才能使用它呢？


### 打通数理二脉即可推演世界吗？

![柏拉图的世界观](./ref/SCI.png)
**柏拉图的世界观**

### 希望大家能够归纳地学习

- 先“不求甚解”再选择最重要的部分“寻根究底”，在两种学习模式间自由跳跃。

## POSIX 命令行界面：神秘的黑色魔法世界

- 熟悉掌握命令行界面对数据处理非常重要
- 参考书：Jeroen Janssens, Data Science at the Command Line
- 参考视频：苏勇，Linux 入门基础 - 网易云课堂
- 我们已经接触的命令：
  `ls`, `cd`, `rm`, `git`, `less`, `man`, `cat`, `pwd`

## 为什么学习命令行

- _复现_ 原则的保证
  - Python 程序，有明确的功能，定义了输入和输出。
  - 仍需要高效且可复现地执行程序，处理数据。
- 体现 _透明_ 原则
  - 数据的中间结果，可以用命令行工具查看 `cat`, `less`, `h5dump` ...
  - 注：对应的图形工具也存在，可互相搭配。
- 体现 _一次_ 原则
  - `git` 版本控制，图形工具还不成熟
- 体现 _最佳工具_ 原则
  - POSIX 命令行目前是管理数据处理流程的最佳工具

## 命令行的特点

### 命令行的易用性

- 命令行是天然的 REPL
- 命令行有最丰富的文件操作工具
- 介于程序设计语言与图形界面之间
- 是计算机系统的“母语”，用户于开发者的重叠更大
  - 科学计算中，不是任何时候都有现成的工具可用，经常需要自己开发
  - 依赖命令行可以缩小开发者与用户的鸿沟

### 命令行的整合性和扩展性

- 所有的语言工具都可以从命令行调用

  - 新的语言写成的命令行工具不断涌现，许多工具非常适合用于数据处理

- 命令行是天然的“胶水”，整合各类语言协同工作
  - 鼓励小巧精悍工具的组合，避免又长又难理解的马拉松程序出现
  - 不论流行的语言如何变化，命令环境的基本风格不变

### 命令行的自动性

- 使用的命令可以轻易组成脚本，重复使用
  - 图形界面不易记录制操作

### 命令行的普适性

- GNU/Linux, 各种 Unix，Mac OS，Microsoft Windows WSL.
- 世界顶级的超级计算机，云计算主机，智能手机，物联网设备都可用同一套命令行工具操作
- 已有约50年历史，一定会继续存在

## 命令的类型

- 可执行程序，例如 `ls`
- 脚本，例如 Python 程序
- 壳内建命令，例如 `cd`
- 壳函数
- 别名

### 壳(shell)

- 是相对于操作系统内核(kernel)而言，与人类交互的部分
- 有命令行(Command Line Interface, CLI) 和图形 (Graphical User Interface, GUI)两种

### 典型的命令行壳：bash
- GNU Bourne-Again SHell, 目前使用最为广泛
- `man bash` 可阅读在线文档

In [17]:
type -a ls

ls is aliased to `ls --color=auto'
ls is /bin/ls
ls is /bin/ls

In [18]:
type -a cd

cd is a shell builtin

In [19]:
type type

type is a shell builtin

## 管道

- 把前一个程序的标准输出和后一个标准输入连接起来
- 无限串联
- 每个命令各司其职


In [7]:
echo "I am using the command line!"

I am using the command line!

In [8]:
echo "I am using the command line!" | wc -c

29

In [13]:
seq 5

1
2
3
4
5

In [14]:
seq 30 | grep 7

[01;31m[K7[m[K
1[01;31m[K7[m[K
2[01;31m[K7[m[K

In [16]:
seq 100 | grep 7 | wc -c

56

## 重定向

- 标准输入和输出都可以被重定向到文件

In [22]:
seq 100 > s100
cat s100 | head

1
2
3
4
5
6
7
8
9
10

In [23]:
wc -l < s100

100

## 帮助

In [26]:
# 可执行程序使用 man
man cat | head

CAT(1)                           User Commands                          CAT(1)



[1mNAME[0m
       cat - concatenate files and print on the standard output

[1mSYNOPSIS[0m
       [1mcat [22m[[4mOPTION[24m]... [[4mFILE[24m]...

In [29]:
# 壳命令用 help
help cd | head

cd: cd [-L|[-P [-e]] [-@]] [dir]
    Change the shell working directory.
    
    Change the current directory to DIR.  The default DIR is the value of the
    HOME shell variable.
    
    The variable CDPATH defines the search path for the directory containing
    DIR.  Alternative directory names in CDPATH are separated by a colon (:).
    A null directory name is the same as the current directory.  If DIR begins
    with a slash (/), then CDPATH is not used.

In [30]:
# 自带的帮助

cat --help | head

Usage: cat [OPTION]... [FILE]...
Concatenate FILE(s) to standard output.

With no FILE, or when FILE is -, read standard input.

  -A, --show-all           equivalent to -vET
  -b, --number-nonblank    number nonempty output lines, overrides -n
  -e                       equivalent to -vE
  -E, --show-ends          display $ at end of each line
  -n, --number             number all output lines

## 课堂任务

- 试验以下命令，使用各类帮助系统理解它们的用法：

In [1]:
hostname

dpcg

In [3]:
uname -a

Linux dpcg 4.14.83-gentoo #1 SMP Fri Dec 14 21:12:47 CST 2018 x86_64 Intel(R) Xeon(R) CPU E5620 @ 2.40GHz GenuineIntel GNU/Linux

In [4]:
id

uid=65534(nobody) gid=65534(nobody) groups=65534(nobody)

In [1]:
date

Mon Jul 15 09:07:59 CST 2019

## 课堂任务（备选）

- 继续探索试验以下命令

In [2]:
uptime

09:08:06 up 19:12,  2 users,  load average: 0.00, 0.00, 0.00

In [24]:
dmesg | head

[    0.000000] Linux version 4.14.83-gentoo (root@dpcg) (gcc version 7.3.0 (Gentoo 7.3.0-r3 p1.4)) #1 SMP Fri Dec 14 21:12:47 CST 2018
[    0.000000] Command line: BOOT_IMAGE=/kernel-dawn-x86_64-4.14.83-gentoo root=/dev/md125 ro domdadm
[    0.000000] x86/fpu: x87 FPU will use FXSAVE
[    0.000000] e820: BIOS-provided physical RAM map:
[    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009bfff] usable
[    0.000000] BIOS-e820: [mem 0x000000000009c000-0x000000000009ffff] reserved
[    0.000000] BIOS-e820: [mem 0x00000000000e4000-0x00000000000fffff] reserved
[    0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000bf77ffff] usable
[    0.000000] BIOS-e820: [mem 0x00000000bf78e000-0x00000000bf78ffff] type 9
[    0.000000] BIOS-e820: [mem 0x00000000bf790000-0x00000000bf79dfff] ACPI data

In [8]:
find . -name "*.html"

./Python-Basics.slides.html
./Python-Constructs.slides.html
./Python-Functions.slides.html
./Berkeley-LIGO-homework/LIGO.slides.html
./Berkeley-LIGO-homework/LIGO.html
./Python-Modules.slides.html
./Data-Formats.slides.html
./Command-Line.slides.html

In [18]:
file Python-Basics.slides.html

Python-Basics.slides.html: HTML document, UTF-8 Unicode text, with very long lines

In [19]:
touch nf

In [20]:
echo "Hi!"

Hi!

## 通配符

- 通配符可以按规则匹配，用于构造简单匹配模式

  - `*` 匹配任意多个任意字符
  - `?` 匹配一个任意字符

In [13]:
ls *.html

Command-Line.slides.html   Python-Constructs.slides.html
Data-Formats.slides.html   Python-Functions.slides.html
Python-Basics.slides.html  Python-Modules.slides.html

In [14]:
echo *.html

Command-Line.slides.html Data-Formats.slides.html Python-Basics.slides.html Python-Constructs.slides.html Python-Functions.slides.html Python-Modules.slides.html

In [15]:
ls Python-*.html

Python-Basics.slides.html      Python-Functions.slides.html
Python-Constructs.slides.html  Python-Modules.slides.html

In [17]:
ls *.?pynb

Command-Line.ipynb         Python-Basics.ipynb      Python-Modules.ipynb
Data-Formats.ipynb         Python-Constructs.ipynb
LOSC_Event_tutorial.ipynb  Python-Functions.ipynb

## 字符串匹配与正则表达式

- 正则表达式是一种形式语言
  - 形式语言(formal language)是用精确的数学可处理的公式定义的语言
  - 可以形式上使用自动机描述
- 实用角度：正则表达式可以成为工业标准，用户和引擎开发者完全的社会分工

In [29]:
seq 100 | grep '.3'

[01;31m[K13[m[K
[01;31m[K23[m[K
[01;31m[K33[m[K
[01;31m[K43[m[K
[01;31m[K53[m[K
[01;31m[K63[m[K
[01;31m[K73[m[K
[01;31m[K83[m[K
[01;31m[K93[m[K

## 正则表达式的基本要素

- `.`代表任意字符
- `^`, `$` 开始与结束
- `*` 任意重复
  - `+` 至少一次重复
  - `?` 0或1次
- `()` 组合
- `|` 或
- `[]` 字符集
  - `[0-9]`
  - `[a-zA-Z]`
  - `[^abc]`