# Python Basic

JCBioinformatics - 2019 - HZAU


## 语言特性、语法

1. 基本成份
    + 基本对象与运算符
    + 表达式与变量
2. 如何组合
    + 内置数据结构
        - list / tuple / set / dict
    + 控制流
        - 循环 for / while
        - 分支
3. 如何抽象
    + 函数
    + 类与对象
    + 选择一种编程范式


## 基本成份

### 1. 基本数据类型：

+ 整数
+ 浮点数
+ 布尔值
+ 字符串、bytes
+ None

### 2. 基本的程序行为：

#### (1) 基本运算

+ 加减乘除、整除、余数、乘方、开方
+ and、or、not
+ encode、decode、字符串拼接、格式化
+ ...

#### (2) 变量与赋值语句

### 数字类型以及基本运算


<img src="https://upload.wikimedia.org/wikipedia/commons/c/cf/Casio_calculator_JS-20WK_in_201901_002.jpg" alt="Drawing" style="width: 200px;"/>

我们可以把 Python 解释器当成一个计算器来使用， 让我们来一做些基本的算术：

In [2]:
1 + 1

2

上面像上面这样一个 `In` 与一个 `Out`，在 Jupyter 中我们称之为一个 `Cell`， 我们可以在 `In` 之中输入一个一个 `表达式`，Python解释器 对其进行求值后会将结果返回，并将结果打印在`Out`之中。这种交互模式，我们一般称之为 [REPL](https://en.wikipedia.org/wiki/Read%E2%80%93eval%E2%80%93print_loop)(Read-Eval-Print-Loop，读取、求值、打印循环)。
REPL 非常适合于交互式的探索性数据分析。

In [5]:
3 - 1

2

In [4]:
2 * 3

6

In [12]:
1 / 2  # Python 3 中，整数除法结果是一个浮点数

# 顺便一提，Python 中，`#` 用来表示对代码的注释，`#` 之后的部分不会被执行。

0.5

更多的数字运算：

In [16]:
8 // 3  # 8 整除 3

2

In [18]:
12 % 8  # 求余数

4

In [11]:
2 ** 3  # 2 的 3 次方

8

math 包中提供了很多常见的数学运算，我们可以加载它：

In [7]:
import math

In [9]:
math.sin(math.pi)  # sin(pi)

1.2246467991473532e-16

In [12]:
math.sqrt(4)  # 开平方

2.0

这不是全部，实际上有一些重要的运算（比如ceil, bottom）并没有被提到，可以参考Python官方文档 [math](https://docs.python.org/3/library/math.html) 或者用到的时候再去查询。（实际上，除非记忆力超群，否则编程的时候除了最常用的那一部分，
很多东西是很难记住的，用的时候去查就好）


### 关于类型

#### 1. 如何检查对象的类型

内置函数([built-in functions](https://docs.python.org/3/library/functions.html)) `type` 可以用来查看对象的类型，比如：

In [22]:
type(42)

int

In [24]:
print(type(1.0))
print(type("I am a string"))
print(type(b"aaaa"))

<class 'float'>
<class 'str'>
<class 'bytes'>


（`print` 是用于将一个对象进行`打印`操作的内置函数，如果你想在一个 `Cell` 之中检查多个表达式的求值结果，
可以使用 `print` 函数。关于 `print` 函数，在后面 IO 的章节中会有更多的介绍。）

#### 2. 基本类型间如何进行类型转换

如上所见的几种基本类型，在Python中内置了相应的构造器函数，通过调用构造器函数，可实现基本类型间的转换，例如：

In [2]:
int("1")  # 输入的是 字符串"1" 被转换成了整数 1

1

In [3]:
float(1)  # 输入的是整数 1 ，被转换成了浮点数 1.0

1.0

In [5]:
str(42)

'42'

### 变量与赋值

上面我们展示了如何将 Python 解释器作为一个高级计算器来使用，输入一个表达式，解释器对其求值，将结果返回给我们。
但对于编写程序来说，这显然还不够，很多时候我们希望将某一步计算的结果暂时保存起来，在需要的时候进行引用。

In [32]:
a = 6 * 7

可以看到，上面的代码并没有输出返回值。这称之为一个[赋值语句(assignment statement)](https://docs.python.org/3/reference/simple_stmts.html#assignment-statements)
它所产生的效果是将一个值绑定在一个符号（变量, variable）上面。

上面的赋值语句可以理解为我们把 6 * 7 的结果(42)放在了一个一个名字为 a 的“盒子”里。当然，我们也可以把值从“盒子”中取出来：

In [33]:
a

42

此外，还可以将 a 这个盒子中的值“复制”一份给 b。(但实际上，这里的比喻是不恰当的，因为很多时候Python中的变量实际上
是一种“引用”，后面再说)

In [36]:
b = a
b

42

现在我们修改 b 的值：

In [37]:
b = 9

a 的值并不会发生改变：

In [38]:
a

42

另外需要说明的一点，如果你曾经学习过 C，Java 这样的静态类型(Static typing)语言，你会知道，在静态类型语言中，一个变量的类型是
事先声明确定的，之后如果赋值其他类型的对象给它，编译器在类型检查时会报错。但 Python 是 动态类型(Dynamic typing)语言，
这意味着一个变量可以引用不同类型的值：

In [64]:
a = 42   # 这里给 a 赋值了一个 int
a = 42.0 # 又给它了一个 float
a = "The Answer to Everything." # 又给它了一个 str

### 字符(chr)与字符串(str)

现实世界中，除了数字以外我们经常接触到的一类信息是文本(Text)，比如说一段对话、人的名字、一本小说，都可以看作是文本，可以说“有语言的地方就有文本”。不但如此，生物的碱基序列也可以看作是一段文本。在计算机中，文本信息往往被抽象成 字符串（String），顾名思义，字符串就是一串字符（Char）所组成的序列。


![The quick brown fox jumps over the lazy dog](https://upload.wikimedia.org/wikipedia/commons/b/bd/Boston_Journal_1885-02-10_%28quick_brown_fox%29.png)

#### 字符与编码

在介绍如何在Python中操作字符串之前，我们先来说组成字符串的基本单位：字符(Char)。

Python3 中默认采用的是 utf-8 字符编码，我们可以使用 `chr` 函数将一个字符的`Unicode`编码转换为该字符：

In [68]:
# 打印出所有的 ASCII 字符(0~127)
for i in range(128):
    print(chr(i).__repr__(),end=" ")

'\x00' '\x01' '\x02' '\x03' '\x04' '\x05' '\x06' '\x07' '\x08' '\t' '\n' '\x0b' '\x0c' '\r' '\x0e' '\x0f' '\x10' '\x11' '\x12' '\x13' '\x14' '\x15' '\x16' '\x17' '\x18' '\x19' '\x1a' '\x1b' '\x1c' '\x1d' '\x1e' '\x1f' ' ' '!' '"' '#' '$' '%' '&' "'" '(' ')' '*' '+' ',' '-' '.' '/' '0' '1' '2' '3' '4' '5' '6' '7' '8' '9' ':' ';' '<' '=' '>' '?' '@' 'A' 'B' 'C' 'D' 'E' 'F' 'G' 'H' 'I' 'J' 'K' 'L' 'M' 'N' 'O' 'P' 'Q' 'R' 'S' 'T' 'U' 'V' 'W' 'X' 'Y' 'Z' '[' '\\' ']' '^' '_' '`' 'a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'i' 'j' 'k' 'l' 'm' 'n' 'o' 'p' 'q' 'r' 's' 't' 'u' 'v' 'w' 'x' 'y' 'z' '{' '|' '}' '~' '\x7f' 

In [73]:
# 打印出一部分（前100个）汉字(0x4E00-0x9FA5)
for i in range(0x4E00,0x9FA5+1)[:100]:
    print(chr(i).__repr__(),end=" ")

'一' '丁' '丂' '七' '丄' '丅' '丆' '万' '丈' '三' '上' '下' '丌' '不' '与' '丏' '丐' '丑' '丒' '专' '且' '丕' '世' '丗' '丘' '丙' '业' '丛' '东' '丝' '丞' '丟' '丠' '両' '丢' '丣' '两' '严' '並' '丧' '丨' '丩' '个' '丫' '丬' '中' '丮' '丯' '丰' '丱' '串' '丳' '临' '丵' '丶' '丷' '丸' '丹' '为' '主' '丼' '丽' '举' '丿' '乀' '乁' '乂' '乃' '乄' '久' '乆' '乇' '么' '义' '乊' '之' '乌' '乍' '乎' '乏' '乐' '乑' '乒' '乓' '乔' '乕' '乖' '乗' '乘' '乙' '乚' '乛' '乜' '九' '乞' '也' '习' '乡' '乢' '乣' 

In [74]:
# 打印出一部分 emoji(0x1F600-0x1F64F)
for i in range(0x1F600,0x1F64F+1):
    print(chr(i).__repr__(),end=" ")

'😀' '😁' '😂' '😃' '😄' '😅' '😆' '😇' '😈' '😉' '😊' '😋' '😌' '😍' '😎' '😏' '😐' '😑' '😒' '😓' '😔' '😕' '😖' '😗' '😘' '😙' '😚' '😛' '😜' '😝' '😞' '😟' '😠' '😡' '😢' '😣' '😤' '😥' '😦' '😧' '😨' '😩' '😪' '😫' '😬' '😭' '😮' '😯' '😰' '😱' '😲' '😳' '😴' '😵' '😶' '😷' '😸' '😹' '😺' '😻' '😼' '😽' '😾' '😿' '🙀' '🙁' '🙂' '🙃' '🙄' '🙅' '🙆' '🙇' '🙈' '🙉' '🙊' '🙋' '🙌' '🙍' '🙎' '🙏' 

告诉你一件事情，其实 Python 里面没有字符(char)类型，所谓字符，其实是长度为1的字符串(str)：

In [84]:
type('a')

str

与 chr 函数相反的是 `ord` 函数，可以得到一个字符的`Unicode`编码。

In [78]:
ord('a')  # a 字符对应的 unicode 编码

97

In [79]:
ord('我') # 汉字 ‘我’ 对应的编码

25105

In [85]:
ord('你是谁') # 如果输入的字符串长度大于1，会报错（抛出一个TypeError类型的异常）

TypeError: ord() expected a character, but string of length 3 found

#### 控制字符与字符转义

有一些比较特殊的字符值得单独拿出来说一说，这些字符被称之为“控制字符”，因为它们并不像其他字符一样用来表示一个特定的图形。
而是对某种输出设备具有特殊的控制作用。比如说最常见的，"\n" 在类Unix操作系统中用来表示文本中行的结束，"\t" (tab)表示一个分割符。
这些字符在字符串打印(print)时具有特殊效果，比如：

In [88]:
print("I'm the bone of my sword.\nSteel is my body and ...")

I'm the bone of my sword.
Steel is my body and ...


这里 "sword." 后面有一个 "\n"，在打印时这里会产生一个换行。再比如：

In [90]:
print("chrom\tstart\tend\tstrand\tname\tscore")
print("chr1\t520000\t530000\t+\tgene1\t0")

chrom	start	end	strand	name	score
chr1	520000	530000	+	gene1	0


上面的代码中我们使用制表符"\t"分割了几个字段，将一个基因的信息以表格的信息打印了出来。这样的代码在你编写脚本处理文本文件的时候会经常用到。

像这样在一个字符前加上'\'来使其表达不同于本身的意义的行为称之为“转义”(escape)。除了上面提到的换行符和制表符，还有其他的转义字符，
具体可以参考[这里](https://docs.python.org/3/reference/lexical_analysis.html#literals)。值得一提的是（抱歉，辞藻匮乏，文档里面出现了太多的“值得一提”），如果想打印 '\' 字符本身应该怎么办呢？一种解决办法是在转义符'\'前再加一个转义符：

In [95]:
print("\\n")

\n


或者使用 raw string，在字符串字面量前加 r 即可：

In [94]:
print(r"\n")

\n


#### 字符串

介绍完字符，字符串就可以登场了(<del>说的好像之前没出现过一样</del>)。

In [40]:
seq1 = "AATTCCCCGGGG"  # 这是一段DNA序列
type(seq1)

str

我们可以用内置的 `len` 函数查看一个字符串的长度：

In [41]:
len(seq1)

12

使用 `+` 操作符可以将两个字符串拼接在一起：

In [46]:
seq2 = "GCCTTAA"
seq3 = seq1 + seq2
len(seq3)

19

如果想取出字符串中的某一个字符，可以用下标(subscript)语法，比如，取出 seq3 中的第2个字符：

In [103]:
seq3[2]

'T'

下标也可以是负数，代表倒数第几个字符：

In [110]:
seq3[-1] # 最后一个字符

'A'

等等，为什么是2？因为，Python中的下标与R不同，是0-base的，也就是说第一个字符其实是第0个。为什么要这样设计，为什么不像 R 里面那样下标都
从1开始，不更自然一些吗。其实这种 0-base 的下标源自于 C 语言，你可以理解为它是一个“偏移量”，也就是说这个字符距离开始有多远的距离。

还可以使用 切片(slice)语法 将一个字符串的子集取出来，比如，我们取 seq3 的前十个字符所组成的字符串：

In [55]:
seq3[:10]

'AATTCCCCGG'

In [100]:
print(seq3)
print(" "*5 +seq3[5:15])

AATTCCCCGGGGGCCTTAA
     CCCGGGGGCC


明白slice语法了吗？上面代码的含义是取出从6个字符开始，到第15个字符的字符串。slice的语法是 string[start:end]，其中 start 是0-base
的，而end是1-base的。这意味着start是从0开始数的，而end是从1开始数的，这样的设计是为了使得 end减去start 刚好就是取出的子字符串的长度。

此外，slice中还可以设置一个步长，表示每个多少个字符取一个出来：

In [107]:
s1 = "0123456789"
s1[0:10:2]  # 步长为2，每两个字符取一个出来

'02468'

步长还可以是负数，利用这个特性我们可以将字符串反转：

In [108]:
s1[::-1]

'9876543210'

对于生物信息学编程来说，也许字符串会是你最经常打交道的数据类型。 Python 的字符串对象，内置了很多有用的 “方法”(method) 用来作字符串处理。 对于很多文本处理任务来说，这些 方法 是必不可少的。举个例子：

In [43]:
seq1.count('A')  # 对 seq1 中 "A" 出现的次数进行计数

2

这里是第一次介绍如何调用一个 “方法”(method)， 你可以把 method 理解为一个函数，只不过它是与一个对象绑定在一起的，我们在后面学习面向对象编程的时候还会更详细的说明。这里，你只需要知道，以 obj.method() 这样 对象名.方法名() 的语法可以调用一个函数就可以了。

让我们再来介绍一些字符串处理的方法：

In [50]:
sent = "The quick brown fox jumps over the lazy dog"  # 新建一个字符串： sent

In [51]:
sent.upper() # 将 sent 中的所有字符(chr)转换成大写(upper case)

'THE QUICK BROWN FOX JUMPS OVER THE LAZY DOG'

In [53]:
sent.lower() # 将 sent 中的所有字符(chr)转换成小写(lower case)

'the quick brown fox jumps over the lazy dog'

In [111]:
sent.find("fox") # 在 sent 中搜索 "fox"，返回下标

16

## 如何组合

#### 1. 数据结构（对数据的组合）

+ list
+ tuple
+ dict
+ set

#### 2. 控制流（对程序行为的组合）

+ 循环：for、while
+ 分支： if else
+ 异常处理：try except