# Introduction to Python Bugs
Huang Songlin

这是Python入门的最基础教程，将会带领大家学会：
1. 缩进
2. 逻辑
3. 函数
4. 对象
5. 测试

编程的核心是对于数据的操纵，转换和输出。而最最开始，我们需要将数据赋给一个变量方便我们做调用。作为一门流行的编程语言，Python提供了简单易懂的API让我们实现这一切，只需要一个`=`即可

In [1]:
# 这个例子里我们想将1这个值赋给a这个变量
a = 1

接下来我们就可以调用`a`这个变量进行操作了，比如我们让a变为它的两倍

In [3]:
2 * a

4

当然事情不会这么简单，在日常的生活里，`=`经常被用来做比较的操作，比如在数学里我们有等式和方程，如何将等号的“赋值”和“比较”两个含义相分开呢？ 我们使用简单的堆叠，也即我们定义两个连续的等号被用来做比较，而单个等号则被用来做赋值。对于比较，我们还定一个了一些常见的不等式操作，如：
* `!=` 表示不等于
* `>=` `<=` 表示大于等于和小于等于

等式返回的结果应该是一个简单的Yes or No，也即是真的等于，还是假的等于。因为这样对错分明的操作在Python中最为常见，因此我们定义了专门的两个值`True`和`False`用来表示。

Python里，英文的大小写是严格区分的，也即我们会认为`A`与`a`是两个不同的事物，因此，请注意`true`和`false`在Python并不是表达正确或者错误的值！！！

如果再被抓到拼写错误，就等着被打吧

In [4]:
# Difference between a = 1 and a == 1
display(a)
display(a = 1)
display(a == 1)

2

False

为什么第二行没有输出？因为`a = 1`这样的赋值语句就只是赋值，没有任何输出。

而第三行`a == 1`是将a与1做了比较，因为此时a是2，所以结果就是False

我们可以看下如果把True写成true会发生什么

In [5]:
a = true

NameError: name 'true' is not defined

In [6]:
a = True
# 这样就不会报错

此时我们发现，其实我们可以把True or False（称为布尔值 Bool）赋给a，这个原本是数字的量。这是因为Python是一门动态类型语言，它的每一个变量都可以被赋予不同类型的变量，比如数字，比如字符串，比如Bool。这给我们的编程引入了更多的可能性，但是也带来了诸多隐患，比如我们可以试想一下，对于数字我们可以乘方，但是对于字符串，我们可以乘方吗？也就是说，其实每个类型所支持的方法和操作并不相同，强行进行不支持的操作会带来类型错误`TypeError`

In [7]:
# a is a string
a = "Hello World"

a ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

因此，对于复杂的Python代码，对变量的类型进行检查是一件非常重要的事情，Python为我们提供了简单的`type()` API

In [10]:
# a is an integer
a = 1
display(type(a))
# a is a string
a = "Hello"
display(type(a))
# a is a Bool
a = True
display(type(a))

int

str

bool

我们还可以将一些比较复杂的数据结构赋值给变量，比如说list, tuple

In [11]:
# Use [] to define a list
a = [1, 2, 3]
display(type(a))
# Use () to define a tuple
b = (1, 2, 3)
display(type(b))

list

tuple

这两个数据结构可以理解为Python中将多个值打包在一起的一个盒子，我们可以使用`[index]`对其中的内容进行索引，以及更高级的切片

这里有一个计算机领域非常著名的梗：CS人都是从0开始数数的。请注意，在Python里，我们是从0而非从1开始数数的，也就是我们得用`a[0]`来索引第1个内容物。这就将带来一个经典的Bug：`IndexError: List Index Out Of Range`，试想我们有一个长度为3的list，记为a，我们想得到第三个元素，很直接的你会写出`a[3]`，但是由于计算机从0开始数数，所以最大有效索引为2而非3，这就将带来Index Out Of range的错误

In [12]:
a = [0, 1, 2]
a[3]

IndexError: list index out of range

为了解决这个错误，你需要经常查看目前list的长度，Python提供了简单的`len()` API

当然，Python提供了便利索引最后一个元素的方法：`a[-1]`，负数索引能倒序的查看元素

In [13]:
display(len(a))
display(a[-1])

3

2

另一个有趣的语法糖（就是那些能让你少写几行代码的技巧）是auto-packing和auto-unpacking，它常被用于赋值语句中，比如以下这个小例子：将a和b的值反转

In [15]:
a = 1
b = 2
print(a, b)
a, b = b, a
print(a, b)

1 2
2 1


这个小例子背后的原理是：
1. 在赋值语句的右侧，`b, a`其实会被自动打包成上述的tuple
2. 在赋值语句的左侧，面对右侧传出的tuple，`a, b`会自动将tuple解包成两个内容a和b，并进行直接赋值

我们可以利用这个原理做多个变量的一次性赋值，这样就不用写很多行

In [17]:
a, b, c = 1, 2, 3
print(a, b, c)

1 2 3


当然auto-packing和auto-unpacking也会带来错误，我们试想一下，如果左侧解包的元素和右侧封包的元素不同会发生什么，比如`a, b, c = 1, 2`此时从右侧传来的包只有两个元素，左侧解包却需要赋值给三个元素，这样肯定会出现错误，就是`ValueError: not enough values to unpack`

In [18]:
a, b, c = 1, 2

ValueError: not enough values to unpack (expected 3, got 2)

解决这个问题的思路是，先不使用unpack，先将封包的内容放置在一个变量中，然后使用`len()`查看到底有几个元素封包。

好吧正确的解法是看报错信息

In [19]:
a = 1, 2
len(a)

2

封包与解包最常用的地方是用于函数返回值的传递，可以实现多个值的同时返回，当然这也是最容易报上面这个错误的地方

那么所谓函数，到底是什么呢？ 和数学上的函数一样，函数是一个黑箱子，它会接受一些输入，然后返回一些输出，它输入的是parameters，也叫参数，返回的是return，也即结果，函数的意义在于我们可以将常用的代码封装到一起，方便我们多次调用

要定义函数，我们会使用`def function_name(params):`的语法

In [20]:
def square(x):
    return x ** 2

接着，square就成为了我们的函数名，我们可以通过简单的`square()`去调用这个函数

In [21]:
square(2)

4

其实我们还可以直接使用函数的名字来查看这个函数是否存在

In [23]:
square

<function __main__.square(x)>

我们可以发现，输出了一个和函数的定义那行极其相似的东西，这表明函数已经被定义了

有趣的一点是，函数是有类型的，它的类型是`function`，这说明函数也是变量

In [24]:
type(square)

function

In [25]:
square()

TypeError: square() missing 1 required positional argument: 'x'

上面的报错里，你应该会发现`square()`和`square`这两种写法是完全不同的，这是因为`function_name()`这种写法，在Python中的意思是你要调用这个方法，你要传入参数，得到结果，而如果没有()，直接写function_name，它的意思是调用函数这个变量，当然这没有什么意义。

在函数的定义里，我们发现一个有趣的点，我们给的parameters是x，但是我们输入的却是2，可是在函数的实际调用的时候，我们发现，它返回了4(4 = 2 ** 2)，也就是说在函数之中，x=2，这就牵涉到函数的重要概念，形参和实参：
* positional argument是你在函数定义行里写的变量名字，它在函数被调用时会被赋值为你传入的真正参数，可以在函数内使用
* real argument是你在函数调用时向内穿入的真正参数，它的参数会在实际函数运算时，被赋予到行参之中，不会在函数内被调用

在写函数的过程中，我们会发现一个有趣的点，在写完`def square(x):`并打下回车之后，我们的下一行代码自动的被缩进了，虽然这是来自于编辑器的帮助，但是为什么缩进会如此重要呢？

缩进的意义在于让我们知道下一个代码块的边界在哪儿，试想一下，你在定义完一个square函数之后想在同一个代码块里运行，例如

In [26]:
def square(x):
    return x ** 2
square(2)

4

如果没有缩进会发生什么？

In [27]:
def square(x):
return x ** 2
square(2)

IndentationError: expected an indented block (<ipython-input-27-39f24ccd9a44>, line 2)

Python如何知道你的这个函数封装的代码是到`return x ** 2`这里截止还是继续到square(2)呢？

当然这里我们可以使用`return`关键词做区分，但是如果对于逻辑控制语句呢？

在编程中，很多时候我们需要对程序的走向作出控制，比如在`ReLU`函数里，我们需要在$x \leq 0$的部分让输出为0，在$0 \leq x$的部分让输出为x，比如如下代码

In [None]:
if x < 0:
    y = 0
if x >= 0:
    y = x

此时如果没有缩进，Python知道你的这个if之后的代码块，将要走到哪一行停止吗？这就是缩进的意义。

缩进带来的问题实在是过于庞大，以至于Python专门设置了一个`IndentationError`来处理这个报错可能，遇到这个错误，请检查你的代码缩进情况

当然还有很多隐藏的缩进错误，比如因为缩进没有注意带来的函数多层嵌套

下面这个例子里，我们想定义两个函数，a和d，但是由于没有注意缩进，我们写到了一起，这样会带来严重的错误

In [43]:
def a(x):
    def d(y):
        return y

In [44]:
a

<function __main__.a(x)>

In [45]:
d

NameError: name 'd' is not defined

如果你把函数放在另一个函数里定义，那么这个函数其实你是无法访问到的！这会带来`NameError`，这个错误来自于你没有去定义某个变量的名字就去索引它了，尝试找找你是不是没写赋值语句。

Python函数的定义隐藏了一个巨大的隐患，既然变量可以是多种类型的，但是函数其实对输入的变量并没有做任何的控制权，正如上面的`square`函数，我们无法控制传入的是字符串还是数字还是list，这会带来大量可能的，难以检查的隐藏Bugs，因为我们不知道这个函数期望什么样的输入，要解决这个问题，我们应该积极的查看函数的说明文档.

大家一定要经常看的说明文档包括：
* numpy: https://numpy.org/doc/stable/
* seaborn: http://seaborn.pydata.org/api.html
* pandas: https://pandas.pydata.org/docs/
* torch: https://pytorch.org/docs/stable/index.html

大家可以在这些页面的搜索框里搜索函数名称，查看对应的文档。

诚然很多其他的教程也讲的很好，比如CSDN, Zhihu, Jianshu。但是只有官方开发者，也即那帮写函数的人写的文档，才能够保证最最精确以及及时。查其它文档的时候要注意发布时间，不要看什么2015年的教程

Python函数内还有一个有趣的特性，它是支持多返回值的，这个支持离不开上述的auto-pack和auto-unpack支持，例如下面这个例子：

In [8]:
def reverse(a, b):
    return b, a

这样的多重返回值可以使用上述的auto-unpack语法来接受：`a, b = b, a`

In [9]:
c, d = reverse(1, 2)
print(c, d)

2 1


这样的多重返回值尤其容易出现`ValueError`，因为此时我们无法像`a, b = b, a`那样明确的知道到底这个函数会回传多少东西，我们应该留出多少位置来承载这些内容，比如下面这个例子：

要解决这个问题，最好的是去查看函数的文档，如果是自己写的函数，应该去查看你的函数写法

In [10]:
a, b, c = reverse(1, 2)

ValueError: not enough values to unpack (expected 3, got 2)

在jupyter中，我们有一个更简单的方式来做函数文档查询，只需要在函数名，也就是别加括号，后面打出？即可，比如说:

请运行一下下面这个框

In [14]:
len?

在之前，我们一直提到了一个重要的概念，类型。编程语言为什么需要设置类型？因为我们的信息有多种不同的形式，例如文字，例如数字，对于数字还有整数和小数之分。更加重要的是，不同类型的信息经常使用不同的处理方法，也就是不同的函数。而且特定的一些处理方法是和特定的数据类型相互绑定的，比如只有字符串需要做大小写，只有数字才需要加减乘除。因此，我们经常会将数据内容，数据类型和数据的处理方法这三者绑定起来，从下面这个例子里，我们可以看到这三者是如何被绑定的

In [15]:
# 1 is the data
1

1

In [16]:
# type is int
type(1)

int

In [17]:
# use dir to get the supported functions 
dir(1)

['__abs__',
 '__add__',
 '__and__',
 '__bool__',
 '__ceil__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floor__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__le__',
 '__lshift__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rfloordiv__',
 '__rlshift__',
 '__rmod__',
 '__rmul__',
 '__ror__',
 '__round__',
 '__rpow__',
 '__rrshift__',
 '__rshift__',
 '__rsub__',
 '__rtruediv__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__truediv__',
 '__trunc__',
 '__xor__',
 'bit_length',
 'conjugate',
 'denominator',
 'from_bytes',
 'imag',
 'numerator',
 'real',
 'to_bytes']

下面这个基于list的例子则更为复杂

In [18]:
# Value is [1, 2]
[1, 2]

[1, 2]

In [19]:
# Type is list
type([1, 2])

list

In [20]:
# Use dir to get functions of object
dir([1, 2])

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__rmul__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'append',
 'clear',
 'copy',
 'count',
 'extend',
 'index',
 'insert',
 'pop',
 'remove',
 'reverse',
 'sort']

我们将数据的内容，类型以及方法的封装称之为`object`对象，对象拥有数据，拥有类型名称，拥有对应的一系列方法，一些更为复杂的对象包括:
* numpy.ndarray
* pandas.DataFrame
* matplotlib.plot
* pytorch.nn.module

这些都是开发者们为大家写好的一些经典对象，但是要如何写对象呢？我们能够单独为数据1写一个对象吗？单独为数据"Hello World"写一个对象？那我们将在无穷无尽的数据海中累死。在上述我们提过：特定的数据总是与某个类型相绑定，总是与某一些特定的方法相绑定。所以一个更好的解法是针对某个类型来写对象，但是这样我们无法得知在真正被创建的对象中，数据是什么（当然数据的类型要对），因此我们所书写的只是一个模版，所以我们专门起了一个新的名字`class`来区分真正的`object`和它的模版`class`。请注意`class`只是模版，要将class转化为具体的object，我们需要初始化，为什么？因为我们要传入真正的数据内容

非常类似于我们之前探讨的，要完成一个类，我们需要提供三部分信息：
1. 对象的类型是什么？我们可以简单的认为，类的名字就是通过这个类所创建的对象的类型名
2. 对象要包含什么数据？我们可以在类的定义里，预留一些占位符来容纳信息，注意到这些信息需要在类被初始化的时候传入，所以我们这些占位符应该被放在一个在类初始化为对象时会运行的函数之中
3. 对象要包含什么方法？我们在类的定义里去写这些函数的内容。但是这类函数相比于之前的函数，有一个小小的不同，我们会使用到对象所含有的数据，因此我们应该想办法将类中的函数与类相绑定起来

In [21]:
# 要建立一个类，使用class关键字
class my_class():
    # __init__函数就是那个在类初始化时会被运行的函数
    def __init__(self, a, b):
        # self就是那个把类中的东西与类本身相绑定的东西
        # 通过将a和b加入到self.a和self.b中，我们完成了对象内含数据的添加
        self.a = a
        self.b = b
        # 注意这里的a和b只是占位符，它还没有实际的数据，在初始化时，真正的数据会被传入
    
    # 直接在这里定义函数，这个函数即变为类中内涵的函数
    # 请注意要使用类的内含变量，我们需要传入self作为函数的参数
    def reverse(self):
        # 这样就可以在其中使用self的内含变量了
        return self.b, self.a

接下来我们需要初始化这个类为对象，此时我们不需要自己运行`.__init__()`函数，只需要使用类的名字，比如上面这个`my_class`，使用一个类似函数的写法，来做类的初始化。

注意到我们的`.__init__()`函数使用了两个变量，a和b，这意味着我们在初始化时也需要传入两个参数a和b，才可以进行

In [22]:
my_object = my_class(1, 2)

In [23]:
# 这样则不行
my_object = my_class()

TypeError: __init__() missing 2 required positional arguments: 'a' and 'b'

从这个报错信息我们可以发现，其实类名这个函数还是去调用`.__init__()`这个函数的，所以一定要满足init函数的参数需求，类才会被创建

接下来我们检查一下我们object的内含变量，类型名称，以及含有的函数名字

要查看我们的内含变量，我们使用简单的`.`运算符

In [26]:
my_object.a

1

In [27]:
my_object.b

2

别忘了函数也是变量！

In [28]:
my_object.reverse

<bound method my_class.reverse of <__main__.my_class object at 0x7f77717e7e10>>

请注意这里有一个奇怪的前缀：bound method，这是因为我们在类中定义了这个函数，这个函数被绑定到了这个class中，所以才有bound method

别忘了，函数有一个重要的特性，它可以被调用！可以被用来处理数据！我们只需要添加`()`即可，所以也许大家会很奇怪于`[1, 2].append(3)`这样带.的函数调用，这其实只是因为append这个函数是被绑定到某一个特定的对象了，我们使用`.append`来调用这个函数变量，使用`.append()`来调用这个被绑定的函数

In [24]:
type(my_object)

__main__.my_class

正如上述所说的，对象的类型即是我们的类名

In [25]:
dir(my_object)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'a',
 'b',
 'reverse']

可以看到，我们的`reverse`函数就在最后，但这里，还有一大堆我们没有写的函数，这些函数来自哪里呢？

这来自于继承inheritence的抽象关系。

试想一下，我们想要初始化一只小黄鸭，那这只鸭子被捏了就会叫，他还是黄色的，他还有一个特点是卖萌，还会飞。此时还有一只小蓝鸭，它和小黄鸭唯一的区别是他是蓝色的，而他不会卖萌，会发火，当然它也会飞。我们可以实现两次这个类，但是这样你会发现代码有很大部分是重复的。

In [None]:
class yellow_duck():
    def __init__(self):
        self.color = "yellow"
        
    def maimeng():
        pass
    
    def fly():
        pass
    
class blue_duck():
    def __init__(self):
        self.color = "blue"
        
    def fahuo():
        pass
    
    def fly():
        pass

还有一个更好的方法，我们定义一个鸭子类，含有一个内含变量color，这些鸭子都会飞，然后如果我们的小黄鸭和小蓝鸭都继承自这个类，这样我们就只需要拓展出两个新的函数fahuo()和maimeng()而不用再重复写fly()这个函数了。

要实现继承，请在`class my_class(father_class):`类名后面的括号中写出继承的那个类

In [7]:
class Duck():
    def __init__(self, color):
        self.color = color
        
    def fly():
        pass

如果继承了某个类，我们需要先调用parent class的生成器，也即我们需要使用`super(new_class_name, self).__init__(parameters)`进行对父类生成器的调用，请在super()中传入新的类名以及`self`关键字，然后在`.__init__()`中向父类传入变量

In [14]:
class Yellow_Duck(Duck):
    def __init__(self):
        super(Yellow_Duck, self).__init__("yellow")
        
    def maimeng():
        pass

In [15]:
class Blue_Duck(Duck):
    def __init__(self):
        super(Blue_Duck, self).__init__("blue")
        
    def fahuo():
        pass

在这里，我们初始化鸭子，小黄鸭和小蓝鸭来看看他们的特性

In [16]:
duck = Duck("color")
yellow_duck = Yellow_Duck()
blue_duck = Blue_Duck()

In [18]:
duck.color

'color'

In [21]:
print(type(duck))

<class '__main__.Duck'>


In [20]:
print(dir(duck))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'color', 'fly']


In [22]:
yellow_duck.color

'yellow'

In [23]:
print(type(yellow_duck))

<class '__main__.Yellow_Duck'>


In [24]:
print(dir(yellow_duck))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'color', 'fly', 'maimeng']


In [25]:
blue_duck.color

'blue'

In [26]:
print(type(blue_duck))

<class '__main__.Blue_Duck'>


In [27]:
print(dir(blue_duck))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'color', 'fahuo', 'fly']


可以看到，这里blue_duck和yellow_duck里出现了fahuo和maimeng这些attribute。

这就是为什么我们发现这些对象里有一大堆我们没有定义过的函数，因为所有类都继承自`object`类

在类的定义中，Indentation这个概念非常非常重要，如果缩进出错，会直接导致类的定义不包含这个函数并导致一些有趣的错误，比如没有实现函数

In [28]:
class Duck():
    def __init__(self, color):
        self.color = color
        
def fly():
    pass

In [30]:
duck = Duck("color")

In [31]:
print(dir(duck))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'color']


此时你会发现没有fly()这个函数，因为它被定义在了类的外面

In [32]:
class Duck():
    def __init__(self, color):
        self.color = color
        
        def fly():
            pass

In [34]:
duck = Duck("color")

In [35]:
print(dir(duck))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'color']


这里也没有fly()函数，因为它被定义在了`__init__()`函数的里面