# 主题四：数据结构与对象-技术知识

- **应用目标**
    1. **阶段实战：利用数据结构的数据存储与操作功能，实现一个信息化管理系统**
    2. **综合实战：利用数据结构与算法，初步实现决策树算法**
    




- **技能目标**
    1. **能熟练实现各种基础算法并具备基础的算法思维**
    2. **基本技术应用能力**
        - `能使用各种内置数据结构；`
        - `能实现各种基础算法：排序、查找等；`
        - `能应用算法思想到数值计算中；`


- **知识点目标**
    1. **掌握对象概念与对象应用**
        - `对象的概念；`
        - `构造器与创建对象；`
        - `对象的运算符；`
        - `对象的方法；`
        - `可迭代对象；`
        - `可枚举对象；`

    2. **掌握元组数据结构**
        - `构建元组对象；`
        - `元组运算符；`
        - `元组数据操作；`

    3. **掌握字符串数据结构**
        - `构建字符串对象；`
        - `字符串运算符；`
        - `字符串数据操作；`

    4. **掌握列表数据结构**
        - `构建列表对象；`
        - `列表运算符；`
        - `列表数据操作；`

    5. **掌握字典数据结构**
        - `构建字典对象；`
        - `字典运算符；`
        - `字典数据操作；`

    6. **掌握集合数据结构**
        - `构建集合；`
        - `集合运算符；`
        - `集合数据操作；`

    7. **掌握基础算法**
        - `排序算法；`
        - `查找算法；`

## 对象的概念与应用

### 对象的概念

- 一提对象或者面向对象，大家都产生紧张的感觉，实际编程语言中的对象本质是一组数据，尤其在Python中更是万事万物皆对象，包括基本的数据类型与内置的数据结构都是对象。



- 在前面接触到的数据要么是全局变量，要么是局部变量，这是两种极端的情况：
    - 全局变量过多，影响程序的加载速度，并占用过多的系统内存。
    - 局部变量过多，程序模块之间的数据处理流中的数据全靠参数传递，过多的参数传递，增加程序模块之间的耦合性（依赖关系更加紧密）


- 对象实际是一组数据，具备如下两个特征：
    - 数据生命周期整体性：对象作为一组数据的整体，创建一起创建，释放一起释放；
    - 数据处理封闭性：对象的数据处理只对对象中的数据进行操作。数据也只服务于这些操作函数，其中的每个数据的作用域介于全局变量与局部变量之间：在对象存在的时候像全局，整个对象可以是局部的。
    
    
- 所谓对象就是一组自带数据操作与运算的数据体，对象也是变量。
    - 与变量一样也需要分配空间，初始化数据；
    - 对象的数据处理两种方式，外部函数与运算处理，对象自己的函数处理。前提都是对象变量已经存在或者非空。
    

- 对象与一般的变量概念一样，也是有类型的，对象的类型也称为类。
    - 对象的创建使用类型的构造器创建（类型的构造器也是一种运算符）。
    

### 构造器与对象创建

#### Python中的构造器

- Python的构造器有固定的名字：
    - `__init__(赋给对象的数据或者数据列表)`
    
    
- int类型的构造器
    - `def __init__(self, x, base=10): `
    
   
- 使用help查看帮助
    -  `pydoc3 int`
    

#### 使用构造器构建对象

- 尽管类型的构造器是`__init__`，但是创建对象使用的是类型名（调用的是`__init__`构造器）
    - 对象变量名 =  类型名(数据列表)


- 例子：

```
    # coding = utf-8

    a = int('20', 8)
    print(a)
    
```

- 说明：
    上面例子使用字符串'20'按照8进制构造了一个int（整数）对象。

- 构造器本质是一个函数，所以上面的调用与函数一样，参数遵循函数的规则。

### 对象的运算符

- 在类型的帮助文档中，所有运算符都是一个函数的形式，都是两个下划线`__`开始与结束，比如加法运算符

```python

       __add__(self, value, /)
          Return self+value.

```

- 对象支持哪些运算符，可以在类型的文档找到。


- 例子：

```

    # coding = utf-8

    a = int('20', 8)

    print(a + 30)

```

- 说明：
    - 上面例子中+ 运算符，调用的就是`__add__`函数。

### 对象的方法

- 对象方法分成两种：
    - 普通的方法
    - 属性方法
    
- 普通方法的调用：
    - `对象.方法(参数.......)`
    - `变量 = 对象.方法(参数.......)`
    
- 属性方法的调用：
    - 获取值：`变量 = 对象.属性`
    - 设置值：`对象.属性 = 值`
    
    - **说明：**
        - 可赋值的属性，称为写属性；可取值的属性，称为可读属性。
        - 有的属性不能赋值，称为**只读属性**
        - 有的属性会与数据混淆在一起，要注意区分。

- 方法调用例子：

```
    # coding = utf-8

    a = int('20', 8)

    print(a + 30)

    print(a.bit_length())
    print(a.to_bytes(a.bit_length(), 'big'))
    
```

- 属性例子：

```python

import requests

session = requests.Session()
session.get('https://www.baidu.com')   # 对象方法

print(session.cookies)    # 对象属性
print(session.headers)

```

### 可迭代对象

- 在初学Python的时候，有三个名词容易困扰入门者：可迭代对象，迭代器，生成器。

#### 生成器

- 我们在函数部分讲过，本质使用一段代码，在调用send函数的时候，代码执行，得到（生成）一个数据，还可以在调用代码生成数据的时候传递参数。
 

- 生成器调用例子：

```python

    def mygenerator():

        r = yield 20    # 返回第一次

        yield r + 88    # 返回第二次


    mg = mygenerator()
    re = mg.send(None)    # 调用第一次
    print(re)
    re = mg.send(100)       # 调用第二次
    print(re)

```


### 可迭代对象

- 可迭代对象不是一种类型，本质是实现`def   __iter__(self)`函数的对象，通过这个函数可以得到迭代器（有的时候就是对象本身），只要看见`def   __iter__(self)`函数实现的对象都是可迭代对象。 `__iter__`函数返回的是迭代器对象。
    
- 凡事可以返回迭代器的对象都是可迭代对象。
    - 内置数据结构
    - 生成器
    - 打开的文件对象

- 判定可迭代对象的例子：

```python

        # encoding = utf-8
        from collections import Iterable


        def mygenerator():
            yield '数据一'
            yield '数据二'
            yield '数据二'


        mg = mygenerator()
        a = [1, 2, 3, 4]
        b = iter(a)


        class A:
            def __iter__(self):
                return self


        fd = open('ds01_int.py','r')

        c = A()

        re = isinstance(a, Iterable)      # True   内置数据结构
        print(re)
        re = isinstance(b, Iterable)      # True   迭代器对象
        print(re)
        re = isinstance(c, Iterable)      # True   用户实现的可迭代对象
        print(re)
        re = isinstance(mg, Iterable)      # True    生成器对象
        print(re)
        re = isinstance(fd, Iterable)      # True    打开的文件对象
        print(re)
```


- for循环要求的对象必须是可迭代对象。下面是一个例子，在for使用不可迭代对象，会抛出`TypeError: 'int' object is not iterable`异常。

```python

        a = int(20)
        for i in a:
            print(i)

```


#### 迭代器

- 迭代器是一种类型，这种类型还必须实现一个函数规范`__next__(self, /)`，没有实现`__next__`函数的都不是迭代器。


- 迭代器可以使用next函数迭代调用。

```python
    class A:
        def __next__(self):
            return 20


    a = A()
    re = next(a)
    print(re)
```

- for循环要求`__iter__`返回的对象是迭代器类型，下面对象尽管是可迭代对象，但会抛出异常`ypeError: iter() returned non-iterator of type 'A'`异常。

```python

    class A:
        def __iter__(self):
            return self


    a = A()
    for i in a:
        print(i)

```

- 说明：
    - for循环的对象需要满足是可迭代对象，意味着：
        - 从这个可迭代对象可以得到一个迭代器。
    
    - 从语法结构来讲对象的`__iter__`返回的不是迭代器也可以称呼为可迭代对象，该对象只要实现了`__iter__`就是可迭代对象，但没有多大意义，因为`__iter__`本身就是用来获取容器的迭代器的（或者暴露容器迭代器的函数接口）。
    
    - 严格意来讲，只有通过`__iter__`返回一个迭代器的对象才称呼为可迭代对象。（我们后面都指的是严格意义的可迭代对象）
    

- 内置数据结构的迭代器类型
    - 使用iter函数可以从可迭代对象得到迭代器对象。
    
```
    def mygenerator():
        yield '数据一'
        yield '数据二'
        yield '数据二'
    
    mg = mygenerator()
    ds1 = (1, 2, 3, 4)
    ds2 = [1, 2, 3, 4]
    ds3 = {1, 2, 3, 4}
    ds4 = {1: 'a', 2: 'b', 3: 'c', 4: 'd'}


    print(iter(ds1))
    print(iter(ds2))
    print(iter(ds3))
    print(iter(ds4))
    print(iter(mg))

```

- 返回的迭代器类型如下：

```shell

    <tuple_iterator object at 0x10e206898>
    <list_iterator object at 0x10e206898>
    <set_iterator object at 0x10f585828>
    <dict_keyiterator object at 0x10f57cc28>
    <generator object mygenerator at 0x10f552468>

```

- 说明：
    - iter对生成器返回的是生成器类型。
    - 迭代器对数据迭代的方式不同。
    - 可迭代对象是对对象本身的迭代。

### 可枚举对象

- 枚举对象是另外类型的迭代器，只是`__next__`返回的数据不同。因为枚举对象也实现了：
    - `__iter__`
    - `__next__`
    
- 枚举对象返回的值与迭代器不同，枚举对象包含位置索引（位置从0开始）

```python

        # encoding = utf-8


        def mygenerator():
            yield '数据一'
            yield '数据二'
            yield '数据二'


        mg = mygenerator()

        ds1 = (1, 2, 3, 4)
        ds2 = [1, 2, 3, 4]
        ds3 = {1, 2, 3, 4}
        ds4 = {1: 'a', 2: 'b', 3: 'c', 4: 'd'}

        e1 = enumerate(mg, start=0)
        for e in e1:
            print(e)
        print('--------------')
        e2 = enumerate(ds2, start=1)
        for e in e2:
            print(e)
        print('--------------')
        e4 = enumerate(ds4, start=2)
        for e in e4:
            print(e)

```

- 输出结果为：

```shell

        (0, '数据一')
        (1, '数据二')
        (2, '数据二')
        --------------
        (1, 1)
        (2, 2)
        (3, 3)
        (4, 4)
        --------------
        (2, 1)
        (3, 2)
        (4, 3)
        (5, 4)

```


- 枚举对象也是迭代器，也是可迭代对象。
- 不管可迭代对象还是迭代器，都是提供数据结构的一种遍历方式，Python还专门提供for循环结构实现更加简洁的遍历方式。

## 元组

- 元组是内置内型使用关键字tuple表示，也是一个类型，也是一个类，该类享受的命名是关键字，不是用户标识字，也称`第一类对象`

- 使用如下指令可以查看tuple的帮助：
    - `pydoc3  tuple`

### 构建元组对象

- 构造器

```python

 |  tuple() -> empty tuple
        构建一个空的元组（通常没有意义）
 |  tuple(iterable) -> tuple initialized from iterable's items
        使用可迭代对象来构建一个元组

```

- 问题说明：
    - 迭代器与这些内置结构的区别在于，这些内置类型时数据容器，迭代器用来实现对容器中的数据遍历。
    - 可迭代对象是泛指可以返回迭代器的对象（具有可迭代特征的对象），不是一种对象类型，迭代器是一种具体的类型，不同的迭代器对象，对不同格式的数据进行迭代；
    - 枚举器是一种特殊的迭代器。
    - iter函数用来返回容器的迭代器（调用`__iter__`函数）。
    - next函数用来实现数据迭代（调用`__next__`函数）。
    
- 为什么要把可迭代对象转换成tuple等数据结构？
    - tuple，list，dict，set具有比可迭代对象更强大的操作功能。可迭代对象可以返回一个迭代器，迭代器可以实现数据遍历，这是所有基础数据结构基本的功能，但数据结构不仅仅这么单一的功能。可以从下面运算符与函数操作中体验，这些运算符与函数式迭代器没有的。

In [3]:
st = {1, 2, 3, 4}

tp = tuple(st)

print(tp)

(1, 2, 3, 4)


### 元组运算符

- 运算运算的API（下面的各种数据结构以此类推）：

```python
 |  __add__(self, value, /)
 |      Return self+value.
 |  __contains__(self, key, /)
 |      Return key in self.
 |  __eq__(self, value, /)
 |      Return self==value.
 |  __ge__(self, value, /)
 |      Return self>=value. 
 |  __getitem__(self, key, /)
 |      Return self[key]. 
 |  __gt__(self, value, /)
 |      Return self>value. 
 |  __le__(self, value, /)
 |      Return self<=value. 
 |  __len__(self, /)
 |      Return len(self). 
 |  __lt__(self, value, /)
 |      Return self<value.
 |  __mul__(self, value, /)
 |      Return self*value.
 |  __ne__(self, value, /)
 |      Return self!=value.
 |  __repr__(self, /)
 |      Return repr(self).
 |  __rmul__(self, value, /)
 |      Return value*self.
 |  __iter__(self, /)
 |      Implement iter(self). 
```


#### tuple不是迭代器

- 从上面运算符，可以看出tuple不是迭代器：因为没有`__next__`函数。
- 下面例子可以说明：

In [4]:
ds1 = (1, 2, 3, 4)
next(ds1)

TypeError: 'tuple' object is not an iterator

#### tuple具有迭代器

- 使用`__iter__`函数返回一个迭代器，迭代器可以并不是本身，可以是其他迭代器来迭代容器的数据，一般容器本身也可以实现为迭代器（安全性不够高）。

- 下面使用例子来说明，tuple的迭代器的类型

In [5]:
ds1 = (1, 2, 3, 4)
print(type(ds1.__iter__()))

# 得到tuple的迭代器：不是本身。
print(type(iter(ds1)))

# 正宗的得到tuple的迭代器的方式。
it = iter(ds1)

# 对迭代器进行迭代
print(next(it))
print(next(it))
print(next(it))
print(next(it))
print(next(it))    # 通过异常信息来判别迭代是否结束。

<class 'tuple_iterator'>
<class 'tuple_iterator'>
1
2
3
4


StopIteration: 

#### 元组的加法运算

-  加法的定义

```python
     |  __add__(self, value, /)
     |      Return self+value.
```

- tuple的加法只支持元组间的加法，实际是两个元组的合并，

- tuple加法的例子

In [6]:
ds1 = (1, 2, 3, 4)
ds2 = (5, 6, 7, 8, 9)

ds3 = ds1 + ds2 
print(ds3)

ds4 = ds1 + 5

(1, 2, 3, 4, 5, 6, 7, 8, 9)


TypeError: can only concatenate tuple (not "int") to tuple

#### tuple的in运算

- in运算符定义

```python

    |  __contains__(self, key, /)
    |      Return key in self.

```

- 说明：
    - key可以是任意类型，因为tuple容器可以容纳任意类型。
    - in支持not复合
    
- 例子代码：

In [7]:
ds1 = (1, 2, 3, 4,(2,3), [2, 3])
print( 2 in ds1)
print( (2,3) in ds1)
print( [2,3] in ds1)
print( {2,3} in ds1)
# not与in的结合
print( not 2 in ds1)

# not 与in的结合（推荐这种结合方式）
print( 2 not in ds1)



True
True
True
False
False
False


#### tuple的乘法运算

- 乘法定义：

```python

     |  __rmul__(self, value, /)
     |      Return value*self.
     |
     |  __mul__(self, value, /)
     |      Return self*value.

```

- 说明：
    - 上面包含左乘与右乘。
    - 乘法运算只支持与整数运算。
    - 乘法的函数是克隆，value用来指定克隆的次数。
    - 左乘与右乘的功能一样，但是提供更加灵活的使用方式（数乘满足交换律）
    
    
- 例子代码：    

In [8]:
ds1 = (1, 2, 3, 4, [2, 3])
ds2 = ds1 * 2
ds3 = 2 * ds1
print(ds2)
print(ds3)

(1, 2, 3, 4, [2, 3], 1, 2, 3, 4, [2, 3])
(1, 2, 3, 4, [2, 3], 1, 2, 3, 4, [2, 3])


#### tuple的下标运算

- tuple下标运算的定义

```python

        |  __getitem__(self, key, /)
        |      Return self[key].

```

- 说明：
    - `__getitem__`表示取值； `__setitem__`表示修改值；
    - tuple只有`__getitem__`，是只读下标；
    - key表示元组中元素的位置，位置从0开始。
    
    
- 例子代码：

In [9]:
ds1 = (1, 2, 3, 4, [2, 3])
print( ds1[0] )
print( ds1[2] )
print( ds1[4] )

ds1[1] = 88   # 报错（因为tuple只读）

1
3
[2, 3]


TypeError: 'tuple' object does not support item assignment

#### tuple的数据长度

- 长度运算的定义

```python

     |  __len__(self, /)
     |      Return len(self).

```

- 说明：
    - 这个运算对应的运算操作是len函数。
    
- 例子代码

In [10]:
ds1 = (1, 2, 3, 4, [2, 3])

print(len(ds1))    # 推荐方式

print(ds1.__len__()) 

5
5


#### tuple的repr运算

- repr运算定义：

```
        |  __repr__(self, /)
        |      Return repr(self).
 
```

- 说明：
    - 这个运算比较常用，就是在使用print函数输出，会自动调用该运算，该运算返回一个对象的字符串描述；
    - repr运算使用repr函数调用。
    
- 注意：
    - repr返回的字符串，可以使用eval转换为对象。
    
    - 如果`__str__`存在，print优先调用`__str__`运算；
    
- 例子代码

In [11]:
ds1 = (1, 2, 3, 4)

re = repr(ds1)
print(re)

er = ds1.__repr__()
print(er)

v = eval(er)
print(type(v), v)


(1, 2, 3, 4)
(1, 2, 3, 4)
<class 'tuple'> (1, 2, 3, 4)


#### tuple的比较运算

- 比较运算的定义（标准6大比较运算）

```python

 |  __eq__(self, value, /)
 |      Return self==value.
 |  __ne__(self, value, /)
 |      Return self!=value.

 |  __ge__(self, value, /)
 |      Return self>=value.
 |  __gt__(self, value, /)
 |      Return self>value.

 |  __le__(self, value, /)
 |      Return self<=value.
 |  __lt__(self, value, /)
 |      Return self<value.


```

- tuple的比较运算采用的是取比较元组较短的作为比较范围，并对对应元素比较，多出的元素不比较，全部比较返回True，则比较返回True，一个返回False，停止比较，并返回False。
    - `==`与`!=`含义是明确的
    - `<`与`<=`与`>`与`>=`的


In [12]:
ds1 = (3, 5, 1, 7)
ds2 = (1, 1)
ds3 = (-1,)
ds4 = (3, 3, 1, 5, 9)

print(ds2 <= ds1)
print(ds3 <= ds1)
print(ds4 <= ds1)

print(ds2 < ds1)
print(ds3 < ds1)
print(ds4 < ds1)

True
True
True
True
True
True


### 元组数据操作

#### tuple的count操作

- 定义：

```python

 |  count(...)
 |      T.count(value) -> integer -- return number of occurrences of value

```

- 用来统计tuple中某个值出现的次数。
    - 参数可以是任意类型；
    
    
- 例子代码：

In [13]:
ds = (3, 3, 1, 5, 9)

print(ds.count(3))

2


#### tuple的index操作

- 定义：

```python

    |  index(...)
    |      T.index(value, [start, [stop]]) -> integer -- return first index of value.
    |      Raises ValueError if the value is not present.


```

- 说明：
    - 用来搜索某个值在元组中的位置。可以指定搜索范围\[start，stop\]，
        - value：被搜索值
        - start：搜索开始位置，
        - stop：搜索结束位置
    
    - 使用参数不能指定参数keyword。
    - 搜索范围使用的是闭开区间\[start, stop)。
    - 如果搜索不到，会抛出异常`ValueError: tuple.index(x): x not in tuple`。
    
    - 找到后停止搜索，并返回下标；
    
- 例子代码：

In [14]:
ds = (3, 3, 1, 5, 9)

print(ds.index(3))

print(ds.index(9))

# print(ds.index(8))


print(ds.index(5, 0, 4))

print(ds.index(5, 0, 3))

0
4
3


ValueError: tuple.index(x): x not in tuple

## 字符串

- 真正意义上，字符串实际是一个特殊的元组。不过处理的数据是字符罢了。
- 练习：
    - 使用pydoc 查看str类型的帮助。

### 构建字符串对象

- 构造器定义：

```python

    class str(object)
     |  str(object='') -> str
     |  str(bytes_or_buffer[, encoding[, errors]]) -> str

```

- 说明：
    - str构造器两种用法：
        - 可以使用任意对象构建字符串（或者说把任意对象转换为字符串对象）
        - 可以使用字节流（字节数组）构建字符串（需要指定编码格式）
    - 使用引号是Python解释器自动构造。(这个是常用的方式)

### 字符串运算符

- 元组有的运算符，字符串基本上都有，作用与用法与一样，但是字符串有自己独特的运算符：

```
|  __mod__(self, value, /)
|      Return self%value.
|  __rmod__(self, value, /)
|      Return value%self.

|  __sizeof__(...)
|      S.__sizeof__() -> size of S in memory, in bytes

|  __str__(self, /)
|      Return str(self).
```

#### 字符串的%运算符

- 字符串的%运算符，不是求余的功能，而是格式化的功能。

- 例子代码:

In [15]:
s = 'Hello %d'
print(s)

# print(20 % s)     # __rmod__歧义
print(s % 30)



t = 'world %s'
u = 'hello'
print(u.__rmod__(t))     # 防止歧义，没有对应的%应用于这个运算符


Hello %d
Hello 30
world hello


#### 字符串的__sizeof__运算

- 定义：

```python

|  __sizeof__(...)
|      S.__sizeof__() -> size of S in memory, in bytes

```

- 说明：
    - 用来返回字符串占用的内存大小
    

- 例子代码

In [16]:
s = 'hello'
print(s.__sizeof__())

54


### 字符串数据操作

- 字符串的操作比较多，这里按照功能分类来说明；
- 其中count与index在元组使用过，这里不做说明。


- **强调说明**：
    >**下面的所有操作，不影响字符串本身，结果都是在克隆上的操作。**

#### 字符串大小写操作

- 提供三种大写操作
    - `S.capitalize() -> str`    
        - 首字母大写
    - `S.lower() -> str`
        - 全部小写
    - `S.upper() -> str`
        - 全部大写
    - `S.casefold() -> str`
        - 无大小写比较的字符串
    - `S.swapcase() -> str`
        - 大小写转换
    - ` S.title() -> str`
        - 标题字符串（每个单词的首字母大写）

    
- 例子代码

In [17]:
s = 'this is a very good dAy!'

print(s.capitalize())
print(s.lower())
print(s.upper())
print(s.casefold())
print(s.swapcase())
print(s.title())     

This is a very good day!
this is a very good day!
THIS IS A VERY GOOD DAY!
this is a very good day!
THIS IS A VERY GOOD DaY!
This Is A Very Good Day!


#### 字符串的字符类别判定

- 字符串提供对字符类别判别：
    - `S.isalnum() -> bool`
        - 是否是字母数字
    - `S.isalpha() -> bool`
        - 是否是字母
    - `S.isdecimal() -> bool`
        - 是否是十进制数
    - `S.isdigit() -> bool`
        - 是否是数字
    - `S.isidentifier() -> bool`
        - 是否是标识符
    - `S.islower() -> bool`
        - 是否是小写
    - `S.isnumeric() -> bool`
        - 是否是数字字符
    - `S.isprintable() -> bool`
        - 是否是可打印字符
    - `S.isspace() -> bool`
        - 是否是空格
    - `S.istitle() -> bool`
        - 是否是标题字符
    - `S.isupper() -> bool`
        - 是否是大写

- 使用例子：

In [18]:
print('a2'.isalnum())
print('a'.isalpha())
print('012'.isdecimal())
print('0123456789'.isdigit())
print('name_'.isidentifier())
print('abcd1'.islower())
print('012'.isnumeric())
print('\t'.isprintable())
print('\t'.isspace())
print('Abc'.istitle())
print('ABC'.isupper())

True
True
True
True
True
True
True
False
True
True
True


#### 字符串查找与替换

- 查找
    - `S.find(sub[, start[, end]]) -> int`
        - 在指定位置查找sub字符串，没有找到返回-1。
    - `S.index(sub[, start[, end]]) -> int`
        - 在指定位置查找sub字符串，没有找到返回`ValueError`异常
    - `S.partition(sep) -> (head, sep, tail)`
        - 查找sep分隔符，并返回分隔符前面，与后面的字符串。
    - ------
    - `S.rfind(sub[, start[, end]]) -> int`
        - find的逆序版本
    - `S.rindex(sub[, start[, end]]) -> int`
        - index的逆序版本
    - `S.rpartition(sep) -> (head, sep, tail)`
        - partition的逆序版本
- 替换
    - `S.replace(old, new[, count]) -> str`
        - 使用new替换old，count指定替换次数；
    - `S.translate(table) -> str`
        - 使用table中的字符替换（翻译）。要求table对象实现lookup/indexing方法，比如`__getitem__()`下标运算，字典，列表也可以（列表的元素应该是元组），其中字典中的key必须是unicode码，value可以是unicode码，字符串或者None。
        - table可以使用str的一个工具函数`maketrans(x, y=None, z=None, /)`构造。
    - `S.expandtabs(tabsize=8) -> str`
        - 把tab替换成空格  
        
- str的静态函数maketrans

    - 函数定义：`maketrans(x, y=None, z=None, /)`
    - 这个函数主要创建translate使用的翻译表。

    - 使用方式：
        1. 一个参数，必须是字典，用来创建unicode映射
        2. 两个参数，必须是两个长度相等的字符串，用来产生一个unicode字典；
        3. 三个参数，最后一个参数就映射为None
        
- 查找的例子：

In [19]:
s = 'this is s very good day'

print(s.find('is',0, len(s) +1 ))   # 位置从0开始
print(s.find('kill',0, len(s) +1 ))   # 位置从0开始

2
-1


In [20]:
s = 'this is s very good day'
print(s.index('is',0, len(s) +1 ))   # 位置从0开始
print(s.index('kill',0, len(s) +1 ))   # 位置从0开始

2


ValueError: substring not found

In [21]:
s = 'this is s very good day'
print(s.partition('very'))

('this is s ', 'very', ' good day')


- 替换的例子

In [22]:
s = 'this is s very good day'
print(s.replace('is', 'IS', 3))    # 最多替换3次
print(s.replace('is', 'IS', 1))     # 最多替换1次
print(s.replace('is', 'IS', -1))   # 全部替换

thIS IS s very good day
thIS is s very good day
thIS IS s very good day


In [23]:
s = 'this is s very good day'
table = {
    ord('t'): ord('!'),
    ord('h'): ord('@'),
    ord('e'): ord('^'),
    ord('r'): ord('&'),
    ord('y'): '*',
    ord('d'): '()',
    ord('a'): None,     # a字符被删除
}

print(s.translate(table))   # 全部替换

!@is is s v^&* goo() ()*


In [24]:
intab = "aeiou"
outtab = "*&%$#"
trantab = str.maketrans(intab,outtab)

str = "this is a very good  day....wow!!!"
print(trantab)
print(str.translate(trantab))

{97: 42, 101: 38, 105: 37, 111: 36, 117: 35}
th%s %s * v&ry g$$d  d*y....w$w!!!


In [25]:
in_table = {
    't': '!',
    'h': '@',
    'a': None,     # a字符被删除
}
trantab = str.maketrans(in_table)
print(trantab)

{116: '!', 104: '@', 97: None}


In [26]:
intab = "aeiou"
outtab = "*&%$#"
third = 'mlst'
trantab = str.maketrans(intab,outtab, third)
print(trantab)

{97: 42, 101: 38, 105: 37, 111: 36, 117: 35, 109: None, 108: None, 115: None, 116: None}


#### 字符串空格与填充操作

- 字符串提供的空格操作有：
    - `S.center(width[, fillchar]) -> str`
        - 扩大字符串长度，原来的字符串居中，两边填充空格或者fillchar
    - `S.ljust(width[, fillchar]) -> str`
        - 扩大字符串长度，原来的字符串居左，两边填充空格或者fillchar
    - `S.rjust(width[, fillchar]) -> str`
        - 扩大字符串长度，原来的字符串居右，两边填充空格或者fillchar
    - ----
    - `S.strip([chars]) -> str`
        - 得到一个去掉两边空格的字符串
    - `S.rstrip([chars]) -> str`
        - 得到一个去掉右边空格的字符串
    - `S.lstrip([chars]) -> str`
        - 得到一个去掉左边空格的字符串
    - ----
    - `S.zfill(width) -> str`
        - 对数字字符串，指定长度，前边填充0。

- 例子代码：

In [27]:
s = '欢迎大家'

print(s.center(20))
print(s.ljust(20))
print(s.rjust(20))

t = s.center(20)
print(t.strip())
print(t.rstrip())
print(t.lstrip())

print(s.zfill(20))

        欢迎大家        
欢迎大家                
                欢迎大家
欢迎大家
        欢迎大家
欢迎大家        
0000000000000000欢迎大家


#### 字符串开始与结束判定

- 这种操作用的最多的应用场景是：文件名操作。
    - `S.startswith(prefix[, start[, end]]) -> bool`
        - 判定字符串是否以prefix开始。
    - `S.endswith(suffix[, start[, end]]) -> bool`
        - 判定字符串是否以suffix结束。


- 例子代码

In [28]:
s = 'example.py'

print(s.startswith('example'))
print(s.endswith('.py'))

True
True


#### 字符串分隔与合并

- 字符串使用比较多的是字符串合并与分隔：
    - `S.join(iterable) -> str`
        - 合并iterable中的字符串，使用S作为分隔符号。
    - ----
    - `S.split(sep=None, maxsplit=-1) -> list of strings`
        - 使用sep作为分隔符，对字符串进行分隔，返回分隔以后的字符串。
        - 可以使用maxsplit指定最大分隔次数。
        - 如果没有指定sep参数，默认是空格；maxsplit的默认是-1，表示全部分隔。
    - `S.rsplit(sep=None, maxsplit=-1) -> list of strings`
        - 同上：分隔从结束位置开始。是split的逆序版本。
    - `S.splitlines([keepends]) -> list of strings`
        - 使用换行符或者回车作为分隔符，参数keepends=True可以保留分隔符。
        - 一般的换行是`\n`,`\r`。不同操作系统可能不同。有的使用`\r`,`\n`,`\r\n`。
    

- 合并的例子

In [29]:
s = '， '
t = ['food！', 'sky！', 'sea！']

result = s.join(t)
print(result)

food！， sky！， sea！


- 拆分的例子

In [30]:
s = 'this is s a good day, I want to travel'

print(s.split())
print(s.split(','))

print(s.rsplit())
print(s.rsplit(','))

t = '''
This is a good day!
I want to travel!
'''

print(t.splitlines(keepends=False))
print(t.splitlines(keepends=True))


u = '''This is a good day!\rI want to travel!\nGo \r\non!'''
print(u.splitlines(keepends=False))
print(u.splitlines(keepends=True))

['this', 'is', 's', 'a', 'good', 'day,', 'I', 'want', 'to', 'travel']
['this is s a good day', ' I want to travel']
['this', 'is', 's', 'a', 'good', 'day,', 'I', 'want', 'to', 'travel']
['this is s a good day', ' I want to travel']
['', 'This is a good day!', 'I want to travel!']
['\n', 'This is a good day!\n', 'I want to travel!\n']
['This is a good day!', 'I want to travel!', 'Go ', 'on!']
['This is a good day!\r', 'I want to travel!\n', 'Go \r\n', 'on!']


### 字符串的格式化

- 字符串的格式化比较复杂，选择常用的相对比较简单，同时在Python3增加了F前缀内置格式字符串，这个语法提供更加方便的格式化操作

- 字符串格式提供三种方式：
    - 内置格式化
    - %运算符格式化
    - format格式化函数

#### 字符串格式化方式1：%运算符格式化

1. 语法：
    > '  % 格式规范'  % (被格式化数据，......)
    
    
2. 例子代码

In [31]:
a = 20
print('格式化数据：%+08d' % (a))

格式化数据：+0000020


3. %格式化的格式支持比较少，已经被下面的格式化替换。
    - %支持的格式是传统的格式。在Linux系统可以通过查看print的帮助得到。这个格式已经与Python的格式不兼容了。
    ![image.png](attachment:image.png)

4. %的格式与下面的格式已经不兼容
    - % 的精度指的是小数以后的位数，新的精度指的是有效位数。下面是例子。

In [32]:
print('%8.2f'%78.8888883)    # 

# 新的格式规范效果
print(F'{78.8888883:*>8.2f}')  

print('%*>8.2f'%78.8888883)      # 错误

   78.89
***78.89


TypeError: * wants int

#### 字符串格式化方式2：内置格式化

1. 语法：
    > F"... { 被格式化数据！数据转换方式：格式规范 } ... "       
    > **数据转换方式：**s（调用str转换）,r（调用repr转换）,a（调用ascii转换）      
    >**格式规范**：字符串格式规范，日期格式规范      
    >具体的字符串格式规范见下面。     

2. 例子代码

In [33]:
a = 20
print(F'整数格式化： 0X{a:-0X}')     # 格式要与数据类型匹配

b = 88.88888888
print(F'小数格式化： {b:8.2f}')
precise = 2
print(F'小数格式化： {b:-{12}.{precise}}')   # 嵌套

c = '马哥教育'
print(F'字符串格式化： {c!a}')

整数格式化： 0X14
小数格式化：    88.89
小数格式化：      8.9e+01
字符串格式化： '\u9a6c\u54e5\u6559\u80b2'


#### 字符串格式化方式3：format格式化函数

1. 函数定义：
    - |- `S.format(*args, **kwargs) -> str`
    - |- `S.format_map(mapping) -> str`

2. 格式
    - `"...{：格式规范}...{：格式规范}".format(被格式化数据，......)`       ：按照默认顺序作为位置。
    - `"...{位置：格式规范}...{位置：格式规范}".format(被格式化数据，......)`    ： 使用指定位置的参数格式化。
    - `"...{名字：格式规范}...{位置：格式规范}".format(名字=被格式化数据，......)`    ： 使用指定位置的参数格式化。
    
    - `"...{名字.成员或者运算符：格式规范}...{位置：格式规范}".format(名字=被格式化数据，......)`    ： 使用指定位置的参数格式化。
    
3.例子代码

In [34]:
a = 20
print('格式化数据：{:+08}'.format(a)) 
print('格式化数据：{1:+08}'.format(88, a))     # 位置从0开始
print('格式化数据：{p2:+08}'.format(p1=88, p2=a))     # keyword参数
print('格式化数据：{p1.real:+08}'.format(p1=88+3j, p2=a))     # keyword成员
print('格式化数据：{0.real:+08}'.format(88+3j, p2=a))     # 位置的成员

格式化数据：+0000020
格式化数据：+0000020
格式化数据：+0000020
格式化数据：+00088.0
格式化数据：+00088.0


#### 格式化规范语言

- 在官方文档中为：
    - Format Specification Mini-Language

- 格式化规范语言的官方帮助为

```python

format_spec     ::=  [[fill]align][sign][#][0][width][grouping_option][.precision][type]
fill            ::=  <any character>
align           ::=  "<" | ">" | "=" | "^"
sign            ::=  "+" | "-" | " "
width           ::=  digit+
grouping_option ::=  "_" | ","
precision       ::=  digit+
type            ::=  "b" | "c" | "d" | "e" | "E" | "f" | "F" | "g" | "G" | "n" | "o" | "s" | "x" | "X" | "%"

```

- 说明
    - fill：当输出内容的长度小于输出长度的时候，该格式可以指定填充的字符。
        - 数据：任意字符。默认是空
    - align：当输出内容的长度小于输出长度的时候，该格式可以指定对齐方式。
        - 数据： "<" （右对齐） ">" （左对齐） "=" （在符号与数字之间补填充字符，默认是0） "^"（居中）
        - 如果没有align，就不能指定fill。
        
    - sign：指定输出符号，符号只对数值有效。
        - 数据：+ （整数显示正号）-（负数显示符号：缺省的） 空格（整数显示空格，负数显示减号）
        
    - \# ：表示可选输出格式，只对整数，小数，复数有效。
        - 数据：比如整数使用二进制，会自动输出0b或者0B
        
    - 0：表示自动填充0，类似第一个填充符号
    
    - width：输出宽度
        - 数据：整数
    - grouping_option：分组选项
        -  数据：在python3.6以后还增加了逗号（分组显示），下划线表示分组。
        
    - .precision：输出精度，就是小数的位数
        - 数据：整数
    
    - type：指定输出的数据类型，一定要匹配。
        - 字符串：s
        - 整数：见附录
        - 小数：见附录

**附录一**：整数类型

Type	|Meaning
-|-
'b'	|Binary format. Outputs the number in base 2.
'c'	|Character. Converts the integer to the corresponding unicode character before printing.
'd'	|Decimal Integer. Outputs the number in base 10.
'o'	|Octal format. Outputs the number in base 8.
'x'	|Hex format. Outputs the number in base 16, using lower- case letters for the digits above 9.
'X'	|Hex format. Outputs the number in base 16, using upper- case letters for the digits above 9.
'n'	|Number. This is the same as 'd', except that it uses the current locale setting to insert the appropriate number separator characters.
None	|The same as 'd'.

**附录二**：小数类型

Type	|Meaning
-|-
'e'	|Exponent notation. Prints the number in scientific notation using the letter ‘e’ to indicate the exponent. The default precision is 6.
'E'	|Exponent notation. Same as 'e' except it uses an upper case ‘E’ as the separator character.
'f'	|Fixed-point notation. Displays the number as a fixed-point number. The default precision is 6.
'F'	|Fixed-point notation. Same as 'f', but converts nan to NAN and inf to INF.
'g'	| <p>General format. For a given precision p >= 1, this rounds the number to p significant digits and then formats the result in either fixed-point format or in scientific notation, depending on its magnitude.</p><p>The precise rules are as follows: suppose that the result formatted with presentation type 'e' and precision p-1 would have exponent exp. Then if -4 <= exp < p, the number is formatted with presentation type 'f' and precision p-1-exp. Otherwise, the number is formatted with presentation type 'e' and precision p-1. In both cases insignificant trailing zeros are removed from the significand, and the decimal point is also removed if there are no remaining digits following it.</p><p>Positive and negative infinity, positive and negative zero, and nans, are formatted as inf, -inf, 0, -0 and nan respectively, regardless of the precision.</p><p>A precision of 0 is treated as equivalent to a precision of 1. The default precision is 6.</p>
'G'	|General format. Same as 'g' except switches to 'E' if the number gets too large. The representations of infinity and NaN are uppercased, too.
'n'	|Number. This is the same as 'g', except that it uses the current locale setting to insert the appropriate number separator characters.
'%'	|Percentage. Multiplies the number by 100 and displays in fixed ('f') format, followed by a percent sign.
None	|Similar to 'g', except that fixed-point notation, when used, has at least one digit past the decimal point. The default precision is as high as needed to represent the particular value. The overall effect is to match the output of str() as altered by the other format modifiers.

1. fill与align格式例子

In [35]:
a = 45.7845

print(F"{a:*>20.8f}")

print("{a:*>20.8f}".format(a=a))
print("{:*>20.8f}".format(a))
print("{0:*>20.8f}".format(a))

# 下面是错的：因为指定填充符号，必须要指定对齐方式
print(F"{a:*20.8f}")

*********45.78450000
*********45.78450000
*********45.78450000
*********45.78450000


ValueError: Invalid format specifier

2. sign格式的例子

In [36]:
a = 45.7845

print(F"{a:*>+20.2f}")

**************+45.78


3. \# 格式的例子

In [37]:
a = 45
print(F"{a:*>+20b}")
print(F"{a:*>+#20b}")

*************+101101
***********+0b101101


4. 0格式的使用例子

In [38]:
a = 4572334

print(F"{a:+020d}")    # 使用填充符号达到一样的效果。

+0000000000004572334


5. grouping_option：逗号与_格式的使用例子

In [39]:
a = 4572334

print(F"{a:+10,d}")    # 不能使用x类型，三个一分组
print(F"{a:_X}")       # 对十进制三个分组，对x是4个一分组。

print(F"{a:#}")

+4,572,334
45_C4AE
4572334


#### 日期格式化

Directive	|Meaning	|Example	
-|-|-
%a	|Weekday as locale’s abbreviated name.	|Sun, Mon, …, Sat (en_US);<br>So, Mo, …, Sa (de_DE)
%A	|Weekday as locale’s full name.	|Sunday, Monday, …, Saturday (en_US);<br>Sonntag, Montag, …, Samstag (de_DE)
%w	|Weekday as a decimal number, where 0 is Sunday and 6 is Saturday.	|0, 1, …, 6	 
%d	|Day of the month as a zero-padded decimal number.	|01, 02, …, 31	 
%b	|Month as locale’s abbreviated name.	|Jan, Feb, …, Dec (en_US);<br>Jan, Feb, …, Dez (de_DE)
%B	|Month as locale’s full name.	|January, February, …, December (en_US);<br>Januar, Februar, …, Dezember (de_DE)
%m	|Month as a zero-padded decimal number.	|01, 02, …, 12	 
%y	|Year without century as a zero-padded decimal number.	|00, 01, …, 99	 
%Y	|Year with century as a decimal number.	0001, 0002, …, |2013, 2014, …, 9998, 9999	
%H	|Hour (24-hour clock) as a zero-padded decimal number.	|00, 01, …, 23	 
%I	|Hour (12-hour clock) as a zero-padded decimal number.	|01, 02, …, 12	 
%p	|Locale’s equivalent of either |AM or PM.	<br>AM, PM (en_US);<br>am, pm (de_DE)
%M	|Minute as a zero-padded decimal number.	|00, 01, …, 59	 
%S	|Second as a zero-padded decimal number.	|00, 01, …, 59	
%f	|Microsecond as a decimal number, zero-padded on the left.	|000000, 000001, …, 999999	
%z	|UTC offset in the form +HHMM or -HHMM (empty string if the object is naive).	|(empty), +0000, -0400, +1030	
%Z	|Time zone name (empty string if the object is naive).	|(empty), UTC, EST, CST	 
%j	|Day of the year as a zero-padded decimal number.	|001, 002, …, 366	 
%U	|Week number of the year (Sunday as the first day of the week) as a zero padded decimal number. All days in a new year preceding the first Sunday are considered to be in week 0.	|00, 01, …, 53	(7)
%W	|Week number of the year (Monday as the first day of the week) as a decimal number. All days in a new year preceding the first Monday are considered to be in week 0.	|00, 01, …, 53	
%c	|Locale’s appropriate date and time representation.	|Tue Aug 16 21:30:00 1988 (en_US);<br>Di 16 Aug 21:30:00 1988 (de_DE)
%x	|Locale’s appropriate date representation.	|08/16/88 (None);<br>08/16/1988 (en_US);<br>16.08.1988 (de_DE)
%X	|Locale’s appropriate time representation.	|21:30:00 (en_US);<br>21:30:00 (de_DE)
%%	|A literal '%' character.	|%	 

- 日期在字符串格式化使用例子

In [40]:
import datetime

dt = datetime.datetime.now()
print(dt)

print(F'{dt: %Y年%m月%d日}')

2019-03-21 16:28:44.752040
 2019年03月21日


## 列表

- 列表与元组类型差不多，但元组是immutable（稳定的：不可修改，所有操作都是在克隆上操作返回），但list的mutable（不稳定的，可以直接在list对象上操作），所有在运算符与操作都存在一定差别。

### 构建列表对象

1. 构造器定义

```python
    class list(object)
         |  list() -> new empty list
         |  list(iterable) -> new list initialized from iterable's items

```

- 构造器也tuple也差不不多，一般我们还是使用内置的\[ ...\] 来构造list对象。为了方便，也可以使用构造器把其他可迭代对象转换为list类型，提供给用户更加方便的数据访问与操作。

2. 构造器使用的例子

In [41]:
fd = open('recurit.py', 'r')
lst_fd = list(fd)                  # <---把可迭代的fd对象转换为list对象
fd.close()

for line in lst_fd:
    print(line, end='')

import os


def list_dir(d, depth):
    fd = os.path.basename(d)
    print('  ' * depth, fd, sep='|-')
    v = []
    if os.path.isdir(d):
        files = os.listdir(d)
        for file in files:
            file_path = os.path.join(d, file)
            r = list_dir(file_path, depth + 1)
            v.append(r)
    return {d: v}


re = list_dir('.', 1)
print(re)



### 列表运算符

- 在tuple中介绍过的运算符在list同样可以使用，下面是tuple中没有的运算符介绍。

#### 下标运算\_\_setitem\_\_与\_\_delitem\_\_
```
     |  __setitem__(self, key, value, /)
     |      Set self[key] to value.
     |  __delitem__(self, key, /)
     |      Delete self[key].
     
     
     |  __sizeof__(...)
     |      L.__sizeof__() -- size of L in memory, in bytes

```

- 说明：
    - 可以通过\[...\]实现对list中数据的修改。
    
- 例子代码： 

In [42]:
lst = [1, 2, 3, 4, 5]
lst[2] = 88            # 对元组而言，没有这个运算符号。

print(lst)     # 修改\_\_setitem\_\_
del lst[2]    # 删除\_\_delitem\_\_
print(lst)


[1, 2, 88, 4, 5]
[1, 2, 4, 5]


#### \_\_sizeof\_\_运算

In [43]:
lst = [1, 2, 3, 4, 5]
print(lst.__sizeof__())
del lst[2]   
print(lst.__sizeof__())     # 占用内存

ds = tuple((1, 2, 3, 4, 5))
print(ds)
print(ds.__sizeof__())   # tuple也有__sizeof__运算，但该运算来自object，调用获取的信息是来自object。

80
80
(1, 2, 3, 4, 5)
64


#### \+\=与\*\=运算符号

- 因为list可变，所以+=这样的复合运算的含义与tuple有差别。

1. 定义：

```python
     |  __iadd__(self, value, /)
     |      Implement self+=value.
     |  
     |  __imul__(self, value, /)
     |      Implement self*=value.

```

2. 使用例子：

In [44]:
lst = [1, 2, 3, 4, 5]
tup= (1, 2, 3, 4, 5)

lst += [6, 7, 8]
print(lst)

lst *= 2
print(lst)

# 注意：对元组的+=运算，明显有差别，tuple中的+= 来自object，是对象克隆，list的是在本身的操作
tup += (6, 7, 8)
print(tup)

tup *= 2
print(tup)

[1, 2, 3, 4, 5, 6, 7, 8]
[1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4, 5, 6, 7, 8]
(1, 2, 3, 4, 5, 6, 7, 8)
(1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4, 5, 6, 7, 8)


### 列表数据操作

- tuple中的操作在list中都支持，下面列出list独有的操作函数。

#### 添加操作

1. 末尾添加数据

```python
    L.append(object) -> None -- append object to end
```

2. 指定位置插入数据

```python
    L.insert(index, object) -- insert object before index
```
3.  扩展数据

```python
    L.extend(iterable) -> None -- extend list by appending elements from the iterable
```

4. 数据添加例子

In [45]:
lst = [1, 2, 3, 4, 5]

lst.append(6)
print(lst)

# 追加元素，对列表也是当成一个元素
lst.append([7, 8])
print(lst)


# 在指定位置添加
lst.insert(2,888)
print(lst)

# 扩展，等价于 +=
lst.extend([55,66])
print(lst)

[1, 2, 3, 4, 5, 6]
[1, 2, 3, 4, 5, 6, [7, 8]]
[1, 2, 888, 3, 4, 5, 6, [7, 8]]
[1, 2, 888, 3, 4, 5, 6, [7, 8], 55, 66]


#### 删除操作

1. 全部清空

```python

    L.clear() -> None -- remove all items from L
```

2. 删除指定位置的元素，
    - 不指定位置，默认是最后一个。
    - list为空，会抛出异常。
    - 删除的值会被返回

```python

    L.pop([index]) -> item -- remove and return item at index (default last).
        Raises IndexError if list is empty or index is out of range.

```

3. 按照值删除
    - 只删除第一个，不会反复迭代删除。

```python

    L.remove(value) -> None -- remove first occurrence of value.
        Raises ValueError if the value is not present.

```

4. 删除的例子代码

In [46]:
lst = [1, 2, 3, 4, 5]

item = lst.pop()
print(item, ",", lst)
item = lst.pop(1)
print(item, ",", lst)

lst.remove(3)
print(lst)

lst.clear()
print(lst)

5 , [1, 2, 3, 4]
2 , [1, 3, 4]
[1, 4]
[]


#### 排序与逆序操作

1. 排序
    - 对列表排序

```python

    L.sort(key=None, reverse=False) -> None -- stable sort *IN PLACE*
        key 使用一个函数，用来定制排序规则, 这个多整数，小数元素意义不大，但元素是元组、对象等就有意义了。
        使用key的时候，必须使用keyword参数。
```

2. 逆序
    - 得到相反顺序的列表

```python

    L.reverse() -- reverse *IN PLACE*

```

3. 例子代码

In [47]:
lst = [8, 5, 3, 4, 6]

lst.reverse()   # 逆序
print(lst)

lst.sort()
print(lst)

[6, 4, 3, 5, 8]
[3, 4, 5, 6, 8]


In [48]:
def sort_key(value):
    print(value)
    return value[1]

lst = [('Rose', 8), ('Jack', 2), ('Tom', 5), ('Bob', 3), ('Obama', 6)]

lst.sort(key = sort_key)
print(lst)

('Rose', 8)
('Jack', 2)
('Tom', 5)
('Bob', 3)
('Obama', 6)
[('Jack', 2), ('Bob', 3), ('Tom', 5), ('Obama', 6), ('Rose', 8)]


#### copy操作
- 因为list是mutable的，为了防止数据变动，经常会采用copy拷贝后，再操作数据。

1. copy的定义：

```python

    L.copy() -> list -- a shallow copy of L

```

- 说明：
    - copy与=有很大差异，尽管在某些场合效果一样。尤其在和面讲到copy可以实现深度拷贝。=运算符号是做不到深度拷贝的。

2. 例子代码

In [49]:
def sort_key(value):
    print(value)
    return value[1]

lst = [('Rose', 8), ('Jack', 2), ('Tom', 5), ('Bob', 3), ('Obama', 6)]

lst_copy = lst.copy()
lst_copy.sort(key = sort_key)
print(lst)
print(lst_copy)

('Rose', 8)
('Jack', 2)
('Tom', 5)
('Bob', 3)
('Obama', 6)
[('Rose', 8), ('Jack', 2), ('Tom', 5), ('Bob', 3), ('Obama', 6)]
[('Jack', 2), ('Bob', 3), ('Tom', 5), ('Obama', 6), ('Rose', 8)]


## 字典

- 字典也属于mutable对象，尽管与list结构不同，但list的很对运算与操作，字典也有。因为数据格式不同，所以也存在差异。

### 构建字典对象

1. 字典类型的构造器定义：

```python
 |  dict() -> new empty dictionary
    构建空的字典，等价于{}。
 |  dict(mapping) -> new dictionary initialized from a mapping object's
 |      (key, value) pairs
    使用mapping类型
 |  dict(iterable) -> new dictionary initialized as if via:
 |      d = {}
 |      for k, v in iterable:
 |          d[k] = v
    使用元组格式的key-value对构建字典。
 |  dict(**kwargs) -> new dictionary initialized with the name=value pairs
 |      in the keyword argument list.  For example:  dict(one=1, two=2)

```

2. 构建字典的例子

In [50]:
dt = {'name': 'Louis', 'age':20}

dt1 = dict()
dt2 = dict(dt)    # dt就是一个mapping类型，
dt3 = dict([('name','Louis'), ('age', 20)])    # 函数的返回值也行
dt4 = dict(name='Louis', age=20)

print(dt1)
print(dt2)
print(dt3)
print(dt4)

dt5 = dict(dt.items())
print(dt5)     # dt5与dt2是有区别的


{}
{'name': 'Louis', 'age': 20}
{'name': 'Louis', 'age': 20}
{'name': 'Louis', 'age': 20}
{'name': 'Louis', 'age': 20}


### 字典运算符

- 字典的运算与list完全一样，但因为数据格式的变化，所以有的运算的使用也存在变化。

- 字典本身不支持+= 与 *=，不支持+ 与 *运算（因为怕可以重复。list不存在这个问题）


In [51]:
dt = {'name': 'Louis', 'age':20}  
# print(dt+dt)   # 支持

#### 字典的\_\_setitem\_\_,\_\_getitem\_\_,delitem\_\_运算

- 字典的下标不支持切片
- 下标中不支持索引，只能使用key。
- \_\_setitem\_\_有两重功能：修改（存在key）与添加（不存在key）

In [52]:
dt = {'name': 'Louis', 'age':20}

print(dt['name'])    # 访问
# print(dt[0])    # 不支持
dt['name'] = 'Jack'       # 修改
print(dt)
dt['favor'] = 'Swim'    # 添加
print(dt)

del dt['favor']    # 删除
print(dt)

Louis
{'name': 'Jack', 'age': 20}
{'name': 'Jack', 'age': 20, 'favor': 'Swim'}
{'name': 'Jack', 'age': 20}


#### 字典的迭代器对象

- 因为字典的数据格式，需要明白字典的迭代器怎么工作的。
    - 迭代器类型
    - 迭代器返回的数据类型与格式

In [53]:
dt = {'name': 'Louis', 'age':20}
iterator = iter(dt)   # 返回字典迭代
print(type(iterator))

re = next(iterator)
print(type(re), re)

<class 'dict_keyiterator'>
<class 'str'> name


- 说明：
    - 字典迭代器只对key迭代。

#### 字典的in运算

- 字典的in对key判定

In [54]:
dt = {'name': 'Louis', 'age':20}
print('name' in dt)    # True
print('Louis' in dt)    # False

True
False


### 字典数据操作

#### 数据访问

1. key访问

```python
    D.keys() -> a set-like object providing a view on D's keys
```

2. values访问

```python
    D.values() -> an object providing a view on D's values
```

3. items访问

```python
    D.items() -> a set-like object providing a view on D's items
```

4. get取值访问

```python
    D.get(k[,d]) -> D[k] if k in D, else d.  d defaults to None.
```

5. 例子代码

In [55]:
dt = {'name': 'Louis', 'age':20}
print(dt.keys(), type(dt.keys()))
print(dt.values() ,type(dt.values()))
print(dt.items(),type(dt.items()))

print(dt.get('name', '为空时的缺省值'))
print(dt.get('name2', '为空时的缺省值'))

dict_keys(['name', 'age']) <class 'dict_keys'>
dict_values(['Louis', 20]) <class 'dict_values'>
dict_items([('name', 'Louis'), ('age', 20)]) <class 'dict_items'>
Louis
为空时的缺省值


- 说明
    - 返回的数据都是类似集合的对象。在collections.abc中对容器定义了很多规范。

#### 字典的删除数据操作

1. 操作函数定义

```python

    |- D.clear() -> None.  Remove all items from D.
    |     |- 全部删除
    |- D.pop(k[,d]) -> v, remove specified key and return the corresponding value.If key is not found, d is returned if given, otherwise KeyError is raised
    |     |- 按照key删除，并返回删除的数据，当key不存在，可以指定返回的替代值；key不存在，且不指定替代值，则会抛出KeyError异常。
    |- D.popitem() -> (k, v), remove and return some (key, value) pair as a 2-tuple; but raise KeyError if D is empty.
    |     |- 删除末尾上（栈顶）的数据，并返回key-values值对。
    
```

In [56]:
dt = {'name': 'Louis', 'age':20}
v = dt.pop('name')
print(v, dt)

v = dt.popitem()
print(v, dt)

Louis {'age': 20}
('age', 20) {}


#### 设置key不存在的替代值

- 函数定义
    - `D.setdefault(k[,d]) -> D.get(k,d), also set D[k]=d if k not in D`

#### 字典的update操作

- 函数定义：

```python

    |  update(...)
    |        D.update([E, ]**F) -> None.  Update D from dict/iterable E and F.
    |        If E is present and has a .keys() method, then does:  for k in E: D[k] = E[k]
    |        If E is present and lacks a .keys() method, then does:  for k, v in E: D[k] = v
    |        In either case, this is followed by: for k in F:  D[k] = F[k]

```

- 上面函数的说明中已经告诉我们这函数的三种使用方法，下面使用例子说明：

1. 参数具有keys()函数的对象
    - 等于两个字典合并；
    - 重复的key会被替换修改。

In [57]:
dt = {'name': 'Louis', 'age':20}
pt = {'favor': 'swim'}

dt.update(pt)
print(dt)

{'name': 'Louis', 'age': 20, 'favor': 'swim'}


2. 参数没有keys对象
    - 一般使用元组形式的值对。

In [58]:
dt = {'name': 'Louis', 'age':20}
pt= [ ('favor', 'swim') ]

dt.update(pt)
print(dt)


{'name': 'Louis', 'age': 20, 'favor': 'swim'}


3. 使用\*\*F参数的情况
    - 如果第一参数不是值对，就可以使用命名参数的方式更新字典
    - 可以与第一个可选参数混用。

In [59]:
dt = {'name': 'Louis', 'age':20}
pt = [ ('favor','swim') ]


dt.update(pt, tall=1.89)
print(dt)

{'name': 'Louis', 'age': 20, 'favor': 'swim', 'tall': 1.89}


#### 字典静态fromkeys操作

- 使用可迭代对象构建值统一的字典；函数定义如下;
    - `fromkeys(iterable, value=None, /)`

- 例子代码

In [60]:
ite = ['jack', 'rose', 'tom']

dt = dict.fromkeys(ite ,100.00)
print(dt)

{'jack': 100.0, 'rose': 100.0, 'tom': 100.0}


## 集合

- 集合分成mutable与immutable。
    - set   (mutable)
    - frozenset (immutable)
    
- set使用比较多，下面以set为主讲解。set中的运算与函数只要对set有影响的，在frozenset中都不能使用。


- set实际是对应数学意义上的集合的概念，所以后面的运算与操作都可以从高中数学的集合中得到常识经验去理解。


- **重点强调:**
    - 初学者不太明白set与list的区别，以及set的意义。感觉都是一组数据值，但两个的区别非常大。
        - list，tuple是数据序列，数据是有顺序的，所以数据重复也没有问题。但是set本质采用树管理，所以key是**不能重复的**；
        - 因为set采用树管理，为了便于数据查询，其key是按序管理，所以set的**数据是有序的**。
        
        - 有的语言中，也实现无序set，也实现可重复set。

### 构建集合对象

1. 构造器定义

```python
class set(object)
 |  set() -> new empty set object
 |  set(iterable) -> new set object
```

- 说明任何可迭代的对象都可以用来构造器集合，字典使用key构建。
    - 一般还是使用{}构建。

In [61]:
st = {1,4,5,7,2,9,8,8}
print(type(st) ,st)     # 不是frozenset类型

st2 = set([1,4,7,2,6,8,8])    # 重复的数据，消失
print(st2)     

<class 'set'> {1, 2, 4, 5, 7, 8, 9}
{1, 2, 4, 6, 7, 8}


- set对象也是可迭代对象，也可以使用集合构建集合。

In [62]:
fst = frozenset([1,4,7,2,6,8,8])    # 重复的数据，消失
print(type(fst) ,fst)  
print(iter(fst))    # set与frozenset集合的迭代器类型一样。

<class 'frozenset'> frozenset({1, 2, 4, 6, 7, 8})
<set_iterator object at 0x10ab6a5e8>


### 集合运算符

#### 集合的四大标准运算

- 集合的四大运算：
    - 交集
    - 并集
    - 差集
    - 对称差集
    
    ![集合4大运算](attachment:u=2771588957,548602995&fm=26&gp=0.jpg)

1. 交集运算 

- 交集运算使用的是&运算符号，先看从定义开始：
    - 只能集合对集合进行交集运算：

```python
 |  __and__(self, value, /)
 |      Return self&value.

 |  __rand__(self, value, /)
 |      Return value&self.

 |  __iand__(self, value, /)
 |      Return self&=value.

```

- 例子代码

In [63]:
st1 = {1,4,5,7,3}
st2 = {8,3,2,5,4,9}
st = st1 & st2
print(st)

st1 &= st2
print(st1)

{3, 4, 5}
{3, 4, 5}


2. 并集运算

- 运算符定义

```python
 |  __or__(self, value, /)
 |      Return self|value.
 |  __ror__(self, value, /)
 |      Return value|self.
 |  __ior__(self, value, /)
 |      Return self|=value.

```

- 例子代码

In [64]:
st1 = {1,4,5,7,3}
st2 = {8,3,2,5,4,9}
st = st1 | st2
print(st)

st1 |= st2
print(st1)

{1, 2, 3, 4, 5, 7, 8, 9}
{1, 2, 3, 4, 5, 7, 8, 9}


3. 差集运算

- 运算符定义

```python

 |  __sub__(self, value, /)
 |      Return self-value.
 |  __rsub__(self, value, /)
 |      Return value-self.
 |  __isub__(self, value, /)
 |      Return self-=value.

```

- 例子代码：

In [65]:
st1 = {1,4,5,7,3}
st2 = {8,3,2,5,4,9}
st = st1 - st2
print(st)

st1 -= st2
print(st1)

{1, 7}
{1, 7}


4. 对称差运算


- 运算符定义

```python

 |  __xor__(self, value, /)
 |      Return self^value.
 |  __rxor__(self, value, /)
 |      Return value^self.
 |  __ixor__(self, value, /)
 |      Return self^=value.
```

- 例子代码：


In [66]:
st1 = {1,4,5,7,3}
st2 = {8,3,2,5,4,9}
st = st1 ^ st2
print(st)

st1 ^= st2
print(st1)

{1, 2, 7, 8, 9}
{1, 2, 7, 8, 9}


#### 集合的in运算

- in运算判定某个元素是否在集合中。
- 集合的in运算符定义：

```python

 |  __contains__(...)
 |      x.__contains__(y) <==> y in x.

```

- 例子代码

In [67]:
st1 = {1,4,5,7,3}
print( 1 in st1 )
print( not 6 in st1 )
print( 6 not in st1 )

True
True
True


#### 集合的比较运算

- 等于与不等于的含义都是明确的，明白小于与大于运算即可。比较运算对集合来讲，就是包含运算：


集合运算 | 数学符号
-|-
`<` | $\subset$
`<=` | $\subseteq$
`>` | $\supset$
`>=` | $\supseteq$



- 比较运算定义


```python

 |  __eq__(self, value, /)
 |      Return self==value.
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  __gt__(self, value, /)
 |      Return self>value.
 |  __le__(self, value, /)
 |      Return self<=value.
 |  __lt__(self, value, /)
 |      Return self<value.
 |  __ne__(self, value, /)
 |      Return self!=value.

```

- 例子代码

In [68]:
st1 = {8,1,3}
st2 = {1,8}
print(st1)
print(st2)
print (st1 <= st2)


{8, 1, 3}
{8, 1}
False


#### 集合的其他运算

- len运算
    - 元素个数
- \_\_sizeof\_\_运算
    - 占用内存大小
- repr运算
    - 对象的解释器可读字符串
_ \_\_reduce\_\_运算
    - 序列化信息状态(新式类中，用来返回一个值，用来说明如何序列化（在面向对象的时候详细阐述)
    - 该函数要么返回字符串，要么返回一个元组。
    
    
- 例子代码：

In [69]:
st = {8, 1, 3, 5, 9}

print(len(st))
print(st.__sizeof__())
print(repr(st))
print(st.__reduce__())

5
712
{1, 3, 5, 8, 9}
(<class 'set'>, ([1, 3, 5, 8, 9],), None)


### 集合数据操作

#### 集合元素add添加操作

1. add函数定义

```python

|  add(...)
|      Add an element to a set.
|      
|      This has no effect if the element is already present.

```

- 说明：
    - 只有具有hash函数的对象可以添加
    
    
2. 例子代码

In [70]:
st = {8, 1, 3, 5, 9}
st.add(4)
print(st)
st.add((88,99))    #  不能添加set，list，因为不能hashable。
print(st)

{1, 3, 4, 5, 8, 9}
{1, 3, 4, 5, 8, 9, (88, 99)}


#### 删除集合元素操作

1. clear
    - 全部清空

```python

 |  clear(...)
 |      Remove all elements from this set.

```

2. remove与discard，pop函数

- discard函数
    - 如果是成员就删除，不是就不操作
```python

 |  discard(...)
 |      Remove an element from a set if it is a member.
 |      
 |      If the element is not a member, do nothing.

```

- remove函数
    - 如果是成员就删除，不是就抛出异常KeyError

```python

 |  remove(...)
 |      Remove an element from a set; it must be a member.
 |      
 |      If the element is not a member, raise a KeyError.

```

- pop函数
    - 与remove差不多，只是会返回删除的元素。

```python
 |  pop(...)
 |      Remove and return an arbitrary set element.
 |      Raises KeyError if the set is empty.

```

#### 集合的更新update操作

- update函数定义：

```python

 |  update(...)
 |      Update a set with the union of itself and others

 |  
 |  difference_update(...)
 |      Remove all elements of another set from this set.
    
 |  symmetric_difference(...)
 |      Return the symmetric difference of two sets as a new set.
 |      
 |      (i.e. all elements that are in exactly one of the sets.)


```

- 使用两个集合的并集更新，下面是例子代码

In [71]:
st = {8, 1, 3, 5, 9}
st.update({4,7,9})
print(st)

{1, 3, 4, 5, 7, 8, 9}


#### 集合运算符对应的函数操作

1. 并集操作
    - 支持多个集合并集运算。
    
```python

 |  union(...)
 |      Return the union of sets as a new set.
 |      
 |      (i.e. all elements that are in either set.)

```

2. 交集操作

```python

|  
 |  intersection(...)
 |      Return the intersection of two sets as a new set.
 |      
 |      (i.e. all elements that are in both sets.)

```

3. 差集操作

```python
 |  difference(...)
 |      Return the difference of two or more sets as a new set.
 |      
 |      (i.e. all elements that are in this set but not the others.)
```

4. 对等差操作
    - 只能使用一个参数

```python

 |  symmetric_difference(...)
 |      Return the symmetric difference of two sets as a new set.
 |      
 |      (i.e. all elements that are in exactly one of the sets.)


```

5. 例子代码

In [72]:
st = {8, 1, 3, 5, 9}
st.union({4,7,9}, {88,99})

st.intersection({4,7,9}, {1,9})
st.difference({4,7,9}, {1,9})

st.symmetric_difference({4,7,9})

{1, 3, 4, 5, 7, 8}

6. 集合判定操作


- isdisjoint函数
    - 集合是否不想交，不交为True，想交为False
    
```python

 |  isdisjoint(...)
 |      Return True if two sets have a null intersection.

```
    
- issubset函数
    - 子集判定
    
```python

 |  issubset(...)
 |      Report whether another set contains this set.

```

- issuperset函数
    - 超集判定
    
```python

 |  issuperset(...)
 |      Report whether this set contains another set.

```

In [73]:
st = {8, 1, 3}

print(st.isdisjoint({4, 7}))    # 是否不想交

print(st.issubset({8, 1, 3, 7})) 

print(st.issuperset({1, 3})) 

True
True
True


## 基础算法

- 在入门算法前，需要知道写好算法的两个度量标准：

    - 正确性
    
    - 有效性

- 正确性在这里很难形成规律性度量，但有效性是可以度量的。
    - 程序是由多个语句或者过程组成的，这些语句与过程就是解决问题的算法。
    - 解决一个问题的方法有多种，这种方法称为算法。
    - 每一种算法都可以达到解决问题的目的，但消耗的内存和时间不尽相同，从节约内存和时间的角度考虑，找出消耗内存最小，时间最少的算法就是最优算法。
    - 度量时间的方式就是：时间复杂度度量
    - 度量内存的方式就是：空间复杂度度量（这里暂时不考虑）
    
- 算法的其他考量
    - 易实现性
    - 易验证性

### 算法的时间复杂度度量

#### 计算程序执行的次数

1. 执行次数为1的例子

In [78]:
def add(a, b):
    return a+b

print(add(45, 55))

100


2. 执行次数为n的例子
    - 实际是2*n+2次

In [79]:
def add(*args):
    sum = 0                # 1次
    for v in args:         # n + 1 次（创建v变量1次）
        sum+= v            #  n次
    return sum           # 实际次数2*n+2

lst = [1,2,3,4,5,6]
print(add(*lst))

21


3. 执行次数是$n^2$的例子

In [77]:
def  add(row,col):
    sum = 0                        # 1次
    for y in range(row):        # n+1次 
        sum += y                  # n 次
        for x in range(col):    # n(n+1)次
            sum += x             # n*n次
    return sum                   # 实际次数2*n*n + 3*n + 2

print(add(10,10))

495


#### 时间复杂度数学度量

- 为了度量时间复杂度（程序执行次数），引入了数学概念：
    - 把数据规模记为n，记执行次数为：T(n)
    - 当n变化T(n)执行次数随之变化。
        - 执行1次，$T(n)=1$
        - 执行$2n + 2$次，$T(n)= 2n + 2$
        - 执行$2n^2 + 3n + 2$次，$T(n) = 2n^2 + 3n + 2$

- 因为精确度量对复杂程序来说没有意义，所以引入了执行次数的参照概念：
    - 若有某个函数f(n)，当n趋向于无穷大时，如果T(n)/ f(n)的极限为不等于零的常数，则认为T(n)与f(n)是同量级的函数，记作：T(n) =O(f(n))；
    - T (n) = O(f (n)) 表示存在一个常数C，当n趋于正无穷大时，总有T (n) ≤ C * f(n)，其意义是T(n)在n趋于正无穷大时跟f(n)基本接近，因此完全可以用f(n)来表示T(n)。
    
    - O(f(n))称为算法的渐进时间复杂度，简称时间复杂度。
    


- 有了参照，我们可以选高次方作为参照项来度量
    - 上面执行次数为常量，记为$O(1)$
    - 执行次数是$2n + 2$， 记为$O(n)$
    - 执行次数是$2n^2 + 3n + 2$，记为$O(n^2)$

- 常见时间复杂度度量有：
    - （1）$O(1)$：常量阶，运行时间为常量
    - （2）$O(logn)$：对数阶，如二分搜索算法
    - （3）$O(n)$：线性阶，如n个数内找最大值
    - （4）$O(nlogn)$：对数阶，如快速排序算法
    - （5）$O(n^2)$：平方阶，如选择排序，冒泡排序
    - （6）$O(n^3)$：立方阶，如两个n阶矩阵的乘法运算
    - （7）$O(2^n)$：指数阶，如n个元素集合的所有子集的算法
    - （8）$O(n!)$：阶乘阶，如n个元素全部排列的算法

- 时间复杂度的计算方法
    - （1）找出算法中重复执行次数最多的语句的次数来估算算法的时间复杂度；
    - （2）保留算法的最高次方，忽略所有低次方和高次方的系数；
    - （3）将算法执行次数的数量级使用O函数表示。

### 排序算法

- 排序算法基础的有三种：
    - 交换排序（经典的冒泡排序）
    - 选择排序
    - 插入排序
- 然后在三种排序基础上优化了几种排序方式：
    - 快速排序（属于交换排序）
    - 希尔排序（属于插入排序）
    - 归并排序（属于选择排序）
    
- 几种排序方法的比较


排序算法|平均复杂度|最好复杂度|最坏复杂度|稳定性|说明
-|-|-|-|-|-
交换排序|$O(n^2)$|$O(n)$|$O(n^2)$|稳定| 规模n小较好
选择排序|$O(n^2)$|$O(n^2)$|$O(n^2)$|不稳定|规模n小较好
插入排序|$O(n^2)$|$O(n)$|$O(n^2)$|稳定|大部分有序的数据较好
快速排序|$O(nlogn)$~$O(n^2)$|$O(nlogn)$|$O(n^2)$|不稳定|规模n大比较好
希尔排序|$O(nlogn)$|$O(n)$|$O(n^2)$|不稳定|与步长有关
归并排序|$O(nlogn)$|$O(nlogn)$|$O(nlogn)$|稳定|规模n大比较好

- **提示：**这里对排序基础算法进行讲解说明。

#### 交换排序

- 交换排序的实现算法是：
    - 循环对数据序列进行遍历
    - 在循环中对相邻的两个元素进行比较，然后把较大的元素放到后面（正向排序），在一轮比较完后最大的元素就放在了最后一个位置；
    - 然后再次循环（循环次数每次减1，因为每次都找到一个最大或者最小的值，只对剩余的继续交换排序）；
    
    
    
- 因为这种每次交换找到一个最大最小，像一个气泡从水底冒出水面的过程。所以该算法俗称冒泡排序。



- 时间复杂度是$O(n^2)$：因为用到二重循环。


- 下面是交换排序的实现：

In [83]:
def bubble_sort(data):
    size = len(data)
    for batch in range(size - 1):   # n个元素，只需要排好n-1
        # 每次冒泡，n个元素，只需要n-1次循环，因为取相邻元素，少循环一次
        for i in range(size - batch - 1):  
            # j表示每轮比较的元素的范围，因为每比较一轮就会排序好一个元素的位置，
            # 所以在下一轮比较的时候就少比较了一个元素，所以要减去i
            if data[i] > data[i + 1]:
                data[i], data[i + 1] = data[i + 1], data[i]    # 这个语法对元组无效


lst = [3,6,2,9,1,3,7]
bubble_sort(lst)
print(lst)

[1, 2, 3, 3, 6, 7, 9]


#### 选择排序

- 选择排序的算法是：
    - 循环遍历数据序列；
    - 所有的元素都和第一个元素进行比较，如果比第一个元素大，就和第一个元素进行交换；这样通过交换第一个元素就输最大元素；这里交换是所有都与第一个交换，不是相邻交换。
    - 然后对除第一个以外的元素遍历，并与第二个元素比较；
    - 一次类推；
    
 
- 因为也是二重循环，所以时间复杂度为O(n2)。

- **重点问题：**选择排序的稳定性问题
    - 选择排序因为对相同的值，会破坏原来顺序，这种结果称为不稳定。
    - 排序的不稳定性，对简单数据来说稳定不稳定，没有多大意义，但对一些结构数据就显得特别有意义：
        - 比如学生数据，原始数据按照学号排序，但对分数排序后，希望相同分数的学生也是按照序号排序的，但是选择排序后，相同分数的学号的顺序有可能不再按照顺序排列。这个时候，排序的稳定性的意义就特别重要。

- 下面是选择排序的实现代码：

In [86]:
def selection_sort(data):
    size = len(data)
    for batch_size in range(size - 1, 0, -1):   # size-1，...., 4, 3, 2, 1   # 注意0不包含
        for i in range(batch_size):
            if data[i] > data[batch_size]:
                data[i], data[batch_size] = data[batch_size], data[i]


lst = [3,6,2,9,1,3,7]
selection_sort(lst)
print(lst)

[1, 2, 3, 3, 6, 7, 9]


#### 插入排序

- 插入排序的算法是：
    - 把数据序列分成两个部分：已经排序，未排序；初始化默认第一个元素是已经排序；
    - 取未排序中第一个数据，并循环遍历已经排序的部分的每个数据，比较两个数据大小，并找到相应位置，把未排序的数据插入到排序数据中。
    - 依次类推，直到未排序部分数据为空。


- 插入排序的时间复杂度为：$O(n^2)$
    - 因为算法也使用双重循环。
    

- 插入排序实现代码如下：

In [88]:
def insert_sort(data):
    size = len(data)
    for boundary in range(1, size):   # 第一个为已排序
        # 第二个以后的为未排序
        # 对已排序进行循环遍历，找出适当的位置（遍历从后往前遍历）
        for i in range(boundary, 0, -1):   #   注意data[boundary]就是未排序的第一个
            if data[i] < data[i - 1]:       # data[i - 1]
                data[i], data[i - 1] = data[i - 1], data[i]   # 边查找边改变位置

lst = [3,6,2,9,1,3,7]
insert_sort(lst)
print(lst)


[1, 2, 3, 3, 6, 7, 9]


### 查找算法

- 查找算法也是最常用，最基本的算法之一，用来对给定的某个值，在目标数据集中确定其是否存在以及位置。
- 常见的查找算法有：
    - 顺序查找
    - 插值查找
        - 二分查找
        - 斐波那契查找
    - 树表查找
    - 分块查找
    - 哈希查找
    
- 下面我们介绍顺序查找，插值查找算法,二分查找算法。

#### 顺序查找

- 顺序查找是最直接的查找方式，其算法思维比较简单：
    - 遍历被搜索的数据序列，逐一判定是否相等。
    - 相等就结束搜索，并返回位置。
    - 如果遍历所有数据项，都没有相等的数据项，则表示搜索值不存在，返回-1或者抛出异常。


- 该算法时间复杂度度量：$O(n)$
    - 最坏情况：目标项位于列表的末尾，或者根本就不在列表之中，则算法必须访问每一个项，需要遍历整个数据序列，因此，顺序搜索的最坏情况的复杂度为O(n)。

    - 最好的情况：算法只进行了1次迭代就在第1个位置找到目标项，复杂度为O(1)。

    - 平均情况：把在每一个可能的位置找到目标项所需的迭代次数相加，并且总和除以n。因此，算法执行了(n+1)/2次迭代，对于很大的n，常数因子2的作用并不大，因此，平均情况下的复杂度仍然为O(n)。


- 算法实现如下：

In [90]:
def sequential_search(data, item):
    idx = 0
    for v in data:
        if v == item:
            return idx
        idx += 1
    return -1


lst = [3, 9, 5, 2, 6, 1, 4, 7, 8]

re = sequential_search(lst, 5)
print(re)

2


#### 二分查找

- 二分查找条件
    - 有序数据
    - 这个条件是容易满足的，因为数据结构中有集合，集合在生成结构数据就是按照有序管理的。
    
- 二分查找算法：
    - 在一个有序的数据列表中,先取中间的值，用中间值与查找值比较，排除不在的一般数据；
    - 在剩下的一半中继续按照对半的方式查找；直到找到为止，或者整个数据序列没有数据为止。
    
- 二分查找的时间复杂度度量：$O(log_{2}n)$
    - 在最坏的情况下，循环要运行列表的大小除以2直到得到的商为1的次数，对于大小为n的列表，实际上执行了n/2/2.../2的连续除法，直到结果为1。
    - 假设k是用n除以2的次数，要求解k，让$\dfrac{n}{2^k}=1$就行了，那么$n=2^k$，$k=log_{2}n$，因此，二叉搜索的最坏情况的复杂度为$O(log_{2}n)$。
    
    - 最好情况就是，中间那个值就是要查找的值。
    
    - 平均的情况：考虑每种情况的平均值，取近似值，时间复杂度也是：$O(log_{2}n)$

- 下面是二分查找算法实现代码：

In [93]:
def binary_search(data, item):
    size = len(data)
    low = 0
    high = size - 1
    while low <= high:
        mid = int(low + ((high - low) / 2)) ##使用(low+high)/2会有整数溢出的问题
        if data[mid] < item:
            low = mid + 1
        elif data[mid] > item:
            high = mid - 1
        else:
            return mid
    return -1


st = [1, 3, 4, 8, 9, 16, 18, 28]
re = binary_search(st, 16)
print(re)

5


#### 插值查找

- 插值查找算法：
    - 插值查找算法在二分法基础上改进，在离查找值更近的地方划分查找区域。
    - 把二分法的分隔点计算方式：`mid = int(low + ((high - low) / 2))`改进为自适应划分方式：
        - `mid = low + int((heigth - low) * (item - data[low])/(data[heigth] - data[low]))`
        - 理解`(item - data[low])/(data[heigth] - data[low])`：计算查找值在整个查找序列中的位置比例。
            - `(data[heigth] - data[low])` 计算查找区域的长度
    
- 插值查找的时间复杂度度量为：$O(log_2(log_2n))$    

In [96]:
def Interpolation_search(data,item):
    size = len(data)
    low = 0
    heigth = size -1
    time = 0
    while low <= heigth:
        time += 1
        mid = low + int((heigth - low) * (item - data[low])/(data[heigth] - data[low]))
        if item > data[mid]:
            low = mid + 1
        elif item <data[mid]:
            heigth = mid - 1
        else:
            return mid


lst = [1, 2, 5, 7, 9, 11, 15, 16, 18, 28]
re = Interpolation_search(lst, 18)
print(re)


8
