# 简介

数据结构是程序中包含数据集合的“对象”。 简单的数据结构可能是一个“数组”，它包含向量的组件或名称列表。 更复杂的数据结构可能代表电话目录，持有[姓名，电话号码]这种键值对。
现代语言（如Python）提供了一系列库（内置）数据结构。 这些经过充分测试和优化; 优良作法是使用库数据结构使程序更简单，更易于阅读和更高效。
当然你也可以写自己的数据结构，在这个部分我们将介绍python内置(built-in)的数据结构

## 小目标

- 使用字符串，列表，元组，字典
- 使用迭代方法访问内置数据结构所存储的数据
- 学会为自己的应用选择合适的数据结构

# 数据结构

## 字符串

- 虽然我们在变量当中学习过字符串，但是接下来我们要学习很多以文本处理为基础的内容，因此我们再重新提及这种数据结构
- 定义
    - 字符串，是由零个或多个字符组成的有限序列

### 查询

#### 单个访问

In [1]:
var1 = 'Hello World!'
var2 = "Python Runoob"
 
print("var1[0]: ", var1[0])

var1[0]:  H


#### 切片

- 如果你熟悉matlab的话，你会发现他们非常相似

In [2]:
print("var2[1:5]: ", var2[1:5])

var2[1:5]:  ytho


### 连接

- 直接使用+号对两个字符串进行拼接

In [3]:
var1 = 'Hello World!'
 
print("输出 :- ", var1[:6] + 'Runoob!') 

输出 :-  Hello Runoob!


### 转义字符

在需要在字符中使用特殊字符时，python 用反斜杠 \ 转义字符。如下表：

|转义字符|	描述
|---|---|
|\|(在行尾时)	续行符
|\\	|反斜杠符号
|\'	|单引号
|\"	|双引号
|\a	|响铃
|\b	|退格(Backspace)
|\e	|转义
|\000|	空
|\n	|换行
|\v	|纵向制表符
|\t	|横向制表符
|\r	|回车
|\f	|换页
|\oyy	|八进制数，yy代表的字符，例如：\o12代表换行
|\xyy	|十六进制数，yy代表的字符，例如：\x0a代表换行
|\other|	其它的字符以普通格式输出

### 字符串的运算符操作


|操作符|	描述|	实例
|---|---|---|
|+	|字符串连接	|>>>a + b  'HelloPython'
|*	|重复输出字符串	|>>>a * 2 'HelloHello'
|[]|通过索引获取字符串中字符	|>>>a[1] 'e'
|[ : ]|截取字符串中的一部分	|>>>a[1:4] 'ell'
|in	|成员运算符 - 如果字符串中包含给定的字符返回 True|>>>"H" in a  True
|not in|成员运算符 - 如果字符串中不包含给定的字符返回 True	|>>>"M" not in a True
|r/R|原始字符串 - 原始字符串：所有的字符串都是直接按照字面的意思来使用，没有转义特殊或不能打印的字符。 原始字符串除在字符串的第一个引号前加上字母"r"（可以大小写）以外，与普通字符串有着几乎完全相同的语法。|>>>print r'\n'>>> print R'\n'

### 字符串格式化

- 与C语言的格式化输出拥有一样的语法结构

In [4]:
print("My name is %s and weight is %d kg!" % ('Zara', 21) )

My name is Zara and weight is 21 kg!


python 字符串格式化符号:

| 符   号|	描述
|---|---|
 |     %c|	 格式化字符及其ASCII码
 |     %s|	 格式化字符串
 |     %d|	 格式化整数
 |     %u|	 格式化无符号整型
 |     %o|	 格式化无符号八进制数
 |     %x|	 格式化无符号十六进制数
 |     %X|	 格式化无符号十六进制数（大写）
 |     %f|	 格式化浮点数字，可指定小数点后的精度
 |     %e|	 用科学计数法格式化浮点数
 |     %E|	 作用同%e，用科学计数法格式化浮点数
 |     %g|	 %f和%e的简写
 |     %G|	 %F 和 %E 的简写
 |     %p|	 用十六进制数格式化变量的地址

### 常用的字符串内置函数

string.decode() string.encode()

- 字符串的编码与解码
- Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。

    -编码是 unicode -> str，相反的，解码就是 str -> unicode。

    - str形式，也就是字符串形式都是以一定的编码格式存在的，常见的编码格式有utf-8、ASCII、gb2312等等。

    - str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1解码成unicode。

    - str2.encode(‘utf-8’)，表示将unicode字符串str2转换成用utf-8格式编码的字符串。

    - 不同编码格式的字符串之间相互转换编码格式的话，都要先解码成unicode，再编码成其他编码格式的字符串。就拿上面的str1来说，将str1转成utf-8编码的字符串，需要这么做：
    str1.decode(‘gb2312’).encode(‘utf-8’)。
- 在python文件中指定编码解码格式
    - 在文件的开头使用# -*- coding: utf-8 -*- (utf-8将是我们最常用的编码格式)
    - ```python
    # -*- coding: utf-8 -*- 
    import numpy
    print("编码格式")
    ```


In [8]:
# -*- coding: utf-8 -*- 

import sys 

str = '中文' 
str.encode('gb18030')

b'\xd6\xd0\xce\xc4'

string.join()

string.split()

string.strip([obj])

string.upper() 和 string.lower()

## 列表（List）

- 列表和我们以前所使用的编程语言中的array类似，但是它可以在单个数据结构中使用不同的数据类型

In [22]:
a = [1,2,"ss",True]
print(a)

[1, 2, 'ss', True]


### 查询访问

In [10]:
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5, 6, 7 ]
 
print("list1[0]: ", list1[0]) 
print("list2[1:5]: ", list2[1:5]) 

list1[0]:  physics
list2[1:5]:  [2, 3, 4, 5]


### 增加元素

In [11]:
list = []          ## 空列表
list.append('Google')   ## 使用 append() 添加元素
list.append('Runoob')
print(list)

['Google', 'Runoob']


### 删除元素

In [12]:
list1 = ['physics', 'chemistry', 1997, 2000]
 
print(list1)
del list1[2]
print("After deleting value at index 2 : ")
print(list1)

['physics', 'chemistry', 1997, 2000]
After deleting value at index 2 : 
['physics', 'chemistry', 2000]


### 运算符操作

长度

In [13]:
len([1, 2, 3])

3

组合

In [14]:
[1, 2, 3] + [4, 5, 6]

[1, 2, 3, 4, 5, 6]

重复

In [15]:
['Hi!'] * 4

['Hi!', 'Hi!', 'Hi!', 'Hi!']

元素是否存在列表中

In [16]:
3 in [1, 2, 3]

True

迭代

In [18]:
for x in [1, 2, 3]: print(x),

1
2
3


### 与java类似

- 你会发现无论是字符串还是现在以及的列表以及接下来所涉及的元组和字典都有内置的各种函数，这些函数你只需记住几个最常用的，剩余的会查阅文档即可
- jdk中的很多内置数据结构与此类似
- 具体查阅推荐阅读

## 元组(tupple)

Python的元组与列表类似，不同之处在于元组的元素不能修改。

元组使用小括号，列表使用方括号。

元组创建很简单，只需要在括号中添加元素，并使用逗号隔开即可。

In [23]:
tup1 = ('physics', 'chemistry', 1997, 2000)
tup2 = (1, 2, 3, 4, 5 )
tup3 = "a", "b", "c", "d"

- 其余的数据结构操作与list相似，具体查阅推荐阅读部分

## 字典（Dictionary）

- 字典是一种键值队类型的数据结构

In [27]:
dict = {'Name': 'Zara', 'Age': 7, 'Class': 'First'}
print(dict)

{'Name': 'Zara', 'Age': 7, 'Class': 'First'}


### 查询

In [28]:
print(dict['Name'])

Zara


### 修改字典

In [30]:
dict['Name'] = 'Sara'  # 更新
dict['School'] = 'XMU' # 增加新的键值对
print(dict)

{'Name': 'Sara', 'Age': 7, 'Class': 'First', 'School': 'XMU'}


### 删除

In [31]:
del dict['School']  # 删除键是'Name'的条目
print(dict)

{'Name': 'Sara', 'Age': 7, 'Class': 'First'}


In [32]:
dict.clear() # 清空字典所有条目
print(dict)

{}


In [33]:
del dict          # 删除字典
print(dict)

<class 'dict'>


### 字典特性

- 不允许同一个键出现两次
- 键不可以修改，值可以修改

## 迭代器与生成器

在Python这门语言中，生成器毫无疑问是最有用的特性之一。与此同时，也是使用的最不广泛的Python特性之一。

### 迭代器协议

由于生成器自动实现了迭代器协议，而迭代器协议对很多人来说，也是一个较为抽象的概念。所以，为了更好的理解生成器，需要先理解一下迭代器协议的概念。

- **迭代器协议**
    - 对象需要提供next方法，它要么返回迭代中的下一项，要么就引起一个StopIteration异常，以终止迭代 
- **可迭代对象**
    - 就是：实现了迭代器协议的对象 
- **协议**
    - 是一种约定，可迭代对象实现迭代器协议，Python的内置工具(如for循环，sum，min，max函数等)使用迭代器协议访问对象。

In [1]:
for n in [1, 2, 3, 4]:
    print(n)

1
2
3
4


In [None]:
with open 
    print(n)

## 生成器

Python使用生成器对延迟操作提供了支持。所谓延迟操作，是指在需要的时候才产生结果，而不是立即产生结果。这也是生成器的主要好处。

Python有两种不同的方式提供生成器：
- **生成器函数**
    - 常规函数定义，但是，使用yield语句而不是return语句返回结果。yield语句一次返回一个结果，在每个结果中间，挂起函数的状态，以便下次重它离开的地方继续执行
- **生成器表达式**
    - 类似于列表推导，但是，生成器返回按需产生结果的一个对象，而不是一次构建一个结果列表

# 选择合适的数据结构

In [None]:
- 