# Python Cheat Sheet-2. 数据结构 （Data Structure）

## 2.1 列表（List）、元组（Tuple）和字典（Dictionary）

对于一组序列（sequence）数据（有序的），包含有一个或者多个值时，如果要赋予一个变量，则需要使用列表进行存储。同时，可以对数据进行组织管理，即为可变的（mutable），这包括使用索引（index）、分片（slicing）及提供的内置（built-in）函数或方法等途径，实现数据提取、插入、检索及列表间的运算等。

元组类似于列表，只是元组不可修改数据，但可以提取项值，及用内置函数查看数据属性，例如数据长度、最大最小值等。

如果有一组空气污染物浓度的数据，希望可以通过检索污染物名称（string类型）提取数值，而并不要求浓度数据为序列型，则需要使用字典类型存储数据，并可赋予一个变量。对字典实现数据的组织管理，通过对键值操作、内置的函数和方法实现。

列表、元组和字典存储的值可以是字符串、数值、也可以是列表、元组或字典自身，或者其它数据类型和结构。对于包含列表的列表为嵌套列表（nested list）。

究竟选择哪类数据结构用于组织数据分析，需要根据具体分析的内容、途径，优先考虑便于操作的类型，或者组合。

> 当实际工作研究时，对于城市空间数据或用[Sklearn（scikit-learn）机器学习](https://scikit-learn.org/stable/)，及[pytroch](https://pytorch.org/)深度学习时，扩展库[numpy](https://numpy.org/)和[pandas](https://pandas.pydata.org/)（及[geopandas](https://geopandas.org/en/stable/)）提供的数组（array）和表（DataFrame，Series）数据结构无法避免。

## 2.2 列表（List）

语法为`[V0,V1,V2,...,Vn]`。默认索引关系为从0开始，递增1计算，也可以逆序(Negative Indexing)，如:<img src="./imgs/pc_2_01.png" height="auto" width=500 title="caDesign">。

* 建立列表

一种是按照语法直接书写并赋予变量，或用`list()`实现。用内置函数的方法时，如果是字符串会自动切分为独个字母，如何是与`range()`配合，会产生一个给定始末和步幅值的序列。

In [11]:
letters_1=['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm']
print(letters_1)

letters_2=list('defghijklm')
print(letters_2)

sequence_range=range(5,20,3) #内置函数，语法range(start, stop, step)，给定始末和步幅值，构建序列
print(sequence_range)
sequence_lst=list(range(5,20,3))
print(sequence_lst)

['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm']
['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm']
range(5, 20, 3)
[5, 8, 11, 14, 17]


* 提取值-用索引或者分片（slicing）的方式

给定索引可以直接提取对应索引的值。而slicing的方式需要给始末索引值及步幅值，语法为`list[a:b:c]`，`a`为开始值，`b`为结束值，`C`为步幅值。三个参数可以配置负值逆序。

下述的案例中，首先给了一个具有

In [5]:
# 这组数据来自城市环境传感器（AoT, array of things），提取了部分数据，包括字段有：地址（string）、ID编号(string)、经纬度(float)共4类值，以单独列表形式存储。
coordi_lon=[-87.628, -87.616, -87.631, -87.59, -87.711, -87.628, -87.586, -87.713, -87.676, -87.624]
coordi_lat=[41.878, 41.858, 41.926, 41.81, 41.866, 41.883, 41.781, 41.751, 41.852, 41.736]
node_id=['ba46', 'ba3b', 'f02f', 'ba8f', 'ba16', '7e5d', 'ba8b', 'ba13', 'ba18', 'bc10']
address=['State St & Jackson Blvd Chicago IL', '18th St & Lake Shore Dr Chicago IL', 'Lake Shore Drive & Fullerton Ave Chicago IL', 'Cornell & 47th St Chicago IL', 'Homan Ave & Roosevelt Rd Chicago IL', 'State St & Washington St Chicago IL', 'Stony Island Ave & 63rd St Chicago IL', '7801 S Lawndale Ave Chicago IL', 'Damen Ave & Cermak Chicago IL', 'State St & 87th Chicago IL']

In [23]:
# 提取索引值为2对应的数值
idx_AoT=2
idx_lon=coordi_lon[idx_AoT]
idx_lat=coordi_lat[idx_AoT]
idx_nodeID=node_id[idx_AoT]
idx_address=address[idx_AoT]

print('values with the index 2: \
      \nid={0};\nlon={2};\nlat={3};\naddress={1}'.format(idx_nodeID,idx_address,idx_lon,idx_lat))

# 提取分片数据，slice(2,5)为即为[2,3,4]
slice_AoT=slice(2,5) #默认步幅为1
print("_"*50)
print(idxes_AoT)
slice_lon=coordi_lon[slice_AoT]
slice_lat=coordi_lat[slice_AoT]
slice_nodeID=node_id[slice_AoT]
slice_address=address[slice_AoT]

print('values with the index {4}: \
      \nid={0};\nlon={2};\nlat={3};\naddress={1}'.format(slice_nodeID,slice_address,slice_lon,slice_lat,))

values with the index 2:       
id=f02f;
lon=-87.631;
lat=41.926;
address=Lake Shore Drive & Fullerton Ave Chicago IL
__________________________________________________
slice(2, 5, None)
values with the index 2:       
id=['f02f', 'ba8f', 'ba16'];
lon=[-87.631, -87.59, -87.711];
lat=[41.926, 41.81, 41.866];
address=['Lake Shore Drive & Fullerton Ave Chicago IL', 'Cornell & 47th St Chicago IL', 'Homan Ave & Roosevelt Rd Chicago IL']
