## Python List

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置，或索引，第一个索引是0，第二个索引是1，依此类推。

Python有6个序列的内置类型，但最常见的是列表和元组。

序列都可以进行的操作包括索引，切片，加，乘，检查成员。

此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。

列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现。

列表的数据项不需要具有相同的类型

创建一个列表，只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示：

In [1]:
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]
list3 = ["a", "b", "c", "d"]
list1

['physics', 'chemistry', 1997, 2000]

list获取行和列的用法和numpy基本一致，它与ndarray的一个重要区别是list的数据项不需要有相同的数据类型。

## Python Numpy

NumPy 最重要的一个特点是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，以 0 下标为开始进行集合中元素的索引。

ndarray 对象是用于存放同类型元素的多维数组。

ndarray 中的每个元素在内存中都有相同存储大小的区域。

ndarray 内部由以下内容组成：

- 一个指向数据（内存或内存映射文件中的一块数据）的指针。

- 数据类型或 dtype，描述在数组中的固定大小值的格子。

- 一个表示数组形状（shape）的元组，表示各维度大小的元组。

- 一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。

创建一个 ndarray 只需调用 NumPy 的 array 函数即可：

**numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)**

参数说明：   
object  数组或嵌套的数列  
dtype  数组元素的数据类型，可选  
copy  对象是否需要复制，可选  
order  创建数组的样式，C为行方向，F为列方向，A为任意方向（默认）   
subok  默认返回一个与基类类型一致的数组  
ndmin  指定生成数组的最小维度  

In [2]:
import numpy as np
a = np.array([[[1]], [[2]], [[3]]])
print(type(a), a.size, len(a), a.shape)
a

<class 'numpy.ndarray'> 3 3 (3, 1, 1)


array([[[1]],

       [[2]],

       [[3]]])

In [3]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])
print(a.size, len(a), a.shape)
a

16 4 (4, 4)


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [4]:
# 获取一行
x = a[1]
print(x.size, len(x), x.shape)
x

4 4 (4,)


array([5, 6, 7, 8])

In [5]:
# 获取多行
x = a[1:3]
print(x.size, len(x), x.shape)
x

8 2 (2, 4)


array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [6]:
# 获取一列
x = a[:, 2]
print(x.size, len(x), x.shape)
x

4 4 (4,)


array([ 3,  7, 11, 15])

In [7]:
# 获取多列
x = a[:, 2:4]
print(x.size, len(x), x.shape)
x

8 4 (4, 2)


array([[ 3,  4],
       [ 7,  8],
       [11, 12],
       [15, 16]])

In [8]:
# 获取多行多列
x = a[1:3, 2:4]
print(x.size, len(x), x.shape)
x

4 2 (2, 2)


array([[ 7,  8],
       [11, 12]])

In [9]:
x = np.array([[[1,2], [3, 4]], [[5, 6], [7, 8]]])
print(x.size, len(x), x.shape)
x

8 2 (2, 2, 2)


array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

## Python Pandas 

Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据）。

Series 是一种类似于一维数组的对象，它由一组数据（各种Numpy数据类型）以及一组与之相关的数据标签（即索引）组成。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

In [10]:
import numpy as np
import pandas as pd

# 创建DataFrame
df = pd.DataFrame(np.arange(12, 60).reshape((12, 4)), columns=['WW', 'XX', 'YY', 'ZZ'])
df

Unnamed: 0,WW,XX,YY,ZZ
0,12,13,14,15
1,16,17,18,19
2,20,21,22,23
3,24,25,26,27
4,28,29,30,31
5,32,33,34,35
6,36,37,38,39
7,40,41,42,43
8,44,45,46,47
9,48,49,50,51


In [11]:
# 取行
df[:2] #取前两行

Unnamed: 0,WW,XX,YY,ZZ
0,12,13,14,15
1,16,17,18,19


In [12]:
# 取一列，结果为Series
print(type(df['YY']))
df['YY']

<class 'pandas.core.series.Series'>


0     14
1     18
2     22
3     26
4     30
5     34
6     38
7     42
8     46
9     50
10    54
11    58
Name: YY, dtype: int64

In [13]:
# 取一列，结果为DataFrame
print(type(df[['YY']]))
df[['YY']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,YY
0,14
1,18
2,22
3,26
4,30
5,34
6,38
7,42
8,46
9,50


In [14]:
# 取多列
print(type(df[['YY', 'ZZ']]))
df[['YY', 'ZZ']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,YY,ZZ
0,14,15
1,18,19
2,22,23
3,26,27
4,30,31
5,34,35
6,38,39
7,42,43
8,46,47
9,50,51


In [15]:
# 取指定多行多列
print(type(df[2:6][['XX', 'ZZ']]))
df[2:6][['XX', 'ZZ']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,XX,ZZ
2,21,23
3,25,27
4,29,31
5,33,35


### df.loc通过索引签名取数据
DataFrame可以通过df["列索引"]获取列，但是不允许df["行索引"]获取行，获取行要用loc方法。

In [16]:
# 创建DataFrame
df = pd.DataFrame(np.arange(12, 32).reshape((5, 4)), index=["a","b","c","d","e"], columns=["WW","XX","YY","ZZ"])
df

Unnamed: 0,WW,XX,YY,ZZ
a,12,13,14,15
b,16,17,18,19
c,20,21,22,23
d,24,25,26,27
e,28,29,30,31


In [17]:
# 取一行，Series类型
x = df.loc['c']
print(type(x))
x

<class 'pandas.core.series.Series'>


WW    20
XX    21
YY    22
ZZ    23
Name: c, dtype: int64

In [18]:
# 取一行，DataFrame类型
x = df.loc[['c']]
print(type(x))
x

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,WW,XX,YY,ZZ
c,20,21,22,23


In [19]:
# 取多行
x = df.loc[['a', 'c']]
print(type(x))
x

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,WW,XX,YY,ZZ
a,12,13,14,15
c,20,21,22,23


In [20]:
# 取连续多行
x = df.loc['b':'d']
print(type(x))
x

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,WW,XX,YY,ZZ
b,16,17,18,19
c,20,21,22,23
d,24,25,26,27


In [21]:
# 取多行多列
x = df.loc['b':'d', ['XX', 'ZZ']]
x = df.loc[['b', 'c', 'd'], ['XX', 'ZZ']]
print(type(x))
x

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,XX,ZZ
b,17,19
c,21,23
d,25,27


In [22]:
# 取一列，Series类型
x = df.loc[:, 'XX']
print(type(x))
x

<class 'pandas.core.series.Series'>


a    13
b    17
c    21
d    25
e    29
Name: XX, dtype: int64

In [23]:
# 取一列，DataFrame类型
x = df.loc[:, ['XX']]
print(type(x))
x

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,XX
a,13
b,17
c,21
d,25
e,29


### df.iloc通过位置获取数据
df.iloc的使用方法类似loc，只是参数由索引名称变成了索引位置（位置从0开始算）

In [24]:
# 创建DataFrame
df = pd.DataFrame(np.arange(12, 32).reshape((5, 4)), index=["a","b","c","d","e"], columns=["WW","XX","YY","ZZ"])
df

Unnamed: 0,WW,XX,YY,ZZ
a,12,13,14,15
b,16,17,18,19
c,20,21,22,23
d,24,25,26,27
e,28,29,30,31


In [25]:
x = df.iloc[1:3, [2, 3]] # 区间左闭右开
print(type(x))
x

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,YY,ZZ
b,18,19
c,22,23


In [26]:
x = df.iloc[:, 2]
print(type(x))
x

<class 'pandas.core.series.Series'>


a    14
b    18
c    22
d    26
e    30
Name: YY, dtype: int64

loc()和iloc()并不会拷贝，只是视图上的操作，通过loc()或iloc()进行赋值修改会直接修改原先的DataFrame。

In [27]:
# 创建DataFrame
df = pd.DataFrame(np.arange(12, 32).reshape((5, 4)), index=["a","b","c","d","e"], columns=["WW","XX","YY","ZZ"])
df

Unnamed: 0,WW,XX,YY,ZZ
a,12,13,14,15
b,16,17,18,19
c,20,21,22,23
d,24,25,26,27
e,28,29,30,31


In [28]:
# 通过loc()或iloc()会直接修改原DataFrame
df.loc["a":"c",["XX","YY"]] = 100
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,WW,XX,YY,ZZ
a,12,100,100,15
b,16,100,100,19
c,20,100,100,23
d,24,25,26,27
e,28,29,30,31


## Python List，Array和DataFrame之间的转换

In [29]:
## 创建list
x = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]

## list转array
a = np.array(x)
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [30]:
## list转DataFrame
df = pd.DataFrame(x)
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [31]:
## 创建array
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])

## array转list
x = a.tolist()
x

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]

In [32]:
## array转DataFrame
df = pd.DataFrame(a)
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [33]:
## 创建DataFrame
df = pd.DataFrame(np.arange(12, 32).reshape((5, 4)), index=["a","b","c","d","e"], columns=["WW","XX","YY","ZZ"])
df

## DataFrame转array
a = df.values
a

array([[12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [34]:
## Series转array
x = df['YY'].values
x

array([14, 18, 22, 26, 30])

In [35]:
## DataFrame转list(先转化为array，再转化为list)
a = df.values.tolist()
a

[[12, 13, 14, 15],
 [16, 17, 18, 19],
 [20, 21, 22, 23],
 [24, 25, 26, 27],
 [28, 29, 30, 31]]

In [36]:
## Series转list(先转化为array，再转化为list)
x = df['YY'].values.tolist()
x

[14, 18, 22, 26, 30]