# pandas 索引和切片

本章出现的函数:

* pandas.dataframe.iloc() 通过整数索引来选择 DataFrame 的行和列的索引器
* pandas.DataFrame.isin() 于检查DataFrame 中的元素是否在给定的值序列中
* pandas.dataframe.loc() 通过标签索引来选择 DataFrame 的行和列的索引器
* pandas.DataFrame.query() 筛选和过滤DataFrame 数据的方法
* pandas.DataFrame.where() 在DataFrame 中根据条件对元素进行筛选和替换的方法
* pandas.MultiIndex.from_arrays() 用于从多个数组创建多级索引的方法
* pandas.MultiIndex.from_frame() 用于从DataFrame 创建多级索引的方法
* pandas.MultiIndex.from_product() 用于从多个可迭代对象的笛卡尔积创建多级索引的方法
* pandas.MultiIndex.from_tuples() 用于从元组列表创建多级索引的方法


## 数据帧的索引和切片

Pandas 的数据帧和NumPy 数组这两种数据结构在Python 数据科学生态系统中都扮演着重要的角色，但它们在索引和切片上有一些异同之处。

NumPy 数组一般是一个多维的、同质的数据结构，意味着NumPy 数组通常包含相同数据类型的元素，并且维度是固定的。NumPy 数组使用基于0 的整数索引。

Pandas 数据帧一般是一个二维的、异质的数据结构，可以包含不同数据类型的列，并且可以拥有拥有灵活的行和列标签。

行标签、列标签特指数据帧的标签；而对于数据帧，行索引、列索引则是指行列整数索引，这一点类似NumPy 二维数组。默认情况下，数据帧行标签、列标签均为基于0 的整数索引。

## 提取特定列

pandas.DataFrame.loc[] 是Pandas 中用于基于标签进行索引和切片重要工具，允许通过指定行标签、列标签来选择数据帧中的特定行和列，或者获取特定行或列上的值。

而pandas.DataFrame.iloc[] 是Pandas 中用于基于整数位置进行索引和切片的工具，方括号内的索引规则和NumPy 二维数组完全一致。

注意:有时返回的是 Series ,有时返回的是 DataFrame, 具体要看传入的索引是列表还是其他.

In [1]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

iris_df_original = sns.load_dataset("iris")

iris_df_original.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

In [3]:
iris_df = iris_df_original.copy()
iris_df = iris_df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
iris_df = iris_df.rename(columns={'sepal_length': 'X1', 
                                  'sepal_width':  'X2',
                                  'petal_length': 'X3',
                                  'petal_width':  'X4'})
print(iris_df.head())

    X1   X2   X3   X4
0  5.1  3.5  1.4  0.2
1  4.9  3.0  1.4  0.2
2  4.7  3.2  1.3  0.2
3  4.6  3.1  1.5  0.2
4  5.0  3.6  1.4  0.2


In [5]:
iris_df[['X1']]
iris_df.iloc[:,[0]]
iris_df.loc[:, ['X1']] # loc[row, column] ,此时和上面的等价

Unnamed: 0,X1
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


In [7]:
type(iris_df['X1'])  # 此时的 iris_df['X1'] 是一个 Series

pandas.core.series.Series

In [9]:
# 提取多列
iris_df[['X1', 'X2']].head()

Unnamed: 0,X1,X2
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


In [15]:
# rename 函数可以传入一个 lambda 函数
iris_df_  = iris_df.rename(lambda x: f'idx_{x}', axis=0).head()

In [17]:
print(iris_df_.loc['idx_0'])
print(type(iris_df_.loc['idx_0']))

X1    5.1
X2    3.5
X3    1.4
X4    0.2
Name: idx_0, dtype: float64
<class 'pandas.core.series.Series'>


In [None]:
print(iris_df_.loc['X1'])  # 这样的调用就不行, loc 必须按照第一类参数对应行,第二类对应列标签

In [19]:
iris_df_.iloc[:3]

Unnamed: 0,X1,X2,X3,X4
idx_0,5.1,3.5,1.4,0.2
idx_1,4.9,3.0,1.4,0.2
idx_2,4.7,3.2,1.3,0.2


In [25]:
len(iris_df)  # len 返回的是行数
print(iris_df.size()) # size 返回的是行数和列数的乘积,即单元格数量

150

In [26]:
iris_df_.loc[['idx_0'], ['X1']]  # loc 传入的是行标签和列标签

Unnamed: 0,X1
idx_0,5.1


## 条件索引

在Pandas 中，条件索引是通过布尔条件 (Boolean expression) 筛选数据帧中的行的一种技术。这意味着可以基于某些条件从数据帧中选择满足这些条件的特定行。

条件索引使用布尔运算，如>、<、==、!=、&、| 等等，来生成布尔值的数据帧，然后根据这些布尔值来筛选数据帧。
> 与 numpy 相似的操作,数据帧和条件表达式可以自动生成对应布尔值的数据帧

In [30]:
iris_df = sns.load_dataset('iris')
iris_df.drop(columns='species', inplace=True)  # inplace=True 表示在原数据上进行修改
iris_gre6_or_leq2 = (iris_df >6) | (iris_df<2)
print(iris_gre6_or_leq2)

     sepal_length  sepal_width  petal_length  petal_width
0           False        False          True         True
1           False        False          True         True
2           False        False          True         True
3           False        False          True         True
4           False        False          True         True
..            ...          ...           ...          ...
145          True        False         False        False
146          True        False         False         True
147          True        False         False        False
148          True        False         False        False
149         False        False         False         True

[150 rows x 4 columns]


In [31]:
iris_filter = iris_df[iris_gre6_or_leq2]
print(iris_filter)  # 可以看到 False 值对应的地方,即不满足条件的地方,被替换成了 NaN

     sepal_length  sepal_width  petal_length  petal_width
0             NaN          NaN           1.4          0.2
1             NaN          NaN           1.4          0.2
2             NaN          NaN           1.3          0.2
3             NaN          NaN           1.5          0.2
4             NaN          NaN           1.4          0.2
..            ...          ...           ...          ...
145           6.7          NaN           NaN          NaN
146           6.3          NaN           NaN          1.9
147           6.5          NaN           NaN          NaN
148           6.2          NaN           NaN          NaN
149           NaN          NaN           NaN          1.8

[150 rows x 4 columns]


### loc[]

实践中,一般更常用 loc[] 来筛选满足条件的数据帧.

In [38]:
# 例子
# 等价于 iris_df[iris_df['sepal_length'] >= 6.1]
print(iris_df.loc[iris_df.loc[:,'sepal_length'] >= 6.1, :])  

     sepal_length  sepal_width  petal_length  petal_width
50            7.0          3.2           4.7          1.4
51            6.4          3.2           4.5          1.5
52            6.9          3.1           4.9          1.5
54            6.5          2.8           4.6          1.5
56            6.3          3.3           4.7          1.6
..            ...          ...           ...          ...
144           6.7          3.3           5.7          2.5
145           6.7          3.0           5.2          2.3
146           6.3          2.5           5.0          1.9
147           6.5          3.0           5.2          2.0
148           6.2          3.4           5.4          2.3

[61 rows x 4 columns]


In [39]:
# 把花萼长度小于 6.5 且大于 5.5 的数据某两列提取出来
iris_df.loc[(iris_df.loc[:, 'sepal_length'] <6.5) &
             (iris_df.loc[:,'sepal_length'] > 5.5), ['petal_length', 'petal_width']]

Unnamed: 0,petal_length,petal_width
14,1.2,0.2
15,1.5,0.4
18,1.7,0.3
51,4.5,1.5
55,4.5,1.3
56,4.7,1.6
61,4.2,1.5
62,4.0,1.0
63,4.7,1.4
64,3.6,1.3


### query()

query(expression) 是 pandas 中的一个方法,用于对数据帧进行查询操作.

它允许通过指定一定的查询条件来筛选数据,并返回满足条件的行. 其中 expression 是一个字符串,表示查询表达式,描述了筛选条件.

通常 expression 由列名和运算符组成,可以使用布尔运算符. 还可以使用 and / or / not 等逻辑运算符来组合多个条件.

默认 inplace = False,如果是 True,则直接在原始帧上进行修改,不返回一个新的数据帧.

In [40]:
df =  sns.load_dataset('iris')

df.query('sepal_length > 2*sepal_width')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
55,5.7,2.8,4.5,1.3,versicolor
...,...,...,...,...,...
143,6.8,3.2,5.9,2.3,virginica
144,6.7,3.3,5.7,2.5,virginica
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica


In [41]:
df.query("species == 'versicolor'")

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
55,5.7,2.8,4.5,1.3,versicolor
56,6.3,3.3,4.7,1.6,versicolor
57,4.9,2.4,3.3,1.0,versicolor
58,6.6,2.9,4.6,1.3,versicolor
59,5.2,2.7,3.9,1.4,versicolor


In [42]:
df.query("not (sepal_length > 7 and petal_width > 0.5)")

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [43]:
print(type(df.query("not (sepal_length > 7 and petal_width > 0.5)")))

<class 'pandas.core.frame.DataFrame'>


## 多层索引

多层索引是一种特殊的索引类型,它允许在数据帧的行或列上具有多个层次的索引.

这支持了我们在更加复杂的高维数据集上进行分层操作和查询

### 多层行标签

pandas.MultiIndex 有多种构建方式:
1. from_arrays()
2. from_tuples()
3. from_frame() # 从 df 创建多级索引

In [68]:
# 创建列表 数据
index_arrays = [['A','A','B','B','C','C','D','D'], range(1,9)]
print(index_arrays)

data = np.random.randint(0, 9, size = (8,4))
print(data)

# 创建多层行索引
row_idx = pd.MultiIndex.from_arrays(index_arrays, names=('I', 'II'))
print(row_idx)  # 可以看到类型为 MultiIndex, names 为索引的名字,也是一一对应的关系,类似于列的概念

# 创建 DF
df = pd.DataFrame(data, index=row_idx,
                  columns=['X1', 'X2', 'X3', 'X4'])
print(df)


[['A', 'A', 'B', 'B', 'C', 'C', 'D', 'D'], range(1, 9)]
[[0 0 4 7]
 [3 2 0 2]
 [2 1 3 7]
 [3 5 2 7]
 [1 0 1 8]
 [3 8 2 1]
 [8 8 7 1]
 [0 7 5 3]]
MultiIndex([('A', 1),
            ('A', 2),
            ('B', 3),
            ('B', 4),
            ('C', 5),
            ('C', 6),
            ('D', 7),
            ('D', 8)],
           names=['I', 'II'])
      X1  X2  X3  X4
I II                
A 1    0   0   4   7
  2    3   2   0   2
B 3    2   1   3   7
  4    3   5   2   7
C 5    1   0   1   8
  6    3   8   2   1
D 7    8   8   7   1
  8    0   7   5   3


In [69]:
# 使用 reset_index 可以把多级索引转换成普通的列
reset_df = df.reset_index()
# print([f'idx_{x}' for x in range(8)])
# index_list = [f'id`_{x}' for x in range(8)]
reset_df.set_index('X3', inplace= True)  # set_index 可以把某一列设置为索引,
print(reset_df)
# reset_df.set_index(index_list, inplace=True) 系统把传入的列表作为多重索引了
reset_df.reset_index(inplace=True) # 之前作为行的列,加入到第一列去了
print(reset_df)
reset_df.set_index(['I', 'II'], inplace=True) # 会先对 I 进行组合,再对 II 进行组合
print(reset_df)

    I  II  X1  X2  X4
X3                   
4   A   1   0   0   7
0   A   2   3   2   2
3   B   3   2   1   7
2   B   4   3   5   7
1   C   5   1   0   8
2   C   6   3   8   1
7   D   7   8   8   1
5   D   8   0   7   3
   X3  I  II  X1  X2  X4
0   4  A   1   0   0   7
1   0  A   2   3   2   2
2   3  B   3   2   1   7
3   2  B   4   3   5   7
4   1  C   5   1   0   8
5   2  C   6   3   8   1
6   7  D   7   8   8   1
7   5  D   8   0   7   3
      X3  X1  X2  X4
I II                
A 1    4   0   0   7
  2    0   3   2   2
B 3    3   2   1   7
  4    2   3   5   7
C 5    1   1   0   8
  6    2   3   8   1
D 7    7   8   8   1
  8    5   0   7   3


In [71]:
# 两层行标签的索引
print(reset_df.loc[('A',1) : ('C', 1)]) # 索引是一个元组,元组里的值是对应的一级索引和二级索引
print(reset_df.loc[('A',1) : ('C', 2)]) # 两个值一样,因为 C 的值里 1 和 2 都没有
print(reset_df.loc[('A',1) : ('C', 5)]) # 可以看到是闭区间

      X3  X1  X2  X4
I II                
A 1    4   0   0   7
  2    0   3   2   2
B 3    3   2   1   7
  4    2   3   5   7
      X3  X1  X2  X4
I II                
A 1    4   0   0   7
  2    0   3   2   2
B 3    3   2   1   7
  4    2   3   5   7
      X3  X1  X2  X4
I II                
A 1    4   0   0   7
  2    0   3   2   2
B 3    3   2   1   7
  4    2   3   5   7
C 5    1   1   0   8


In [74]:
print(reset_df.loc[('A',1)])  # 此时返回的是一个 Series

print(reset_df.loc['A'])  # 此时返回的是一个 DataFrame,所有二级索引都会返回来

X3    4
X1    0
X2    0
X4    7
Name: (A, 1), dtype: int64
    X3  X1  X2  X4
II                
1    4   0   0   7
2    0   3   2   2


In [78]:
print(reset_df.loc[('A',1), 'X3'])  # 可以看到,loc 还是按照第一类参数对应行,第二类对应列标签.只不过这里的行标签是一个元组

4


利用pandas.MultiIndex.from_product()从多个可迭代对象的笛卡尔积创建多层行索引

In [85]:
# 两组列表
categories = ['A','B','C','D']
types = ['X', 'Y']
# 创建多层行索引，先categories，再types
idx_1 = pd.MultiIndex.from_product([categories, types],names=['I', 'II'])
print('index_1', idx_1)
df_1 = pd.DataFrame(data, index=idx_1,columns=['X1','X2','X3','X4'])
print(df_1)
# 创建多层行索引，先types，再categories
idx_2 = pd.MultiIndex.from_product([types, categories],names=['I', 'II'])
df_2 = pd.DataFrame(data, index=idx_2,columns=['X1','X2','X3','X4'])
print(df_2)

index_1 MultiIndex([('A', 'X'),
            ('A', 'Y'),
            ('B', 'X'),
            ('B', 'Y'),
            ('C', 'X'),
            ('C', 'Y'),
            ('D', 'X'),
            ('D', 'Y')],
           names=['I', 'II'])
      X1  X2  X3  X4
I II                
A X    0   0   4   7
  Y    3   2   0   2
B X    2   1   3   7
  Y    3   5   2   7
C X    1   0   1   8
  Y    3   8   2   1
D X    8   8   7   1
  Y    0   7   5   3
      X1  X2  X3  X4
I II                
X A    0   0   4   7
  B    3   2   0   2
  C    2   1   3   7
  D    3   5   2   7
Y A    1   0   1   8
  B    3   8   2   1
  C    8   8   7   1
  D    0   7   5   3


In [86]:
df_1.index = df_1.index.map('_'.join)  # map 函数可以对每一个元素进行操作
print(df_1)

     X1  X2  X3  X4
A_X   0   0   4   7
A_Y   3   2   0   2
B_X   2   1   3   7
B_Y   3   5   2   7
C_X   1   0   1   8
C_Y   3   8   2   1
D_X   8   8   7   1
D_Y   0   7   5   3
