# pandas中的切片

![difference](https://p0.meituan.net/csc/1110e33c2eafe2b8e5a7f3a10a8957a370983.png)

|方法名称	| 说明 |
|---------------|----------|
|.loc\[\]	| 基于标签索引选取数据|
|.iloc\[\] |	基于整数索引选取数据|

- .loc[]

    df.loc[] 只能使用标签索引，不能使用整数索引。当通过标签索引的切片方式来筛选数据时，它的取值前闭后闭，也就是只包括边界值标签（开始和结束）。

    .loc[] 具有多种访问方法，如下所示：
    
    - 一个标量标签
    
    - 标签列表
    
    - 切片对象
    
    - 布尔数组
    
- .iloc[]

    df.iloc[] 只能使用整数索引，不能使用标签索引，通过整数索引切片选择数据时，前闭后开(不包含边界结束值)。同 Python 和 NumPy 一样，它们的索引都是从 0 开始
    
    ***需要注意的是iloc支持的布尔索引, 但是其支持布尔索引的方式有别于loc***

    .iloc[] 提供了以下方式来选择数据：
    
    1) 整数索引
    
    2) 整数列表
    
    3) 数值范围
    
    
*注意: 需要注意df直接访问所产生的`copy warning`问题*

In [1]:
import pandas as pd
import numpy as np

## 构造dataframe

In [2]:
data =  {
    "a": [1,2,3, 4,5,6],
    'b': ['1a', 'nn', 'c2', 'aa', 'cz', 'po'],
    'c': [12,23,45, 10, 90, 32],
    'd': [np.nan, 'ac', 1, '', np.inf, None]
}

In [3]:
df = pd.DataFrame(data)

### dataframe基础信息

In [4]:
df

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [59]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a       6 non-null      int64 
 1   b       6 non-null      object
 2   c       6 non-null      int64 
 3   d       4 non-null      object
dtypes: int64(2), object(2)
memory usage: 320.0+ bytes


In [62]:
df.shape

(6, 4)

In [63]:
df.size

24

## 直接访问

\[\] 的访问方式多用于访问列

In [7]:
# 访问多列, 得到的dataframe
df[['b','a']]

Unnamed: 0,b,a
0,1a,1
1,nn,2
2,c2,3
3,aa,4
4,cz,5
5,po,6


In [6]:
# 直接访问单列的名称, 得到的是serie
df['a']

0    1
1    2
2    3
3    4
4    5
5    6
Name: a, dtype: int64

In [38]:
df[1]

KeyError: 1

In [43]:
# 并不支持直接输入数字的形式访问
df[[0, 1]]

KeyError: "None of [Int64Index([0, 1], dtype='int64')] are in the [columns]"

In [37]:
# error
df[1:2, "a"]

InvalidIndexError: (slice(1, 2, None), 'a')

In [9]:
# 不传入任何的参数
df[:]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [10]:
# 访问行的范围
df[1: 5]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf


In [11]:
# 表示, 从1-5(不包含5), 进行切片操作, 步进为2
df[1:5:2]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
3,4,aa,10,


In [12]:
df[0: 1]

Unnamed: 0,a,b,c,d
0,1,1a,12,


In [46]:
df[[0, 1]]

KeyError: "None of [Int64Index([0, 1], dtype='int64')] are in the [columns]"

In [14]:
df[0, 'a']

KeyError: (0, 'a')

In [15]:
df[[0, 'a']]

KeyError: '[0] not in index'

In [48]:
# 这种情况是错误的
df[:, [0,2]]

InvalidIndexError: (slice(None, None, None), [0, 2])

In [47]:
# 直接使用逗号的方式访问列
df.a

0    1
1    2
2    3
3    4
4    5
5    6
Name: a, dtype: int64

## loc & iloc


坐标的方式, loc, iloc

\[\]的访问支持的传入参数

可以先转为函数的方式(a, b)

```python
def func(a: row, b: col):
    ....
```

这两个参数的传入方式

单一元素: loc\['a'\], iloc\[1\]

多个元素: \[1, 2, 3\]

范围: 1: 3

当传其中的a 或者b, 那么就意味着不传入参数的部分, 默认范围为全部


## iloc

In [15]:
# 直接访问指定的行
df.iloc[[1,2, 3]]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,


In [21]:
# 行操作, 超出范围, 没有报错
df.iloc[10:,]

Unnamed: 0,a,b,c,d


In [22]:
# 范围超出, 不报错
df.iloc[:,3:9]

Unnamed: 0,d
0,
1,ac
2,1
3,
4,inf
5,


In [24]:
#  全部超出范围
a = df.iloc[:,5:9]

In [25]:
a.empty

True

In [50]:
df.iloc[1]

a     2
b    nn
c    23
d    ac
Name: 1, dtype: object

In [51]:
# 单一元素, 会出现报错
df.iloc[9]

IndexError: single positional indexer is out-of-bounds

In [20]:
# 单个. 列超出范围, 将直接报错
df.iloc[:, 7]

IndexError: single positional indexer is out-of-bounds

In [17]:
df.iloc[[1,3]]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
3,4,aa,10,


In [18]:
# 访问单行, 得到的是series
df.iloc[1]

a     2
b    nn
c    23
d    ac
Name: 1, dtype: object

In [19]:
# 访问单行, 得到的还是dataframe
df.iloc[[1]]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac


In [20]:
# 和python的切片类似, 起始行号, 截至行号, 步进
df.iloc[1:5:2]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
3,4,aa,10,


In [21]:
df.iloc[:5:2]

Unnamed: 0,a,b,c,d
0,1,1a,12,
2,3,c2,45,1.0
4,5,cz,90,inf


In [22]:
# 截取前面部分的行
df.loc[:1]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac


In [23]:
# 截取从之后的行
df.iloc[1:]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [24]:
# 访问单个元素
df.iloc[1, 1]

'nn'

In [37]:
# 最后两行
df.iloc[-2:]

Unnamed: 0,a,b,c,d
4,5,cz,90,inf
5,6,po,32,


In [36]:
# 不传入行, 则默认访问列
df.iloc[:,2]

0    12
1    23
2    45
3    10
4    90
5    32
Name: c, dtype: int64

In [47]:
# 访问多列
df.iloc[:,[0,2]]

Unnamed: 0,a,c
0,1,12
1,2,23
2,3,45
3,4,10
4,5,90
5,6,32


In [50]:
# 注意和上述的差异
# 0:2, 表示取0,1列, [0,2]表示取0, 2列
df.iloc[:, 0:2]

Unnamed: 0,a,b
0,1,1a
1,2,nn
2,3,c2
3,4,aa
4,5,cz
5,6,po


In [27]:
# 4行号为0, 1的
df.iloc[[0,1]]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac


In [28]:
# 之传入[], 另一个为空, 即默认所有的列
df.iloc[[1,2]]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
2,3,c2,45,1


In [29]:
df.iloc[[0,1],[1,2]]

Unnamed: 0,b,c
0,1a,12
1,nn,23


In [35]:
# [], 行号, []列号
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,a,c
1,2,23
2,3,45
4,5,90


In [29]:
# 基于特定的函数
# 注意 参数 x 必须
df.iloc[:,lambda x: [0,1]]

Unnamed: 0,a,b
0,1,1a
1,2,nn
2,3,c2
3,4,aa
4,5,cz
5,6,po


In [63]:
# 使用布尔值
b = df['a'] > 3

In [66]:
b.values

array([False, False, False,  True,  True,  True])

In [68]:
# loc这里传入的series
df.loc[df['a'] > 3]

Unnamed: 0,a,b,c,d
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [69]:
# 同样支持array
df.loc[b.values]

Unnamed: 0,a,b,c,d
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [65]:
# iloc这里传入的是array
df.iloc[b.values, 1]

3    aa
4    cz
5    po
Name: b, dtype: object

In [67]:
df.iloc[b.values]

Unnamed: 0,a,b,c,d
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


## loc

In [30]:
df.loc[:,'a']

0    1
1    2
2    3
3    4
4    5
5    6
Name: a, dtype: int64

In [31]:
df.loc[:,'a':'b']

Unnamed: 0,a,b
0,1,1a
1,2,nn
2,3,c2
3,4,aa
4,5,cz
5,6,po


In [52]:
# 也支持行号的切片
df.loc[:5:2]

Unnamed: 0,a,b,c,d
0,1,1a,12,
2,3,c2,45,1.0
4,5,cz,90,inf


In [53]:
# 注意这里和iloc之间的差异
df.loc[-2:]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [75]:
df

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [54]:
df.loc[-1:]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [12]:
df.loc[1:]

Unnamed: 0,a,b,c,d
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [58]:
df.loc[0:]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [52]:
# 使用布尔索引
df.loc[df['a'] > 3]

Unnamed: 0,a,b,c,d
3,4,aa,10,
4,5,cz,90,inf
5,6,po,32,


In [53]:
# 使用多个判断条件, 条件之间使用()分开
# and, &, or |

df.loc[(df['a'] > 3) & (df['c'] > 10)]

Unnamed: 0,a,b,c,d
4,5,cz,90,inf
5,6,po,32,


In [54]:
# 非, ~
df.loc[~(df['a'] > 3) & (df['c'] > 10)]

Unnamed: 0,a,b,c,d
0,1,1a,12,
1,2,nn,23,ac
2,3,c2,45,1
