## 任务描述

1. 掌握pandas从不同维度进行筛选的方法

## 相关知识

建立了一个 6X4 的矩阵数据。

In [1]:
import numpy as np
import pandas as pd
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])

**简单的筛选**

如果我们想选取DataFrame中的数据，下面描述了两种途径, 他们都能达到同一个目的：

In [2]:
print(df['A'])
print(df.A)

2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int32
2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int32


让选择跨越多行或多列:

In [3]:
print(df[0:3])
 

            A  B   C   D
2013-01-01  0  1   2   3
2013-01-02  4  5   6   7
2013-01-03  8  9  10  11


In [4]:
print(df['20130102':'20130104'])

             A   B   C   D
2013-01-02   4   5   6   7
2013-01-03   8   9  10  11
2013-01-04  12  13  14  15


如果df[3:3]将会是一个空对象。后者选择20130102到20130104标签之间的数据，并且包括这两个标签。

**根据标签 loc (select by location)**

同样我们可以使用标签来选择数据 loc, 本例子主要通过标签名字选择某一行数据， 或者通过选择某行或者所有行（:代表所有行）然后选其中某一列或几列数据。:

In [5]:
print(df.loc['20130102'])

A    4
B    5
C    6
D    7
Name: 2013-01-02 00:00:00, dtype: int32


In [6]:
print(df.loc[:,['A','B']]) 

             A   B
2013-01-01   0   1
2013-01-02   4   5
2013-01-03   8   9
2013-01-04  12  13
2013-01-05  16  17
2013-01-06  20  21


In [7]:
print(df.loc['20130102',['A','B']])

A    4
B    5
Name: 2013-01-02 00:00:00, dtype: int32


**根据序列 iloc (select by position)**

另外我们可以采用位置进行选择 iloc, 在这里我们可以通过位置选择在不同情况下所需要的数据例如选某一个，连续选或者跨行选等操作。

In [8]:
print(df.iloc[3,1])

13


In [9]:
print(df.iloc[3:5,1:3])

             B   C
2013-01-04  13  14
2013-01-05  17  18


In [10]:
print(df.iloc[[1,3,5],1:3])

             B   C
2013-01-02   5   6
2013-01-04  13  14
2013-01-06  21  22


在这里我们可以通过位置选择在不同情况下所需要的数据, 例如选某一个，连续选或者跨行选等操作。

通过判断的筛选 

我们可以采用判断指令 (Boolean indexing) 进行选择. 我们可以约束某项条件然后选择出当前所有数据.

In [11]:
print(df[df.A>8])

             A   B   C   D
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23


## 编程要求

In [None]:
根据上述知识，创建一个6行4列的表格型数据，筛选出大于9的数据并打印输出

1. 随机生成6行4列矩阵，数值范围在1-20之间
2. 行索引为 20210509 - 20210515
3. 列索引为 A B C D

In [9]:
import numpy as np
import pandas as pd
dates = np.arange(20210509,20210515)
df1 = pd.DataFrame(np.random.randint(1,20,(6,4)),index=dates,columns=["A","B","C","D"])
print("原矩阵：\n",df1)
print("筛选后的矩阵：\n",df1[df1>9])

原矩阵：
            A   B   C   D
20210509   9  15  10   8
20210510  17   4   1   4
20210511   1  12  15  14
20210512   6  19  15  13
20210513  16   5  16  14
20210514   5  11  18   9
筛选后的矩阵：
              A     B     C     D
20210509   NaN  15.0  10.0   NaN
20210510  17.0   NaN   NaN   NaN
20210511   NaN  12.0  15.0  14.0
20210512   NaN  19.0  15.0  13.0
20210513  16.0   NaN  16.0  14.0
20210514   NaN  11.0  18.0   NaN
