# DataFrame基础 (二)

In [1]:
import numpy as np
import pandas as pd

### DataFrame的条件筛选

In [2]:
data = np.array([[175,55,4.9],[185,70,5.1],[164,53,5.2],[172,50,5.5]])
names = np.array(['李明','刘伟','王刚','张杰'])
subject = np.array(['身高','体重','E型视力'])
print(data)

[[175.   55.    4.9]
 [185.   70.    5.1]
 [164.   53.    5.2]
 [172.   50.    5.5]]


In [3]:
data_table = pd.DataFrame(data,names,subject)
data_table

Unnamed: 0,身高,体重,E型视力
李明,175.0,55.0,4.9
刘伟,185.0,70.0,5.1
王刚,164.0,53.0,5.2
张杰,172.0,50.0,5.5


In [4]:
data_table.E型视力>=5.0 # 得到一个Series，bool类型，得到所有数据是否符合条件

李明    False
刘伟     True
王刚     True
张杰     True
Name: E型视力, dtype: bool

In [5]:
data_table[data_table.E型视力>=5.0] # 通过bool Series得到符合条件的

Unnamed: 0,身高,体重,E型视力
刘伟,185.0,70.0,5.1
王刚,164.0,53.0,5.2
张杰,172.0,50.0,5.5


In [6]:
data_table[data_table.E型视力>=5.0]['身高'] # 从符合条件的行中筛选出列

刘伟    185.0
王刚    164.0
张杰    172.0
Name: 身高, dtype: float64

In [7]:
data_table[data_table.E型视力>=5.0][['体重','身高']] # 筛选出多列

Unnamed: 0,体重,身高
刘伟,70.0,185.0
王刚,53.0,164.0
张杰,50.0,172.0


In [8]:
(data_table.E型视力>=5.0)&(data_table.体重>=52) #多个条件用'&'或'|''，必须加括号，不能用and 或者 or

李明    False
刘伟     True
王刚     True
张杰    False
dtype: bool

In [9]:
data_table[(data_table.E型视力>=5.0)&(data_table.体重>=52)] # 得到同时满足两个条件的数据

Unnamed: 0,身高,体重,E型视力
刘伟,185.0,70.0,5.1
王刚,164.0,53.0,5.2


In [10]:
data_table[(data_table.E型视力<5.0)|(data_table.体重<52)] # 其中一个条件满足即可

Unnamed: 0,身高,体重,E型视力
李明,175.0,55.0,4.9
张杰,172.0,50.0,5.5


### 关于行索引 (Index)

In [11]:
data_table.reset_index() # 将所有行标题重置为数字序号，旧标题成为另一列

Unnamed: 0,index,身高,体重,E型视力
0,李明,175.0,55.0,4.9
1,刘伟,185.0,70.0,5.1
2,王刚,164.0,53.0,5.2
3,张杰,172.0,50.0,5.5


In [12]:
data_table['编号']='0101 0102 0103 0104'.split() # split()按空格切开字符串并返回列表，列表在赋予一列
data_table

Unnamed: 0,身高,体重,E型视力,编号
李明,175.0,55.0,4.9,101
刘伟,185.0,70.0,5.1,102
王刚,164.0,53.0,5.2,103
张杰,172.0,50.0,5.5,104


In [13]:
data_table.set_index("编号") # 将这一列的数据设置为 每列的标题

Unnamed: 0_level_0,身高,体重,E型视力
编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,175.0,55.0,4.9
102,185.0,70.0,5.1
103,164.0,53.0,5.2
104,172.0,50.0,5.5


**！注意上述Method都需要写inplace=True 才能对原表格起作用**