# 菜品挑选——数据选择

## 列选择

### 选择某一列/某几列

#### 通过列名来选择

In [1]:
import pandas as pd 
import numpy as np 
df = pd.read_excel(r'test.xlsx',sheet_name='工作表3')
df 

Unnamed: 0,订单编号,客户姓名,年龄,唯一识别码,成交时间
0,A1,张瞳,54,101,2018-08-08
1,A2,李谷,16,102,2018-08-09
2,A3,孙凤,47,103,2018-08-10
3,A3,孙凤,41,103,2018-08-10
4,A4,赵恒,37,104,2018-08-12
5,A5,赵恒,38,104,2018-08-13


In [5]:
df['订单编号']

0    A1
1    A2
2    A3
3    A3
4    A4
5    A5
Name: 订单编号, dtype: object

In [6]:
df[['订单编号','客户姓名']]

Unnamed: 0,订单编号,客户姓名
0,A1,张瞳
1,A2,李谷
2,A3,孙凤
3,A3,孙凤
4,A4,赵恒
5,A5,赵恒


#### 通过`iloc()`方法，传入具体列或行的位置来选择

获取第1列和第3列的数值

In [12]:
df.iloc[:,[0,2]]

Unnamed: 0,订单编号,唯一识别码
0,A1,101
1,A2,102
2,A3,103
3,A3,103
4,A4,104
5,A5,104


iloc后的方括号中，逗号之前部分表示要获取的行的位置，`:`表示获取全部行；之后的`[]`表示要获取的列的位置，从0开始计数

### 选择`连续的`某几列

In [13]:
df.iloc[:,0:3]

Unnamed: 0,订单编号,客户姓名,唯一识别码
0,A1,张瞳,101
1,A2,李谷,102
2,A3,孙凤,103
3,A3,孙凤,103
4,A4,赵恒,104
5,A5,赵恒,104


## 行选择

In [None]:
为方便显示，先设置自定义的行索引

In [59]:
df.index=['一','二','三','四','五','六']
df

Unnamed: 0,订单编号,客户姓名,年龄,唯一识别码,成交时间
一,A1,张瞳,54,101,2018-08-08
二,A2,李谷,16,102,2018-08-09
三,A3,孙凤,47,103,2018-08-10
四,A3,孙凤,41,103,2018-08-10
五,A4,赵恒,37,104,2018-08-12
六,A5,赵恒,38,104,2018-08-13


### 选择某一行/某几行

#### 按行索引名称选择，用`loc[]`

In [60]:
df.loc[['一','二']]

Unnamed: 0,订单编号,客户姓名,年龄,唯一识别码,成交时间
一,A1,张瞳,54,101,2018-08-08
二,A2,李谷,16,102,2018-08-09


#### 按行位置，即具体的行数选择，用`iloc[]`

In [42]:
df.iloc[[0,2,5],:]  

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张瞳,101,2018-08-08
三,A3,孙凤,103,2018-08-10
六,A5,赵恒,104,2018-08-13


### 选择`连续的`某几行

In [39]:
df.iloc[0:3,:]   # 这里的0:3相当于[0,3）前闭后开，3是不在范围之内的。

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张瞳,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10


### 选择满足条件的行`布尔索引`

#### 单个条件

In [47]:
df[df['唯一识别码'] > 101]

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
四,A3,孙凤,103,2018-08-10
五,A4,赵恒,104,2018-08-12
六,A5,赵恒,104,2018-08-13


#### 多个条件，用`&`符号连接

In [51]:
df[(df['唯一识别码'] > 101) & (df['客户姓名'] == '赵恒')]

Unnamed: 0,订单编号,客户姓名,年龄,唯一识别码,成交时间
4,A4,赵恒,37,104,2018-08-12
5,A5,赵恒,38,104,2018-08-13


## 行列同时选择

### `普通索引+普通索引`选择指定的行和列

`loc[]`方法中第一对方括号表示行索引，传入行索引名称；第二对方括号表示列索引，传入列索引名称

In [68]:
df.loc[['一','三'],['订单编号','唯一识别码']]

Unnamed: 0,订单编号,唯一识别码
一,A1,101
三,A3,103


### `位置索引+位置索引`选择指定的行和列

In [71]:
df.iloc[0:3,[0,2]]

Unnamed: 0,订单编号,年龄
一,A1,54
二,A2,16
三,A3,47


In [72]:
df.iloc[[0,3],[0,2]]

Unnamed: 0,订单编号,年龄
一,A1,54
四,A3,41


### **【重点】**`布尔索引+普通索引`选择指定的行和列

In [83]:
# 一定要注意方括号，表示行和列选择的方括号中间是没有逗号或者其它符号的
df[df['年龄']<50][['订单编号','年龄']]

Unnamed: 0,订单编号,年龄
二,A2,16
三,A3,47
四,A3,41
五,A4,37
六,A5,38


In [84]:
df[df['年龄']<50]

Unnamed: 0,订单编号,客户姓名,年龄,唯一识别码,成交时间
二,A2,李谷,16,102,2018-08-09
三,A3,孙凤,47,103,2018-08-10
四,A3,孙凤,41,103,2018-08-10
五,A4,赵恒,37,104,2018-08-12
六,A5,赵恒,38,104,2018-08-13


### 切片索引+切片索引选择指定的行和列

In [88]:
df.iloc[0:3,1:3]  #注意这里的0:3,1:3都不包括3，相当于[0:3)，前闭后开，3不包括在内

Unnamed: 0,客户姓名,年龄
一,张瞳,54
二,李谷,16
三,孙凤,47


### `切片索引+普通索引`选择指定的行和列

这种方式已经被Pandas**弃用**了，会出现警告信息

In [92]:
df.ix[0:3,['客户姓名','唯一识别码']]  

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,客户姓名,唯一识别码
一,张瞳,101
二,李谷,102
三,孙凤,103
