In [1]:
import pandas as pd
import numpy as np
import os

# 1、Series数据选择方法 

## 1）将Series看作字典

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [3]:
data['b']

0.5

In [5]:
data[1]

0.5

### 我们还可以用字典的方法来检测、获取键值

In [6]:
'a' in data

True

In [7]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [9]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

### 利用索引器取值
索引器：loc、iloc

loc：显示索引器，按显示定义的索引值来获取

iloc：隐式索引器，按隐式的索引值取值，且不包括最后一个值

In [12]:
data.loc['a']

0.25

In [13]:
data.loc['b':'d']

b    0.50
c    0.75
d    1.00
dtype: float64

思考：下面命令会输出几个值？

In [15]:
data.iloc[1:3]

b    0.50
c    0.75
dtype: float64

思考：下面的命令是否可行？

In [None]:
data.loc[1:3]

### Python的设计原则之一是“显示优于隐式”，所以强烈推荐使用这两种索引器取值

# 2、DataFrame数据选择方法

## 1) 将DataFrame看作字典

In [17]:
area = pd.Series({'California':423967, 'Texas':695662, 'New York':141297, 'Florida':170312, 'Illinois':149995})
pop = pd.Series({'California':38332521,
                  'Texas':26448193,
                  'New York':19651127,
                  'Florida':19552860,
                  'Illinois':12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


既可以通过列名进行字典形式的取值获取数据，也可以用属性形式选择纯字符串列名的数据。
思考：以下两种方式的输出是否相同

In [18]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [19]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

## 2) 使用索引器实现切片、切块

对单列数据切片如前所示，对多列数据切块则可以用索引器实现

In [20]:
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


思考：如何用显示的索引器loc实现上述切片

In [21]:
data.loc['California':'New York'] 

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


## 3) 筛选数据

筛选出人口在2千万以上的州

In [26]:
data[data['pop'] > 20000000]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


如果要指定输出的列，则需要使用loc索引器

In [29]:
data.loc[data['pop'] > 20000000, 'area']

California    423967
Texas         695662
Name: area, dtype: int64

* 注意，此时不能使用data.pop来获取'pop'列的值，因为pop会被解析为方法

【例2】新增人口密度列，再筛选出人口密度大于指定值的州的面积和人口总数

In [31]:
data['density']=data['pop']/data['area']
data.loc[data.density>100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [3]:
rng = np.random.RandomState(42)
A = rng.randint(10, size=(3,4))
A

array([[6, 3, 7, 4],
       [6, 9, 2, 6],
       [7, 4, 3, 7]])

In [6]:
df = pd.DataFrame(A, columns=list('QRST'))
#df.subtract(df['R'], axis=0)
df

Unnamed: 0,Q,R,S,T
0,6,3,7,4
1,6,9,2,6
2,7,4,3,7


<font color=red>iloc、loc选择数据的用法还要深入</font>

In [8]:
halfrow = df.iloc[0, ::2]
halfrow

Q    6
S    7
Name: 0, dtype: int64