## 2.3数据索引与切片

### 1、Series对象

In [1]:
import numpy as np # 导入包
import pandas as pd  # 导入包

In [7]:
g = np.array([27466.15, 24899.3, 19610.9, 19492.4, 17885.39, 17558.76, 15475.09, 12170.2])

# 初始化对象
gdp = pd.Series(g, index = ['shanghai', 'beijing', 'guangzhou', 'shenzhen', 'tianjin', 'chongqing', 'suzhou', 'chengdu'])
#  python中的序列类型对象到Numpy的数组，要获取原数据的一部分，都使用[]符号 ，pandas也是相同的
gdp

shanghai     27466.15
beijing      24899.30
guangzhou    19610.90
shenzhen     19492.40
tianjin      17885.39
chongqing    17558.76
suzhou       15475.09
chengdu      12170.20
dtype: float64

* Series对象中，每个标签索引的值与数据值是--对应的

* 索引与数据之间的关系，类似于Python中字典对象的“键（key）--值（value）”，所以，Series对象是类字典的对象，那么也就是可以使用字典的一些方法进行操作

In [8]:
gdp['suzhou']   # 变量名[下标]

15475.09

In [9]:
"shanghai" in gdp   #判断“shanghai”是否在gdp中，返回boolean值

True

In [10]:
"hangzhou" in gdp

False

In [11]:
gdp.keys()  # 以列表返回字典中所有的键

Index(['shanghai', 'beijing', 'guangzhou', 'shenzhen', 'tianjin', 'chongqing',
       'suzhou', 'chengdu'],
      dtype='object')

In [12]:
gdp.values  # 以列表返回字典中key的values值

array([27466.15, 24899.3 , 19610.9 , 19492.4 , 17885.39, 17558.76,
       15475.09, 12170.2 ])

In [6]:
list(gdp.items())  #items把字典变为可以遍历的键值对元组

[('shanghai', 27466.15),
 ('beijing', 24899.3),
 ('guangzhou', 19610.9),
 ('shenzhen', 19492.4),
 ('tianjin', 17885.39),
 ('chongqing', 17558.76),
 ('suzhou', 15475.09),
 ('chengdu', 12170.2)]

In [7]:
gdp["hangzhou"] = 11050.5   # 增加一项
gdp

shanghai     27466.15
beijing      24899.30
guangzhou    19610.90
shenzhen     19492.40
tianjin      17885.39
chongqing    17558.76
suzhou       15475.09
chengdu      12170.20
hangzhou     11050.50
dtype: float64

In [8]:
gdp.suzhou   #  具有映射关系的对象中，还支持用“.”访问某个值
# 这个操作禁止的，在python中，类似这种模式所访问的是某个对象的属性或者方法

15475.09

In [9]:
s = pd.Series(np.random.randn(4), index=['tot', 'pop', 'sos', 'mom'])
s.tot   # 用“.”没问题 

1.314537447898873

In [10]:
s.pop  # 用“.”发现是有问题的，没有得到‘pop’所对应的值
       # dir(s)查看，发现结果里也是有名称为pop的方法

<bound method NDFrame.pop of tot    1.314537
pop   -1.075982
sos    1.080459
mom    1.534983
dtype: float64>

In [11]:
s['pop']   # 正确姿势

-1.0759819756412596

#### 索引为列表

In [12]:
gdp[["suzhou", 'shanghai', 'beijing']]  # 下标是由标签索引组成的列表，得到了相应数据组成的新Series对象

suzhou      15475.09
shanghai    27466.15
beijing     24899.30
dtype: float64

#### 索引为条件判断

In [13]:
gdp[gdp>20000]   # 打印gdp中大于2000的数据

shanghai    27466.15
beijing     24899.30
dtype: float64

#### 多个索引
* 前包括，后包括”原则

In [14]:
g = gdp['tianjin': 'suzhou'] # 这里不是python中前包括，后不包括原则，而是前包括，后包括原则
g

tianjin      17885.39
chongqing    17558.76
suzhou       15475.09
dtype: float64

#### 单个索引

In [15]:
g['wuhan'] = 11912.6  # 此对象是从gdp引用的对象中切片出来的，但是gdp没有发生任何变化，那么就说明每次切片出来都是一个新的对象
g

tianjin      17885.39
chongqing    17558.76
suzhou       15475.09
wuhan        11912.60
dtype: float64

In [16]:
gdp

shanghai     27466.15
beijing      24899.30
guangzhou    19610.90
shenzhen     19492.40
tianjin      17885.39
chongqing    17558.76
suzhou       15475.09
chengdu      12170.20
dtype: float64

In [17]:
gdp[2]   # 位置索引（不止有标签索引，还有位置索引）

19610.9

In [18]:
gdp[2:6]  # 位置索引时是“前包括，后不包括”原则（标签索引为“前包括，后包括”原则）

guangzhou    19610.90
shenzhen     19492.40
tianjin      17885.39
chongqing    17558.76
dtype: float64

### 测试：
* 创造一些极端的、特殊的环境，看看程序能不能正常运转
* 创造一个优点特殊的Series数据，看看切片操作是否还能正常使用

In [19]:
s = pd.Series(np.random.randn(4), index = [1, 3, 5, 7]) #dataw为array，自定义index值
s

1    0.207290
3    1.466089
5   -1.779131
7    0.221489
dtype: float64

In [20]:
s[1]  #位置索引

0.20729016094447106

In [21]:
s[1:3] #位置索引

3    1.466089
5   -1.779131
dtype: float64

* 可以从上面看到 index(标签索引)是数字，我们之前用的是位置索引也是数字
* 从运行结果可以看到这是位置索引的结果（“前包括，后不包括”原则）
* python中是不可能这样干的，于是针对索引，如下

#### iloc
* Purely integer-location based indexing for selection by position.
* 位置索引
* “前包括，后包括”原则
* 对于Series对象中，若使用位置索引读取某些值，提倡使用series.iloc[]

In [14]:
s.iloc[1]    #selection by position

0.32123001297173254

In [15]:
s.iloc[1:3]  # selection by position

3    0.321230
5   -1.239319
dtype: float64

#### loc
* Access a group of rows and columns by label(s) or a boolean array.
* 标签索引
* “前包括，后包括”原则

In [17]:
s.loc[1:3]   # 这里是标签索引（“前包括，后包括”原则）

1    2.306178
3    0.321230
dtype: float64

### MultiIndex对象

In [18]:
gdp_index = [('shanghai',2015), ('shanghai', 2016), ("beijing", 2015), ("beijing", 2016), ("guangzhou", 2015), ("guangzhou", 2016)]
gdp_mind = pd.MultiIndex.from_tuples(gdp_index)
gdp = pd.Series([25300, 27466, 23000, 24899, 18100, 19611], index  = gdp_mind)
gdp

shanghai   2015    25300
           2016    27466
beijing    2015    23000
           2016    24899
guangzhou  2015    18100
           2016    19611
dtype: int64

In [19]:
g1 = gdp['shanghai']  # MultiIndex对象的第0索引
type(g1) # Series对象

pandas.core.series.Series

In [20]:
g1

2015    25300
2016    27466
dtype: int64

In [23]:
gdp.loc['shanghai']  # 标签索引

2015    25300
2016    27466
dtype: int64

In [24]:
gdp.iloc[0]  # 返回的是第一个数值，而不是0级索引中的第一个索引对应的结果

25300

### 一级索引

In [25]:
gdp.loc['shanghai']

2015    25300
2016    27466
dtype: int64

In [29]:
gdp.loc['shanghai',2015] # 'shanghai'指的是0级索引 ， 2015指的是1级索引

25300

获取2015年的所有的数据（先获得0轴上所有数据）

In [30]:
gdp[:, 2015]

shanghai     25300
beijing      23000
guangzhou    18100
dtype: int64

In [31]:
gdp.loc[gdp>19000]

shanghai   2015    25300
           2016    27466
beijing    2015    23000
           2016    24899
guangzhou  2016    19611
dtype: int64

In [32]:
gdp.values

array([25300, 27466, 23000, 24899, 18100, 19611], dtype=int64)

In [33]:
gdp.iloc[1:5]   # []填写的是位置索引

shanghai   2016    27466
beijing    2015    23000
           2016    24899
guangzhou  2015    18100
dtype: int64

In [34]:
gdp.iloc[[1, 3, 5]]

shanghai   2016    27466
beijing    2016    24899
guangzhou  2016    19611
dtype: int64

## 2、DataFrame对象

DataFrame对象的每列都是Series对象，并且这些Series对象都共用同一个索引

In [24]:
population = pd.Series([2415.27, 2151.6, 1270.68], index=['shanghai', 'beijing', 'guangzhou'])
gdp = pd.Series([27466, 24899, 19611], index=['shanghai','beijing', 'guangzhou'])
d = pd.DataFrame({'gdp':gdp, 'pop':population})
d

Unnamed: 0,gdp,pop
shanghai,27466,2415.27
beijing,24899,2151.6
guangzhou,19611,1270.68


#### dict.values
* 以列表形式返回字典中的所有的值
* 元素为二维数组元素为二维数组

In [25]:
d.values   #  元素为二维数组

array([[27466.  ,  2415.27],
       [24899.  ,  2151.6 ],
       [19611.  ,  1270.68]])

In [26]:
d.values[0]

array([27466.  ,  2415.27])

In [27]:
d.T  # 转置

Unnamed: 0,shanghai,beijing,guangzhou
gdp,27466.0,24899.0,19611.0
pop,2415.27,2151.6,1270.68


In [28]:
d['pop']  # 列的名称（在Series对象中，[]  里面是Index对象中的值）

shanghai     2415.27
beijing      2151.60
guangzhou    1270.68
Name: pop, dtype: float64

#### iloc和loc
* 位置索引和标签索引
* .iloc[]和loc[]分别操作位置索引和标签索引，也同样适用于DataFrame对象
* 这样就变为了对二维数组的索引和切片的规则

In [29]:
d.iloc[1]  # 0轴的位置索引

gdp    24899.0
pop     2151.6
Name: beijing, dtype: float64

In [30]:
d.iloc[1,1]  #0轴和1轴上的位置索引

2151.6

In [31]:
d.iloc[1:3 , :2]

Unnamed: 0,gdp,pop
beijing,24899,2151.6
guangzhou,19611,1270.68


In [36]:
d

Unnamed: 0,gdp,pop
shanghai,27466,2415.27
beijing,24899,2151.6
guangzhou,19611,1270.68


In [45]:
d.loc['beijing', 'pop']  #标签索引

2151.6

In [46]:
d.loc['beijing': 'guangzhou', 'pop']

beijing      2151.60
guangzhou    1270.68
Name: pop, dtype: float64

In [47]:
d.loc['beijing': 'guangzhou', 'gdp': 'pop']  # 标签索引（“前不包括，后不包括”原则）

Unnamed: 0,gdp,pop
beijing,24899,2151.6
guangzhou,19611,1270.68


.ix[ ],[ ]里可以混合放置位置索引和标签索引

In [48]:
d.ix[:2, 'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


shanghai    2415.27
beijing     2151.60
Name: pop, dtype: float64

### 3、总结：
* 如果仅获取某列数据，则可以根据列名称或者字段名称直接获得
* 如果要获得某些行的切片，则可以用.iloc[]或者.loc[]
* 通过行和列的共同约束获得某些数据

In [49]:
d['pop']  # 想要直接获取'pop'列

shanghai     2415.27
beijing      2151.60
guangzhou    1270.68
Name: pop, dtype: float64

In [50]:
d.loc['beijing': 'guangzhou'] # 使用函数获取行

Unnamed: 0,gdp,pop
beijing,24899,2151.6
guangzhou,19611,1270.68


In [51]:
d.iloc[1:]

Unnamed: 0,gdp,pop
beijing,24899,2151.6
guangzhou,19611,1270.68


In [52]:
d.loc['shanghai', 'pop']

2415.27

In [57]:
d.loc[:, 'pop']

shanghai     2415.27
beijing      2151.60
guangzhou    1270.68
Name: pop, dtype: float64

In [58]:
d.ix[['shanghai', 'guangzhou', 'pop']]    

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.
Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  """Entry point for launching an IPython kernel.


Unnamed: 0,gdp,pop
shanghai,27466.0,2415.27
guangzhou,19611.0,1270.68
pop,,


* 以上都为以Index对象作为DataFrame数据索引的部分数据的读取方法

