# 一.索引对象Index

In [1]:
import numpy as np
import pandas as pd

## 1. Series和DataFrame中的索引都是Index对象

In [2]:
ps1 = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
print(ps1)
print(type(ps1.index))

a    0
b    1
c    2
d    3
e    4
dtype: int64
<class 'pandas.core.indexes.base.Index'>


In [3]:
pd1 = pd.DataFrame(np.arange(9).reshape(3,3), index=['a', 'b', 'c'], columns=['A', 'B', 'C'])
print(type(pd1))
pd1

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


## 2. 索引对象不可变，保证了数据的安全

In [4]:
#ps.index[0] = 2 # 会报错

In [5]:
#pd1.index[1] = '2' # 会报错

## 3. 常见的Index种类
- Index，索引
- Int64Index，整数索引
- MultiIndex，层级索引
- DatetimeIndex，时间戳类型

# 二.索引的 一些基本操作
- 重新索引
- 增
- 删
- 改
- 查

## 1. 重新索引

In [6]:
# reindex 创建一个符合新索引的新对象
ps2 = ps1.reindex(['a', 'b', 'c', 'd', 'e', 'f'])
ps2

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    NaN
dtype: float64

In [7]:
# 行索引重建
pd2 = pd1.reindex(['a', 'b', 'c', 'd'])
pd2

Unnamed: 0,A,B,C
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


In [8]:
# 列索引重建
pd3 = pd1.reindex(columns=['C', 'B', 'A'])
pd3

Unnamed: 0,C,B,A
a,2,1,0
b,5,4,3
c,8,7,6


## 增

In [9]:
ps1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [10]:
ps1['g'] = 9
ps1

a    0
b    1
c    2
d    3
e    4
g    9
dtype: int64

In [11]:
# append 可以不改变原有的表格数据
s1 = pd.Series({'f':99})
ps3 = ps1.append(s1)
ps3

a     0
b     1
c     2
d     3
e     4
g     9
f    99
dtype: int64

In [12]:
pd1

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [13]:
# 末尾增加列
pd1[4] = [10, 11, 12]
pd1

Unnamed: 0,A,B,C,4
a,0,1,2,10
b,3,4,5,11
c,6,7,8,12


In [14]:
# 插入增加列
pd1.insert(0, 'E', [7,7,7])
pd1

Unnamed: 0,E,A,B,C,4
a,7,0,1,2,10
b,7,3,4,5,11
c,7,6,7,8,12


In [15]:
# 增加行
# 使用高级索引中的标签索引 loc
pd1.loc['d'] = [0,0,0,0,0]
pd1

Unnamed: 0,E,A,B,C,4
a,7,0,1,2,10
b,7,3,4,5,11
c,7,6,7,8,12
d,0,0,0,0,0


In [16]:
# 使用append
row = {'E':6, 'A':6, 'B':6, 'C':6, 4:6}
pd3 = pd1.append(row, ignore_index=True)
pd3

Unnamed: 0,E,A,B,C,4
0,7,0,1,2,10
1,7,3,4,5,11
2,7,6,7,8,12
3,0,0,0,0,0
4,6,6,6,6,6


## 删

In [17]:
ps1

a    0
b    1
c    2
d    3
e    4
g    9
dtype: int64

In [18]:
# del
del ps1['b']
ps1

a    0
c    2
d    3
e    4
g    9
dtype: int64

In [19]:
pd1

Unnamed: 0,E,A,B,C,4
a,7,0,1,2,10
b,7,3,4,5,11
c,7,6,7,8,12
d,0,0,0,0,0


In [20]:
del pd1['E']
pd1

Unnamed: 0,A,B,C,4
a,0,1,2,10
b,3,4,5,11
c,6,7,8,12
d,0,0,0,0


In [21]:
# drop 删除轴上的数据，返回新的对象， 它不影响原表格数据
# 删除一条数据
ps1.drop('g')

a    0
c    2
d    3
e    4
dtype: int64

In [22]:
# 删除多条
ps1.drop(['c', 'd'])

a    0
e    4
g    9
dtype: int64

In [23]:
# DataFrame
# 删除行
pd1.drop(['a', 'd'])

Unnamed: 0,A,B,C,4
b,3,4,5,11
c,6,7,8,12


In [24]:
# 指定删除列
pd1.drop(['B'], axis=1)# axis=1是列的删除

Unnamed: 0,A,C,4
a,0,2,10
b,3,5,11
c,6,8,12
d,0,0,0


In [25]:
pd1.drop([4], axis='columns')# 也可以这么写

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,0,0,0


In [26]:
# 注意drop中的 inplace 属性， 当inplace为True时， 可以在原对象上直接进行删除操作，不会返回新的对象
ps1.drop(['g'], inplace=True)
ps1

a    0
c    2
d    3
e    4
dtype: int64

In [27]:
pd1.drop([4], axis=1, inplace=True)
pd1
# 这种inplace方法要慎重使用

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,0,0,0


## 改

In [28]:
ps1 = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
print(ps1)

a    0
b    1
c    2
d    3
e    4
dtype: int64


In [29]:
pd1 = pd.DataFrame(np.arange(9).reshape(3,3), index=['a', 'b', 'c'], columns=['A', 'B', 'C'])
pd1

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [30]:
ps1['a'] = 999 # 根据索引修改
ps1

a    999
b      1
c      2
d      3
e      4
dtype: int64

In [31]:
ps1[0] = 777 # 下标位置修改
ps1

a    777
b      1
c      2
d      3
e      4
dtype: int64

In [33]:
pd1['A'] = [9, 10, 11] # 根据索引修改
pd1

Unnamed: 0,A,B,C
a,9,1,2
b,10,4,5
c,11,7,8


In [34]:
pd1.A = 77 # 对象.列
pd1

Unnamed: 0,A,B,C
a,77,1,2
b,77,4,5
c,77,7,8


In [35]:
# loc 标签索引
pd1.loc['a'] = 777
pd1

Unnamed: 0,A,B,C
a,777,777,777
b,77,4,5
c,77,7,8


In [37]:
# 直接改某一行某一列的数据
pd1.loc['a', "A"] = 999
pd1

Unnamed: 0,A,B,C
a,999,777,777
b,77,4,5
c,77,7,8


## 查

In [38]:
# Series
ps1

a    777
b      1
c      2
d      3
e      4
dtype: int64

In [39]:
ps1['a']# 标签索引

777

In [40]:
ps1[0]# 位置索引

777

In [43]:
# 2. 切片索引
print(ps1[1:4])# 位置切片索引 左包括右不包括
print(ps1['b':'e'])# 标签切片索引 左右都包括！！！

b    1
c    2
d    3
dtype: int64
b    1
c    2
d    3
e    4
dtype: int64


In [45]:
# 3. 不连续索引
print(ps1[['b', 'e']])
print(ps1[[0, 2, 3]])

b    1
e    4
dtype: int64
a    777
c      2
d      3
dtype: int64


In [46]:
# 4. 布尔索引
ps1[ps1>2]

a    777
d      3
e      4
dtype: int64

In [47]:
# DataFrame
pd1

Unnamed: 0,A,B,C
a,999,777,777
b,77,4,5
c,77,7,8


In [48]:
# 1. 列索引
pd1['A']

a    999
b     77
c     77
Name: A, dtype: int64

In [51]:
# 取多列
pd1[['A', "C"]]

Unnamed: 0,A,C
a,999,777
b,77,5
c,77,8


In [52]:
# 选取一个值
pd1['A']['a']

999

In [53]:
# 2. 切片索引
pd1[:2] # 获取行

Unnamed: 0,A,B,C
a,999,777,777
b,77,4,5


# 三. 高级索引
- loc 标签索引
- iloc 位置索引
- ix 标签与位置混合索引

In [56]:
# loc 标签索引
# loc 是基于标签名的索引，自定义的索引名
ps1['a':'c']

a    777
b      1
c      2
dtype: int64

In [57]:
ps1.loc['a':'c']# 一般推荐使用高级索引

a    777
b      1
c      2
dtype: int64