## 一、索引对象

In [1]:
# 导入包
import numpy as np
import pandas as pd

## 小结
1. 索引可以系统自动生成，也可以手动指定
2. 行索引和列索引都是索引对象
3. 索引一旦指定，但就不可更改，只能重建
4. 索引有多重类型

### 1.Series和DataFrame的索引对象

In [2]:
# 创建Series对象，不指定索引
pds = pd.Series(np.arange(5))
pds

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [3]:
# 创建DataFrame对象，不指定索引
df = pd.DataFrame(np.arange(16).reshape(4, 4))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [4]:
# 创建Series对象，并指定索引
pds = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
pds

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [5]:
# 创建DataFrame对象，并指定索引
df = pd.DataFrame(
    np.arange(16).reshape(4, 4),
    index=["a", "b", "c", "d"],
    columns=["A", "B", "C", "D"],
)
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


### 2.索引对象不可更改

In [6]:
# 查看索引类型
print(type(pds.index))
print(type(df.index))
print(type(df.columns))

<class 'pandas.core.indexes.base.Index'>
<class 'pandas.core.indexes.base.Index'>
<class 'pandas.core.indexes.base.Index'>


In [7]:
print(pds[0])
pds[0] = 2

0


In [8]:
# 修改索引值
print(pds.index[0])
pds.index[0] = "a"

a


TypeError: Index does not support mutable operations

## 二、重新索引

In [9]:
# reindex 创建一个符合新索引的新Series对象
pds2 = pds.reindex([1, 2, 3, 4, 5, 6])
pds2

1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
6   NaN
dtype: float64

In [14]:
pds

a    2
b    1
c    2
d    3
e    4
dtype: int64

In [10]:
# reindex 创建一个符合新索引的新Series对象
pds2 = pds.reindex(["a", "b", "c", "d", "e", "f"])
pds2

a    2.0
b    1.0
c    2.0
d    3.0
e    4.0
f    NaN
dtype: float64

In [13]:
# reindex 创建一个符合新索引的新Series对象
pds.reindex(["c", "b", "d", "a"])

c    2
b    1
d    3
a    2
dtype: int64

In [17]:
# reindex 创建一个符合新行索引的新DataFrame对象
df.reindex(["d", "a"])

Unnamed: 0,A,B,C,D
d,12,13,14,15
a,0,1,2,3


In [19]:
# reindex 创建一个符合新列索引的新DataFrame对象
df.reindex(columns=["A", "C"])

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


In [23]:
# reindex 创建一个符合新行索引和列索引的新DataFrame对象
df.reindex(index=["a", "c"], columns=["A", "C"])

Unnamed: 0,A,C
a,0,2
c,8,10


## 三、增、删、改、查

### 小结
1. 增: Series和DataFrame的增操作
    1. Series对象[“索引”] = 数据
    2. DataFrame对象[“列索引”] = 数据
    3. DataFrame对象.insert( 位置, 标签, 数据)
    4. 不直接操作原数据使用concat函数
2. 删: Series和DataFrame的删操作
    1. del(Series对象[“索引”] )
    2. del(DataFrame对象[“列索引”] )
    3. Series对象.drop(“索引”/[“索引i”, “索引j”, …])
    4. DataFrame对象.drop(“行索引”//[“索引i”, “索引j”, …])
    5. DataFrame对象.drop(“行索引”, axis=1/”columns”)
    6. 对象.drop(“索引”, inplace=True)


### 3.1 增

#### 3.1.1 Series的增操作

In [24]:
# 查看pds
pds

a    2
b    1
c    2
d    3
e    4
dtype: int64

In [25]:
# 给pds增加数据
pds["g"] = 8
pds

a    2
b    1
c    2
d    3
e    4
g    8
dtype: int64

In [26]:
# 查看pds
pds

a    2
b    1
c    2
d    3
e    4
g    8
dtype: int64

In [34]:
# 使用concat拼接Series对象
s1 = pd.Series({"f": 20})
print(s1)
pds3 = pd.concat([pds, s1])
pds3

f    20
dtype: int64


a     2
b     1
c     2
d     3
e     4
g     8
f    20
dtype: int64

#### 3.1.2 DataFrame的增操作

In [37]:
# 查看df
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [38]:
# 给df增加列数据
df[7] = 20
df

Unnamed: 0,A,B,C,D,7
a,0,1,2,3,20
b,4,5,6,7,20
c,8,9,10,11,20
d,12,13,14,15,20


In [39]:
# 给df增加列数据
df[7] = [3, 4, 5, 6]
df

Unnamed: 0,A,B,C,D,7
a,0,1,2,3,3
b,4,5,6,7,4
c,8,9,10,11,5
d,12,13,14,15,6


In [41]:
# 给df指定位置插入列数据
df.insert(1, "H", [6, 7, 8, 2])
df

ValueError: cannot insert H, already exists

In [43]:
# 给df增加行数据
df.loc["f"] = [2, 2, 2, 2, 2, 2]
df

Unnamed: 0,A,H,B,C,D,7
a,0,6,1,2,3,3
b,4,7,5,6,7,4
c,8,8,9,10,11,5
d,12,2,13,14,15,6
f,2,2,2,2,2,2


### 3.2 删

#### 3.2.1 del函数

##### 3.2.1.1 Series操作

In [48]:
# 查看pds
pds

a    2
b    1
c    2
d    3
e    4
g    8
dtype: int64

In [49]:
# 用del函数删除索引“a”
del pds["a"]
pds

b    1
c    2
d    3
e    4
g    8
dtype: int64

##### 3.2.1.2 DataFrame操作

In [51]:
# 查看df
df

Unnamed: 0,A,H,B,C,D,7
a,0,6,1,2,3,3
b,4,7,5,6,7,4
c,8,8,9,10,11,5
d,12,2,13,14,15,6
f,2,2,2,2,2,2


In [53]:
# 用del函数删除索引“7”
del df[7]
df

Unnamed: 0,A,H,B,C,D
a,0,6,1,2,3
b,4,7,5,6,7
c,8,8,9,10,11
d,12,2,13,14,15
f,2,2,2,2,2


In [54]:
# 用del函数删除索引“H”
del df["H"]
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15
f,2,2,2,2


#### 3.2.2 drop操作

##### 3.2.2.1 Series

In [55]:
# 查看pds
pds

b    1
c    2
d    3
e    4
g    8
dtype: int64

In [56]:
# 用drop函数删除索引“b”
pds1 = pds.drop("b")
pds1

c    2
d    3
e    4
g    8
dtype: int64

In [57]:
# 用drop函数删除多个数据
pds.drop(["c", "e"])

b    1
d    3
g    8
dtype: int64

##### 3.2.2.2 DataFramea

In [58]:
# 查看df
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15
f,2,2,2,2


In [59]:
# 用drop函数删除a索引的行数据
df.drop("a")

Unnamed: 0,A,B,C,D
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15
f,2,2,2,2


In [60]:
# 用drop函数删除多行数据
df.drop(["c", "f"])

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
d,12,13,14,15


In [61]:
# 用drop函数删除A索引的列数据
df.drop("A", axis=1)

Unnamed: 0,B,C,D
a,1,2,3
b,5,6,7
c,9,10,11
d,13,14,15
f,2,2,2


In [62]:
# 用drop函数删除A索引的列数据
df.drop("A", axis="columns")

Unnamed: 0,B,C,D
a,1,2,3
b,5,6,7
c,9,10,11
d,13,14,15
f,2,2,2


In [63]:
# 查看df
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15
f,2,2,2,2


In [64]:
# 使用drop函数在原对象上进行操作
# 设置inplace的值为True
df.drop("f", inplace=True)
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


### 3.3 改

#### 3.3.1 Series修改

In [66]:
# 查看pds
pds

b    1
c    2
d    3
e    4
g    8
dtype: int64

In [67]:
# 修改b标签对应的元素值为777
pds["b"] = 777
pds

b    777
c      2
d      3
e      4
g      8
dtype: int64

In [68]:
# 修改索引下标修改对应的元素值
pds[0] = 1
pds

b    1
c    2
d    3
e    4
g    8
dtype: int64

#### 3.3.2 DataFrame修改

##### 3.3.2.1 列修改

In [69]:
# 查看df
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [70]:
# 把df中A索引的列都改成999
df["A"] = 999
df

Unnamed: 0,A,B,C,D
a,999,1,2,3
b,999,5,6,7
c,999,9,10,11
d,999,13,14,15


In [71]:
# 把df中A索引的列都改成[5, 6, 7, 8]
df["A"] = [5, 6, 7, 8]
df

Unnamed: 0,A,B,C,D
a,5,1,2,3
b,6,5,6,7
c,7,9,10,11
d,8,13,14,15


In [72]:
# 把df中A索引的列都改成666，“对象.列”形式修改
df.A = 666
df

Unnamed: 0,A,B,C,D
a,666,1,2,3
b,666,5,6,7
c,666,9,10,11
d,666,13,14,15


##### 3.3.2.2 行修改

In [74]:
# 修改a索引的行为777？
df["a"] = 777
df

Unnamed: 0,A,B,C,D,a
a,666,1,2,3,777
b,666,5,6,7,777
c,666,9,10,11,777
d,666,13,14,15,777


In [83]:
# 修改a索引的行为777，使用loc索引
df.loc["a"] = 777
df

Unnamed: 0,A,B,C,D,a
a,777,777,777,777,777
b,666,5,6,7,777
c,666,9,10,11,777
d,666,13,14,15,777


In [85]:
# 把a行A列的数据修改为9999
df.loc["a", "A"] = 9999
df

Unnamed: 0,A,B,C,D,a
a,9999,777,777,777,777
b,666,5,6,7,777
c,666,9,10,11,777
d,666,13,14,15,777


In [87]:
df.loc[:, "A"]

a    9999
b     666
c     666
d     666
Name: A, dtype: int64

### 3.4 查

#### 3.4.1 Series查询

##### 3.4.1.1 单个索引查询

In [88]:
# 查看pds
pds

b    1
c    2
d    3
e    4
g    8
dtype: int64

In [89]:
# 查看g索引的行，使用标签索引
pds["g"]

8

In [90]:
# 查看g索引的行，使用位置索引
pds[4]

8

##### 3.4.1.2 多个索引查询-切片

In [93]:
# 切片，开始位置1，结束位置4
pds[1:4]

c    2
d    3
e    4
dtype: int64

In [94]:
# 切片，开始位置c，结束位置g
pds["c":"g"]

c    2
d    3
e    4
g    8
dtype: int64

##### 3.4.1.3 多个索引查询-不连续索引

In [95]:
# 不连续索引，去第4行和第2行
pds[[4, 2]]

g    8
d    3
dtype: int64

In [92]:
# 不连续索引，去g行和d行
pds[["g", "d"]]

g    8
d    3
dtype: int64

##### 3.4.1.4 布尔索引查询

In [96]:
# 查询pds里大于2的数据
pds[pds > 2]

d    3
e    4
g    8
dtype: int64

#### 3.4.2 DataFrame查询

In [98]:
# 查看df
df

Unnamed: 0,A,B,C,D,a
a,9999,777,777,777,777
b,666,5,6,7,777
c,666,9,10,11,777
d,666,13,14,15,777


##### 3.4.2.1 查看单列索引

In [100]:
# 查看A列的数据，使用标签索引
df["A"]

a    9999
b     666
c     666
d     666
Name: A, dtype: int64

In [101]:
# 查看A列的数据，使用位置索引
# DataFrame不能这么操作
df[0]

KeyError: 0

##### 3.4.2.2 查看多列索引

In [107]:
# 不连续列索引，取A列和D列
df[["A", "D"]]

Unnamed: 0,A,D
a,9999,777
b,666,7
c,666,11
d,666,15


##### 3.4.2.3 查看单个数据

In [117]:
# 查看单个元素，A列a行
df["A"]["a"]

9999

##### 3.4.2.4 切片

In [120]:
# 切片a行到c行，标签索引
df["a":"c"]

Unnamed: 0,A,B,C,D,a
a,9999,777,777,777,777
b,666,5,6,7,777
c,666,9,10,11,777


In [121]:
# 切片0行到2行，位置索引
df[0:2]

Unnamed: 0,A,B,C,D,a
a,9999,777,777,777,777
b,666,5,6,7,777


## 四、高级索引

### 小结
1. loc索引:  标签索引
    1. 只接受自定义标签
    2. 可以对行切片，也可以对列切片
    3. 取stop位置
2. iloc索引:  位置索引
    1. 只接受位置标签
    2. 可以对行切片，也可以对列切片
    3. 不取stop位置

### 4.1 loc 标签索引

In [123]:
# 查看pds
pds

b    1
c    2
d    3
e    4
g    8
dtype: int64

In [124]:
# 切片，开始位置c，结束位置g，使用传统方式
pds["c":"g"]

c    2
d    3
e    4
g    8
dtype: int64

In [125]:
# 切片，开始位置c，结束位置g，使用标签索引
pds.loc["c":"g"]

c    2
d    3
e    4
g    8
dtype: int64

In [126]:
# 查看df
df

Unnamed: 0,A,B,C,D,a
a,9999,777,777,777,777
b,666,5,6,7,777
c,666,9,10,11,777
d,666,13,14,15,777


In [130]:
# 切片：a-c行，A-D列
df.loc["a":"c", "A":"D"]

Unnamed: 0,A,B,C,D
a,9999,777,777,777
b,666,5,6,7
c,666,9,10,11


In [133]:
# 离散去值：a，c行，A，D列
df.loc[["a", "c"], ["A", "D"]]

Unnamed: 0,A,D
a,9999,777
c,666,11


### 4.2 iloc 位置索引

In [135]:
# 切片，开始位置1，结束位置4，使用传统方式
pds[1:4]

c    2
d    3
e    4
dtype: int64

In [136]:
# 切片，开始位置1，结束位置4，使用位置索引
pds.iloc[1:4]

c    2
d    3
e    4
dtype: int64

In [138]:
# 切片：0-2行，0-3列
df.iloc[0:3, 0:3]

Unnamed: 0,A,B,C
a,9999,777,777
b,666,5,6
c,666,9,10


In [140]:
# 离散去值：0，2行，0，3列
df.iloc[[0, 2], [0, 3]]

Unnamed: 0,A,D
a,9999,777
c,666,11
