# index 索引


In [54]:
import numpy as np
import pandas as pd

## 创建索引


### 范围索引


In [55]:
pd.Series(data=np.random.randint(400, 1000, 12), index=pd.RangeIndex(1, 13, name="月份"))

月份
1     456
2     990
3     952
4     728
5     506
6     463
7     746
8     590
9     737
10    983
11    838
12    922
dtype: int32

### 分类索引


In [56]:
    cate_index = pd.CategoricalIndex(
        ['苹果', '香蕉', '苹果', '苹果', '桃子', '香蕉'],
        ordered=True,
        categories=['苹果', '香蕉', '桃子']
    )
categorical_idx_ser=pd.Series(data=range(6), index=cate_index)

In [57]:
categorical_idx_ser.groupby(level=0, observed=False).sum()

苹果    5
香蕉    6
桃子    4
dtype: int64

### 多级索引


In [58]:
# from_product方法通过第一个参数的两组数据的笛卡尔积，构造了多级索引。
multi_index = pd.MultiIndex.from_product(
    (np.arange(1001, 1006), ["期中", "期末"]), names=["学号", "学期"]
)
multi_index_df = pd.DataFrame(
    data=np.random.randint(60, 101, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=multi_index,
)

multi_index_df

Unnamed: 0_level_0,Unnamed: 1_level_0,语文,数学,英语
学号,学期,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,期中,91,75,82
1001,期末,67,68,72
1002,期中,75,85,64
1002,期末,71,90,70
1003,期中,82,61,69
1003,期末,96,92,84
1004,期中,92,68,96
1004,期末,70,82,98
1005,期中,84,90,97
1005,期末,70,67,75


In [59]:
# 计算每个学生的成绩，期中占25%，期末占75%
multi_index_df.groupby(level=0).agg(lambda x: x.values[0] * 0.25 + x.values[1] * 0.75)

Unnamed: 0_level_0,语文,数学,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,73.0,69.75,74.5
1002,72.0,88.75,68.5
1003,92.5,84.25,80.25
1004,75.5,78.5,97.5
1005,73.5,72.75,80.5


### 日期时间索引


In [60]:
# 间隔10天
date_range_periods_10 = pd.date_range("2021-1-1", "2021-6-1", periods=10)
date_range_periods_10

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-17 18:40:00',
               '2021-02-03 13:20:00', '2021-02-20 08:00:00',
               '2021-03-09 02:40:00', '2021-03-25 21:20:00',
               '2021-04-11 16:00:00', '2021-04-28 10:40:00',
               '2021-05-15 05:20:00', '2021-06-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [61]:
# 间隔一星期
date_range_periods_week = pd.date_range("2021-1-1", "2021-6-1", freq="W")
date_range_periods_week

DatetimeIndex(['2021-01-03', '2021-01-10', '2021-01-17', '2021-01-24',
               '2021-01-31', '2021-02-07', '2021-02-14', '2021-02-21',
               '2021-02-28', '2021-03-07', '2021-03-14', '2021-03-21',
               '2021-03-28', '2021-04-04', '2021-04-11', '2021-04-18',
               '2021-04-25', '2021-05-02', '2021-05-09', '2021-05-16',
               '2021-05-23', '2021-05-30'],
              dtype='datetime64[ns]', freq='W-SUN')

In [62]:
date_range_periods_week - pd.DateOffset(days=2)

DatetimeIndex(['2021-01-01', '2021-01-08', '2021-01-15', '2021-01-22',
               '2021-01-29', '2021-02-05', '2021-02-12', '2021-02-19',
               '2021-02-26', '2021-03-05', '2021-03-12', '2021-03-19',
               '2021-03-26', '2021-04-02', '2021-04-09', '2021-04-16',
               '2021-04-23', '2021-04-30', '2021-05-07', '2021-05-14',
               '2021-05-21', '2021-05-28'],
              dtype='datetime64[ns]', freq=None)

## 访问


In [63]:
df1 = pd.DataFrame(
    data=np.random.randint(1, 10, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
)
df1

Unnamed: 0,语文,数学,英语
1001,9,3,8
1002,7,4,9
1003,1,7,1
1004,4,9,1
1005,9,8,9
1006,4,2,2
1007,6,2,3
1008,2,6,8
1009,4,5,9
1010,4,3,7


### 访问单行/列

返回值为 pandas.core.series.Series


#### 按列名访问 []


In [64]:
df1.语文

1001    9
1002    7
1003    1
1004    4
1005    9
1006    4
1007    6
1008    2
1009    4
1010    4
Name: 语文, dtype: int32

In [65]:
df1["语文"]

1001    9
1002    7
1003    1
1004    4
1005    9
1006    4
1007    6
1008    2
1009    4
1010    4
Name: 语文, dtype: int32

In [66]:
type(df1["语文"])

pandas.core.series.Series

In [67]:
df1[["语文", "数学"]]

Unnamed: 0,语文,数学
1001,9,3
1002,7,4
1003,1,7
1004,4,9
1005,9,8
1006,4,2
1007,6,2
1008,2,6
1009,4,5
1010,4,3


#### 按行访索引问 iloc


In [68]:
# 第一行
df1.iloc[0]

语文    9
数学    3
英语    8
Name: 1001, dtype: int32

In [69]:
# 最后一行
df1.iloc[-1]

语文    4
数学    3
英语    7
Name: 1010, dtype: int32

#### 按行名称访问 loc


In [70]:
df1.loc[1004]

语文    4
数学    9
英语    1
Name: 1004, dtype: int32

In [83]:
df1.loc[[1001, 1004]]

Unnamed: 0,语文,数学,英语
1001,9,3,8
1004,4,9,1


In [71]:
df1.loc[1004]["语文"]

4

In [93]:
df1.loc[1004, "语文"]

4

In [73]:
df1.loc[1004].语文

4

### 访问行+列

返回值为 pandas.core.frame.DataFrame


#### 访问尾部


In [74]:
df1.tail(2)

Unnamed: 0,语文,数学,英语
1009,4,5,9
1010,4,3,7


In [75]:
type(df1_tail)

pandas.core.frame.DataFrame

In [76]:
# 使用tail获取最后一行的index
df1_tail.index[0]

1010

#### 访问头部


In [77]:
df1.head(2)

Unnamed: 0,语文,数学,英语
1001,9,3,8
1002,7,4,9


## 筛选/并修改


### 筛选


In [88]:
# 列出英语大于90分的
df1[df1.英语 > 8]

Unnamed: 0,语文,数学,英语
1002,7,4,9
1005,9,8,9
1009,4,5,9


In [89]:
df1.query("英语>8")

Unnamed: 0,语文,数学,英语
1002,7,4,9
1005,9,8,9
1009,4,5,9


### 修改


In [92]:
# 根据loc的知识我们可知，loc的两个参数，一个表示行，一个表示列
# (df1.英语 > 8) 表示搜索行 ["good_student","student_tag"] 表示两列
df1.loc[(df1.英语 > 8), ["good_student", "student_tag"]] = (1, "good_student_tag")
df1

Unnamed: 0,语文,数学,英语,good_student,student_tag
1001,9,3,8,,
1002,7,4,9,1.0,good_student_tag
1003,1,7,1,,
1004,4,9,1,,
1005,9,8,9,1.0,good_student_tag
1006,4,2,2,,
1007,6,2,3,,
1008,2,6,8,,
1009,4,5,9,1.0,good_student_tag
1010,4,3,7,,


## 获取索引信息


### 获取极值的 index


In [78]:
# 获取语文最高分的index
df1["语文"].idxmax()

1001

### 获取指定值的 index


In [79]:
# 找到语文分数等于9的学生所在行的索引的具体数字部分
df1[df1["语文"] == 9].index.tolist()

[1001, 1005]