In [1]:
import numpy as np
import pandas as pd

## 创建索引


### 范围索引


In [2]:
pd.Series(data=np.random.randint(400, 1000, 12), index=pd.RangeIndex(1, 13, name="月份"))

月份
1     702
2     640
3     934
4     944
5     658
6     947
7     957
8     819
9     423
10    657
11    953
12    781
dtype: int32

### 分类索引


In [3]:
cate_index = pd.CategoricalIndex(
    ['苹果', '香蕉', '苹果', '苹果', '桃子', '香蕉'],
    ordered=True,
    categories=['苹果', '香蕉', '桃子']
)
categorical_idx_ser=pd.Series(data=range(6), index=cate_index)

In [4]:
categorical_idx_ser.groupby(level=0, observed=False).sum()

苹果    5
香蕉    6
桃子    4
dtype: int64

### 多级索引


In [5]:
# from_product方法通过第一个参数的两组数据的笛卡尔积，构造了多级索引。
multi_index = pd.MultiIndex.from_product(
    (np.arange(1001, 1006), ["期中", "期末"]), names=["学号", "学期"]
)
multi_index_df = pd.DataFrame(
    data=np.random.randint(60, 101, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=multi_index,
)

multi_index_df

Unnamed: 0_level_0,Unnamed: 1_level_0,语文,数学,英语
学号,学期,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,期中,63,77,70
1001,期末,71,74,86
1002,期中,99,93,72
1002,期末,63,97,70
1003,期中,80,100,100
1003,期末,72,72,71
1004,期中,80,70,81
1004,期末,65,97,68
1005,期中,62,68,88
1005,期末,76,60,71


In [6]:
# 计算每个学生的成绩，期中占25%，期末占75%
multi_index_df.groupby(level=0).agg(lambda x: x.values[0] * 0.25 + x.values[1] * 0.75)

Unnamed: 0_level_0,语文,数学,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,69.0,74.75,82.0
1002,72.0,96.0,70.5
1003,74.0,79.0,78.25
1004,68.75,90.25,71.25
1005,72.5,62.0,75.25


### 日期时间索引


In [7]:
# 间隔10天
date_range_periods_10 = pd.date_range("2021-1-1", "2021-6-1", periods=10)
date_range_periods_10

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-17 18:40:00',
               '2021-02-03 13:20:00', '2021-02-20 08:00:00',
               '2021-03-09 02:40:00', '2021-03-25 21:20:00',
               '2021-04-11 16:00:00', '2021-04-28 10:40:00',
               '2021-05-15 05:20:00', '2021-06-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [8]:
# 间隔一星期
date_range_periods_week = pd.date_range("2021-1-1", "2021-6-1", freq="W")
date_range_periods_week

DatetimeIndex(['2021-01-03', '2021-01-10', '2021-01-17', '2021-01-24',
               '2021-01-31', '2021-02-07', '2021-02-14', '2021-02-21',
               '2021-02-28', '2021-03-07', '2021-03-14', '2021-03-21',
               '2021-03-28', '2021-04-04', '2021-04-11', '2021-04-18',
               '2021-04-25', '2021-05-02', '2021-05-09', '2021-05-16',
               '2021-05-23', '2021-05-30'],
              dtype='datetime64[ns]', freq='W-SUN')

In [9]:
date_range_periods_week - pd.DateOffset(days=2)

DatetimeIndex(['2021-01-01', '2021-01-08', '2021-01-15', '2021-01-22',
               '2021-01-29', '2021-02-05', '2021-02-12', '2021-02-19',
               '2021-02-26', '2021-03-05', '2021-03-12', '2021-03-19',
               '2021-03-26', '2021-04-02', '2021-04-09', '2021-04-16',
               '2021-04-23', '2021-04-30', '2021-05-07', '2021-05-14',
               '2021-05-21', '2021-05-28'],
              dtype='datetime64[ns]', freq=None)

## 修改索引


In [10]:
add_index_df = pd.DataFrame(
    data=np.random.randint(1, 10, (5, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005],
)
add_index_df


Unnamed: 0,语文,数学,英语
1001,4,5,9
1002,5,3,9
1003,9,3,9
1004,4,3,9
1005,8,9,6


### 替换为新的index ----set_index

In [11]:
new_index=add_index_df.set_index(["语文"])
new_index

Unnamed: 0_level_0,数学,英语
语文,Unnamed: 1_level_1,Unnamed: 2_level_1
4,5,9
5,3,9
9,3,9
4,3,9
8,9,6


### 重置索引

In [12]:
new_index.reset_index()

Unnamed: 0,语文,数学,英语
0,4,5,9
1,5,3,9
2,9,3,9
3,4,3,9
4,8,9,6


## 访问数据


In [13]:
df1 = pd.DataFrame(
    data=np.random.randint(1, 10, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
)
df1

Unnamed: 0,语文,数学,英语
1001,3,7,2
1002,3,6,9
1003,6,1,5
1004,9,8,8
1005,3,7,1
1006,5,1,4
1007,2,7,6
1008,3,2,8
1009,1,4,5
1010,1,2,2


### 访问单行/列

返回值为 pandas.core.series.Series


#### 按列名访问 []


In [14]:
df1.语文

1001    3
1002    3
1003    6
1004    9
1005    3
1006    5
1007    2
1008    3
1009    1
1010    1
Name: 语文, dtype: int32

In [15]:
df1["语文"]

1001    3
1002    3
1003    6
1004    9
1005    3
1006    5
1007    2
1008    3
1009    1
1010    1
Name: 语文, dtype: int32

In [16]:
type(df1["语文"])

pandas.core.series.Series

##### 访问多列 [[]]

In [17]:
df1[["语文", "数学"]]

Unnamed: 0,语文,数学
1001,3,7
1002,3,6
1003,6,1
1004,9,8
1005,3,7
1006,5,1
1007,2,7
1008,3,2
1009,1,4
1010,1,2


#### 按行访索引问 iloc


In [18]:
# 第一行
df1.iloc[0]

语文    3
数学    7
英语    2
Name: 1001, dtype: int32

In [19]:
# 最后一行
df1.iloc[-1]

语文    1
数学    2
英语    2
Name: 1010, dtype: int32

In [20]:
 # 第一行 
df1.iloc[0,:]         

语文    3
数学    7
英语    2
Name: 1001, dtype: int32

#### 按行名称访问 loc


In [21]:
df1.loc[1004]

语文    9
数学    8
英语    8
Name: 1004, dtype: int32

In [22]:
df1.loc[[1001, 1004]]

Unnamed: 0,语文,数学,英语
1001,3,7,2
1004,9,8,8


In [23]:
df1.loc[1004]["语文"]

9

In [24]:
df1.loc[1004, "语文"]

9

In [25]:
df1.loc[1004].语文

9

### 访问行+列

返回值为 pandas.core.frame.DataFrame


#### 访问尾部


In [26]:
df1_tail=df1.tail(2)

In [27]:
type(df1_tail.tail())

pandas.core.frame.DataFrame

In [28]:
# 使用tail获取最后一行的index
df1_tail.index[0]

1009

#### 访问头部


In [29]:
df1.head(2)

Unnamed: 0,语文,数学,英语
1001,3,7,2
1002,3,6,9


## 筛选/并修改


### 筛选


#### 表达式


In [30]:
# 列出英语大于90分的
df1[df1.英语 > 8]

Unnamed: 0,语文,数学,英语
1002,3,6,9


In [31]:
# 两个筛选条件
df1[(df1.英语 > 8) & (df1.数学 > 3)]

Unnamed: 0,语文,数学,英语
1002,3,6,9


#### query函数

In [32]:
df1.query("英语>8")

Unnamed: 0,语文,数学,英语
1002,3,6,9


In [44]:
df1.query("语文==6")

Unnamed: 0,语文,数学,英语,good_student,student_tag
1003,6,1,5,,


In [45]:
df1.query("英语>8 and 语文==3")

Unnamed: 0,语文,数学,英语,good_student,student_tag
1002,3,6,9,1,good_student_tag


In [47]:
df1.query("英语<语文")

Unnamed: 0,语文,数学,英语,good_student,student_tag
1001,3,7,2,,
1003,6,1,5,,
1004,9,8,8,,
1005,3,7,1,,
1006,5,1,4,,


In [48]:
df1.query("英语 in [3,4]")

Unnamed: 0,语文,数学,英语,good_student,student_tag
1006,5,1,4,,


In [51]:
# 引用变量 使用@作为前缀即可
a_list=[3,4]
df1.query("英语 in @a_list")

Unnamed: 0,语文,数学,英语,good_student,student_tag
1006,5,1,4,,


In [55]:
df1.query("英语 == @a_list[1]")

Unnamed: 0,语文,数学,英语,good_student,student_tag
1006,5,1,4,,


### 修改


In [40]:
# 根据loc的知识我们可知，loc的两个参数，一个表示行，一个表示列
# (df1.英语 > 8) 表示搜索行 ["good_student","student_tag"] 表示两列
df1.loc[(df1.英语 > 8), ["good_student", "student_tag"]] = (1, "good_student_tag")
df1

Unnamed: 0,语文,数学,英语,good_student,student_tag
1001,3,7,2,,
1002,3,6,9,1.0,good_student_tag
1003,6,1,5,,
1004,9,8,8,,
1005,3,7,1,,
1006,5,1,4,,
1007,2,7,6,,
1008,3,2,8,,
1009,1,4,5,,
1010,1,2,2,,


## 查看索引


### 获取当前索引

In [34]:
df1.index

Index([1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010], dtype='int64')

### 获取极值的 index


In [35]:
# 获取语文最高分的index
df1["语文"].idxmax()

1004

### 获取指定值的 index


In [36]:
# 找到语文分数等于9的学生所在行的索引的具体数字部分
df1[df1["语文"] == 9].index.tolist()

[1004]