In [14]:
import numpy as np
import pandas as pd

## 创建索引


### 范围索引


In [2]:
pd.Series(data=np.random.randint(400, 1000, 12), index=pd.RangeIndex(1, 13, name="月份"))

月份
1     985
2     453
3     519
4     576
5     555
6     842
7     772
8     993
9     686
10    609
11    952
12    418
dtype: int32

### 分类索引


In [3]:
cate_index = pd.CategoricalIndex(
    ['苹果', '香蕉', '苹果', '苹果', '桃子', '香蕉'],
    ordered=True,
    categories=['苹果', '香蕉', '桃子']
)
categorical_idx_ser=pd.Series(data=range(6), index=cate_index)

In [4]:
categorical_idx_ser.groupby(level=0, observed=False).sum()

苹果    5
香蕉    6
桃子    4
dtype: int64

### 多级索引


In [5]:
# from_product方法通过第一个参数的两组数据的笛卡尔积，构造了多级索引。
multi_index = pd.MultiIndex.from_product(
    (np.arange(1001, 1006), ["期中", "期末"]), names=["学号", "学期"]
)
multi_index_df = pd.DataFrame(
    data=np.random.randint(60, 101, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=multi_index,
)

multi_index_df

Unnamed: 0_level_0,Unnamed: 1_level_0,语文,数学,英语
学号,学期,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,期中,60,87,98
1001,期末,98,86,80
1002,期中,100,93,76
1002,期末,62,88,91
1003,期中,69,68,75
1003,期末,68,78,98
1004,期中,87,78,77
1004,期末,95,99,78
1005,期中,72,100,86
1005,期末,70,91,60


In [6]:
# 计算每个学生的成绩，期中占25%，期末占75%
multi_index_df.groupby(level=0).agg(lambda x: x.values[0] * 0.25 + x.values[1] * 0.75)

Unnamed: 0_level_0,语文,数学,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,88.5,86.25,84.5
1002,71.5,89.25,87.25
1003,68.25,75.5,92.25
1004,93.0,93.75,77.75
1005,70.5,93.25,66.5


### 日期时间索引


In [7]:
# 间隔10天
date_range_periods_10 = pd.date_range("2021-1-1", "2021-6-1", periods=10)
date_range_periods_10

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-17 18:40:00',
               '2021-02-03 13:20:00', '2021-02-20 08:00:00',
               '2021-03-09 02:40:00', '2021-03-25 21:20:00',
               '2021-04-11 16:00:00', '2021-04-28 10:40:00',
               '2021-05-15 05:20:00', '2021-06-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [8]:
# 间隔一星期
date_range_periods_week = pd.date_range("2021-1-1", "2021-6-1", freq="W")
date_range_periods_week

DatetimeIndex(['2021-01-03', '2021-01-10', '2021-01-17', '2021-01-24',
               '2021-01-31', '2021-02-07', '2021-02-14', '2021-02-21',
               '2021-02-28', '2021-03-07', '2021-03-14', '2021-03-21',
               '2021-03-28', '2021-04-04', '2021-04-11', '2021-04-18',
               '2021-04-25', '2021-05-02', '2021-05-09', '2021-05-16',
               '2021-05-23', '2021-05-30'],
              dtype='datetime64[ns]', freq='W-SUN')

In [9]:
date_range_periods_week - pd.DateOffset(days=2)

DatetimeIndex(['2021-01-01', '2021-01-08', '2021-01-15', '2021-01-22',
               '2021-01-29', '2021-02-05', '2021-02-12', '2021-02-19',
               '2021-02-26', '2021-03-05', '2021-03-12', '2021-03-19',
               '2021-03-26', '2021-04-02', '2021-04-09', '2021-04-16',
               '2021-04-23', '2021-04-30', '2021-05-07', '2021-05-14',
               '2021-05-21', '2021-05-28'],
              dtype='datetime64[ns]', freq=None)

## 修改索引


In [24]:
modify_index_df = pd.DataFrame(
    data=np.random.randint(1, 10, (5, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005],
)
modify_index_df

Unnamed: 0,语文,数学,英语
1001,5,6,7
1002,6,8,1
1003,9,4,4
1004,7,7,8
1005,3,1,2


### 替换为新的index ----set_index

In [25]:
new_index = modify_index_df.set_index(["语文"])
new_index

Unnamed: 0_level_0,数学,英语
语文,Unnamed: 1_level_1,Unnamed: 2_level_1
5,6,7
6,8,1
9,4,4
7,7,8
3,1,2


### 重置索引

In [26]:
new_index.reset_index()

Unnamed: 0,语文,数学,英语
0,5,6,7
1,6,8,1
2,9,4,4
3,7,7,8
4,3,1,2


## 查看索引


In [27]:
look_index_data = pd.DataFrame(
    data=np.random.randint(1, 10, (5, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005],
)
look_index_data

Unnamed: 0,语文,数学,英语
1001,4,6,3
1002,3,4,1
1003,5,3,5
1004,7,6,7
1005,9,2,8


### 获取当前索引

In [28]:
look_index_data.index

Index([1001, 1002, 1003, 1004, 1005], dtype='int64')

### 获取极值的 index


In [29]:
# 获取语文最高分的index
look_index_data["语文"].idxmax()

np.int64(1005)

### 获取指定值的 index


In [30]:
# 找到语文分数等于9的学生所在行的索引的具体数字部分
look_index_data[look_index_data["语文"] == 3].index.tolist()

[1002]

## 访问数据

In [74]:
access_data_df = pd.DataFrame(
    data=np.random.randint(1, 10, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
)
access_data_df

Unnamed: 0,语文,数学,英语
1001,1,8,3
1002,8,5,6
1003,5,7,3
1004,4,8,6
1005,6,3,2
1006,6,6,6
1007,3,5,8
1008,3,4,2
1009,6,3,1
1010,8,5,6


### 行 row Series

返回值为 pandas.core.series.Series


#### 行索引 - df.iloc[index]


In [78]:
# 第一行
access_data_df.iloc[0]

语文    1
数学    8
英语    3
Name: 1001, dtype: int32

In [76]:
# 最后一行
access_data_df.iloc[-1]

语文    8
数学    5
英语    6
Name: 1010, dtype: int32

In [77]:
# 第一行
access_data_df.iloc[0, :]

语文    1
数学    8
英语    3
Name: 1001, dtype: int32

#### 行名  df.loc[row_name]

In [80]:
access_data_df.loc[1004]

语文    4
数学    8
英语    6
Name: 1004, dtype: int32

### 列 col Series

#### 列名  -  df[col_name]

In [84]:
access_data_df.语文

1001    1
1002    8
1003    5
1004    4
1005    6
1006    6
1007    3
1008    3
1009    6
1010    8
Name: 语文, dtype: int32

In [85]:
access_data_df["语文"]

1001    1
1002    8
1003    5
1004    4
1005    6
1006    6
1007    3
1008    3
1009    6
1010    8
Name: 语文, dtype: int32

### 行列 Series

### 行+列 DataFrame

返回 pandas.core.frame.DataFrame


#### 尾 - df.tail(num)


In [45]:
df1_tail = access_data_df.tail(2)

In [46]:
type(df1_tail.tail())

pandas.core.frame.DataFrame

In [47]:
# 使用tail获取最后一行的index
df1_tail.index[0]

np.int64(1009)

#### 头 - df.head(num)

In [49]:
access_data_df.head(2)

Unnamed: 0,语文,数学,英语
1001,9,6,3
1002,6,4,8


#### 多行列 - df.loc[[row1, row2]]

In [82]:
access_data_df.loc[[1001, 1004]]

Unnamed: 0,语文,数学,英语
1001,1,8,3
1004,4,8,6


#### 行列切片 df[0:2]

不同类型的索引,使用索引切片会有不同的效果

* 数字索引: 范围访问行列
* 时间索引: 时间日期范围访问

In [50]:
new_index = access_data_df.set_index(["语文"])
new_index
# 前2个

Unnamed: 0_level_0,数学,英语
语文,Unnamed: 1_level_1,Unnamed: 2_level_1
9,6,3
6,4,8
4,7,5
5,3,3
9,9,2
8,6,4
5,7,3
8,5,5
8,2,8
4,1,6


In [51]:
new_index[0:2]

Unnamed: 0_level_0,数学,英语
语文,Unnamed: 1_level_1,Unnamed: 2_level_1
9,6,3
6,4,8


## 筛选/修改数据


In [95]:
filter_modify_data_df = pd.DataFrame(
    data=np.random.randint(1, 10, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
)
filter_modify_data_df

Unnamed: 0,语文,数学,英语
1001,4,4,4
1002,9,3,4
1003,9,7,9
1004,6,4,2
1005,9,9,6
1006,3,8,1
1007,5,9,8
1008,4,4,1
1009,1,2,7
1010,4,6,1


### 筛选


#### 表达式 -df[df.col > ?]


In [53]:
# 列出英语大于90分的
filter_modify_data_df[filter_modify_data_df.英语 > 8]

Unnamed: 0,语文,数学,英语
1009,2,7,9


In [54]:
# 两个筛选条件
filter_modify_data_df[
    (filter_modify_data_df.英语 > 8) & (filter_modify_data_df.数学 > 3)
]

Unnamed: 0,语文,数学,英语
1009,2,7,9


#### query函数 -  df.query("col>?")

In [55]:
filter_modify_data_df.query("英语>8")

Unnamed: 0,语文,数学,英语
1009,2,7,9


In [56]:
filter_modify_data_df.query("语文==6")

Unnamed: 0,语文,数学,英语
1002,6,3,3


In [57]:
filter_modify_data_df.query("英语>8 and 语文==3")

Unnamed: 0,语文,数学,英语


In [58]:
filter_modify_data_df.query("英语<语文")

Unnamed: 0,语文,数学,英语
1001,8,3,5
1002,6,3,3
1006,5,7,3
1008,9,8,8


In [59]:
filter_modify_data_df.query("英语 in [3,4]")

Unnamed: 0,语文,数学,英语
1002,6,3,3
1005,1,7,4
1006,5,7,3
1010,2,4,4


In [60]:
# 引用变量 使用@作为前缀即可
a_list=[3,4]
filter_modify_data_df.query("英语 in @a_list")

Unnamed: 0,语文,数学,英语
1002,6,3,3
1005,1,7,4
1006,5,7,3
1010,2,4,4


In [61]:
filter_modify_data_df.query("英语 == @a_list[1]")

Unnamed: 0,语文,数学,英语
1005,1,7,4
1010,2,4,4


#### 筛选并修改 df.loc[row,col]=?

In [96]:
# 根据loc的知识我们可知，loc的两个参数，一个表示行，一个表示列
# (df1.英语 > 8) 表示搜索行 ["good_student","student_tag"] 表示两列
filter_modify_data_df.loc[(filter_modify_data_df.英语 > 8), ["good_student"]] = (
    "good_student_tag"
)
filter_modify_data_df

Unnamed: 0,语文,数学,英语,good_student
1001,4,4,4,
1002,9,3,4,
1003,9,7,9,good_student_tag
1004,6,4,2,
1005,9,9,6,
1006,3,8,1,
1007,5,9,8,
1008,4,4,1,
1009,1,2,7,
1010,4,6,1,


In [98]:
# 根据loc的知识我们可知，loc的两个参数，一个表示行，一个表示列
# (df1.英语 > 8) 表示搜索行 ["good_student","student_tag"] 表示两列
filter_modify_data_df.loc[
    (filter_modify_data_df.英语 < 5), ["good_student", "student_tag"]
] = (
    1,
    "bad_student_tag",
)
filter_modify_data_df

Unnamed: 0,语文,数学,英语,good_student,student_tag
1001,4,4,4,1.0,bad_student_tag
1002,9,3,4,1.0,bad_student_tag
1003,9,7,9,1.0,bad_student_tag
1004,6,4,2,1.0,bad_student_tag
1005,9,9,6,,
1006,3,8,1,1.0,bad_student_tag
1007,5,9,8,,
1008,4,4,1,1.0,bad_student_tag
1009,1,2,7,,
1010,4,6,1,1.0,bad_student_tag


### 修改


#### 简单修改

In [88]:
df = pd.DataFrame({"a": [1, 2, 3], "b": [11, 22, 33]})
df

Unnamed: 0,a,b
0,1,11
1,2,22
2,3,33


##### 新增列

In [63]:
df["c"] = "xx"
df

Unnamed: 0,a,b,c
0,1,11,xx
1,2,22,xx
2,3,33,xx


In [64]:
# 添加一列
df["e"] = ["x", "y", "z"]
df

Unnamed: 0,a,b,c,e
0,1,11,xx,x
1,2,22,xx,y
2,3,33,xx,z


In [69]:
df.loc[:, ["f"]] = "ff"
df

Unnamed: 0,a,b,c,e,f
0,1,11,xx,x,ff
1,2,22,xx,y,ff
2,3,33,xx,z,ff


In [91]:
df.loc[:, "enter_tag"] = ""
df

Unnamed: 0,a,b,enter_tag
0,1,11,
1,2,22,
2,3,33,
