In [1]:
import numpy as np
import pandas as pd

## 创建索引


### 范围索引


In [2]:
pd.Series(data=np.random.randint(400, 1000, 12), index=pd.RangeIndex(1, 13, name="月份"))

月份
1     574
2     929
3     802
4     440
5     884
6     655
7     893
8     904
9     696
10    855
11    739
12    778
dtype: int32

### 分类索引


In [3]:
cate_index = pd.CategoricalIndex(
    ['苹果', '香蕉', '苹果', '苹果', '桃子', '香蕉'],
    ordered=True,
    categories=['苹果', '香蕉', '桃子']
)
categorical_idx_ser=pd.Series(data=range(6), index=cate_index)

In [4]:
categorical_idx_ser.groupby(level=0, observed=False).sum()

苹果    5
香蕉    6
桃子    4
dtype: int64

### 多级索引


In [5]:
# from_product方法通过第一个参数的两组数据的笛卡尔积，构造了多级索引。
multi_index = pd.MultiIndex.from_product(
    (np.arange(1001, 1006), ["期中", "期末"]), names=["学号", "学期"]
)
multi_index_df = pd.DataFrame(
    data=np.random.randint(60, 101, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=multi_index,
)

multi_index_df

Unnamed: 0_level_0,Unnamed: 1_level_0,语文,数学,英语
学号,学期,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,期中,77,70,65
1001,期末,61,81,60
1002,期中,61,88,82
1002,期末,75,99,71
1003,期中,92,60,73
1003,期末,76,87,80
1004,期中,82,83,66
1004,期末,90,90,60
1005,期中,81,80,63
1005,期末,78,89,62


In [6]:
# 计算每个学生的成绩，期中占25%，期末占75%
multi_index_df.groupby(level=0).agg(lambda x: x.values[0] * 0.25 + x.values[1] * 0.75)

Unnamed: 0_level_0,语文,数学,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,65.0,78.25,61.25
1002,71.5,96.25,73.75
1003,80.0,80.25,78.25
1004,88.0,88.25,61.5
1005,78.75,86.75,62.25


### 日期时间索引


In [7]:
# 间隔10天
date_range_periods_10 = pd.date_range("2021-1-1", "2021-6-1", periods=10)
date_range_periods_10

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-17 18:40:00',
               '2021-02-03 13:20:00', '2021-02-20 08:00:00',
               '2021-03-09 02:40:00', '2021-03-25 21:20:00',
               '2021-04-11 16:00:00', '2021-04-28 10:40:00',
               '2021-05-15 05:20:00', '2021-06-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [8]:
# 间隔一星期
date_range_periods_week = pd.date_range("2021-1-1", "2021-6-1", freq="W")
date_range_periods_week

DatetimeIndex(['2021-01-03', '2021-01-10', '2021-01-17', '2021-01-24',
               '2021-01-31', '2021-02-07', '2021-02-14', '2021-02-21',
               '2021-02-28', '2021-03-07', '2021-03-14', '2021-03-21',
               '2021-03-28', '2021-04-04', '2021-04-11', '2021-04-18',
               '2021-04-25', '2021-05-02', '2021-05-09', '2021-05-16',
               '2021-05-23', '2021-05-30'],
              dtype='datetime64[ns]', freq='W-SUN')

In [9]:
date_range_periods_week - pd.DateOffset(days=2)

DatetimeIndex(['2021-01-01', '2021-01-08', '2021-01-15', '2021-01-22',
               '2021-01-29', '2021-02-05', '2021-02-12', '2021-02-19',
               '2021-02-26', '2021-03-05', '2021-03-12', '2021-03-19',
               '2021-03-26', '2021-04-02', '2021-04-09', '2021-04-16',
               '2021-04-23', '2021-04-30', '2021-05-07', '2021-05-14',
               '2021-05-21', '2021-05-28'],
              dtype='datetime64[ns]', freq=None)

## 修改索引


In [10]:
add_index_df = pd.DataFrame(
    data=np.random.randint(1, 10, (5, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005],
)
add_index_df


Unnamed: 0,语文,数学,英语
1001,5,5,3
1002,6,5,4
1003,1,1,5
1004,1,6,1
1005,9,5,1


### 替换为新的index ----set_index

In [11]:
new_index=add_index_df.set_index(["语文"])
new_index

Unnamed: 0_level_0,数学,英语
语文,Unnamed: 1_level_1,Unnamed: 2_level_1
5,5,3
6,5,4
1,1,5
1,6,1
9,5,1


### 重置索引

In [36]:
new_index.reset_index()

Unnamed: 0,语文,数学,英语
0,5,5,3
1,6,5,4
2,1,1,5
3,1,6,1
4,9,5,1


## 访问数据


In [12]:
df1 = pd.DataFrame(
    data=np.random.randint(1, 10, (10, 3)),
    columns=["语文", "数学", "英语"],
    index=[1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
)
df1

Unnamed: 0,语文,数学,英语
1001,8,4,9
1002,8,5,6
1003,1,5,4
1004,7,7,3
1005,5,2,2
1006,6,8,1
1007,5,5,4
1008,8,7,6
1009,9,6,5
1010,8,2,4


### 访问单行/列

返回值为 pandas.core.series.Series


#### 按列名访问 []


In [13]:
df1.语文

1001    8
1002    8
1003    1
1004    7
1005    5
1006    6
1007    5
1008    8
1009    9
1010    8
Name: 语文, dtype: int32

In [14]:
df1["语文"]

1001    8
1002    8
1003    1
1004    7
1005    5
1006    6
1007    5
1008    8
1009    9
1010    8
Name: 语文, dtype: int32

In [15]:
type(df1["语文"])

pandas.core.series.Series

##### 访问多列 [[]]

In [16]:
df1[["语文", "数学"]]

Unnamed: 0,语文,数学
1001,8,4
1002,8,5
1003,1,5
1004,7,7
1005,5,2
1006,6,8
1007,5,5
1008,8,7
1009,9,6
1010,8,2


#### 按行访索引问 iloc


In [17]:
# 第一行
df1.iloc[0]

语文    8
数学    4
英语    9
Name: 1001, dtype: int32

In [18]:
# 最后一行
df1.iloc[-1]

语文    8
数学    2
英语    4
Name: 1010, dtype: int32

In [19]:
 # 第一行 
df1.iloc[0,:]         

语文    8
数学    4
英语    9
Name: 1001, dtype: int32

#### 按行名称访问 loc


In [20]:
df1.loc[1004]

语文    7
数学    7
英语    3
Name: 1004, dtype: int32

In [21]:
df1.loc[[1001, 1004]]

Unnamed: 0,语文,数学,英语
1001,8,4,9
1004,7,7,3


In [22]:
df1.loc[1004]["语文"]

7

In [23]:
df1.loc[1004, "语文"]

7

In [24]:
df1.loc[1004].语文

7

### 访问行+列

返回值为 pandas.core.frame.DataFrame


#### 访问尾部


In [25]:
df1_tail=df1.tail(2)

In [26]:
type(df1_tail.tail())

pandas.core.frame.DataFrame

In [27]:
# 使用tail获取最后一行的index
df1_tail.index[0]

1009

#### 访问头部


In [28]:
df1.head(2)

Unnamed: 0,语文,数学,英语
1001,8,4,9
1002,8,5,6


## 筛选/并修改


### 筛选


In [29]:
# 列出英语大于90分的
df1[df1.英语 > 8]

Unnamed: 0,语文,数学,英语
1001,8,4,9


In [30]:
# 两个筛选条件
df1[(df1.英语 > 8) & (df1.数学 > 3)]

Unnamed: 0,语文,数学,英语
1001,8,4,9


In [31]:
df1.query("英语>8")

Unnamed: 0,语文,数学,英语
1001,8,4,9


### 修改


In [32]:
# 根据loc的知识我们可知，loc的两个参数，一个表示行，一个表示列
# (df1.英语 > 8) 表示搜索行 ["good_student","student_tag"] 表示两列
df1.loc[(df1.英语 > 8), ["good_student", "student_tag"]] = (1, "good_student_tag")
df1

  df1.loc[(df1.英语 > 8), ["good_student", "student_tag"]] = (1, "good_student_tag")


Unnamed: 0,语文,数学,英语,good_student,student_tag
1001,8,4,9,1.0,good_student_tag
1002,8,5,6,,
1003,1,5,4,,
1004,7,7,3,,
1005,5,2,2,,
1006,6,8,1,,
1007,5,5,4,,
1008,8,7,6,,
1009,9,6,5,,
1010,8,2,4,,


## 查看索引


### 获取当前索引

In [33]:
df1.index

Index([1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010], dtype='int64')

### 获取极值的 index


In [34]:
# 获取语文最高分的index
df1["语文"].idxmax()

1009

### 获取指定值的 index


In [35]:
# 找到语文分数等于9的学生所在行的索引的具体数字部分
df1[df1["语文"] == 9].index.tolist()

[1009]