In [1]:
import pandas as pd

## 进行数据分箱

In [3]:
df1 = pd.read_csv("residents_data.csv")
df1

Unnamed: 0,性别,居住地,年龄,工资
0,男,北京,38,18053
1,女,上海,42,9382
2,男,广州,23,6376
3,女,深圳,36,10746
4,男,杭州,20,5284
5,女,南京,34,9828
6,男,成都,33,9366
7,男,重庆,47,22820
8,男,武汉,36,16927
9,女,西安,42,11591


In [4]:
df1.groupby("年龄")["工资"].mean()

年龄
20     5284.0
23     5540.5
27     7426.0
32    10610.0
33     9366.0
34     9828.0
36    13836.5
38    18053.0
41    24117.0
42    10763.0
47    22820.0
50    69153.0
56     6391.0
59    68189.0
60    11020.0
Name: 工资, dtype: float64

In [8]:
# 1. 定义年龄分组列表：[0, 10, 20, 30, 40, 50, 60, 120]
# 2. 并根据以上分组对df1的年龄列进行分箱
ageList = [0, 10, 20, 30, 40, 50, 60, 120]
df1["分组年龄"] = pd.cut(df1["年龄"], bins=ageList)
df1.groupby("分组年龄")["工资"].mean()


  df1.groupby("分组年龄")["工资"].mean()


分组年龄
(0, 10]               NaN
(10, 20]      5284.000000
(20, 30]      6169.000000
(30, 40]     12305.714286
(40, 50]     24729.833333
(50, 60]     28533.333333
(60, 120]             NaN
Name: 工资, dtype: float64

In [9]:
# 1. 定义分组标签列表：['儿童', '青少年', '青年', '壮年', '中年', '中老年', '老年']
# 2. 根据前一个单元格里定义的分组对df1的年龄列进行分箱，并使用以上分组标签
# 3. 最后为df1新建“年龄组”列，值为以上分组标签
peopleLabel = ['儿童', '青少年', '青年', '壮年', '中年', '中老年', '老年']
df1["年龄"] = pd.cut(df1["年龄"], bins=ageList, labels=peopleLabel)

In [10]:
df1

Unnamed: 0,性别,居住地,年龄,工资,分组年龄
0,男,北京,壮年,18053,"(30, 40]"
1,女,上海,中年,9382,"(40, 50]"
2,男,广州,青年,6376,"(20, 30]"
3,女,深圳,壮年,10746,"(30, 40]"
4,男,杭州,青少年,5284,"(10, 20]"
5,女,南京,壮年,9828,"(30, 40]"
6,男,成都,壮年,9366,"(30, 40]"
7,男,重庆,中年,22820,"(40, 50]"
8,男,武汉,壮年,16927,"(30, 40]"
9,女,西安,中年,11591,"(40, 50]"


In [12]:
# 对df1根据年龄组进行分组，计算各个年龄组的平均工资
df1.groupby(df1["年龄"])["工资"].mean()

  df1.groupby(df1["年龄"])["工资"].mean()


年龄
儿童              NaN
青少年     5284.000000
青年      6169.000000
壮年     12305.714286
中年     24729.833333
中老年    28533.333333
老年              NaN
Name: 工资, dtype: float64

## 重置索引

In [13]:
df2 = pd.DataFrame({
    '分店编号': ['001', '002', '001', '002', '001', '002', '001', '002'],
    '时间段': ['2022Q1', '2022Q1', '2022Q1', '2022Q1', '2022Q2', '2022Q2', '2022Q2', '2022Q2'],
    '商品类别': ['生鲜食品', '生鲜食品', '休闲食品', '休闲食品', '生鲜食品', '生鲜食品', '休闲食品', '休闲食品'],
    '销售额': [1500, 2000, 3000, 2500, 1800, 2200, 3200, 2700],
    '销售数量': [105,  84, 171, 162,  67, 150,  99,  57]
})
df2

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


In [14]:
grouped_df2 = df2.groupby(['分店编号', '时间段'])[['销售额', '销售数量']].mean()
grouped_df2

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


In [19]:
# 提取grouped_df2索引为001的行
grouped_df2.loc["001"]

Unnamed: 0_level_0,销售额,销售数量
时间段,Unnamed: 1_level_1,Unnamed: 2_level_1
2022Q1,2250.0,138.0
2022Q2,2500.0,83.0


In [None]:
# 提取grouped_df2外层索引为001、内层索引为2022Q1的行
grouped_df2.loc["001"].loc["2022Q1"]

[销售额     2250.0
 销售数量     138.0
 Name: 2022Q1, dtype: float64]

In [22]:
# 重置grouped_df2的索引
grouped_df2.reset_index()


Unnamed: 0,分店编号,时间段,销售额,销售数量
0,1,2022Q1,2250.0,138.0
1,1,2022Q2,2500.0,83.0
2,2,2022Q1,2250.0,123.0
3,2,2022Q2,2450.0,103.5


## 根据条件筛选数据

In [27]:
df1 = pd.read_csv("residents_data.csv")

In [28]:
df1[(df1["性别"] == "男") & (df1["年龄"] <= 20)]

Unnamed: 0,性别,居住地,年龄,工资
4,男,杭州,20,5284


In [30]:
# 用query方法筛选出性别为男且年龄小于或等于20岁的观察值
df1.query('性别 == "男" & 年龄 <= 20')

Unnamed: 0,性别,居住地,年龄,工资
4,男,杭州,20,5284
