In [1]:
import pandas as pd

## 进行数据分箱

In [2]:
df1 = pd.read_csv("residents_data.csv")
df1

Unnamed: 0,性别,居住地,年龄,工资
0,男,北京,38,18053
1,女,上海,42,9382
2,男,广州,23,6376
3,女,深圳,36,10746
4,男,杭州,20,5284
5,女,南京,34,9828
6,男,成都,33,9366
7,男,重庆,47,22820
8,男,武汉,36,16927
9,女,西安,42,11591


In [3]:
df1.groupby("年龄")["工资"].mean()

年龄
20     5284.0
23     5540.5
27     7426.0
32    10610.0
33     9366.0
34     9828.0
36    13836.5
38    18053.0
41    24117.0
42    10763.0
47    22820.0
50    69153.0
56     6391.0
59    68189.0
60    11020.0
Name: 工资, dtype: float64

In [4]:
age_bins = [0, 10, 20, 30, 40, 50, 60, 120]
pd.cut(df1["年龄"], age_bins)

0     (30, 40]
1     (40, 50]
2     (20, 30]
3     (30, 40]
4     (10, 20]
5     (30, 40]
6     (30, 40]
7     (40, 50]
8     (30, 40]
9     (40, 50]
10    (40, 50]
11    (20, 30]
12    (20, 30]
13    (40, 50]
14    (40, 50]
15    (30, 40]
16    (50, 60]
17    (50, 60]
18    (50, 60]
19    (30, 40]
Name: 年龄, dtype: category
Categories (7, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] < (40, 50] < (50, 60] < (60, 120]]

In [5]:
age_labels = ['儿童', '青少年', '青年', '壮年', '中年', '中老年', '老年'] # 定义分组标签
df1["年龄组"] = pd.cut(df1["年龄"], age_bins, labels=age_labels)
df1

Unnamed: 0,性别,居住地,年龄,工资,年龄组
0,男,北京,38,18053,壮年
1,女,上海,42,9382,中年
2,男,广州,23,6376,青年
3,女,深圳,36,10746,壮年
4,男,杭州,20,5284,青少年
5,女,南京,34,9828,壮年
6,男,成都,33,9366,壮年
7,男,重庆,47,22820,中年
8,男,武汉,36,16927,壮年
9,女,西安,42,11591,中年


In [6]:
df1.groupby("年龄组")["工资"].mean()

年龄组
儿童              NaN
青少年     5284.000000
青年      6169.000000
壮年     12305.714286
中年     24729.833333
中老年    28533.333333
老年              NaN
Name: 工资, dtype: float64

## 重置索引

In [7]:
df2 = pd.DataFrame({
    '分店编号': ['001', '002', '001', '002', '001', '002', '001', '002'],
    '时间段': ['2022Q1', '2022Q1', '2022Q1', '2022Q1', '2022Q2', '2022Q2', '2022Q2', '2022Q2'],
    '商品类别': ['生鲜食品', '生鲜食品', '休闲食品', '休闲食品', '生鲜食品', '生鲜食品', '休闲食品', '休闲食品'],
    '销售额': [1500, 2000, 3000, 2500, 1800, 2200, 3200, 2700],
    '销售数量': [105,  84, 171, 162,  67, 150,  99,  57]
})
df2

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


In [8]:
grouped_df2 = df2.groupby(['分店编号', '时间段'])[['销售额', '销售数量']].mean()
grouped_df2

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


In [9]:
grouped_df2.loc['001']

Unnamed: 0_level_0,销售额,销售数量
时间段,Unnamed: 1_level_1,Unnamed: 2_level_1
2022Q1,2250.0,138.0
2022Q2,2500.0,83.0


In [10]:
grouped_df2.loc['001'].loc['2022Q1']

销售额     2250.0
销售数量     138.0
Name: 2022Q1, dtype: float64

In [11]:
grouped_df2.reset_index()

Unnamed: 0,分店编号,时间段,销售额,销售数量
0,1,2022Q1,2250.0,138.0
1,1,2022Q2,2500.0,83.0
2,2,2022Q1,2250.0,123.0
3,2,2022Q2,2450.0,103.5


## 根据条件筛选数据

In [12]:
df1

Unnamed: 0,性别,居住地,年龄,工资,年龄组
0,男,北京,38,18053,壮年
1,女,上海,42,9382,中年
2,男,广州,23,6376,青年
3,女,深圳,36,10746,壮年
4,男,杭州,20,5284,青少年
5,女,南京,34,9828,壮年
6,男,成都,33,9366,壮年
7,男,重庆,47,22820,中年
8,男,武汉,36,16927,壮年
9,女,西安,42,11591,中年


In [13]:
df1[(df1["性别"] == "男") & (df1["年龄"] <= 20)]

Unnamed: 0,性别,居住地,年龄,工资,年龄组
4,男,杭州,20,5284,青少年


In [14]:
df1.query('(性别 == "男") & (年龄 <= 20)')

Unnamed: 0,性别,居住地,年龄,工资,年龄组
4,男,杭州,20,5284,青少年
