# **5.36_shape_data_extended**

In [1]:
import pandas as pd

In [2]:
df1 = pd.read_csv("residents_data.csv")
df1

Unnamed: 0,性别,居住地,年龄,工资
0,男,北京,38,18053
1,女,上海,42,9382
2,男,广州,23,6376
3,女,深圳,36,10746
4,男,杭州,20,5284
5,女,南京,34,9828
6,男,成都,33,9366
7,男,重庆,47,22820
8,男,武汉,36,16927
9,女,西安,42,11591


### 一、进行数据分箱

**分箱，就是把数据按特定的规则进行分组，实现数据的离散化，增强数据稳定性。**

针对某个数据集，如果想把年龄作为切入点，对数据用年龄变量进行分组，进行聚合分析；会发现因为年龄存在很多可能性，出现非常多组。



In [3]:
df1.groupby('年龄')['工资'].mean()

年龄
20     5284.0
23     5540.5
27     7426.0
32    10610.0
33     9366.0
34     9828.0
36    13836.5
38    18053.0
41    24117.0
42    10763.0
47    22820.0
50    69153.0
56     6391.0
59    68189.0
60    11020.0
Name: 工资, dtype: float64

这时可以调用Pandas的cut函数

1. 功能

  可以帮我们对Series，根据数字范围进行划分，之后用划分后的标签进行分组

2. 步骤

   - 新建一个列表，用它来表示数字的分组边界，也即分箱的规则
   - 新建一个列表，用来表示各个范围所对应的标签，
   - 根据分箱规则对变量进行分箱，并使用分组标签
   - 把将分箱结果作为新的一列添加到原数据集中，然后可以开始进行分组聚合运算
  
3. 语法

   函数中，传入要进行分箱的Series，和创建好的分箱规则，可选参数labels='分组标签列表'

   **标签和区间按顺序一一对应，因此分箱规则的列表需要比标签的列表多一个元素。**

4. 结果

   返回一个新的Series，数据类型是category，其中的种类就是根据传入的分箱规则划分的结果，展示了原始Series里面各个数字分别是属于什么范围的。

   假如不传入可选参数labels，结果中Series的值，会以区间形式呈现，圆括号和方括号分别表示开区间和闭区间；假如传入可选参数labels，结果中Series的值，就变成了我们前面指定的标签 

In [5]:
# 1. 定义年龄分组列表
# 2. 并根据以上分组对df1的年龄列进行分箱
age_bins = [0, 10, 20, 30, 40, 50, 60, 120]
pd.cut(df1.年龄, age_bins)

0     (30, 40]
1     (40, 50]
2     (20, 30]
3     (30, 40]
4     (10, 20]
5     (30, 40]
6     (30, 40]
7     (40, 50]
8     (30, 40]
9     (40, 50]
10    (40, 50]
11    (20, 30]
12    (20, 30]
13    (40, 50]
14    (40, 50]
15    (30, 40]
16    (50, 60]
17    (50, 60]
18    (50, 60]
19    (30, 40]
Name: 年龄, dtype: category
Categories (7, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] < (40, 50] < (50, 60] < (60, 120]]

In [6]:
# 1. 定义年龄分组列表
# 2. 定义分组标签列表
# 3. 根据分组对df1的年龄列进行分箱，并使用以上分组标签
age_bins = [0, 10, 20, 30, 40, 50, 60, 120]
age_labels = ['儿童', '青少年', '青年', '壮年', '中年', '中老年', '老年']
pd.cut(df1.年龄, age_bins, labels=age_labels)

0      壮年
1      中年
2      青年
3      壮年
4     青少年
5      壮年
6      壮年
7      中年
8      壮年
9      中年
10     中年
11     青年
12     青年
13     中年
14     中年
15     壮年
16    中老年
17    中老年
18    中老年
19     壮年
Name: 年龄, dtype: category
Categories (7, object): ['儿童' < '青少年' < '青年' < '壮年' < '中年' < '中老年' < '老年']

In [8]:
# 4.为df1新建"年龄组"列，值为以上分组标签
df1['年龄组'] = pd.cut(df1.年龄, age_bins, labels=age_labels)
df1

Unnamed: 0,性别,居住地,年龄,工资,年龄组
0,男,北京,38,18053,壮年
1,女,上海,42,9382,中年
2,男,广州,23,6376,青年
3,女,深圳,36,10746,壮年
4,男,杭州,20,5284,青少年
5,女,南京,34,9828,壮年
6,男,成都,33,9366,壮年
7,男,重庆,47,22820,中年
8,男,武汉,36,16927,壮年
9,女,西安,42,11591,中年


In [9]:
# 5. 对df1根据年龄组进行分组，计算各个年龄组的平均工资
df1.groupby('年龄组')['工资'].mean()

年龄组
儿童              NaN
青少年     5284.000000
青年      6169.000000
壮年     12305.714286
中年     24729.833333
中老年    28533.333333
老年              NaN
Name: 工资, dtype: float64

### 二、层次化索引

在用groupby方法分组的时候，利用了一个以上的变量，会发现得到的DataFrame会出现层次化索引

In [10]:
df2 = pd.DataFrame({
    '分店编号': ['001', '002', '001', '002', '001', '002', '001', '002'],
    '时间段': ['2022Q1', '2022Q1', '2022Q1', '2022Q1', '2022Q2', '2022Q2', '2022Q2', '2022Q2'],
    '商品类别': ['生鲜食品', '生鲜食品', '休闲食品', '休闲食品', '生鲜食品', '生鲜食品', '休闲食品', '休闲食品'],
    '销售额': [1500, 2000, 3000, 2500, 1800, 2200, 3200, 2700],
    '销售数量': [105,  84, 171, 162,  67, 150,  99,  57]
})
grouped_df2 = df2.groupby(['分店编号', '时间段'])[['销售额', '销售数量']].mean()
grouped_df2

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


#### (一)、针对层次化索引的DataFrame，提取数据行

依然可以用方括号里面放上索引，去提取数据行

1. 用外层索引，会一次性提取出多行

In [12]:
grouped_df2.loc['001']

Unnamed: 0_level_0,销售额,销售数量
时间段,Unnamed: 1_level_1,Unnamed: 2_level_1
2022Q1,2250.0,138.0
2022Q2,2500.0,83.0


2. 要提取一行，可以在外层索引后，继续用内层索引继续去提取

In [15]:
grouped_df2.loc['001'].loc['2022Q1']

销售额     2250.0
销售数量     138.0
Name: 2022Q1, dtype: float64

**不能直接用内层索引去提取数据行**

#### (二)、重置索引

DataFrame的reset_index方法

索引会变成某列数据，详见4.27.三.(二)

### 三、根据条件筛选数据

In [16]:
df1

Unnamed: 0,性别,居住地,年龄,工资,年龄组
0,男,北京,38,18053,壮年
1,女,上海,42,9382,中年
2,男,广州,23,6376,青年
3,女,深圳,36,10746,壮年
4,男,杭州,20,5284,青少年
5,女,南京,34,9828,壮年
6,男,成都,33,9366,壮年
7,男,重庆,47,22820,中年
8,男,武汉,36,16927,壮年
9,女,西安,42,11591,中年


1. 把条件是否符合对应的布尔值的Series，作为DataFrame的索引，来筛选出所有布尔值为True的行

In [17]:
df1[(df1['性别'] == '男') & (df1['年龄'] <= 20)]

Unnamed: 0,性别,居住地,年龄,工资,年龄组
4,男,杭州,20,5284,青少年


2. DataFrame的query方法

   1)优点

     写法更加简洁直观

   2)语法

     给query方法传入一个字符串，字符串内容是想要筛选的条件，不同条件之间用括号包围，中间放上逻辑符号

     **条件中的列名，不需要带DataFrame的名字，也不需要引号包围，直接用列名表示**

     **条件里的普通字符串，需要带引号，并需要与query方法传入字符串外面，用不一样的引号；或者引号前面加上`\`，进行一个转义，让代码知道这是字符串里面的单引号**

In [18]:
df1.query('(性别 == "男") & (年龄 <= 20)')

Unnamed: 0,性别,居住地,年龄,工资,年龄组
4,男,杭州,20,5284,青少年
