In [2]:
import numpy as np
import pandas as pd

In [2]:
scores = np.random.randint(50, 101, (5, 3))
names = ('关羽', '张飞', '赵云', '马超', '黄忠')
courses = ('语文', '数学', '英语')
df_score = pd.DataFrame(data=scores, columns=courses, index=names)

### TOPN

In [3]:
# 获取按语文成绩排名的前三名
df_score.nlargest(3,'语文')

Unnamed: 0,语文,数学,英语
赵云,96,75,58
马超,89,80,77
关羽,77,61,66


In [4]:
# 获取按数学成绩排名的后三名
df_score.nsmallest(3,'数学')

Unnamed: 0,语文,数学,英语
关羽,77,61,66
赵云,96,75,58
黄忠,74,75,65


In [5]:
# 按学科获取平均成绩
df_score.mean()

语文    82.6
数学    78.0
英语    71.8
dtype: float64

In [6]:
# 按学生获取平均成绩
df_score.mean(axis=1)

关羽    68.000000
张飞    89.666667
赵云    76.333333
马超    82.000000
黄忠    71.333333
dtype: float64

In [3]:
data = [['2020-01-01', '上海', '拼多多', '182894-455', '八匹马', 99, 10],
        ['2020-01-01', '北京', '淘宝', '205635-402', '八匹马', 219, 20],
        ['2020-01-01', '上海', '天猫', '377781-010', None, 500, 25]]
columns = ['销售日期', '销售区域', '销售渠道', '销售订单', '品牌', '售价', '销售数量']
df_sale = pd.DataFrame(data=data, columns=columns)
print(df_sale.info())
df_sale

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   销售日期    3 non-null      object
 1   销售区域    3 non-null      object
 2   销售渠道    3 non-null      object
 3   销售订单    3 non-null      object
 4   品牌      2 non-null      object
 5   售价      3 non-null      int64 
 6   销售数量    3 non-null      int64 
dtypes: int64(2), object(5)
memory usage: 296.0+ bytes
None


Unnamed: 0,销售日期,销售区域,销售渠道,销售订单,品牌,售价,销售数量
0,2020-01-01,上海,拼多多,182894-455,八匹马,99,10
1,2020-01-01,北京,淘宝,205635-402,八匹马,219,20
2,2020-01-01,上海,天猫,377781-010,,500,25


### 通过计算添加新的一列

In [4]:
df_sale['销售额']=df_sale.售价 * df_sale.销售数量
df_sale

Unnamed: 0,销售日期,销售区域,销售渠道,销售订单,品牌,售价,销售数量,销售额
0,2020-01-01,上海,拼多多,182894-455,八匹马,99,10,990
1,2020-01-01,北京,淘宝,205635-402,八匹马,219,20,4380
2,2020-01-01,上海,天猫,377781-010,,500,25,12500


### groupby()方法进行分组

In [25]:
df_sale.groupby('销售渠道').销售额.sum()

销售渠道
天猫     12500
拼多多      990
淘宝      4380
Name: 销售额, dtype: int64

### 获取不同销售区域,不同销售渠道的销售额的总值和均值

In [26]:
df_sale.groupby(['销售区域','销售渠道']).销售额.agg(['sum','mean']).sort_values(by='mean',ascending=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
销售区域,销售渠道,Unnamed: 2_level_1,Unnamed: 3_level_1
上海,拼多多,990,990.0
北京,淘宝,4380,4380.0
上海,天猫,12500,12500.0


### 透视表
透视表的本质就是对数据进行分组聚合操作，根据 A 列对 B 列进行统计，例如，我们要“统计每个销售区域的销售总额”，那么“销售区域”就是我们的 A 列，而“销售额”就是我们的 B 列，在pivot_table函数中分别对应index和values参数，这两个参数都可以是单个列或者多个列.

In [5]:
pd.pivot_table(df_sale,index='销售区域',values='销售额',aggfunc='sum')

Unnamed: 0_level_0,销售额
销售区域,Unnamed: 1_level_1
上海,13490
北京,4380


groupby操作后，如果对单个列进行聚合，得到的结果是一个Series对象，而上面的结果是一个DataFrame 对象.