In [1]:
import numpy as np
import pandas as pd

# 数据排序

In [4]:
# 按索引排序
# sort_index(axis=0, ascending=True)
# 在指定轴上根据索引进行排序，默认升序

n = pd.DataFrame(np.arange(20).reshape(4, 5), index=['b', 'd', 'c', 'a'])

# 在轴axis=0（行）升序排列
n.sort_index()

# 在轴axis=1（列）降序排列
n.sort_index(axis=1, ascending=False)

Unnamed: 0,4,3,2,1,0
b,4,3,2,1,0
d,9,8,7,6,5
c,14,13,12,11,10
a,19,18,17,16,15


In [2]:
n = pd.DataFrame(np.arange(20).reshape(4, 5), index=['b', 'd', 'c', 'a'])
n

Unnamed: 0,0,1,2,3,4
b,0,1,2,3,4
d,5,6,7,8,9
c,10,11,12,13,14
a,15,16,17,18,19


In [3]:
n.sort_index()

Unnamed: 0,0,1,2,3,4
a,15,16,17,18,19
b,0,1,2,3,4
c,10,11,12,13,14
d,5,6,7,8,9


In [5]:
n.sort_index(axis=1, ascending=False)

Unnamed: 0,4,3,2,1,0
b,4,3,2,1,0
d,9,8,7,6,5
c,14,13,12,11,10
a,19,18,17,16,15


In [9]:
# 按值排序
# sort_values()在指定轴上根据数值进行排序，默认升序
# Series.sort_values(axis=0, ascending=True)
# DataFrame.sort_values(by, axis=0, ascending=True)
# - by axis轴上的某个索引或索引列表
# NaN统一放到排序末尾

n = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c', 'a', 'b', 'd'])

# 按轴axis=0上索引为2的值降序
n.sort_values(2, ascending=False)

# 按轴axis=1上索引为a的值降序
n.sort_values('a', axis=1, ascending=False)

Unnamed: 0,4,3,2,1,0
c,4,3,2,1,0
a,9,8,7,6,5
b,14,13,12,11,10
d,19,18,17,16,15


# 基本的统计分析函数

## 适用于Series和DataFrame类型

- count  非non-null值的总数
- sum  求和
- mean  求平均值
- mad  平均绝对方差
- median  中位数
- min  最小值
- max  最大值
- mode  众数
- abs  绝对值
- prod  乘积
- std  标准差
- var  方差
- sem  标准误差
- skew  偏度系数
- kurt  峰度
- quantile  分位数
- cumsum  累加
- cumprod  累乘
- cummax  累最大值
- cummin  累最小值
- cov  协方差
- corr  相关系数
- rank  排名
- pct_change  时间序列变化
- describe()  针对axis=0轴（各列）的统计汇总

## 适用于Series类型

- argmin() argmax()  数据最小值、最大值所在位置的自动索引
- idxmin() idxmax()  数据最小值、最大值所在位置的自定义索引

In [11]:
n = pd.Series([9, 8, 7, 6], index=['a', 'b', 'c', 'd'])

n.describe()

count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64

In [12]:
n = pd.DataFrame(np.arange(20).reshape(4, 5), index=['a', 'b', 'c', 'd'])

n.describe()

Unnamed: 0,0,1,2,3,4
count,4.0,4.0,4.0,4.0,4.0
mean,7.5,8.5,9.5,10.5,11.5
std,6.454972,6.454972,6.454972,6.454972,6.454972
min,0.0,1.0,2.0,3.0,4.0
25%,3.75,4.75,5.75,6.75,7.75
50%,7.5,8.5,9.5,10.5,11.5
75%,11.25,12.25,13.25,14.25,15.25
max,15.0,16.0,17.0,18.0,19.0


# 累计统计分析函数

- cumsum()  依次给出前n个数的和
- cumprod()  依次给出前n个数的积
- cummax()  依次给出前n个数的最大值
- cummin()  依次给出前n个数的最小值

In [14]:
n = pd.DataFrame(np.arange(20).reshape(4, 5), index=['a', 'b', 'c', 'd'])

n.cumsum()

Unnamed: 0,0,1,2,3,4
a,0,1,2,3,4
b,5,7,9,11,13
c,15,18,21,24,27
d,30,34,38,42,46


## 滚动计算（窗口计算）

- rolling(n).sum()  依次计算相邻n个元素的和
- rolling(n).mean()  依次计算相邻n个元素的平均值
- rolling(n).var()  依次计算相邻n个元素的方差
- rolling(n).std()  依次计算相邻n个元素的标准差
- rolling(n).min()  依次计算相邻n个元素的最小值
- rolling(n).max()  依次计算相邻n个元素的最大值

In [15]:
n = pd.DataFrame(np.arange(20).reshape(4, 5), index=['a', 'b', 'c', 'd'])

n.rolling(2).sum()

Unnamed: 0,0,1,2,3,4
a,,,,,
b,5.0,7.0,9.0,11.0,13.0
c,15.0,17.0,19.0,21.0,23.0
d,25.0,27.0,29.0,31.0,33.0
