# 基础统计方法

在 Pandas 上做数据统计，要比在 Numpy 上做舒服很多，因为在数据展示上，有很多额外的信息辅助你来消化这些信息。 

而且你还能比较方便地绘制成图。

In [4]:
import pandas as pd
import numpy as np

data = np.array([
    [1.39, 1.77, None],
    [0.34, 1.91, -0.05],
    [0.34, 1.47, 1.22],
    [None, 0.27, -0.61]
])
df = pd.DataFrame(data, index=["r0", "r1", "r2", "r3"], columns=["c0", "c1", "c2"])
print(df)

      c0    c1    c2
r0  1.39  1.77  None
r1  0.34  1.91 -0.05
r2  0.34  1.47  1.22
r3  None  0.27 -0.61


### 快速总结
describe()函数可以快速查看数据集的统计信息，包括count、mean、std、min、25%、50%、75%、max等。

In [3]:
print(df.describe())

# Output:
# count: 有效数据个数
#unique: 唯一值个数
#top: 最常出现的值
#freq: 最常出现的值的频率

          c0    c1    c2
count   3.00  4.00  3.00
unique  2.00  4.00  3.00
top     0.34  1.77 -0.05
freq    2.00  1.00  1.00


In [5]:
# 纯数值型的数据

df1 = pd.DataFrame(np.random.random((4,3)), columns=["c0", "c1", "c2"])
print(df1)
print("\ndescribe:\n", df1.describe())

# output
# count: 有效数据个数
# mean: 平均值
# std: 标准差
# min: 最小值
# 25%: 25%分位数
# 50%: 50%分位数
# 75%: 75%分位数
# max: 最大值


         c0        c1        c2
0  0.803097  0.951139  0.383444
1  0.506820  0.725446  0.714405
2  0.312065  0.456756  0.799746
3  0.677800  0.909212  0.448727

describe:
              c0        c1        c2
count  4.000000  4.000000  4.000000
mean   0.574946  0.760638  0.586580
std    0.213213  0.225054  0.201698
min    0.312065  0.456756  0.383444
25%    0.458132  0.658274  0.432406
50%    0.592310  0.817329  0.581566
75%    0.709124  0.919694  0.735740
max    0.803097  0.951139  0.799746


#mean() 计算平均值

#median() 计算中位数

#std() 计算标准差

#var() 计算方差

#min() 计算最小值

#max() 计算最大值

#sum() 计算总和

#prod() 计算乘积

#describe() 计算汇总统计

In [9]:
#mean() 计算平均值

#均值中位数
df.mean()
df.mean(axis=0)

df.mean(axis=0, skipna=False)
#  Pandas 只要遇到了 None 或者 NaN，就不计算这列、行的数据了。所以下面你会看到，它只返回了一个 column 的结果

  df.mean(axis=0, skipna=False)


c1    1.355
dtype: float64

In [10]:
#median() 函数计算序列的中位数。如果序列的长度为奇数，则中位数为中间的那个数；如果序列的长度为偶数，则中位数为中间的两个数的平均值。

# 最后一个为高收入人
s = pd.Series([1000, 2000, 4000, 100000])
print("mean():", s.mean())   # 拉高平均收入，拉高仇恨
print("median():", s.median())  # 比较合理

mean(): 26750.0
median(): 3000.0


### 处理空值
你可能想要先看看你的数据中有没有空值。用下面的 isnull() 或者 notnull() 就能找到。

In [11]:
df = pd.DataFrame([[1, 2, 3, 0],
                   [3, 4, None, 1],
                   [None, None, None, None],
                   [None, 3, None, 4]],
                  columns=list("ABCD"))
print(df)
print("\nisnull():\n", df.isnull())  # True 就是空
print("\nnotnull()\n", df.notnull())  # False 为空

     A    B    C    D
0  1.0  2.0  3.0  0.0
1  3.0  4.0  NaN  1.0
2  NaN  NaN  NaN  NaN
3  NaN  3.0  NaN  4.0

isnull():
        A      B      C      D
0  False  False  False  False
1  False  False   True  False
2   True   True   True   True
3   True  False   True  False

notnull()
        A      B      C      D
0   True   True   True   True
1   True   True  False   True
2  False  False  False  False
3  False   True  False   True


In [12]:
# 发现这里有空值，下面你就可以对这些 None, Null, NaN 做处理了。要么你就放弃这些有空值的数据，用 dropna()。

print("默认：\n", df.dropna())  # 默认按 axis=0
print("\naxis=1:\n", df.dropna(axis=1))  # 可以换一个 axis drop


默认：
      A    B    C    D
0  1.0  2.0  3.0  0.0

axis=1:
 Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]


In [13]:
# 你觉得数据只要有值你就想留下来，只去除掉那些全为空的数据，那么你还能在筛选的时候加一个 how="all" 参数。

df1 = pd.DataFrame([[None, None, None], [1,None,3]])
print(df1.dropna(how="all"))  # how 默认为 "any" 

     0     1    2
1  1.0  None  3.0


### 填充数据

In [15]:
# 充的值也可以自行选定

print(df.fillna(111)) # 填充 111

       A      B      C      D
0    1.0    2.0    3.0    0.0
1    3.0    4.0  111.0    1.0
2  111.0  111.0  111.0  111.0
3  111.0    3.0  111.0    4.0


In [17]:
# 对不同特征列做差异化的填充数值。
values = {"A": 0, "B": 1, "C": 2, "D": 3}
print(df.fillna(value=values))

     A    B    C    D
0  1.0  2.0  3.0  0.0
1  3.0  4.0  2.0  1.0
2  0.0  1.0  2.0  3.0
3  0.0  3.0  2.0  4.0


In [18]:
# 如果你有一个每一位上的默认值，你都可以用一个全新的 df 来做空位的填充。
df2 = pd.DataFrame(np.arange(16).reshape((4,4)), columns=list("ABCD"))
print("df2:\n", df2)
print("\nfillna(df2):\n", df.fillna(df2))


df2:
     A   B   C   D
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15

fillna(df2):
       A    B     C     D
0   1.0  2.0   3.0   0.0
1   3.0  4.0   6.0   1.0
2   8.0  9.0  10.0  11.0
3  12.0  3.0  14.0   4.0


### 获取索引
一般来说，当你想用 np.argmax() 或者 np.argmin() 的时候，你可以在 pandas 用 idxmax() 和 idxmin() 来替换。

原理都一样， 就是找到那个最大最小值的索引。这个的好处是，你只关注索引而不用关注值，你可以对这个索引的值做你想要的后续处理。

In [19]:
df = pd.DataFrame([[1, 2, 3, 0],
                   [3, 4, None, 1],
                   [3, 5, 2, 1],
                   [3, 2, 2, 3]],
                  columns=list("ABCD"))
print(df)
print("\nidxmax():\n", df.idxmax())
print("\nidxmax(skipna=False):\n", df.idxmax(skipna=False))
print("\nidxmin():\n", df.idxmin())

   A  B    C  D
0  1  2  3.0  0
1  3  4  NaN  1
2  3  5  2.0  1
3  3  2  2.0  3

idxmax():
 A    1
B    2
C    0
D    3
dtype: int64

idxmax(skipna=False):
 A    1.0
B    2.0
C    NaN
D    3.0
dtype: float64

idxmin():
 A    0
B    0
C    2
D    0
dtype: int64
