常用数学、统计方法

In [6]:
import numpy as np
import pandas as pd  
# 导入numpy、pandas模块

In [11]:
# 基本参数：axis、skipna

df = pd.DataFrame({'key1':[4,5,3,np.nan,2],
                 'key2':[1,2,np.nan,4,5],
                 'key3':[1,2,3,'j','k']},
                 index = ['a','b','c','d','e'])
print(df)
print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)
print('----------------------------------------------')

m1 = df.mean()
print('计算均值',m1,type(m1))
print('单独统计一列的均值:',df['key2'].mean())
print('------------------------------------------')
# np.nan ：空值
# .mean()计算均值
# 只统计数字列
# 可以通过索引单独统计一列

m2 = df.mean(axis=1)
print(m2)
print('-------------------------------------------')
# axis参数：默认为0，以列来计算，axis=1，以行来计算，这里就按照行来汇总了

m3 = df.mean(skipna=False)
print(m3)
print('--------------------------------------------')
# skipna参数：是否忽略NaN，默认True，如False，有NaN的列统计结果仍未NaN

   key1  key2 key3
a   4.0   1.0    1
b   5.0   2.0    2
c   3.0   NaN    3
d   NaN   4.0    j
e   2.0   5.0    k
float64 float64 object
----------------------------------------------
计算均值 key1    3.5
key2    3.0
dtype: float64 <class 'pandas.core.series.Series'>
单独统计一列的均值: 3.0
------------------------------------------
a    2.5
b    3.5
c    3.0
d    4.0
e    3.5
dtype: float64
-------------------------------------------
key1   NaN
key2   NaN
dtype: float64
--------------------------------------------


In [12]:
# 主要数学计算方法，可用于Series和DataFrame（1）

df = pd.DataFrame({'key1':np.arange(10),
                  'key2':np.random.rand(10)*10})
print(df)
print('--------------------------------------------')

print(df.count(),'→ count统计非Na值的数量\n')
print(df.min(),'→ min统计最小值\n',df['key2'].max(),'→ max统计最大值\n')
print(df.quantile(q=0.75),'→ quantile统计分位数，参数q确定位置\n')
print(df.sum(),'→ sum求和\n')
print(df.mean(),'→ mean求平均值\n')
print(df.median(),'→ median求算数中位数，50%分位数\n')
print(df.std(),'\n',df.var(),'→ std,var分别求标准差，方差\n')
print(df.skew(),'→ skew样本的偏度\n')
print(df.kurt(),'→ kurt样本的峰度\n')

   key1      key2
0     0  5.249115
1     1  7.405760
2     2  1.762712
3     3  1.130152
4     4  1.120466
5     5  1.352740
6     6  2.128834
7     7  3.815434
8     8  8.870952
9     9  3.630335
--------------------------------------------
key1    10
key2    10
dtype: int64 → count统计非Na值的数量

key1    0.000000
key2    1.120466
dtype: float64 → min统计最小值
 8.87095183651 → max统计最大值

key1    6.750000
key2    4.890694
Name: 0.75, dtype: float64 → quantile统计分位数，参数q确定位置

key1    45.000000
key2    36.466499
dtype: float64 → sum求和

key1    4.50000
key2    3.64665
dtype: float64 → mean求平均值

key1    4.500000
key2    2.879584
dtype: float64 → median求算数中位数，50%分位数

key1    3.027650
key2    2.745709
dtype: float64 
 key1    9.166667
key2    7.538918
dtype: float64 → std,var分别求标准差，方差

key1    0.000000
key2    0.976375
dtype: float64 → skew样本的偏度

key1   -1.200000
key2   -0.201082
dtype: float64 → kurt样本的峰度



In [13]:
# 主要数学计算方法，可用于Series和DataFrame（2）

df['key1_s'] = df['key1'].cumsum()
df['key2_s'] = df['key2'].cumsum()
print(df,'→ cumsum样本的累计和\n')

df['key1_p'] = df['key1'].cumprod()
df['key2_p'] = df['key2'].cumprod()
print(df,'→ cumprod样本的累计积\n')

print(df.cummax(),'\n',df.cummin(),'→ cummax,cummin分别求累计最大值，累计最小值\n')
# 会填充key1，和key2的值

   key1      key2  key1_s     key2_s
0     0  5.249115       0   5.249115
1     1  7.405760       1  12.654874
2     2  1.762712       3  14.417587
3     3  1.130152       6  15.547738
4     4  1.120466      10  16.668204
5     5  1.352740      15  18.020944
6     6  2.128834      21  20.149778
7     7  3.815434      28  23.965212
8     8  8.870952      36  32.836164
9     9  3.630335      45  36.466499 → cumsum样本的累计和

   key1      key2  key1_s     key2_s  key1_p        key2_p
0     0  5.249115       0   5.249115       0      5.249115
1     1  7.405760       1  12.654874       0     38.873682
2     2  1.762712       3  14.417587       0     68.523113
3     3  1.130152       6  15.547738       0     77.441510
4     4  1.120466      10  16.668204       0     86.770554
5     5  1.352740      15  18.020944       0    117.378015
6     6  2.128834      21  20.149778       0    249.878261
7     7  3.815434      28  23.965212       0    953.394036
8     8  8.870952      36  32.836164       0  

In [14]:
# 唯一值：.unique()

s = pd.Series(list('asdvasdcfgg'))
sq = s.unique()
print(s)
print(sq,type(sq))
print(pd.Series(sq))
print("-------------------------------------------")
# 得到一个唯一值数组
# 通过pd.Series重新变成新的Series

sq.sort()
print(sq)
# 重新排序

0     a
1     s
2     d
3     v
4     a
5     s
6     d
7     c
8     f
9     g
10    g
dtype: object
['a' 's' 'd' 'v' 'c' 'f' 'g'] <class 'numpy.ndarray'>
0    a
1    s
2    d
3    v
4    c
5    f
6    g
dtype: object
-------------------------------------------
['a' 'c' 'd' 'f' 'g' 's' 'v']


In [16]:
# 值计数：.value_counts()

sc = s.value_counts(sort = False)  # 也可以这样写：pd.value_counts(sc, sort = False)
print(sc)
# 得到一个新的Series，计算出不同值出现的频率
# sort参数：排序，默认为True

a    2
g    2
c    1
v    1
s    2
f    1
d    2
dtype: int64


In [17]:
# 成员资格：.isin()

s = pd.Series(np.arange(10,15))
df = pd.DataFrame({'key1':list('asdcbvasd'),
                  'key2':np.arange(4,13)})
print(s)
print(df)
print('---------------------------------------')

print(s.isin([5,14]))
print(df.isin(['a','bc','10',8]))
# 用[]表示
# 得到一个布尔值的Series或者Dataframe

0    10
1    11
2    12
3    13
4    14
dtype: int32
  key1  key2
0    a     4
1    s     5
2    d     6
3    c     7
4    b     8
5    v     9
6    a    10
7    s    11
8    d    12
---------------------------------------
0    False
1    False
2    False
3    False
4     True
dtype: bool
    key1   key2
0   True  False
1  False  False
2  False  False
3  False  False
4  False   True
5  False  False
6   True  False
7  False  False
8  False  False


######## 课后小练习,请查看 “pandas课程作业.docx”  ########

作业1：如图创建一个Dataframe（5*2，值为0-100的随机值），并分别计算key1和key2的均值、中位数、累积和

作业2：写出一个输入元素直接生成数组的代码块，然后创建一个函数，该函数功能用于判断一个Series是否是唯一值数组，返回“是”和“不是”