#### 这部分会说一些常用的跟数值计算和统计相关的内容
##### axis、skipna、Series和DataFrame的常用计算方法、唯一值unique()、值计数value_counts()、成员资格isin()

In [30]:
import numpy as np
import pandas as pd

##### 一、axis、skipna
  - axis表示汇总计算：该参数默认为0，表示以列来汇总计算；而当axis=1时是以行来汇总计算。
  - skipna表示是否忽略NaN：该参数默认True，就是忽略NaN。如果是False，表示不忽略。但不管是行还是列，只要有NaN结果就是NaN

In [31]:
#定义一个dataframe，内容是个字典，并且指定了索引。
df = pd.DataFrame({'key1':[1,2,3,np.nan,4],
                  'key2':[4,5,np.nan,7,8],
                  'key3':[1,2,3,'j','k']},
                  index = ['a','b','c','d','e'])
print(df)
print('-----------------------------------------------------')
# 对于key3的元素，因为有字符，所以在查询元素类型的时候，就变成了object。
# type()返回的是数据的类型。
# .dtype返回的是数据元素的类型。
print('数组元素的类型是：\n',df['key1'].dtype, df['key2'].dtype, df['key3'].dtype)
print('-----------------------------------------------------')

# mean()计算均值
dm = df.mean()
# 这里需要注意的是，key3因为是字符，所以不参与计算。
print(dm)
print(type(dm))
print('-----------------------------------------------------')

# axis=1 以行进行计算。同样的key3也不参与计算。
print(df.mean(axis=1))
print('-----------------------------------------------------')

# skipna=False 不忽略NaN。
# 因为key1和key2这两列都有NaN，所以计算结果都是NaN。
print(df.mean(skipna=False))
print('-----------------------------------------------------')

# axis=1和skipna=False共同作用
print(df.mean(axis=1, skipna=False))
print('-----------------------------------------------------')
# 通过索引单独计算一列
print('单独计算一列：\n',df['key1'].mean())

   key1  key2 key3
a   1.0   4.0    1
b   2.0   5.0    2
c   3.0   NaN    3
d   NaN   7.0    j
e   4.0   8.0    k
-----------------------------------------------------
数组元素的类型是：
 float64 float64 object
-----------------------------------------------------
key1    2.5
key2    6.0
dtype: float64
<class 'pandas.core.series.Series'>
-----------------------------------------------------
a    2.5
b    3.5
c    3.0
d    7.0
e    6.0
dtype: float64
-----------------------------------------------------
key1   NaN
key2   NaN
dtype: float64
-----------------------------------------------------
a    2.5
b    3.5
c    NaN
d    NaN
e    6.0
dtype: float64
-----------------------------------------------------
单独计算一列：
 2.5


#### 二、Series和DataFrame的常用方法（一）
 - min最小值、max最大值、sum求和、median求中位数、std求标准差、var求方差、count求非Na值的数量、quantile统计分位数
 - skew样本偏度、kurt样本峰度
 - cumsum累计和、cumprod累计积、cummax累计最大值、cummin累计最小值

In [36]:
df = pd.DataFrame({'key1':np.arange(10),
                  'key2':np.random.rand(10)*10})
print(df)
print('-----------------------------------------------------')

print('count统计非Na值的数量:\n',df.count())
print('-----------------------------------------------------')
print('min最小值:\n',df.min())
print('-----------------------------------------------------')
print('max最大值:\n',df['key2'].max())
print('-----------------------------------------------------')
print('quantile统计分位数，参数q确定位置:\n',df.quantile(q=0.75))
print('-----------------------------------------------------')
print('sum求和:\n',df.sum())
print('-----------------------------------------------------')
print('median求算数中位数，50%分位数:\n',df.median())
print('-----------------------------------------------------')
print('std求标准差:\n',df.std())
print('-----------------------------------------------------')
print('var求方差:\n',df.var())
print('-----------------------------------------------------')
print('skew样本的偏度:\n',df.skew())
print('-----------------------------------------------------')
print('kurt样本的峰度:\n',df.kurt())
print('-----------------------------------------------------')

   key1      key2
0     0  9.124077
1     1  0.020392
2     2  9.940961
3     3  3.520364
4     4  6.891709
5     5  6.830772
6     6  3.710912
7     7  3.804773
8     8  3.560491
9     9  3.995092
-----------------------------------------------------
count统计非Na值的数量:
 key1    10
key2    10
dtype: int64
-----------------------------------------------------
min最小值:
 key1    0.000000
key2    0.020392
dtype: float64
-----------------------------------------------------
max最大值:
 9.940960582196952
-----------------------------------------------------
quantile统计分位数，参数q确定位置:
 key1    6.750000
key2    6.876475
Name: 0.75, dtype: float64
-----------------------------------------------------
sum求和:
 key1    45.000000
key2    51.399542
dtype: float64
-----------------------------------------------------
median求算数中位数，50%分位数:
 key1    4.500000
key2    3.899932
dtype: float64
-----------------------------------------------------
std求标准差:
 key1    3.027650
key2    3.005803
dtype: float64
-------------

##### 对于累计和、积、最大值和最小值的说明
  - 累计求和与求积是指从第一个元素开始，逐步向下进行计算。
  - 最大值和最小值是从数据的第一个元素开始逐个向下判断，当遇到比当前数据要大或者要小的值，就进行替代。

In [39]:
# 为df增加了key1_cs和key2_cs列
df['key1_cs'] = df['key1'].cumsum()
df['key2_cs'] = df['key2'].cumsum()
print('cumsum累计和:\n',df)
print('-----------------------------------------------------')

# 为df增加了key1_cp和key2_cp列
df['key1_cp'] = df['key1'].cumprod()
df['key2_cp'] = df['key2'].cumprod()
print('cumprod累计积:\n',df)
print('-----------------------------------------------------')
print('cummax累计最大值:\n',df.cummax())
print('-----------------------------------------------------')
print('cummin累计最小值:\n',df.cummin())

cumsum累计和:
    key1      key2  key1_cs    key2_cs  key1_cp       key2_cp
0     0  9.124077        0   9.124077        0      9.124077
1     1  0.020392        1   9.144468        0      0.186055
2     2  9.940961        3  19.085429        0      1.849567
3     3  3.520364        6  22.605793        0      6.511149
4     4  6.891709       10  29.497502        0     44.872942
5     5  6.830772       15  36.328274        0    306.516857
6     6  3.710912       21  40.039187        0   1137.457192
7     7  3.804773       28  43.843959        0   4327.766094
8     8  3.560491       36  47.404450        0  15408.970461
9     9  3.995092       45  51.399542        0  61560.254232
-----------------------------------------------------
cumprod累计积:
    key1      key2  key1_cs    key2_cs  key1_cp       key2_cp
0     0  9.124077        0   9.124077        0      9.124077
1     1  0.020392        1   9.144468        0      0.186055
2     2  9.940961        3  19.085429        0      1.849567
3     

#### 三、Series和DataFrame的常用方法（二）
 - unique唯一值、sort重拍、value_counts计算重复频率和isin成员资格

In [51]:
# unique、sort
# 用列表定义一个Series
ps = pd.Series(list('dddeaafgbchh'))

su = ps.unique()
print(s)
print('-----------------------------------------------------')
print('去重后的结果：\n',su)
print('-----------------------------------------------------')
print('类型是numpy的数组',type(su))
print('-----------------------------------------------------')
# 通过pd.Series重新生成一个新的Series
print(pd.Series(su))
print('-----------------------------------------------------')

su.sort()
# 通过重拍得到了字母表顺序。
print(su)

0     d
1     d
2     d
3     e
4     a
5     a
6     f
7     g
8     b
9     c
10    h
11    h
dtype: object
-----------------------------------------------------
去重后的结果：
 ['d' 'e' 'a' 'f' 'g' 'b' 'c' 'h']
-----------------------------------------------------
类型是numpy的数组 <class 'numpy.ndarray'>
-----------------------------------------------------
0    d
1    e
2    a
3    f
4    g
5    b
6    c
7    h
dtype: object
-----------------------------------------------------
['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h']


In [65]:
# value_counts
ps = pd.Series(list('aabcdeff'))
print(ps)
print('-----------------------------------------------------')
# 重新排序
pc = ps.value_counts()
print(pc)

0    a
1    a
2    b
3    c
4    d
5    e
6    f
7    f
dtype: object
-----------------------------------------------------
f    2
d    1
e    1
c    1
a    2
b    1
dtype: int64


In [72]:
# isin()
# isin返回的是布尔值
s = pd.Series(np.arange(1,5))
df = pd.DataFrame({'key1':list('abcdefg'),
                  'key2':np.arange(4,11)})
print(s)
print('-----------------------------------------------------')
print(df)
print('-----------------------------------------------------')

# 判断2,3,5是不是在s里
print(s.isin([2,3,5]))
print('-----------------------------------------------------')
# 判断3是不是在s里，注意isin()里的写法，哪怕只有一个值也要写上[]
print(s.isin([3]))
print('-----------------------------------------------------')
print(df.isin(['a','b','f','g','x',8]))

0    1
1    2
2    3
3    4
dtype: int32
-----------------------------------------------------
  key1  key2
0    a     4
1    b     5
2    c     6
3    d     7
4    e     8
5    f     9
6    g    10
-----------------------------------------------------
0    False
1     True
2     True
3    False
dtype: bool
-----------------------------------------------------
0    False
1    False
2     True
3    False
dtype: bool
-----------------------------------------------------
  key1  key2
0    a     4
1    b     5
2    c     6
3    d     7
4    e     8
5    f     9
6    g    10     key1   key2
0   True  False
1   True  False
2  False  False
3  False  False
4  False   True
5   True  False
6   True  False
