In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame
from pandas import Series

In [2]:
# pandas有很多数学和统计方法。大部分可以归类为约简或汇总统计，
# 这些方法是用来从series中提取单个值（比如sum或mean）。还有一些方法来处理缺失值：
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [4]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [5]:
# 计算的时候，NA（即缺失值）会被除外，除非整个切片全是NA。我们可以用skipna来跳过计算NA：
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [6]:
# describe能一下子产生多维汇总数据：
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [7]:
# 对于非数值性的数据，describe能产生另一种汇总统计：
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [8]:
# ----------------唯一值，值计数，会员 -------------------

In [9]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [10]:
uniques = obj.unique() # 唯一值
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [11]:
# 返回的unique values不是有序的，但我们可以排序，uniques.sort()
# 相对的，value_counts能计算series中值出现的频率：
obj.value_counts()  # 值的计数

c    3
a    3
b    2
d    1
dtype: int64

In [12]:
# 返回的结果是按频率降序处理的。vaule_counts也是pandas中的方法，能用在任何array或sequence上
pd.value_counts(obj.values, sort=False)

a    3
d    1
b    2
c    3
dtype: int64

In [13]:
# 成员资格
# isin 能实现一个向量化的集合成员关系检查，能用于过滤数据集，检查一个子集，是否在series的values中，或在dataframe的column中：
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [14]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [15]:
#!!!!!!!!!!在某些情况下，你可能想要计算一下dataframe中多个column的柱状图!!!!!!!!!!!!!!!
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [16]:
# 把padas.value_counts传递给dataframe的apply函数：
result = data.apply(pd.value_counts)
result
# 每一行的laebls(即1，2，3，4，5)其实就是整个data里出现过的值，从1到5。
# 而对应的每个方框里的值，则是表示该值在当前列中出现的次数

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0
