## 5.Pandas的数据运算和算术对齐
### 5.1 Series相加

In [1]:
import pandas as pd
import numpy as np

In [2]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'f'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1 + s2

a    5.2
c    1.1
d    NaN
e    NaN
f    5.5
g    NaN
dtype: float64

## 5.2 DataFrame相加
对于DataFrame，对齐会同时发生在行和列上，两个DataFrame对象相加后，其索引和列会取并集，缺省值用NaN。

In [3]:
kwargs = dict(
    columns = list('bcd'),
    index = ['北京', '上海', ' 广州']
)

df1 = pd.DataFrame(np.arange(9).reshape(3, 3), **kwargs)
kwargs = dict(
    columns = list('bce'),
    index = ['北京', '上海', '重庆', '天津']
)
df2 = pd.DataFrame(np.arange(12).reshape(4, 3), **kwargs)
df1 + df2

Unnamed: 0,b,c,d,e
广州,,,,
上海,6.0,8.0,,
北京,0.0,2.0,,
天津,,,,
重庆,,,,


In [4]:
df1

Unnamed: 0,b,c,d
北京,0,1,2
上海,3,4,5
广州,6,7,8


In [5]:
df2

Unnamed: 0,b,c,e
北京,0,1,2
上海,3,4,5
重庆,6,7,8
天津,9,10,11


设置缺省时填充值

In [6]:
kwargs = dict(
    columns = list('bcd'),
    index = ['北京', '上海', ' 广州']
)

df1 = pd.DataFrame(np.arange(9).reshape(3, 3), **kwargs)
kwargs = dict(
    columns = list('bce'),
    index = ['北京', '上海', '重庆', '天津']
)
df2 = pd.DataFrame(np.arange(12).reshape(4, 3), **kwargs)
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
广州,6.0,7.0,8.0,
上海,6.0,8.0,5.0,5.0
北京,0.0,2.0,2.0,2.0
天津,9.0,10.0,,11.0
重庆,6.0,7.0,,8.0


## 5.3 DataFrame和Series之间的运算
默认情况下，DataFrame和Series之间的算术运算会将Series的索引匹配到DataFram的列，然后沿着行一直向下广播，如下图所示：

In [7]:
df = pd.DataFrame(np.arange(12).reshape(4, 3),
                 columns = list('bde'), 
                 index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
print('df:', df, sep='\n')
series = df.iloc[0]
print('series: ', series, sep='\n')
print('df - series', df - series, sep='\n')

df:
        b   d   e
Utah    0   1   2
Ohio    3   4   5
Texas   6   7   8
Oregon  9  10  11
series: 
b    0
d    1
e    2
Name: Utah, dtype: int32
df - series
        b  d  e
Utah    0  0  0
Ohio    3  3  3
Texas   6  6  6
Oregon  9  9  9


## 5.4 Pandas中的函数应用和映射
### 5.4.1 Numpy中的函数可以用于操作pandas对象

In [8]:
df = pd.DataFrame(-np.arange(12).reshape(4, 3),
                 columns = list('bde'), 
                 index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
print('df:', df, sep='\n')

print('pandas use numpy function result: ', np.abs(df), sep='\n')

df:
        b   d   e
Utah    0  -1  -2
Ohio   -3  -4  -5
Texas  -6  -7  -8
Oregon -9 -10 -11
pandas use numpy function result: 
        b   d   e
Utah    0   1   2
Ohio    3   4   5
Texas   6   7   8
Oregon  9  10  11


### 5.4.2 DataFrame对象的apply方法
需要2个参数：第1个参数的数据类型为函数对象，函数的返回值的数据类型为Series；第2个参数axis=1会得出行的结果，如下图所示，结果有4行。apply方法是对DataFram中的每一行或者每一列进行映射。

In [9]:
def func(x):
    print(x.max(), x.min())
    return x.max() - x.min()

df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                 columns = list('bde'),
                 index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df)
print('\n')
df.apply(func, axis=1)

        b   d   e
Utah    0   1   2
Ohio    3   4   5
Texas   6   7   8
Oregon  9  10  11


2 0
5 3
8 6
11 9


Utah      2
Ohio      2
Texas     2
Oregon    2
dtype: int64

## 5.4.3 DataFrame对象的applymap方法
需要1个参数，参数的数据类型为函数对象，applymap方法的返回值的数据类型为DataFrame。applymap方法是对DataFram中的每一格进行映射，如下图所示：

In [10]:
kwargs = dict(
    columns = list('bde'), 
    index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df = pd.DataFrame(np.random.rand(12).reshape(4,3), **kwargs)
print(df)
print(df.applymap(lambda x: '%.2f' %x))

               b         d         e
Utah    0.603226  0.680169  0.032567
Ohio    0.769938  0.295525  0.541736
Texas   0.680545  0.719621  0.783244
Oregon  0.479717  0.270115  0.500798
           b     d     e
Utah    0.60  0.68  0.03
Ohio    0.77  0.30  0.54
Texas   0.68  0.72  0.78
Oregon  0.48  0.27  0.50


将函数应用到由各列或行所形成的一维数组上。DataFrame 的 apply 方法即可实现此功能

In [11]:
frame = pd.DataFrame(np.random.randn(4, 3),
                     columns=list('bde'), 
                     index=['Utah', 'Ohio', 'Texas','Oregon'])

In [12]:
frame

Unnamed: 0,b,d,e
Utah,1.359938,-0.520198,0.145884
Ohio,-0.730189,1.751298,-0.749821
Texas,0.230882,-1.286475,-0.337235
Oregon,-0.695935,0.446056,-0.054183


In [13]:
f = lambda x: x.max() -x.min()

In [14]:
frame.apply(f)

b    2.090128
d    3.037774
e    0.895704
dtype: float64

In [15]:
frame.apply(f, axis='columns')

Utah      1.880136
Ohio      2.501119
Texas     1.517357
Oregon    1.141991
dtype: float64

## 5.5 排序和排名
使用DataFrame对象的sort_valuse方法，需要两个参数：第1个参数by是根据哪一行或列排序；

第2个参数axis为0或1，默认为0，0为按列排序，1为按行排序。

In [16]:
kwargs = dict(
    columns = list('bde'), 
    index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df = pd.DataFrame(np.random.rand(12).reshape(4,3), **kwargs)

print(df)
print(df.sort_values(by='b'))
print(df.sort_values(by='Utah', axis=1))

               b         d         e
Utah    0.913734  0.678269  0.279270
Ohio    0.968741  0.920827  0.330495
Texas   0.664439  0.410004  0.910681
Oregon  0.207482  0.441507  0.188975
               b         d         e
Oregon  0.207482  0.441507  0.188975
Texas   0.664439  0.410004  0.910681
Utah    0.913734  0.678269  0.279270
Ohio    0.968741  0.920827  0.330495
               e         d         b
Utah    0.279270  0.678269  0.913734
Ohio    0.330495  0.920827  0.968741
Texas   0.910681  0.410004  0.664439
Oregon  0.188975  0.441507  0.207482


## 5.6 pandas的聚合函数
聚合函数包括：求和，最大值，最小值，计数、均值、方差、分位数

这些聚合函数都是基于没有缺失数据的情况。

In [17]:
kwargs = dict(
    columns = list('bde'), 
    index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df = pd.DataFrame(np.arange(12).reshape(4,3), **kwargs)

print(df)
print(df.sum())
print(df.min())
print(df.max())
print(df.count())

        b   d   e
Utah    0   1   2
Ohio    3   4   5
Texas   6   7   8
Oregon  9  10  11
b    18
d    22
e    26
dtype: int64
b    0
d    1
e    2
dtype: int32
b     9
d    10
e    11
dtype: int32
b    4
d    4
e    4
dtype: int64


DataFrame对象的describe方法用于得出统计信息。

In [18]:
df.describe()

Unnamed: 0,b,d,e
count,4.0,4.0,4.0
mean,4.5,5.5,6.5
std,3.872983,3.872983,3.872983
min,0.0,1.0,2.0
25%,2.25,3.25,4.25
50%,4.5,5.5,6.5
75%,6.75,7.75,8.75
max,9.0,10.0,11.0


DataFrame对象的quantile函数可以得出分位数，

df.quantile(.1)等同于df.quantile(0.1)，可以取出从小到大排序第10%位置的数。

In [19]:
df.quantile(.1)

b    0.9
d    1.9
e    2.9
Name: 0.1, dtype: float64

## 5.7 值集合、值计数
Series对象的unique方法可以得到值的集合，集合没有重复元素，相当于去除重复元素。

Series对象有value_counts方法可以得到值的集合，以及这些值出现的次数。

In [20]:
data = pd.Series(['a']*3 + ['b']*2 + ['c'])
print(data)
print(data.unique())
print(data.value_counts())

0    a
1    a
2    a
3    b
4    b
5    c
dtype: object
['a' 'b' 'c']
a    3
b    2
c    1
dtype: int64


Series对象的value_counts方法类似于collections.Counter方法，如下图所示：

In [21]:
from collections import Counter

In [22]:
print(Counter(data))

Counter({'a': 3, 'b': 2, 'c': 1})


Series对象的isin方法可以获得元素数据类型为布尔bool的新Series,如下图所示：

In [23]:
data = pd.Series(['a']*3 + ['b']*2 + ['c'])
data.isin(['a', 'c'])

0     True
1     True
2     True
3    False
4    False
5     True
dtype: bool

## 5.8 缺失值处理
缺失值数据在大部分数据分析应用中都很常见，pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。
pandas对象上的所有描述统计都排除了缺失数据。

DataFrame对象和Series对象都有isnull方法，如下图所示：

In [24]:
data = pd.DataFrame([['a']*3 + ['b']*2 + ['c'], [np.nan]*6])
data.isnull()

Unnamed: 0,0,1,2,3,4,5
0,False,False,False,False,False,False
1,True,True,True,True,True,True


In [25]:
data

Unnamed: 0,0,1,2,3,4,5
0,a,a,a,b,b,c
1,,,,,,


notnull方法为isnull方法结果的取反

fillna方法可以填充缺失值。

dropna方法可以根据行列中是否有空值进行删除。这个方法有2个参数：

关键字参数how，可以填入的值为any或all，any表示只要有1个空值则删除该行或该列，all表示要一行全为空值则删除该行。

关键字参数axis，可以填入的值为0或1，0表示对行进行操作，1表示对列进行操作




In [26]:
data = pd.DataFrame([['a']*3 + ['b']*2 + ['c'],['b']*3 + [np.nan]*3])
print(data.dropna(axis=0,how='all'))
print(data.dropna(axis=0,how='any'))
print(data.dropna(axis=1,how='any'))

   0  1  2    3    4    5
0  a  a  a    b    b    c
1  b  b  b  NaN  NaN  NaN
   0  1  2  3  4  5
0  a  a  a  b  b  c
   0  1  2
0  a  a  a
1  b  b  b
