# `Series`与`DataFrame`对象的数值运算 

### 一元运算作用与每一个数据元素

* `Series`对象的一元数值运算

In [1]:
import pandas as pd
import numpy as np

ser = pd.Series([2,4,6,8],
                index=['a','b','c','d'])
print(ser)
print(np.exp(ser))

a    2
b    4
c    6
d    8
dtype: int64
a       7.389056
b      54.598150
c     403.428793
d    2980.957987
dtype: float64


* `DataFrmae`对象的一元数值运算

In [2]:
rng = np.random.RandomState(18)
df = pd.DataFrame(rng.randint(0,10,(3,4)),
                  columns=['a','b','c','d'])
print(df)
print(np.sin(df * np.pi / 4))

   a  b  c  d
0  3  8  5  1
1  2  2  8  8
2  2  1  5  5
          a             b             c             d
0  0.707107 -2.449294e-16 -7.071068e-01  7.071068e-01
1  1.000000  1.000000e+00 -2.449294e-16 -2.449294e-16
2  1.000000  7.071068e-01 -7.071068e-01 -7.071068e-01


### 二元运算

在两个`Series`之间或两个`DataFrame`数据对象之间进行二元运算的时候，**会自动在计算过程中对齐两个对象的索引** ，如果一个索引仅在一个对象中出现，那么另一个对象的索引空缺处会进行空值处理

In [3]:
ser1 = pd.Series({'a':10,'b':20,'d':40})
ser2 = pd.Series({'b':2,'c':3,'d':4})
print(ser1 / ser2)

a     NaN
b    10.0
c     NaN
d    10.0
dtype: float64


**缺失值的处理**

设置参与运算的`Series`，其索引缺失位置的数据为`0`

In [5]:
print(ser1.add(ser2, fill_value=0))

a    10.0
b    22.0
c     3.0
d    44.0
dtype: float64


`DataFrame`间的运算，同样会进行索引对齐

In [6]:
rng = np.random.RandomState(10)
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=['A', 'B'])
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=['B', 'C', 'A'])
print(A)
print(B)
print(A + B)

    A  B
0   9  4
1  15  0
   B  C  A
0  1  9  0
1  1  8  9
2  0  8  6
      A    B   C
0   9.0  5.0 NaN
1  24.0  1.0 NaN
2   NaN  NaN NaN


用指定的非默认值来替换掉`NaN`，例如使用对象`A`的均值

In [7]:
print(A.add(B, fill_value=A.stack().mean()))

      A    B     C
0   9.0  5.0  16.0
1  24.0  1.0  15.0
2  13.0  7.0  15.0


这里在求`A`均值的时候用了一个`stack`函数，作用是把二维变量`A`压缩成一个`4`元一维数组

**补充一下** ：例如`+，-，*，/`这些属于`python`运算符，如果我们需要加上一些控制用的关键字，如：填充缺失值`fill_value`，那么就需要使用`Pandas`的对应方法`add()，sub()，mul()，div()`

## `DataFrame`与`Series`之间的运算

### 行维度上的运算

我们先看一个例子，让`DataFrame`的每一行都减去由自己第一行数据构成的`Series`对象

In [8]:
rng = np.random.RandomState(10)
A = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                 columns=['A', 'B', 'C', 'D'])

print(A)
print(A.iloc[0])
# A 是DataFrame对象，A.iloc[0]是Sreies对象
print(A - A.iloc[0])

   A  B  C  D
0  9  4  0  1
1  9  0  1  8
2  9  0  8  6
A    9
B    4
C    0
D    1
Name: 0, dtype: int32
   A  B  C  D
0  0  0  0  0
1  0 -4  1  7
2  0 -4  8  5


### 列维度上的运算

In [9]:
rng = np.random.RandomState(10)
A = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                 columns=['A', 'B', 'C', 'D'])

print(A)
print(A['B'])
# 用到了指明列运算方向的参数axis=0，所以也必须使用Pandas的方法sub()
print(A.sub(A['B'], axis=0))

   A  B  C  D
0  9  4  0  1
1  9  0  1  8
2  9  0  8  6
0    4
1    0
2    0
Name: B, dtype: int32
   A  B  C  D
0  5  0 -4 -3
1  9  0  1  8
2  9  0  8  6


`DataFrame`与`Series`的运算同样也是要对齐指定方向上的索引，索引不一致处的运算，也会用`NaN`进行空值处理

In [10]:
rng = np.random.RandomState(10)
A = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                 columns=['A', 'B', 'C', 'D'])

print(A)
print(A.ix[0,['A', 'C']])
print(A - A.ix[0,['A', 'C']])

   A  B  C  D
0  9  4  0  1
1  9  0  1  8
2  9  0  8  6
A    9
C    0
Name: 0, dtype: int32
     A   B    C   D
0  0.0 NaN  0.0 NaN
1  0.0 NaN  1.0 NaN
2  0.0 NaN  8.0 NaN


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  return getattr(section, self.name)[new_key]
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  import sys


# `Pandas`缺失值的处理技巧

### 缺失值的表征方式
`python`中采用一种`NaN（Not a Number）`标签来表示缺失值，`NaN`本质上是一种浮点数类型

In [11]:
var = np.array([1, np.nan, 3, 4])
print(var)
print(var.dtype)

[ 1. nan  3.  4.]
float64


### 缺失值的运算处理规则
`NaN`缺失值类型有一个重要的特性，就是**任何数与之运算，其结果都是`NaN`**

In [12]:
var = np.array([1, 2, np.nan, 4])
print(np.nan + 1)
print(np.nan * 5)
print(var.sum())
print(var.max())

nan
nan
nan
nan


在`Numpy`中忽略掉`NaN`缺失值进行运算

In [13]:
var = np.array([1, 2, np.nan, 4])
print(np.nansum(var))
print(np.nanmax(var))
print(np.nanmin(var))

7.0
4.0
1.0


### 缺失值的处理类型

`Pandas`数据类型对缺失值的处理也是类似的，`NaN`表示缺失值时，他的类型是浮点数，如果表示缺失对象时，他的类型是object类型

* **浮点缺失型**

  将整数型`Series`中的某值设置为缺失型，整个`Series`将强制变成浮点型

In [14]:
var = pd.Series([1,2],dtype=int)
print(var)
var[0] = np.nan
print(var)

0    1
1    2
dtype: int32
0    NaN
1    2.0
dtype: float64


* **`object`类型缺失对象**

  如果`Series`中的数据类型是字符串，由于字符串是`object`类型，因此将该类型的`Series`中的某个字符串数据设置为缺失型，整个类型仍是`object`类型

In [15]:
var = pd.Series(['aa','bb'])
print(var)
var[0] = np.nan
print(var)

0    aa
1    bb
dtype: object
0    NaN
1     bb
dtype: object


### 缺失值的处理方法

* **发现缺失值**

  我们可以用`isnull()`和`notnull()`两种方法来发现缺失值

In [17]:
var = pd.Series(['aa',np.nan,1,np.nan])
print(var.isnull())
print(var.notnull())

0    False
1     True
2    False
3     True
dtype: bool
0     True
1    False
2     True
3    False
dtype: bool


两种方法，返回的都是**布尔型的掩码数据**，这种布尔型掩码数据可以作为一种过滤的工具

In [18]:
print(var[var.notnull()])

0    aa
2     1
dtype: object


* **丢弃缺失值**

  `Series`数据类型对于缺失值的处理很简单，就是简单的丢弃相应的值

In [19]:
var = pd.Series(['aa',np.nan,1,np.nan])
print(var.dropna())

0    aa
2     1
dtype: object


DataFrame整行整列丢弃,他无法简单的单独剔除掉一个缺失值，要么剔除缺失值所在的整行，要么剔除掉整列，**默认是剔除行，如果要剔除所在列的话，需要单独设置axis=1的关键字参数**

In [20]:
df = pd.DataFrame([[1,np.nan,2],
                   [2,3,5],
                   [np.nan,4,6]])
print(df)                       #原始df
print(df.dropna())              #丢弃缺失值所在行
print(df.dropna(axis=1))        #丢弃缺失值所在列

     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6
     0    1  2
1  2.0  3.0  5
   2
0  2
1  5
2  6


- **`how`参数设置丢弃方式**

  在`dropna（）`函数中还有一个非常重要的参数`how`，默认`how`=`any`，表示此行（或列）只要有一个`NaN`值，就要删除所在行（或列）。当`how`=`all`是表示只有当此行（或列）全部都是`NaN`值时，才执行此操作

In [21]:
df = pd.DataFrame([[1,np.nan,2,4],
                   [2,3,5,3],
                   [np.nan,np.nan,np.nan,np.nan]])
print(df)
print(df.dropna(how='any'))
print(df.dropna(how='all'))

     0    1    2    3
0  1.0  NaN  2.0  4.0
1  2.0  3.0  5.0  3.0
2  NaN  NaN  NaN  NaN
     0    1    2    3
1  2.0  3.0  5.0  3.0
     0    1    2    3
0  1.0  NaN  2.0  4.0
1  2.0  3.0  5.0  3.0


* **`DataFrame`阈值控制丢弃**

  还有个更精细的`thresh`参数控制，他表示留下此行（或列）时，非缺失值最少需要有的个数

In [22]:
print(df)
print(df.dropna(thresh=3))

     0    1    2    3
0  1.0  NaN  2.0  4.0
1  2.0  3.0  5.0  3.0
2  NaN  NaN  NaN  NaN
     0    1    2    3
0  1.0  NaN  2.0  4.0
1  2.0  3.0  5.0  3.0


### 填充缺失值
* **指定值填充**

In [23]:
df = pd.DataFrame([[11,np.nan,22,44],
                   [22,np.nan,np.nan,33],
                   [np.nan,np.nan,np.nan,np.nan]])
print(df.fillna(0))

      0    1     2     3
0  11.0  0.0  22.0  44.0
1  22.0  0.0   0.0  33.0
2   0.0  0.0   0.0   0.0


* **相邻值填充**

  用相邻的值进行填充，这在时间序列分析中相当常见，可以用前面相邻的值向后填充，也可以用后面相邻的值向前填充

In [24]:
data = pd.Series([1,np.nan,2,np.nan,3],index=list('abcde'))
print(data)
print(data.fillna(method='ffill'))
print(data.fillna(method='bfill'))

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64
a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64
a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64


`DataFrame`数据类型也是同理，当然他还可以指定填充具体是沿着那个方向，下面的例子，我们指定沿着纵轴的方向，从前往后进行填充

In [25]:
df = pd.DataFrame([[1,np.nan,2,4],
                   [2,3,5,3],
                   [np.nan,5,4,np.nan]])
print(df)
print(df.fillna(method='ffill', axis=1))

     0    1  2    3
0  1.0  NaN  2  4.0
1  2.0  3.0  5  3.0
2  NaN  5.0  4  NaN
     0    1    2    3
0  1.0  1.0  2.0  4.0
1  2.0  3.0  5.0  3.0
2  NaN  5.0  4.0  4.0
