### 重新索引
- reindex() 只是根据index改变各个元素（value）的排列顺序，而不是改变元素（value）与index的对应关系
> 参数说明
> - idnex：用作索引的序列
> - method: 填充方式
> - fill_value：缺失值的替代值
> - limit：向前或向后填充时的最大填充量
> - tolerance：向前或者向后填充时，填充不准确匹配项的最大间距
> - level：在MultiIndex的指定级别上匹配简单索引，否则选取子集
> - copy：默认为True，无论如何都复制；如果为False，则新旧相等就不复制

In [3]:
import numpy as np
import pandas as pd
from pandas import Series
from pandas import DataFrame

#### Series上的reindex

In [2]:
s = Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'c', 'd', 'e', 'f'])
s

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [3]:
s2 = s.reindex(['f', 'e', 'd', 'c', 'b', 'a'])
s2

f    6
e    5
d    4
c    3
b    2
a    1
dtype: int64

#### DataFrame上的reindex

## 唯一值以及成员资格
![](http://upload-images.jianshu.io/upload_images/7178691-b53c4a9d65a2db32.png?imageMogr2/auto-orient/strip|imageView2/2/w/1240)

## 移除重复值
df.duplicated()返回一个布尔型Series，表示各行是否有重复行（是否重复出现前面的行）

df.drop_duplicates()返回一个去掉重复行的DataFrame

以上两个方法默认判断全部列，也可以自己指定判断是否重复的列。他们默认保留的是第一个出现的值组合，传入keep=‘last’则保留最后一个

In [8]:
df = DataFrame([[1,2], [2,3], [3,4], [2,4], [3,5], [2,3], [2,4]], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4
3,2,4
4,3,5
5,2,3
6,2,4


In [9]:
df.duplicated() # 默认判断所有行是否重复

0    False
1    False
2    False
3    False
4    False
5     True
6     True
dtype: bool

In [10]:
df.drop_duplicates()

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4
3,2,4
4,3,5


In [11]:
df.duplicated('A')

0    False
1    False
2    False
3     True
4     True
5     True
6     True
dtype: bool

In [12]:
df.drop_duplicates('A')

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


- map()
- apply()
- apply_map()
- replace() 
 - repalce(1, -1) 可以替换一个值
 - repalce([1, 2], -1) 可以一次替换多个值
 - repalce([1,2], [-1, -2]) 一次替换多个值，每个被替换的值都不一样
 - repalce({1:-1, 2:-2}) 同上

## 轴命名索引

In [4]:
df = DataFrame(np.arange(9).reshape(3, 3), index=['a', 'b', 'c'], columns=['bj', 'tj', 'sh'])
df

Unnamed: 0,bj,tj,sh
a,0,1,2
b,3,4,5
c,6,7,8


In [5]:
func = lambda x:x.upper()
df.index.map(func)

Index(['A', 'B', 'C'], dtype='object')

In [6]:
df

Unnamed: 0,bj,tj,sh
a,0,1,2
b,3,4,5
c,6,7,8


In [9]:
# 简单用法
df.rename(index=str.title, columns=str.upper)

Unnamed: 0,BJ,TJ,SH
A,0,1,2
B,3,4,5
C,6,7,8


In [10]:
df

Unnamed: 0,bj,tj,sh
a,0,1,2
b,3,4,5
c,6,7,8


In [12]:
# 结合字典
df.rename(index={'a':'AAA', 'b':'BBB', 'c':'CCC'}, columns={'bj':'bj1', 'tj':'tj1', 'sh':'sh1'})

Unnamed: 0,bj1,tj1,sh1
AAA,0,1,2
BBB,3,4,5
CCC,6,7,8


In [13]:
df

Unnamed: 0,bj,tj,sh
a,0,1,2
b,3,4,5
c,6,7,8


## 判断正负号

In [14]:
df = DataFrame(np.random.randn(5, 5))
df

Unnamed: 0,0,1,2,3,4
0,0.281245,-1.019266,-1.378912,-0.043943,0.753287
1,0.958788,-0.976464,-0.729092,1.005615,-0.126238
2,-0.504351,0.145206,-0.285973,-2.096636,-1.488578
3,-1.263137,0.54661,0.231078,0.923196,0.489804
4,1.34678,-1.268145,-0.422312,-0.296574,-0.128895


In [17]:
np.sign(df)

Unnamed: 0,0,1,2,3,4
0,1.0,-1.0,-1.0,-1.0,1.0
1,1.0,-1.0,-1.0,1.0,-1.0
2,-1.0,1.0,-1.0,-1.0,-1.0
3,-1.0,1.0,1.0,1.0,1.0
4,1.0,-1.0,-1.0,-1.0,-1.0


<table border="1" style="text-align:left;">
        <tr><th>方法</th><th style="width:50%; ">说明</th></tr>
        <tr><td>append</td><td>连接另一个Index对象，产生一个新的Index</td></tr>
        <tr><td>difference</td><td>计算差集，并得到一个Index</td></tr>
        <tr><td>intersection</td><td>计算交集</td></tr>
        <tr><td>union</td><td>计算并集</td></tr>
        <tr><td>isin</td><td>计算各值是否包含在参数集合中，返回一个布尔数组</td></tr>
        <tr><td>delete</td><td>删除索引i处的元素，并得到新的Index</td></tr>
        <tr><td>drop</td><td>删除传入的值，并得到新的Index</td></tr>
        <tr><td>insert</td><td>将元素插入到索引i处，并得到新的Index</td></tr>
        <tr><td>is_monotonic</td><td>当各元素均大于等于前一个元素时，返回True</td></tr>
        <tr><td>is_unique</td><td>当Index没有重复值时，返回True</td></tr>
        <tr><td>unique</td><td>计算Index中唯一值得数组</td></tr>
    </table>

apply()以及map(）方法