## Pandas的索引index的用途

把数据存储于普通的column列也能用于数据查询，使用index有什么好处？

index的用途总结：
   1. 更方便的数据查询；
   2. 使用index可以获得**性能提升**；
   3. 自动的**数据对齐**功能；
   4. 更多更强大的**数据结构**支持；
    

In [6]:
import pandas as pd

In [18]:
df = pd.read_csv("./datas/ml-latest-small/ratings.csv")

In [8]:
df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [9]:
df.count()

userId       100836
movieId      100836
rating       100836
timestamp    100836
dtype: int64

## 1、使用index查询数据

In [28]:
# drop==False，让索引列还保持在column
df.set_index("userId", inplace=True,drop=False) # inplace直接修改当前df,drop=False不删除

In [29]:
df.head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,1,4.0,964982703
1,1,3,4.0,964981247
1,1,6,4.0,964982224
1,1,47,5.0,964983815
1,1,50,5.0,964982931


In [30]:
df.index

Int64Index([  1,   1,   1,   1,   1,   1,   1,   1,   1,   1,
            ...
            610, 610, 610, 610, 610, 610, 610, 610, 610, 610],
           dtype='int64', name='userId', length=100836)

In [31]:
# 使用index的查询方法
df.loc[500].head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
500,500,1,4.0,1005527755
500,500,11,1.0,1005528017
500,500,39,1.0,1005527926
500,500,101,1.0,1005527980
500,500,104,4.0,1005528065


In [34]:
# 使用column的condition查询方法
df.loc[df["userId"] == 500].head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
500,500,1,4.0,1005527755
500,500,11,1.0,1005528017
500,500,39,1.0,1005527926
500,500,101,1.0,1005527980
500,500,104,4.0,1005528065


In [35]:
df.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

## 2.使用index会提升查询性能
* 如果index的是唯一的，Pandas会使用哈希表优化，查询性能为O(1)；
* 如果index不是唯一的，Pandas会使用二分查询算法，查询性能为O(logN)；
* 如果index是完全随机的，那么每次查询都要扫描全表，查询性能为O(N);

### 试验1、完全随机的顺序查询

In [37]:
from sklearn.utils import shuffle
df_shuffle = shuffle(df)

In [38]:
df_shuffle.head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
489,489,2167,3.0,1332774143
232,232,5573,2.5,1218166812
508,508,307,1.0,1268297492
182,182,5673,4.0,1054781160
160,160,2628,2.0,971114208


In [40]:
# 索引是否是递增的
df_shuffle.index.is_monotonic_increasing

False

In [41]:
df_shuffle.index.is_unique

False

In [42]:
# 计时，查询id==500数据性能
%timeit df_shuffle.loc[500]

415 µs ± 73.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### 实验2：将index排序后的查询

In [43]:
df_sorted = df_shuffle.sort_index()

In [44]:
df_sorted.head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,3168,4.0,964982495
1,1,1097,5.0,964981680
1,1,316,3.0,964982310
1,1,110,4.0,964982176
1,1,552,4.0,964982653


In [45]:
# 索引是否是递增的
df_sorted.index.is_monotonic_increasing

True

In [46]:
df_sorted.index.is_unique

False

In [47]:
%timeit df_sorted.loc[500]

73 µs ± 967 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


## 3.使用index能自动对齐数据

包括series和dataframe

In [48]:
s1 = pd.Series([1, 2, 3], index=list("abc"))

In [49]:
s1

a    1
b    2
c    3
dtype: int64

In [50]:
s2 = pd.Series([2, 3, 4], index=list("bcd"))

In [51]:
s2

b    2
c    3
d    4
dtype: int64

In [52]:
s1 + s2

a    NaN
b    4.0
c    6.0
d    NaN
dtype: float64

## 4.使用index更多更强大的数据结构支持

##### 很多强大的索引数据结构
* CategoricaIIndex, 基于分类数据的Index，提升性能；
* MultiIndex, 多维索引，用于groupby多维聚合后结果等；
* DatatimeIndex, 事件类型索引，强大的日期和时间的方法支持