# Pandas的索引index的用途

把数据存储于普通的column列也能用于数据查询，那使用index有什么好处？

index的用途总结：
1. 更方便的数据查询;
2. 使用index可以获得性能提升;
3. 自动的数据对其功能;
4. 更多更强大的数据支持;

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../datas/ratings.csv")

In [3]:
df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,27,3.0,964986456
1,1,7,2.0,964981761
2,1,13,5.0,964985228
3,1,1,5.0,964985919
4,1,28,1.0,964983920


In [4]:
df.count()

userId       999
movieId      999
rating       999
timestamp    999
dtype: int64

## 1. 使用index查询数据

In [6]:
# drop=False，让索引还保持在column
df.set_index("userId",inplace=True,drop=False)

In [7]:
df.head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,27,3.0,964986456
1,1,7,2.0,964981761
1,1,13,5.0,964985228
1,1,1,5.0,964985919
1,1,28,1.0,964983920


In [8]:
df.index

Int64Index([  1,   1,   1,   1,   1,   1,   1,   1,   1,   1,
            ...
             99,  99, 100, 100, 100, 100, 100, 100, 100, 100],
           dtype='int64', name='userId', length=999)

In [9]:
# 使用index的查询方法
df.loc[70].head(5)

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
70,70,30,3.0,964986999
70,70,49,4.0,964987769
70,70,31,1.0,964983157
70,70,6,4.0,964984777
70,70,9,5.0,964981130


In [10]:
# 使用column的condition查询方法
df.loc[df["userId"] == 70].head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
70,70,30,3.0,964986999
70,70,49,4.0,964987769
70,70,31,1.0,964983157
70,70,6,4.0,964984777
70,70,9,5.0,964981130


# 2. 使用index会提升查询性能
* 如果index是唯一的，Pandas会使用哈希表优化，查询性能为O(1);
* 如果index不是唯一的，但是有序，Pandas会使用二分查找算法，查询性能为O(logN);
* 如果index是完全随机的，那么每次查询都要扫描全表，查询性能为O(N);

<img src="../pics/复杂度.png" align="left" width=600/>

### 实验1：完全随机的顺序查询

In [21]:
# 将数据随机打散
from sklearn.utils import shuffle
df_shuffle = shuffle(df)

In [22]:
df_shuffle.head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
18,18,17,1.0,964983018
12,12,5,2.0,964983165
24,24,44,3.0,964984903
54,54,17,5.0,964985387
47,47,41,5.0,964983915


In [23]:
#索引是否是递增的
df_shuffle.index.is_monotonic_increasing

False

In [25]:
df_shuffle.index.is_unique

False

In [26]:
# 计时，查询id=70数据性能
%timeit df_shuffle.loc[70]

365 µs ± 8.66 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### 实验二：将index排序后的查询

In [27]:
df_sorted = df_shuffle.sort_index()

In [29]:
df_sorted.head()

Unnamed: 0_level_0,userId,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,9,3.0,964985920
1,1,9,1.0,964986095
1,1,28,1.0,964983920
1,1,1,5.0,964985919
1,1,7,2.0,964981761


In [30]:
# 索引是否是递增的
df_sorted.index.is_monotonic_increasing

True

In [31]:
df_sorted.index.is_unique

False

In [32]:
%timeit df_sorted.loc[70]

278 µs ± 20.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


## 3. 使用index能自动对其数据
包括Series和DataFrame

In [33]:
s1 = pd.Series([1,2,3],index=list("abc"))

In [34]:
s1

a    1
b    2
c    3
dtype: int64

In [35]:
s2 = pd.Series([2,3,4],index=list("bcd"))

In [36]:
s2

b    2
c    3
d    4
dtype: int64

In [37]:
s1+s2

a    NaN
b    4.0
c    6.0
d    NaN
dtype: float64

## 4. 使用index更多更强大的数据结构支持

*很多强大的索引数据结构*

* Categoricallndex，基于分类数据的Index,提升性能;
* Multilndex，多维索引，用于groupby多维聚合结果等;
* Datetimelndex，时间类型索引，强大的日期和时间方法支持;