### Indexing ###

#### Pandas User Guide ####
EN：https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing <br/>
CN：https://www.pypandas.cn/docs/user_guide/indexing.html#%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86

The Python and NumPy indexing operators [] and attribute operator . provide quick and easy access to pandas data structures across a wide range of use cases. 

#### Summary ####
一 选取范围，返回df或series<br>
1、df属性操作“.”， 只能是列标签labe，即df.A<br>
2、df[]索引操作“[ ]”列用列标签label<br>
3、loc：行用行索引index，列用列标签label<br>
4、iloc：行和列都用index<br>
*只有一个参数时，默认进行行选择<br>

二 选择某个元素，返回标量值<br>
1、at：指定行index和列label，定位df中某个元素<br>
2、iat：指定行index和列index，定位df某个元素<br>

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "A":np.arange(5),
    "B":pd.Timestamp("20190901"),
    "C":pd.Series(1, index=np.arange(5), dtype="float32"),
    "D":[1,2,3,4,5],
    "E":pd.Categorical(["one","two","three","four","five"]),
    "F":['str1','str2','str3','str4','str5']
});

df

Unnamed: 0,A,B,C,D,E,F
0,0,2019-09-01,1.0,1,one,str1
1,1,2019-09-01,1.0,2,two,str2
2,2,2019-09-01,1.0,3,three,str3
3,3,2019-09-01,1.0,4,four,str4
4,4,2019-09-01,1.0,5,five,str5


##### 1.Selecting Row #####

In [2]:
#1.1 只取一行

#　正　df.iloc[]
#　方式1: df.iloc[行号]    →返回series;   
# 方式2：df.iloc[[行号]] →返回df
#　误　df[] 　（　df[] 的用法只能选取列、不能直接使用行号）　：　○：df[列名]；　×：df[行号]）

#这里的行号，即位置索引（行对应的index）

print(df.iloc[0])
print(df.iloc[[0]])
print(type(df.iloc[0]))
print(type(df.iloc[[0]]))

A                      0
B    2019-09-01 00:00:00
C                      1
D                      1
E                    one
F                   str1
Name: 0, dtype: object
   A          B    C  D    E     F
0  0 2019-09-01  1.0  1  one  str1
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [3]:
df.A

0    0
1    1
2    2
3    3
4    4
Name: A, dtype: int64

In [4]:
df['A']

0    0
1    1
2    2
3    3
4    4
Name: A, dtype: int64

In [5]:
#1.2 取连续几行（行号之间用冒号：分隔）

# 方式1:df.iloc[行号start： 行号end] →返回df
# 方式2: df[行号start： 行号end]  →返回df
# 返回的行，包括start行，不包含end行（含头不含尾）

print(df.iloc[1:3])
print(df[1:3])

   A          B    C  D      E     F
1  1 2019-09-01  1.0  2    two  str2
2  2 2019-09-01  1.0  3  three  str3
   A          B    C  D      E     F
1  1 2019-09-01  1.0  2    two  str2
2  2 2019-09-01  1.0  3  three  str3


In [6]:
#1.3 取不连续的行（行号之间用逗号，分隔）

# df.iloc[[行号，行号]]  →返回df

print(df.iloc[[0,2,4]])

   A          B    C  D      E     F
0  0 2019-09-01  1.0  1    one  str1
2  2 2019-09-01  1.0  3  three  str3
4  4 2019-09-01  1.0  5   five  str5


##### 2.Selectiing Column #####

In [7]:
#2.1只取一列

#返回series
df.A   #用属性操作“.”
df['A'] #索引操作“[ ]”
df.loc[:,'A']
df.iloc[:,0]

#返回df
df[['A']]
df.loc[:,['A']]
df.iloc[:,[0]] 

Unnamed: 0,A
0,0
1,1
2,2
3,3
4,4


In [8]:
#2.2取连续几列（列名之间用冒号：分隔）

df.loc[:,'A':'D'] #方式1
df.iloc[:,0:4]    #方式2

Unnamed: 0,A,B,C,D
0,0,2019-09-01,1.0,1
1,1,2019-09-01,1.0,2
2,2,2019-09-01,1.0,3
3,3,2019-09-01,1.0,4
4,4,2019-09-01,1.0,5


In [9]:
#2.3取不连续的列（列名之间用逗号，分隔）

df[['A','C']] # 方式1
df.loc[:,['A','C']] # 方式2
df.iloc[:,[0,2]]    #方式3

Unnamed: 0,A,C
0,0,1.0
1,1,1.0
2,2,1.0
3,3,1.0
4,4,1.0


##### 3.Selecting both Row and Column #####

In [10]:
#方式1:df.iloc[行号，列号]

df.iloc[[1,3],[0]]
df.iloc[[1,3],0]
df.iloc[[1,3],1:3]
df.iloc[[1,3],[1,3]]

Unnamed: 0,B,D
1,2019-09-01,2
3,2019-09-01,4


In [11]:
#方式2： df.loc[行号，列名]

df.loc[1,["A"]]
df.loc[[1],["A","D"]]
df.loc[[1,3],"A":"D"]
df.loc[[1,3],["A","D"]]

Unnamed: 0,A,D
1,1,2
3,3,4


#### ※布尔索引  ####

可以使用筛选条件返回布尔值来过滤数据。如使用操作符：<b> | for or， &for and, ~for not<b>

In [12]:
df[df['D'] > 2]

Unnamed: 0,A,B,C,D,E,F
2,2,2019-09-01,1.0,3,three,str3
3,3,2019-09-01,1.0,4,four,str4
4,4,2019-09-01,1.0,5,five,str5


In [13]:
cond = df['E'].map(lambda x: x.startswith('o'))
df[cond]

Unnamed: 0,A,B,C,D,E,F
0,0,2019-09-01,1.0,1,one,str1


In [14]:
 df[[x.startswith('t') for x in df['E']]]

Unnamed: 0,A,B,C,D,E,F
1,1,2019-09-01,1.0,2,two,str2
2,2,2019-09-01,1.0,3,three,str3


In [15]:
df[(df['C']==1.0) & (df['D']==5)]

Unnamed: 0,A,B,C,D,E,F
4,4,2019-09-01,1.0,5,five,str5


#### ※避免chained indexing（链式索引）  ####



#使用链式索引时为什么分配失败？

In [16]:
dfmi = pd.DataFrame([list('abcd'),
                     list('efgh'),
                     list('ijkl'),
                     list('mnop')],
                    columns=pd.MultiIndex.from_product([['one', 'two'],['first', 'second']]))

dfmi

Unnamed: 0_level_0,one,one,two,two
Unnamed: 0_level_1,first,second,first,second
0,a,b,c,d
1,e,f,g,h
2,i,j,k,l
3,m,n,o,p


In [17]:
dfmi['one']['second']

0    b
1    f
2    j
3    n
Name: second, dtype: object

In [18]:
dfmi.loc[:, ('one', 'second')]

0    b
1    f
2    j
3    n
Name: (one, second), dtype: object

#### 比较以上两种访问方法，返回结果相同，但推荐使用方法二 ####

1，dfmi['one']选择列的第一级并返回单索引的DataFrame。然后另一个操作dfmi_with_one['second']选择索引'second'。有上一次操作的中间变量dfmi_with_one返回。pandas将这两次[][]操作视为单独的事件。例如，单独调用__getitem__，将它们视为一个接一个的线性操作<br>

2，df.loc[:,('one','second')]才做将一个嵌套的元组传递(slice(None),('one','second'))给一次单独的调用 __getitem__。此时pandas将其作为单次才做来处理。另外，这种操作可以更快，并且允许对两个索引轴进行定位。<br>

#### 使用链式索引时为什么分配失败？(settingWithCopy警告)  ####

因为链式索引会引发不可预测的结果。原因是，Python解释器是如此执行代码的：<br>

<br>
dfmi['one']['second'] = value<br>
↓<br>
dfmi.__getitem__('one').__setitem__('second', value)<br>

<br>
dfmi.loc[:, ('one', 'second')] = value<br>
↓<br>
dfmi.loc.__setitem__((slice(None), ('one', 'second')), value)<br>


因为调用 \_\_getitem\_\_' 的返回值，我们很难预测它会返回一个视图或一个副本（这取决于数组的内存布局，pandas并不能保证返回的是哪个）。<br>
因此无法预测第一种方式在执行 \_\_getitem\_\_ 后，再调用 \_\_setitem\_\_ 是否会修改到dfmi。则pandas抛出SettingWithCopy警告<br>

重点是：dfmi.loc.\_\_getitem\_\_(idx)无法保证返回值是一个视图或副本,<br>
所以尽量少使用链式索引，以及关注SettingWithCopy警告<br>