### loc、iloc函数

主要涉及如何高效地访问DataFrame里面的数据，原则上loc是用“标签”名来访问（字符串），iloc是用行号来访问（整数）。

In [13]:
import pandas as pd
df = pd.DataFrame({'A': 'a a b'.split(), 'B': [1, 2, 3], 'C': [4, 6, 5]}, index=['Aa', 'Bb', 'Cc'])
df_1 = pd.DataFrame({'A': 'a b c'.split(), 'B': [1, 2, 3], 'C': [4, 6, 5]}, index=['Aa', 'Bb', 'Cc'])
print(df)

    A  B  C
Aa  a  1  4
Bb  a  2  6
Cc  b  3  5


In [10]:
# 访问列
df_c_1 = df['A']  # 退化为Series
df_c_2 = df[['A']]  # 仍然为DataFrame，只有一个columns
df_c_3 = df.loc[:, 'A']  # 用loc()函数，退化为Series
df_c_4 = df.loc[:, ['A']]  # 用loc()函数，仍然为DataFrame
df_c_5 = df.iloc[:, 0]  # 用iloc()函数，退化为Series
df_c_6 = df.iloc[:, [0]]  # 用iloc()函数，仍然为DataFrame

columns = list(df.columns)  # 这个例子可以用于更灵活的情况
columns_filtered = [i for i in columns if i=='A']
df_c_7 = df[columns_filtered]

print(df_c_1)
print(df_c_2)
print(df_c_3)
print(df_c_4)
print(df_c_5)
print(df_c_6)
print(df_c_7)

Aa    a
Bb    a
Cc    b
Name: A, dtype: object
    A
Aa  a
Bb  a
Cc  b
Aa    a
Bb    a
Cc    b
Name: A, dtype: object
    A
Aa  a
Bb  a
Cc  b
Aa    a
Bb    a
Cc    b
Name: A, dtype: object
    A
Aa  a
Bb  a
Cc  b
    A
Aa  a
Bb  a
Cc  b


从结果来看，有如下理解：
（1）DataFrame[][]和DataFrame.loc[]、DataFrame.iloc[]的取数逻辑感觉是反过来的，前者是先columns后rows，后者是先rows后columns；
（2）注意这里退化为Series和保持DataFrame的对比，逻辑是一致的，为了保持为df，需要多加一个[]；
（3）访问列的[]里面，本质上是一个list，所以可以做得更加灵活、通用一点（当然结果就是一个DataFrame了）；
（4）对列的访问和筛选类似于sas里的keep和drop。

In [16]:
# 访问行
df_r_1 = df.loc['Aa']  # 用loc()函数，退化为Series
df_r_2 = df.loc[['Aa']]  # 用loc()函数，仍然为DataFrame
df_r_3 = df.iloc[0]  # 用iloc()函数，退化为Series
df_r_4 = df.iloc[[0]]  # 用iloc()函数，仍然为DataFrame

df_r_5 = df[ df['A']=='a' ]  # 条件筛选

df_r_6 = df[ df_1['A']=='a' ]  # 用另一个df的条件也可以，但是要注意行数要一致
df_r_7 = df[ [True, False, True] ]  # 还可以自己定义一个bool的list

print(df_r_1)
print(df_r_2)
print(df_r_3)
print(df_r_4)
print(df_r_5)
print(f"[]里面的值df['A']=='a'是：{df['A']=='a'}")
print(df_r_6)
print(df_r_7)

A    a
B    1
C    4
Name: Aa, dtype: object
    A  B  C
Aa  a  1  4
A    a
B    1
C    4
Name: Aa, dtype: object
    A  B  C
Aa  a  1  4
    A  B  C
Aa  a  1  4
Bb  a  2  6
[]里面的值df['A']=='a'是：Aa     True
Bb     True
Cc    False
Name: A, dtype: bool
    A  B  C
Aa  a  1  4
    A  B  C
Aa  a  1  4
Cc  b  3  5


从结果来看，有如下理解：
（1）是否退化为Series和前面的逻辑保持一致；
（2）更多的时候用条件筛选的情况，类似于sas里的where和if；
（3）但是比sas灵活的点，是[]里的条件并不一定来自于df本身，也可以是其他的行数相同的df_1，或者完全是自己生成的bool list。

In [19]:
# 访问值
print(df['A']['Aa'])
print(df['A'][1])
print(df.loc['Aa', 'B'])
print(df.iloc[2, 1])

a
a
1
3
