# 选取数据

Pandas 对于数据的选取采用了不同类型的处理方法，比如 .loc, .iloc 等

In [1]:
import pandas as pd
import numpy as np

data = np.arange(-12, 12).reshape((6, 4))
df = pd.DataFrame(
  data, 
  index=list("abcdef"), 
  columns=list("ABCD"))
print(df)


# DataFrame 会分 Column 和 Row（index）。

    A   B   C   D
a -12 -11 -10  -9
b  -8  -7  -6  -5
c  -4  -3  -2  -1
d   0   1   2   3
e   4   5   6   7
f   8   9  10  11


### 选Column

In [2]:
# 搞机器学习，通常我们的 Column 是特征，Row 是数据样本，
#  在要对某个特征进行分析的时候，比如要做特征数值分布的分析，我们得把特征取出来吧
df["B"]

a   -11
b    -7
c    -3
d     1
e     5
f     9
Name: B, dtype: int32

In [3]:
print("numpy:\n", data[:, [2,1]])
print("\ndf:\n", df[["C", "B"]])


numpy:
 [[-10 -11]
 [ -6  -7]
 [ -2  -3]
 [  2   1]
 [  6   5]
 [ 10   9]]

df:
     C   B
a -10 -11
b  -6  -7
c  -2  -3
d   2   1
e   6   5
f  10   9


### loc

In [4]:
# 在 Numpy 中选取数据一般都是按照在维度上的排序来定位的
# 而在 Pandas 中，选取数据的方式则是按照标签的位置来定位的
# 因此，在 Pandas 中，我们可以用标签来选取数据，而不是用索引来选取数据


data[2:3, 1:3]

#对应[2,1]和[3,3]的元素

array([[-3, -2]])

In [7]:
print(df.loc["c":"d", "B":"D"])

#不同于Numpy的结果，对应[c,d]行的列[B,C,D]的结果
#       B   C   D
# c  2.0  3.0  4.0
# d  5.0  6.0  7.0

   B  C  D
c -3 -2 -1
d  1  2  3


In [10]:
print("numpy:\n", data[[3,1], :])
print("\ndf:\n", df.loc[["d", "b"], :])

numpy:
 [[ 0  1  2  3]
 [-8 -7 -6 -5]]

df:
    A  B  C  D
d  0  1  2  3
b -8 -7 -6 -5
