# Numpy

## 2.1 Numpy的属性

建立一个`np.array`矩阵

In [101]:
import numpy as np
array = np.array([[1,2,3],
                 [4,5,6]])

print(array)

[[1 2 3]
 [4 5 6]]


In [102]:
#打印array的维度数
print('dimensions:',array.ndim)

#打印array的shape
print('shape:',array.shape)

#打印array的size
print('size:',array.size)

dimensions: 2
shape: (2, 3)
size: 6


## 2.2 Numpy的创建array

一般使用list创建array 

In [103]:
import numpy as np

a = np.array([2,23,4])
print(a)

[ 2 23  4]


np.array矩阵中元素与元素之间没有逗号，

在创建array时，我们可以用`dtype`自定义array的数据类型。

np.int32

np.int64

np.float32

np.float64

In [104]:
a = np.array([2,23,4],dtype=np.int)
print(a.dtype)

int32


创建二维矩阵

In [105]:
a = np.array([[1,2,3],
             [4,5,6]])
print(a.ndim)

2


定义零矩阵

`np.zeros((行数，列数))`

In [106]:
a = np.zeros((3,4))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


定义单位矩阵

`np.ones((行数，列数))`

生成元素非常接近0的矩阵

`np.empty((行数，列数))`

In [107]:
a = np.empty((3,4))
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

生成有序的数列，与range类似

`np.arange(start, end, stride)`

In [108]:
a = np.arange(10,20,2)
print(a)

[10 12 14 16 18]


重新定义矩阵的维度

`.reshape((d1,d2,...,dn))`

In [109]:
a = np.arange(12).reshape((3,4))
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


生成线段

`np.linspace(start,end,No. of segments)`

In [110]:
a = np.linspace(1,10,12).reshape((3,4)) #1~10，分成12段
print(a)

[[ 1.          1.81818182  2.63636364  3.45454545]
 [ 4.27272727  5.09090909  5.90909091  6.72727273]
 [ 7.54545455  8.36363636  9.18181818 10.        ]]


## 2.3 Numpy的基础运算 

In [111]:
import numpy as np
a = np.array([10,20,30,40])
b = np.arange(4)


对应元素相加减乘除

In [112]:
c = a + b
print(c)

c = a - b
print(c)

c = a*b
print(c)

c = a/b
print(c)

[10 21 32 43]
[10 19 28 37]
[  0  20  60 120]
[        inf 20.         15.         13.33333333]


  # Remove the CWD from sys.path while we load stuff.


`**`

表示平方运算

In [113]:
c = b**2
print('b=',b)
print('c=',c)

b= [0 1 2 3]
c= [0 1 4 9]


numpy中的数学函数

np.sin()

np.cos()

np.tan()

若我们想在矩阵中寻找满足某种条件的元素，
如在b矩阵中寻找小于3的元素，
可以写`print(b<3)`

In [114]:
print('b=',b)
print(b<3)

b= [0 1 2 3]
[ True  True  True False]


矩阵的运算不同于元素的运算，不能直接使用`+-*/`这些符号，应当使用函数来实现

In [115]:
a = np.array([[1,1],
             [0,1]])
b = np.arange(4).reshape((2,2))

print('a=',a)
print('a=',b)

a= [[1 1]
 [0 1]]
a= [[0 1]
 [2 3]]


若要实现矩阵乘法，应当使用`np.dot()`

In [116]:
c = a*b
c_dot = np.dot(a,b)
print('c=',c)
print('c_dot=',c_dot)

c= [[0 1]
 [0 3]]
c_dot= [[2 4]
 [2 3]]


也可以使用`c_dot = a.dot(b)`，等价于`c_dot = np.dot(a,b)`

In [117]:
a = np.random.random((2,4))

print(a)
print(np.sum(a)) #对整个array求和
print(np.max(a)) #找最大值
print(np.min(a)) #找最小值

[[0.7155849  0.05791893 0.18271155 0.94662208]
 [0.24100469 0.0310852  0.35954364 0.42643285]]
2.9609038577029847
0.946622081210213
0.03108520321979935


In [118]:
print('a=',a)
print('每行的和：',np.sum(a,axis=1)) #对行求和
print('每列最小值',np.min(a,axis=0)) #每一列中的最小值
print('每行最小值',np.max(a,axis=1)) #每一行中的最大值

a= [[0.7155849  0.05791893 0.18271155 0.94662208]
 [0.24100469 0.0310852  0.35954364 0.42643285]]
每行的和： [1.90283747 1.05806639]
每列最小值 [0.24100469 0.0310852  0.18271155 0.42643285]
每行最小值 [0.94662208 0.42643285]


关于axis中行与列的区分。

axis=0代表跨行，axis=1代表跨列。
如`np.sum(a,axis=1)`表示跨列求和，即讲每一列元素相加，得到行的总和，故结果是每行的和

## P.S. numpy.random
```python
import numpy as np

#根据指定维度生成[0,1)之间均匀分布的数据
np.random.rand(d1,d2,...,dn) 

#根据指定维度生成按标准正态分布的数据
np.random.randn(d1,d2,...,dn) 

#返回在[low, high)均匀分布的随机整数，默认数据类型np.int。若high没填写，默认生成随机数[0, low)
np.random.randint(low, high=None, size=None, dtype='l')  

#生成[0, 1)之间的浮点数
np.random.random(size=None) 

#从给定的一位数组中生成随机数
#当replace=False时，生成的随机数不能重复
#参数p为概率，p的长度与a一致，且p的数据之和为1
np.random.choice(a, size=None, replace=True, p=None) 

#使随机数可预测。相同的seed，每次生成的随机数相同。
np.random.seed() 

#从均匀分布[low,high)中随机取样
np.random.uniform(low,high,size)
```



## Numpy的基础运算2

In [119]:
import numpy as np

A = np.arange(2,14).reshape(3,4)

print(A)

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]


有时我们需要找到某一元素的索引，这里介绍一个找最大/小元素索引的函数`np.argmax()/np.armin()`

In [120]:
print('A矩阵中最小元素的索引：',np.argmin(A))
print('A矩阵中最大元素的索引：',np.argmax(A))

A矩阵中最小元素的索引： 0
A矩阵中最大元素的索引： 11


计算平均值

`np.mean(A)`, `A.mean()`, `np.average(A)`

In [121]:
print(A)
print(A.mean())
print(np.mean(A))
print(np.average(A))

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
7.5
7.5
7.5


计算中位数

`np.median()`

In [122]:
print(np.median(A))

7.5


`np.cumsum()`实现元素累加的功能，运算后维度变为1，栗子如下。

In [123]:
print(A)
print(np.cumsum(A))

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
[ 2  5  9 14 20 27 35 44 54 65 77 90]


`np.diff()`实现元素累差

In [124]:
print(A)
print(np.diff(A))

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]


判断元素是否为0的函数：`np.nonzero()`


In [125]:
print(A)
print(np.nonzero(A))

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
(array([0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2], dtype=int64), array([0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3], dtype=int64))


第一个array表示的是非零项的行索引，第二个array表示非零项的列索引。

再举个例子

In [126]:
A = np.array([[0,0,1],
             [0,1,0],
             [1,0,0]])
print(np.nonzero(A))

(array([0, 1, 2], dtype=int64), array([2, 1, 0], dtype=int64))


由此输出可得出`(0,2), (1,1), (2,0)`元素非零

排序函数`np.sort()`

In [127]:
A = np.arange(14,2,-1).reshape(3,4)
print(A)
print()
print(np.sort(A))

[[14 13 12 11]
 [10  9  8  7]
 [ 6  5  4  3]]

[[11 12 13 14]
 [ 7  8  9 10]
 [ 3  4  5  6]]


可见，默认参数下的sort()函数是逐行排升序

矩阵的转置运算可用

`np.transpose(A)`

或者

`A.T`

In [128]:
print('A=\n',A)
print('A.T=\n',A.T)

A=
 [[14 13 12 11]
 [10  9  8  7]
 [ 6  5  4  3]]
A.T=
 [[14 10  6]
 [13  9  5]
 [12  8  4]
 [11  7  3]]


In [129]:
#A与A的转置相乘
print(np.dot(A,A.T))

[[630 430 230]
 [430 294 158]
 [230 158  86]]


`np.clip(A,min,max)`功能是使矩阵A中所有小于min的元素都等于min，所有大于max的元素都等于max

In [130]:
print(A)
print()
print(np.clip(A,5,9))

[[14 13 12 11]
 [10  9  8  7]
 [ 6  5  4  3]]

[[9 9 9 9]
 [9 9 8 7]
 [6 5 5 5]]


## 2.5 numpy的索引

In [131]:
import numpy as np

A = np.arange(3,15)
print(A[3])

6


In [196]:
A=A.reshape(3,4)
print(A)

#输出索引为2的一行
print(A[2])

#一下两种写法等价
print(A[2][0])
print(A[2, 0])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 8  9 10 11]
8
8


`‘:’`具有与在`list`中类似的功能

如

In [133]:
print(A[1, 1:3])
#打印A第2行第2列和第3列的元素

[8 9]


如果我们用`for`循环遍历矩阵，默认情况下遍历的是矩阵的行。

如

In [134]:
print('A=\n',A)
print()

for row in A:
    print(row)

A=
 [[ 3  4  5  6]
 [ 7  8  9 10]
 [11 12 13 14]]

[3 4 5 6]
[ 7  8  9 10]
[11 12 13 14]


如果我们想遍历输出矩阵的每一列，我们可以**先转置，再输出转置后矩阵的每一行，即是原矩阵的每一列**

In [197]:
print('A=',A)
print()

for column in A.T:
    print(column)

A= [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

[0 4 8]
[1 5 9]
[ 2  6 10]
[ 3  7 11]


如果我们想遍历输出矩阵中的每一个元素，需要先讲矩阵展开成行向量再输出。

如

In [200]:
print('A=\n', A)
print()

print('A.flatten()=\n', A.flatten())
print()
for item in A.flat:
    print(item)

A=
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

A.flatten()=
 [ 0  1  2  3  4  5  6  7  8  9 10 11]

0
1
2
3
4
5
6
7
8
9
10
11


## 2.6 numpy的合并

`np.vstack((A,B))`竖直方向合并

In [137]:
import numpy as np

A = np.array([1,1,1])
B = np.array([2,2,2])

C = np.vstack((A,B))

print('A.shape=',A.shape)
print('C.shape=',C.shape)

A.shape= (3,)
C.shape= (2, 3)


由以上例子可见，A只是一个序列，而合并后的C是2行3列的矩阵

`np.hstack((A,B))`是左右合并

如

In [138]:
D = np.hstack((A,B))
print(D)
print('A.shape=',A.shape)
print('D.shape=',D.shape)

[1 1 1 2 2 2]
A.shape= (3,)
D.shape= (6,)


因为A是一个序列，B也是一个序列，左右合并后的D就仍然是一个序列。

如果我们将序列进行转置

如下所示

In [139]:
print('A=',A)
print('A.T=',A.T)

A= [1 1 1]
A.T= [1 1 1]


横向序列经过转置仍是一个横向序列，无法竖着输出。

通过添加`np.newaxis`我们可以实现竖向序列

如下所示

In [140]:
print(A[np.newaxis, :])
print('添加新行后的A.shape=', A[np.newaxis, :].shape)

[[1 1 1]]
添加新行后的A.shape= (1, 3)


如上所示，我们在行上加了一个`np.newaxis`，由此增加了一个维度

如果我们在列上加`np.newaxis`，如下所示

In [141]:
print(A)
print()
print(A[:, np.newaxis])

[1 1 1]

[[1]
 [1]
 [1]]


还有一种更好用的连接array的函数`np.concatenate((a1,a2,...), axis=0/1)`

In [142]:
A = A[:, np.newaxis]
B = B[:, np.newaxis]
print('A=\n',A)
print('B=\n',B)

C = np.concatenate((A,B,B,A), axis=1)
print(C)

A=
 [[1]
 [1]
 [1]]
B=
 [[2]
 [2]
 [2]]
[[1 2 2 1]
 [1 2 2 1]
 [1 2 2 1]]


## 2.7 array的分割

In [143]:
import numpy as np

In [144]:
A = np.arange(12).reshape((3,4))
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


`np.split(A, numbers, axis=0/1)`可分割矩阵

In [145]:
print(np.split(A, 2, axis=1))

[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11]])]


In [146]:
print(np.split(A, 3, axis=0))

[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]


若用`split()`进行不均等分割会报错

那如何进行不等分割呢？

可以使用`np.array_split()`

下面将矩阵A按列分成3块。

In [147]:
print(np.array_split(A, 3, axis=1))

[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2],
       [ 6],
       [10]]), array([[ 3],
       [ 7],
       [11]])]


同时我们也可以使用`np.vsplit()`和`np.hsplit()`进行竖向和横向的分割。

In [148]:
print(np.vsplit(A, 3))

[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]


In [149]:
print(np.hsplit(A, 2))

[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11]])]


## 2.8 copy&deep copy

In [150]:
a = np.arange(4)
print(a)

[0 1 2 3]


In [151]:
b = a 
c = a
d = b
print(a, b, c, d)

[0 1 2 3] [0 1 2 3] [0 1 2 3] [0 1 2 3]


In [152]:
a[0] = 11

In [153]:
print(a)
print(b, c, d)

[11  1  2  3]
[11  1  2  3] [11  1  2  3] [11  1  2  3]


In [154]:
b is a

True

In [155]:
d is a

True

由上可见，在numpy中，如果用赋值符号，完成的其实是引用的工作，如上
```python
b = a
c = a
d = b
```
这样b, c, d和a其实是同一个变量。若改变其中的一个，其他的也会同时改变。
可以用`is`来判断两个变量名是否指向同一个变量。

若想要把a的值赋给b，又不想将它们关联起来，可以使用`.copy()`，这称为`deep copy`

如下所示

In [156]:
b = a.copy()
b[0] = 0

In [157]:
print(b)
print(a)

[0 1 2 3]
[11  1  2  3]


In [158]:
a[3]=44

In [159]:
print(a)

[11  1  2 44]


In [160]:
print(b)

[0 1 2 3]


这样通过deep copy，完成了赋值的功能。

# Pandas

## 3.1 pandas基本介绍

`pandas`更像一个字典形式的`numpy`，我们可以给它不同的行和不同的列重新命名。

In [161]:
import pandas as pd
import numpy as np

我们首先创建一个pandas的**序列**

In [162]:
s = pd.Series([1,3,6,np.nan,44,1])
#np.nan就是空，什么也没有

In [163]:
print(s)

0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64


由上可见，s自动被添加了序号，同时显示了数据的格式


接下来创建一个`DataFrame`

In [164]:
dates = pd.date_range('20180913',periods=6)

In [165]:
print(dates)

DatetimeIndex(['2018-09-13', '2018-09-14', '2018-09-15', '2018-09-16',
               '2018-09-17', '2018-09-18'],
              dtype='datetime64[ns]', freq='D')


`dates`同样是一个序列，它的数据类型是日期类型

In [166]:
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

In [167]:
print(df)

                   a         b         c         d
2018-09-13  0.572266 -0.793933 -0.970965  0.220683
2018-09-14 -0.317478 -0.767949 -1.034387  0.455710
2018-09-15  2.563476 -0.160756 -1.594632  0.644291
2018-09-16 -1.129523 -1.594567 -1.685049  0.748151
2018-09-17  0.177921  0.054337 -0.343666  0.993270
2018-09-18  0.699107  0.160769  0.826375  0.764883


这样我们就指定了df这个dataframe的行索引。

接下来我们用默认的索引值创建一个dataframe

In [168]:
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)

   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11


我们可以用一个字典来创建一个DataFrame

In [169]:
df2 = pd.DataFrame({'A':1.,
                   'B':pd.Timestamp('20180913'),
                   'C':pd.Series(1,index=list(range(4)),dtype='float32'),
                   'D':np.array([3]*4,dtype='int32'),
                   'E':pd.Categorical(["test","train","test","train"]),
                   'F':'foo'})
print(df2)

     A          B    C  D      E    F
0  1.0 2018-09-13  1.0  3   test  foo
1  1.0 2018-09-13  1.0  3  train  foo
2  1.0 2018-09-13  1.0  3   test  foo
3  1.0 2018-09-13  1.0  3  train  foo


In [170]:
print(np.array([3]*4))

[3 3 3 3]


上述定义中`np.array([3]*4)`即创建了一个序列的array，而3这个元素重复了4遍，所以我们可以用这种方式来缩减代码量。

我们可以用`.dtypes`来查看数据类型。

如下所示

In [171]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

In [172]:
df2.index

Int64Index([0, 1, 2, 3], dtype='int64')

通过打印index，我们可以查看行索引及其数据类型

In [173]:
df2.columns

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

同样通过打印columns，我们可以查看列索引及其类型

我们还可以通过`.values`查看里面的所有值

In [174]:
df2.values

array([[1.0, Timestamp('2018-09-13 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2018-09-13 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2018-09-13 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2018-09-13 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [175]:
df2.describe()

Unnamed: 0,A,C,D
count,4.0,4.0,4.0
mean,1.0,1.0,3.0
std,0.0,0.0,0.0
min,1.0,1.0,3.0
25%,1.0,1.0,3.0
50%,1.0,1.0,3.0
75%,1.0,1.0,3.0
max,1.0,1.0,3.0


使用`.describe()`可以简单地对df里的数据进行处理

df同样可以通过`.T`来实现转置

In [176]:
df2.T

Unnamed: 0,0,1,2,3
A,1,1,1,1
B,2018-09-13 00:00:00,2018-09-13 00:00:00,2018-09-13 00:00:00,2018-09-13 00:00:00
C,1,1,1,1
D,3,3,3,3
E,test,train,test,train
F,foo,foo,foo,foo


我们还可以使用`sort_index()`对索引进行排序

In [177]:
#对列按降序排序
df2.sort_index(axis=1, ascending=False)

Unnamed: 0,F,E,D,C,B,A
0,foo,test,3,1.0,2018-09-13,1.0
1,foo,train,3,1.0,2018-09-13,1.0
2,foo,test,3,1.0,2018-09-13,1.0
3,foo,train,3,1.0,2018-09-13,1.0


In [178]:
#对行按降序排序
df2.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D,E,F
3,1.0,2018-09-13,1.0,3,train,foo
2,1.0,2018-09-13,1.0,3,test,foo
1,1.0,2018-09-13,1.0,3,train,foo
0,1.0,2018-09-13,1.0,3,test,foo


同样，我们可以通过`sort_values()`对值进行排序

下面我们对`df2`中的`E`列进行排序

In [179]:
df2.sort_values(by='E')

Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-09-13,1.0,3,test,foo
2,1.0,2018-09-13,1.0,3,test,foo
1,1.0,2018-09-13,1.0,3,train,foo
3,1.0,2018-09-13,1.0,3,train,foo


# 3.2 pandas选择数据

如何按标签或数据大小选择数据？

先创建一个DataFrame

In [180]:
dates = pd.date_range('20130101',periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


In [181]:
print(df['A'],df.A)

2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int32 2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int32


可见`df['A']`和`df.A`的效果是一样的

我们还可以按切片进行选择

In [182]:
print(df[0:3], df['20130101':'20130103'])

            A  B   C   D
2013-01-01  0  1   2   3
2013-01-02  4  5   6   7
2013-01-03  8  9  10  11             A  B   C   D
2013-01-01  0  1   2   3
2013-01-02  4  5   6   7
2013-01-03  8  9  10  11


以上两种切片方式是等价的，都是对行进行切片

选择数据有两种方式：
1. 根据数据的索引标签选择
2. 根据数据的行列数来选择

`.loc[]`通过索引标签来选择特定的数据

如下。

In [183]:
print(df.loc['20130102'])

A    4
B    5
C    6
D    7
Name: 2013-01-02 00:00:00, dtype: int32


我们不仅可以选横向标签，也可以选择纵向标签

In [184]:
print(df.loc[:,['A','B']])
#选择所有行，A,B两列

             A   B
2013-01-01   0   1
2013-01-02   4   5
2013-01-03   8   9
2013-01-04  12  13
2013-01-05  16  17
2013-01-06  20  21


In [185]:
print(df.loc['20130102',['A','B']])

A    4
B    5
Name: 2013-01-02 00:00:00, dtype: int32


`iloc()`通过行列数选择数据

In [186]:
print(df.iloc[3])
#打印第三行的数据

A    12
B    13
C    14
D    15
Name: 2013-01-04 00:00:00, dtype: int32


In [187]:
print(df)
print()
print(df.iloc[3, 1])
#打印第4行第2列的数据

             A   B   C   D
2013-01-01   0   1   2   3
2013-01-02   4   5   6   7
2013-01-03   8   9  10  11
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23

13


In [188]:
print(df)
print()
print(df.iloc[3:5, 1:3])
#切片选择

             A   B   C   D
2013-01-01   0   1   2   3
2013-01-02   4   5   6   7
2013-01-03   8   9  10  11
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23

             B   C
2013-01-04  13  14
2013-01-05  17  18


In [189]:
print(df)
print()
print(df.iloc[[1,3,5], 1:3])
#行单独选择，列切片选择

             A   B   C   D
2013-01-01   0   1   2   3
2013-01-02   4   5   6   7
2013-01-03   8   9  10  11
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23

             B   C
2013-01-02   5   6
2013-01-04  13  14
2013-01-06  21  22


还有一种筛选方式：按条件筛选

In [190]:
print(df)
print()
print(df[df.A > 8])

             A   B   C   D
2013-01-01   0   1   2   3
2013-01-02   4   5   6   7
2013-01-03   8   9  10  11
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23

             A   B   C   D
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23
