In [1]:
#书籍：Python for Data Analysis, 2nd Edition

在数值计算领域，说Numpy是python最重要的包也不为过。在numpy中有下面这些东西：

    ndarray, 一个有效的多维数组，能提供以数组为导向的快速数值计算和灵活的广播功能（broadcasting）

    便利的数学函数

    用于读取/写入(reading/writing)数据到磁盘的便利工具

    线性代数，随机数生成，傅里叶变换能力

    可以用C API来写C，C++，或FORTRAN

通过学习理解numpy中数组和数组导向计算，能帮我们理解pandas之类的工具。

# 4.1The Numpy ndarray:A Mulitdimensional Array Object 

N-dimensional array object（n维数组对象）, or ndarray，这是numpy的关键特征。先来尝试一下，生成一个随机数组

In [2]:
import numpy as np

In [3]:
#Generate some random data
data=np.random.randn(2,3)

In [4]:
data

array([[-2.32784509,  1.99213659,  0.03733577],
       [-1.40506878,  1.59570835,  0.8179657 ]])

In [5]:
#进行一些数学运算

In [6]:
data*10

array([[-23.27845092,  19.92136588,   0.37335767],
       [-14.05068784,  15.95708352,   8.17965698]])

In [7]:
data

array([[-2.32784509,  1.99213659,  0.03733577],
       [-1.40506878,  1.59570835,  0.8179657 ]])

In [8]:
data+data

array([[-4.65569018,  3.98427318,  0.07467153],
       [-2.81013757,  3.1914167 ,  1.6359314 ]])

In [9]:
data.shape

(2, 3)

In [10]:
data.dtype

dtype('float64')

# 1.Greating ndarrays(创建n维数组）

In [11]:
#最简单的方法使用array函数，输入一个序列即可，比如list：

In [12]:
data1=[6,7.5,8,0,1]
arr1=np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [13]:
#嵌套序列能被转换为多维数组

In [14]:
data2=[[1,2,3,4],[5,6,7,8]]
arr2=np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [15]:
#因为data2是一个list of list，所以arr2维度是2，我们能用ndim和shape属性来确认一下

In [16]:
arr2.ndim

2

In [18]:
arr2.shape

(2, 4)

In [19]:
#除非主动声明，否则np.array会自动给data搭配适合的类型#除非主动声明，否则np.array#除非主动声明，否则np.array

In [20]:
arr1.dtype

dtype('float64')

In [21]:
arr2.dtype

dtype('int32')

In [22]:
#除了np.array,还有一些其他函数能够创建数组，比如zeros,ones,另外还可以在一个tuple里指定shape

In [24]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [25]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [26]:
np.empty((2,3,2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [27]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

# 2 Data Types for ndarrays

In [28]:
arr1=np.array([1,2,3],dtype=np.float64)

In [29]:
arr2=np.array([1,2,3],dtype=np.int32)

In [30]:
arr1.dtype

dtype('float64')

In [31]:
arr2.dtype

dtype('int32')

dtype才是numpy能灵活处理其他外界数据的原因。

类型表格：

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [32]:
#可以用astype来转换类型

In [34]:
arr=np.array([1,2,3,4,5])
arr.dtype

dtype('int32')

In [35]:
float_arr=arr.astype(np.float64)

In [36]:
float_arr.dtype

dtype('float64')

In [37]:
#上面是把int变为float，如果是把float变为int，小数点后的部分会被丢弃

In [38]:
arr=np.array([3.7,-1.2,-2.6,0.5,12.9,10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [40]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

#还可以用astype把string里的数字变为实际的数字

In [42]:
numeric_strings=np.array(['1.25','-9.6','42'],dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [43]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [44]:
#要十分注意numpy.string_类型，这种类型的长度是固定的，所以可能会直接截取部分输入而不给警告

In [45]:
#如果转换casting失败的话，会给一个valueError提示

In [46]:
#可以用其他数组的dtype直接来制定类型

In [47]:
int_array=np.arange(10)
calibers=np.array([.22,.270,.357,.380,.44,.50],dtype=np.float64)

In [48]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [49]:
#还可以利用类型的缩写，比如u4就代表unit32


In [50]:
empty_unit32=np.empty(8,dtype='u4')
empty_unit32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

In [51]:
#记住，astype总是会返回一个新的数组

# 3 Arithmetic with Numpy Arrays（数组计算）

数组之所以重要，是因为不用写for循环就能表达很多操作，这种特性叫做vectorization(向量化)。任何两个大小相等的数组之间的运算，都是element-wise（点对点）

In [52]:
arr=np.array([[1.,2.,3.],[4.,5.,6.]])

In [53]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [54]:
arr*arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [55]:
arr-arr

array([[0., 0., 0.],
       [0., 0., 0.]])

element-wise我翻译为点对点，就是指两个数组的运算，在同一位置的原素间
才会进行运算，这种算术操作如果涉及标量scalar的话，会涉及到数组的每一元素

In [57]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [58]:
arr**0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [59]:
arr2=np.array([[0.,4.,1.],[7.,2.,12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [60]:
arr2>arr

array([[False,  True, False],
       [ True, False,  True]])

# 4.Basic Indexing and Slicing(基本的索引和切片）

In [61]:
arr=np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [62]:
arr[5]


5

In [63]:
arr[5:8]

array([5, 6, 7])

In [64]:
arr[5:8]=12

In [65]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

这里把12赋给arr[5:8]，其实用到了broadcasted（我觉得应该翻译为广式转变）。这里有一个比较重要的概念需要区分，python内建的list与numpy的array有个明显的区别，这里array的切片后的结果只是一个views（视图），用来代表原有array对应的元素，而不是创建了一个新的array。但list里的切片是产生了一个新的list：

In [66]:
arr_slice=arr[5:8]
arr_slice

array([12, 12, 12])

In [67]:
#如果我们改变arr_slice的值，会反映在原始的数组arr上

In [68]:
arr_slice[1]=12345

In [69]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [70]:
#[:]这个赋值给所有元素

In [71]:
arr_slice[:]=64

In [72]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])



之所以这样设计是出于性能和内存的考虑，毕竟如果总是复制数据的话，会很影响运算时间。当然如果想要复制，可以使用copy()方法，比如arr[5:8].copy()

在一个二维数组里，单一的索引指代的是一维的数组：


In [73]:
arr2d=np.array([[1,2,3],[4,5,6],[7,8,9]])

In [74]:
arr2d[2]

array([7, 8, 9])

In [75]:
#有两种方式可以访问单一元素

In [76]:
arr2d[0][2]

3

In [77]:
arr2d[0,2]

3

我们可以把下图中的axis0看做row（行），把axis1看做column（列）：

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [79]:
arr3d=np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])

In [81]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [82]:
#标量和数组都能赋给arr3d[0]

In [84]:
old_values=arr3d[0].copy()

In [85]:
arr3d[0]=42

In [86]:
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [87]:
arr3d[0]=old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [88]:
#一定要牢记这些切片后返回的数组都是views

# Indexing with slices用切片索引

一维的话和python里的list没有什么差别

In [90]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [91]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [92]:
#二维的话，数组的切片有点不同

In [93]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])



可以看到，切片是沿着axis 0（行）来处理的。所以，数组中的切片，是要沿着设置的axis来处理的。我们可以把arr2d[:2]理解为“选中arr2d的前两行”。

当然，给定多个索引后，也可以使用复数切片：


In [94]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [95]:
arr2d[:2,1:]#前两行，第二列之后

array([[2, 3],
       [5, 6]])

记住，选中的是array view。通过混合整数和切片，能做低维切片。比如，我们选中第二行的前两列：

In [96]:
arr2d[1,:2]

array([4, 5])

In [97]:
#选中第三列的前两行

In [98]:
arr2d[:2,2]

array([3, 6])

In [99]:
#冒号表示提取整个axis（轴）

In [100]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [101]:
#赋值也很方便

# 5 Boolean Indexing布尔索引

假设我们的数组数据里有一些重复。这里我们用numpy.random里的randn函数来随机生成一些离散数据：

In [102]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [103]:


data = np.random.randn(7, 4)
data



array([[-0.0744656 , -0.46295564, -0.355086  , -0.76845533],
       [-0.86182359, -0.48504551, -1.77050692,  0.04185636],
       [-0.50011007, -0.06722924,  0.62484954,  0.16900918],
       [ 0.16647502,  1.80172903, -0.15602293, -1.63679606],
       [ 1.46117844,  1.41890386, -2.42666996,  1.10531269],
       [ 0.31969709,  0.56008628,  0.7146189 ,  1.02053604],
       [-0.28256571, -0.32414801,  1.57606625, -1.1605316 ]])

假设每一个name对应data数组中的一行，我们想要选中name为'Bob'的所有行。就像四则运算，用比较运算符（==）：

In [104]:
names=='Bob'

array([ True, False, False,  True, False, False, False])

In [105]:
data[names=='Bob']

array([[-0.0744656 , -0.46295564, -0.355086  , -0.76845533],
       [ 0.16647502,  1.80172903, -0.15602293, -1.63679606]])

In [106]:
#注意：布尔数组和data数组的长度要一样

In [107]:
#我们可以选中names==‘Bob’的行，然后索引列

In [108]:
data[names=='Bob',2:]

array([[-0.355086  , -0.76845533],
       [-0.15602293, -1.63679606]])

In [109]:
data[names=='Bob',3]

array([-0.76845533, -1.63679606])

选中除了‘Bob’外的所有行，可以用！=或者~

In [111]:
names!='Bob'

array([False,  True,  True, False,  True,  True,  True])

In [113]:
data[~(names=='Bob')]

array([[-0.86182359, -0.48504551, -1.77050692,  0.04185636],
       [-0.50011007, -0.06722924,  0.62484954,  0.16900918],
       [ 1.46117844,  1.41890386, -2.42666996,  1.10531269],
       [ 0.31969709,  0.56008628,  0.7146189 ,  1.02053604],
       [-0.28256571, -0.32414801,  1.57606625, -1.1605316 ]])

In [114]:
#当想要反转一个条件时，用~操作符很方便

In [115]:
cond=names=='Bob'

In [116]:
data[~cond]

array([[-0.86182359, -0.48504551, -1.77050692,  0.04185636],
       [-0.50011007, -0.06722924,  0.62484954,  0.16900918],
       [ 1.46117844,  1.41890386, -2.42666996,  1.10531269],
       [ 0.31969709,  0.56008628,  0.7146189 ,  1.02053604],
       [-0.28256571, -0.32414801,  1.57606625, -1.1605316 ]])

选中2个或3个名字，组合多个布尔条件，用布尔运算符&，|，另外python中的关键词and和or不管用：

In [117]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [118]:
mask=(names=='Bob')|(names=='will')

In [119]:
mask

array([ True, False, False,  True, False, False, False])

In [120]:
data[mask]

array([[-0.0744656 , -0.46295564, -0.355086  , -0.76845533],
       [ 0.16647502,  1.80172903, -0.15602293, -1.63679606]])



用布尔索引总是会返回一份新创建的数据，原本的数据不会被改变。

更改值的方式也很直觉。比如我们想让所有负数变为0：


In [121]:
data[data<0]=0

In [122]:
data

array([[0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.04185636],
       [0.        , 0.        , 0.62484954, 0.16900918],
       [0.16647502, 1.80172903, 0.        , 0.        ],
       [1.46117844, 1.41890386, 0.        , 1.10531269],
       [0.31969709, 0.56008628, 0.7146189 , 1.02053604],
       [0.        , 0.        , 1.57606625, 0.        ]])

In [123]:
#用一维的布尔数组也能更改所有的行列

In [124]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [125]:
data[names!='Joe']==7


array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [126]:
data

array([[0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.04185636],
       [0.        , 0.        , 0.62484954, 0.16900918],
       [0.16647502, 1.80172903, 0.        , 0.        ],
       [1.46117844, 1.41890386, 0.        , 1.10531269],
       [0.31969709, 0.56008628, 0.7146189 , 1.02053604],
       [0.        , 0.        , 1.57606625, 0.        ]])

# 6.Fancy Indexing 花式索引

In [127]:
#通过整数数组来索引，假设我们有一个8*4的数组

In [128]:
arr=np.empty((8,4))

In [129]:
for i in range(8):
    arr[i]=i

In [130]:
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [131]:
#想要按一定顺序选出几行，可以用一个整数list或整数ndarray来指定顺序

In [132]:
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [133]:
#用符号来从后选择row

In [134]:
arr[[-3,-5,-7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [135]:
#用多维索引数组，能选出由一维数组中的元素，通过在每个tuple中指定索引

In [136]:
arr=np.arange(32).reshape((8,4))

In [137]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [138]:
arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

In [139]:
#可以看到[4,23,29,10]分别对应（1,0），（5，3），（7,1），（2,2）

In [140]:
arr[[1,5,7,2]][:,[0,3,1,2
                 ]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

上面的意思是，先从arr中选出[1, 5, 7, 2]这四行：

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

然后[:, [0, 3, 1, 2]]表示选中所有行，但是列的顺序要按0,3,1,2来排。于是得到：

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

要记住，fancy indexing和切片不同，得到的是一个新的array。

# 7 Transposing Arrays and Swappting Axes

转置也是返回一个view，而不是新建一个数组。有两种方式，一个是transpose方法，一个是T属性：

In [141]:
arr=np.arange(15).reshape((3,5))

In [142]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [143]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [144]:
arr=np.arange(8).reshape((4,2))

In [145]:
print(arr.T)

[[0 2 4 6]
 [1 3 5 7]]


In [146]:
print(arr)

[[0 1]
 [2 3]
 [4 5]
 [6 7]]


In [147]:
np.dot(arr.T,arr)

array([[56, 68],
       [68, 84]])

In [148]:
#对于多维数组，transpose会接受由轴数字组成的tuple,来交换轴

In [149]:
arr=np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [150]:
arr.transpose((1,0,2))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

使用.T来转置swapping axes(交换轴)的一个特殊情况。ndarray有方法叫做swapaxes, 这个方法取两个axis值，并交换这两个轴：

In [151]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [152]:
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])