# Numpy学习笔记

## Numpy简介



## 1. ndarray多维数据对象
ndarray是一个通用的同构数据多维容器，也就是说里面的元素必需是相同类型。ndarray都有一个`shape`和`dtype`属性，用于指明数组的维度和数据中的数据类型。N维数据对象ndarray在数据分析中经常用到，熟悉掌握它能够方便我们进行数据分析。
### 1.1 数组创建

In [1]:
import numpy as np

# 按照正态分布（0，1）生成10个随机数
data = np.array(np.random.normal(0,1,10))

# 还可以这么创建，会自动推断dtype类型
data1 = [[1,2,3,4], [5,6,7,8]]
arry1 = np.array(data1) 
print arry1.dtype
# 将上面的一维数据转换成2 X 5 的array，可以试试data.shape=(3.3)有什么结果
data.shape = (2,5)

int64


In [26]:
print data * 10
print data
print data.shape
print data.dtype

[[ -0.19616902   2.49520245  -6.14555902  -9.04647232 -17.88230055]
 [  7.40377203   0.41996745   4.68369247  -3.58210019 -17.61736922]]
[[-0.0196169   0.24952025 -0.6145559  -0.90464723 -1.78823005]
 [ 0.7403772   0.04199674  0.46836925 -0.35821002 -1.76173692]]
(2, 5)
float64


In [9]:
# 创建一个全是0的数组
np.zeros(10)

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [7]:
# 创建一个全是1的数组
np.ones((3,4))

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

In [8]:
# 创建一个空的数组，因为返回全0的数组是不安全的，所以会自动添加上值
np.empty((2,3))

array([[  1.21802121e-312,   1.70335574e-316,   6.90383046e-310],
       [  6.90384679e-310,   6.90384371e-310,   6.90383047e-310]])

In [10]:
# range函数创建
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

其他创建数组的方法：  
+ **asarray**：将输入转换为ndarray，如果输入是ndarray就不进行    
+ **zeros_like**：根据输入数组的形状创建一个全是0的数组  
+ **ones_like**：根据输入数组的形状创建一个全是1的数组  
+ **empty_like**：根据输入数组形状创建一个空数组  
+ **eye**，**identity**：创建一个单位矩阵  


In [11]:
np.eye(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [12]:
np.identity(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

### 1.2 数组类型
**dtype**是一种特殊的对象，含有ndarray将一块内存解释为特定数据类型的所需信息，方便将不同数据类型映射到计算机能识别的表示。数据型dytpe的命名格式相同：一个类型名（int，float），后面跟一个用于表示各元素位长的数字。标准双精度浮点数需要占用8个字节，所以用float64表示。

In [13]:
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([3,4,5], dtype=np.int32)
print arr1.dtype
print arr2.dtype

float64
int32


下面把Numpy中常用的dtype做一个汇总：

|Data type | Type code | Description| 
| -- | -- | -- |
|bool_ | ? | 	Boolean（True or False） stored as a byte |
|int_ |  | 	Default integer type (same as C long; normally either int64 or int32) |
|intc |  | 	Identical to C int (normally int32 or int64) |
|intp |  | 	Integer used for indexing (same as C ssize_t; normally either int32 or int64) |
|int8 | i1 |	一个字节，Byte （-128 to 127）|
|int16 | i2 |	Integer （-32768 to 32767）|
|int32 | i4 |	Integer (-2147483648 to 2147483647)|
|int64 | i8 |	Integer (-9223372036854775808 to 9223372036854775807)|
|uint8 | u1 |	Unsigned integer (0 to 255)|
|uint16 | u2 |	Unsigned integer (0 to 65535)|
|uint32 | u4 |	Unsigned integer (0 to 4294967295)|
|uint64 | u8 |	Unsigned integer (0 to 18446744073709551615)|
|float_ |  |	Shorthand for float64.|
|float16 | f2 |	Half precision float: sign bit, 5 bits exponent, 10 bits mantissa|
|float32 | f4或f |	Single precision float: sign bit, 8 bits exponent, 23 bits mantissa|
|float64 | f8或d |	Double precision float: sign bit, 11 bits exponent, 52 bits mantissa|
|complex_ | |	Shorthand for complex128.|
|complex64 | c8 |	Complex number, represented by two 32-bit floats (real and imaginary components)|
|complex128 | c16 |	Complex number, represented by two 64-bit floats (real and imaginary components)| 
| object | O | python object 对象 |
| string_ | S | 固定长度的字符串类型（每个字符一个字节），10个长度的字符串，应为S10 |
| unicode_ | U | 固定长度的unicode类型，和字符串类似 |

In [16]:
# 利用type code缩写来设置数组类型
np.array([1,2,3,4,5], dtype='i1')

array([1, 2, 3, 4, 5], dtype=int8)

In [18]:
# astype不同类型间的转换,该方法会创建一个新的数组
str1 = np.array(['1', '2','3','4'], dtype=np.string_)
print str1
str1.astype('i1')

['1' '2' '3' '4']


array([1, 2, 3, 4], dtype=int8)

### 1.3 数组与标量之间的运算
数组可以不用循环就可以方便地对数据进行指计算，这个特性称为矢量化（vectorization），R语言中的**vector**,**data.frame**也支持这个特性。大小相同的两个数组之间的任何运算都会就到到元素级别。

In [9]:
arry1 = np.arange(6)
arry1.shape = (2,3)
arry2 = np.arange(10,16)
arry2.shape = (2,3)
print arry1
print arry2

[[0 1 2]
 [3 4 5]]
[[10 11 12]
 [13 14 15]]


In [10]:
arry1 * arry2 

array([[ 0, 11, 24],
       [39, 56, 75]])

In [11]:
arry1 + arry2 

array([[10, 12, 14],
       [16, 18, 20]])

In [13]:
# 与标量的运算
7 + arry1

array([[ 7,  8,  9],
       [10, 11, 12]])

不同大小数组之间的运算称为广播（broadcasting），计算过程比较上面复杂。

### 1.4 切片与索引
和Python中的**list**一样，数组也可以进行切片与索引，从中选取部分数据。

In [23]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
arr[5]

5

In [17]:
arr[5:8]

array([5, 6, 7])

In [25]:
arr[5:8] = 15
print arr
x = arr[5:8]
print x
x[1] = 12345
print x
print arr
# 查看这两个地方引用的内存地址是否一样
print id(x[1])
print id(arr[6])

[ 0  1  2  3  4 15 15 15  8  9]
[15 15 15]
[   15 12345    15]
[    0     1     2     3     4    15 12345    15     8     9]
140544018689912
140544018689912


最后一个例子可以发现，数组对象和Python的列表对象一样，是可变的。不过有个不同就是当我们改变**x**中的值时，**arr**中的值也发生变化了（从15变为12345）。说明在切片的时候，数据是不会复制。任何修改都会反映到原始数组上，因为它们引用的内存地址是一样的。设计成这样的原因大概是因为Numpy在用于处理大数据时，如果复制一个大数组，可能会造成很大的内存开销。如果想要进行复制，可以利用`np.array.copy()`方法进行复制，从而把该值复制到新的变量上，而不影响原始数组。

In [26]:
arr2d = np.arange(9)
arr2d.shape = (3,3)
arr2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [27]:
# 这两种索引方法结果一样
print arr2d[1][2]
print arr2d[1,2]

5
5


In [29]:
arr3d = np.arange(27)
arr3d.shape = (3,3,3)
arr3d

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [34]:
print arr3d[1].shape
arr3d[1]

(3, 3)


array([[ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17]])

In [31]:
arr3d[1,1,2]

14

In [32]:
arr3d[1][1][2]

14

In [33]:
# 等于arr3d[:,2],得到一个二维数组
arr3d[:][2]

array([[18, 19, 20],
       [21, 22, 23],
       [24, 25, 26]])

Numpy数组的花式索引，可能因为这个索引方法看起来让人眼花缭乱所以起这个名吧。不过我也可以一步一步慢慢来，用法也很像R里面的**data.frame**。下面的例子，

In [8]:
arr = np.arange(32)
arr.shape = (8,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [9]:
arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

上面的例子可以解读成按照矩阵里面的行和列分别进行取值。这里需要注意**Python以0开始计数**。如先取第1行是`[4,5,6,7 ]`，再按照列来取是第0个，最后得到的结果是**4**，最终的结果和`arr[1,0]`一样。

另一个需要介绍的是`np.ix_()` 函数，可以把两个一维整数数组转换为一个用于选取方形区域的索引器，看例子

In [19]:
arr = np.arange(32).reshape(8,4)    # 这里使用了reshape()，可以直接进行变换
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [24]:
idx = np.ix_([1,5,7,2],[0,3,1,2])
# idx是一个tuple对象，里面有两个数组，对应于行和列
idx

(array([[1],
        [5],
        [7],
        [2]]), array([[0, 3, 1, 2]]))

In [27]:
arr[idx]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

上面的结果与我们前面介绍的花式索引不一样，这里得到的是一个数组。这里可按照行和列分步进行索引，先按照`[1,5,2,7]`进row进行索引，再按照`[0,3,1,2]`按照列重新索引排序。

In [36]:
a = arr[[1,5,2,7],:]
a

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [ 8,  9, 10, 11],
       [28, 29, 30, 31]])

In [38]:
b = a[:,[0,3,1,2]]
b

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [ 8, 11,  9, 10],
       [28, 31, 29, 30]])

也和R中的**data.frame**类似，Numpy数组也可以利用布尔值（True/False）来进行索引，简单来说就是当是True的时候，就选取对应的。

In [13]:
# 按照ascii编码生成字母
letters = np.array([chr(x) for x in range(65,71)])
letters

array(['A', 'B', 'C', 'D', 'E', 'F'], 
      dtype='|S1')

In [14]:
# 不用for循环，进行矢量化计算，把等于A的挑出来
# 这里等于A的地方当然就是True了，不是A的地方就是False
match = letters == 'A'
match

array([ True, False, False, False, False, False], dtype=bool)

In [16]:
# 怎么用布尔值来进行索引呢，其实还是和原来的切片索引一样的用法
# 可以看成一个循环，当match里面的值为True时，把值取出来
arr = np.arange(6)
print arr
print arr[match]
print arr[letters == 'B']

[0 1 2 3 4 5]
[0]
[1]


最后说一下数据的转置和轴对换，转置是重塑数组的结构，按照不同的结构展示原始的数据，原有的数据不会被复制，只是按照你转置的要求，重新返回一个新的视图结果，可以参考[链接](https://stackoverflow.com/questions/32034237/how-does-numpy-ndarray-transpose-permute-the-axis-of-n-d-array)。对于简单的转置可以使用**T**属性，复杂的转置可以使用**transpose**

In [48]:
# 这里简单的转置使用T，可以看到转换前面shape发生了变化，而且是和原来的shape倒置过来的，从(2,3,4)到(4,3,2)
# 可以试试二维数组，看看效果
arr = np.arange(24).reshape((2,3,4))
print arr
print arr.T.shape
print arr.T

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
(4, 3, 2)
[[[ 0 12]
  [ 4 16]
  [ 8 20]]

 [[ 1 13]
  [ 5 17]
  [ 9 21]]

 [[ 2 14]
  [ 6 18]
  [10 22]]

 [[ 3 15]
  [ 7 19]
  [11 23]]]


复杂一些的`transpose`用法，可以参考下面的示例。前面我们说到使用`T`进行转置的时候，shape也发生了倒序的变化，不过这里的变化是可以进行定制的。`transpose`可以按照输入的索引，重新排序shape。

In [58]:
arr = np.arange(24).reshape((2,3,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [59]:
arr_t = arr.transpose((1,0,2))
print arr_t.shape
arr_t

(3, 2, 4)


array([[[ 0,  1,  2,  3],
        [12, 13, 14, 15]],

       [[ 4,  5,  6,  7],
        [16, 17, 18, 19]],

       [[ 8,  9, 10, 11],
        [20, 21, 22, 23]]])

In [60]:
# shape也发生了相应的变化
tuple(arr.shape[x] for x in (1,0,2))

(3, 2, 4)


上述内容是使用python notebook来写的，原始的notebook文件可以从我的[github](https://github.com/l0o0/MyNotes)下载，你可以在打开原始notebook文件，在上面进行学习操作。

## 参考资料
1. [利用Python进行数据分析](https://book.douban.com/subject/25779298/)