# numpy数组及索引

## numpy数据类型

`numpy`有**5种基本数字类型**：**布尔值（bool），整数（int），无符号整数（uint）浮点（浮点数）和复数**。名称中带有数字的那些表示该类型的位大小（即，在内存中表示单个值需要多少位）

具体如下：

|基本类型|可用的**Numpy**类型|备注
|--|--|--
|布尔型|`bool`|占1个字节
|整型|`int8, int16, int32, int64, int128, int`| `int` 跟**C**语言中的 `long` 一样大
|无符号整型|`uint8, uint16, uint32, uint64, uint128, uint`| `uint` 跟**C**语言中的 `unsigned long` 一样大
|浮点数| `float16, float32, float64, float, longfloat`|默认为双精度 `float64` ，`longfloat` 精度大小与系统有关
|复数| `complex64, complex128, complex, longcomplex`| 默认为 `complex128` ，即实部虚部都为双精度
|字符串| `string, unicode` | 可以使用 `dtype=S4` 表示一个4字节字符串的数组
|对象| `object` |数组中可以使用任意值|
|Records| `void` ||
|时间| `datetime64, timedelta64` ||

任意类型的数组：

In [None]:
import numpy as np

In [None]:
a = np.array([1,1.2,'hello', [10,20,30]], dtype=object)
print a
print a * 2

## numpy数组 和 原生Python Array的区别：



* numpy 数组在创建时具有**固定的大小**，与Python的原生数组对象（可以动态增长）不同。更改ndarray的大小将创建一个新数组并删除原来的数组


* numpy 数组中的元素都需要**具有相同的数据类型，因此在内存中的大小相同**。 例外情况：Python的原生数组里包含了numpy的对象的时候，这种情况下就允许不同大小元素的数组


* numpy 数组有助于对大量数据**进行高级数学和其他类型的操作**。通常，这些操作的执行**效率更高**，比使用Python原生数组的代码更少


* 越来越多的基于Python的科学和数学软件包使用numpy数组，为了高效地使用当今科学/数学基于Python的工具（大部分的科学计算工具），你只知道如何使用Python的原生数组类型是不够的 - 还需要知道如何使用 numpy 数组

## 创建数组

创建数组有5种常规机制：

* 从其他Python结构（例如，列表，元组）转换


* numpy原生数组的创建（例如，arange、ones、zeros等）


* 从磁盘读取数组，无论是标准格式还是自定义格式


* 通过使用字符串或缓冲区从原始字节创建数组


* 使用特殊库函数（例如，random）

### 列表和元组产生数组

In [None]:
lst = [0, 1, 2, 3]
a = np.array(lst)
tup = (0, 1, 2, 3)
b = np.array(tup)
print a
print b

还有一种方法是调用`numpy`的库函数`asarray`

In [None]:
#从已有列表构造
x =  [1,2,3] 
a = np.asarray(x)  
print a

#从已有元组构造
y = (1,2,3)
b = np.asarray(y)
print b

#从已有的numpy数组构造
c = np.asarray(b, dtype=np.float64)
print c

### numpy原生数组的创建

* `numpy.empty(shape, dtype = float, order = 'C')  `

创建一个指定形状（shape）、数据类型（dtype）且未初始化的数组

`shape`:	数组形状

`dtype`:	数据类型，可选,默认的dtype是`float64`

`order`:    有"C"和"F"两个选项,分别代表，行优先和列优先，在计算机内存中的存储元素的顺序

In [None]:
b = np.empty([3,2])
print b

数组元素为随机值，因为它们未初始化

* `numpy.zeros(shape, dtype = float, order = 'C')`

创建指定大小的数组，数组元素以 0 来填充

* `numpy.ones(shape, dtype = None, order = 'C')`

创建指定形状的数组，数组元素以 1 来填充

* `indentity(n, dtype=float64)`

产生一个 `n` 乘 `n` 的单位矩阵

* `numpy.arange(start, stop, step, dtype)`

创建数值范围并返回 ndarray 对象

## 索引、切片和迭代

和列表相似，数组也支持索引和切片操作

### 索引

多维的数组每个轴可以有一个索引。这些索引以逗号分隔的元组给出

In [None]:
def f(x,y):
    return 10*x+y
b = np.fromfunction(f,(5,4),dtype=int)
print b
print b[2,3]

当提供的索引少于轴的数量时，缺失的索引被认为是完整的切片

In [None]:
b[-1] #Equivalent to b[-1,:]

`b[i] `方括号中的表达式` i `被视为后面紧跟着 `: `的多个实例，用于表示**剩余轴**，也可以写作`b[i,...]`


三个点`（ ... ）`表示产生完整索引元组所需的冒号。例如，如果 x 有5个轴，则：

`x[1,2,...] 相当于 x[1,2,:,:,:]`


`x[...,3] 等效于 x[:,:,:,:,3]`


`x[4,...,5,:] 等效于 x[4,:,:,5,:]`

### 切片

切片在内存中使用的是**引用机制**

In [None]:
c = np.array([0,1,2,3,4])
d = c[2:4]
print d

引用机制意味着，`Python`并没有为` b` 分配新的空间来存储它的值，而是让 `b `指向了 `a` 所分配的内存空间，因此，**改变 `b `会改变 `a `的值**

In [None]:
b[0] = 10
a

而这种现象在列表中并不会出现

In [None]:
c = [1,2,3,4,5]
d = c[2:3]
d[0] = 13234
print c

这样做的好处在于，对于很大的数组，不用大量复制多余的值，节约了空间。

缺点在于，可能出现改变一个值改变另一个值的情况。

一个解决方法是使用**copy()**方法产生一个复制，这个复制会申请新的内存

In [None]:
c = np.array([0,1,2,3,4])
d = c[2:4].copy()
d[0] = 10
c

### 迭代

对多维数组进行 **迭代（Iterating）** 是相对于第一个轴完成的

In [None]:
for row in b:
    print row

但是，如果想要对数组中的每个元素执行操作，可以使用**flat属性**，该属性是数组的**所有元素的迭代器**

In [None]:
for element in b.flat:
    print element

## 花式索引

`numpy`提供比常规`Python`序列更多的索引功能。除了通过整数和切片进行索引之外，还可以由**整数数组**和**布尔数组**索引

**与切片不同，花式索引返回的是原对象的一个复制而不是引用**

### 使用索引数组进行索引

数组为一维

In [None]:
x = np.arange(0, 80, 10)
print "x", x
indices = [1, 2, -3]
y = x[indices]
print "y", y

数组为多维

In [None]:
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print '我们的数组是：' 
print x
print '\n'
rows = np.array([[0,0],[3,3]]) 
cols = np.array([[0,2],[0,2]]) 
y = x[rows,cols]  
print  '这个数组的四个角元素是：'
print y

### 使用布尔数组进行索引

布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组

In [None]:
import numpy as np 
 
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print '我们的数组是：'
print x
# 现在我们会打印出大于 5 的元素  
mask = x >  5
print 'mask: '
print mask
print  '大于 5 的元素是：'
print x[mask]

### ix_()函数

`ix_()`函数可用于组合不同的向量

In [None]:
x=np.arange(32).reshape((8,4))
y = x[np.ix_([1,5,7,2],[0,3,1,2])]
print y

`y`中的元素分别为

$$
 \left[
 \begin{matrix}
   x[1,0] & x[1,3] & x[1,1] & x[1,2] \\
   x[5,0] & x[5,3] & x[5,1] & x[5,2] \\
   x[7,0] & x[7,3] & x[7,1] & x[7,2] \\
   x[2,0] & x[2,3] & x[2,1] & x[2,2] \\
  \end{matrix}
  \right] 
$$

### where函数

首先强调一下，`where()`函数对于不同的输入，返回的只是不同的。

* 当数组是一维数组时，返回的值是一维的索引，所以只有一组索引数组


* 当数组是**n维数组**时，满足条件的数组值返回的是值的位置索引，因此会有**n组索引数组**来表示值的位置

数组为一维数组

In [None]:
a = np.array([0, 12, 5, 20])
np.where(a > 10)

数组为多维数组

In [None]:
a = np.arange(12).reshape(3,2,2)
np.where(a > 6)