## ndarray
NumPy最重要的一个特点就是其N维数组对象（即ndarray）

该对象是一个快速而灵活的大数据集容器

In [2]:
import numpy as np

In [3]:
data = np.random.randn(2, 3)

In [4]:
data

array([[-0.42904095,  0.11853923, -0.77263015],
       [-3.01883882, -0.52771411, -0.57276158]])

In [5]:
data * 10

array([[ -4.29040951,   1.18539232,  -7.72630149],
       [-30.1883882 ,  -5.2771411 ,  -5.72761578]])

In [6]:
data + data

array([[-0.8580819 ,  0.23707846, -1.5452603 ],
       [-6.03767764, -1.05542822, -1.14552316]])

> 常见用法：import numpy as np，不建议from numpy import *
>
> numpy 的命名空间很大，包含许多函数，其中一些的名字与Python的内置函数重名（比如min和max）。

ndarray是一个通用的**同构**数据多维容器，也就是说，其中的所有元素必须是**相同类型**的。

每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）

In [7]:
data.shape

(2, 3)

In [8]:
data.dtype

dtype('float64')

创建数组最简单的办法就是使用*array函数*。

它接受一切*序列型*的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。

In [9]:
data1 = [6, 7.5, 8, 0, 1]

In [10]:
arr1 = np.array(data1)

In [11]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [20]:
arr1.dtype

dtype('float64')

In [12]:
# 多维数组
data2 = [[1, 2, 3, 4],
        [5, 6, 7, 8]]

In [14]:
arr2 = np.array(data2)

In [15]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [17]:
arr2.ndim

2

In [18]:
arr2.shape

(2, 4)

In [19]:
arr2.dtype

dtype('int32')

zeros和ones分别可以创建指定长度或形状的全0或全1数组。

empty可以创建一个没有任何具体值的数组。

只需传入一个表示形状的元组即可

In [23]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [24]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [25]:
np.empty((2, 3, 2))

array([[[1.36410913e-311, 3.16202013e-322],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 1.39479521e-075]],

       [[2.17698679e-076, 1.65921729e-076],
        [3.14059933e-032, 4.74716114e-037],
        [3.40249043e+175, 4.66553306e-062]]])

>  认为np.empty会返回全0数组的想法是不安全的。很多情况下（如前所示），它返回的都是一些未初始化的垃圾值。

arange是Python内置函数range的数组版

In [26]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

![](array-creation-function.jpg)

## ndarray的数据类型

dtype（数据类型）是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息

In [29]:
arr1 = np.array([1, 2, 3], dtype=np.float64)

In [31]:
arr1.dtype

dtype('float64')

In [32]:
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [33]:
arr2.dtype

dtype('int32')

![](numpy数据类型1.jpg)

![](numpy数据类型2.jpg)

可以通过ndarray的*astype*方法明确地将一个数组从一个dtype转换成另一个dtype

In [35]:
arr = np.array([1, 2, 3, 4, 5])

In [36]:
arr.dtype

dtype('int32')

In [38]:
float_arr = arr.astype(np.float64)

In [39]:
float_arr.dtype

dtype('float64')

如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式

In [40]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [42]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

> 使用numpy.string_类型时，一定要小心，因为NumPy的字符串数据是大小固定的，发生截取时，不会发出警告。
> 
> pandas提供了更多非数值数据的便利的处理方法。
> 
> 调用astype总会创建一个**新的数组（一个数据的备份）**，即使新的dtype与旧的dtype相同。

## NumPy数组的运算

**矢量化（vectorization）**使你不用编写循环即可对数据执行批量运算

In [43]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [44]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [45]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

不同大小的数组之间的运算遵循**广播（broadcasting）机制**，具体规则可以参考Python数据科学手册或本书附录

In [46]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [47]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [48]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [50]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 基本的索引和切片

In [51]:
arr = np.arange(10)

In [52]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [53]:
arr[5]

5

In [54]:
arr[5:8]

array([5, 6, 7])

In [55]:
arr[5:8] = 12

In [56]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。

跟列表最重要的区别在于，数组切片是原始数组的**视图**。这意味着数据**不会被复制**，视图上的任何修改都会**直接反映到源数组**上。