In [None]:
import numpy as np

my_arr = np.arange(1000000)
my_list = list(range(1000000))

print(my_arr)


[     0      1      2 ... 999997 999998 999999]


In [9]:
print(my_list)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [7]:
%time for _ in range(10): my_arr2 = my_arr*2

Wall time: 57 ms


In [8]:
%time for _ in range(10): my_list2 = [x*2 for x in my_list]

Wall time: 1.4 s


In [10]:
# 基于Numpy的算法要比纯python快10到100倍，甚至更快，并且使用的内存更少

In [11]:
# 1.1 Numpy的ndarray:一种多维数组对象
"""
NumPy最重要的一个特点就是其N维数组对象（即ndarray），
该对象是一个快速而灵活的大数据集容器。
你可以利用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样。
"""

In [13]:
import numpy as np

# 生成一些随机数
data = np.random.randn(2, 3)  # 两行三列的随机数
print(data)

[[ 0.09489035 -1.46822839 -0.5041579 ]
 [-0.1853204   0.27162688 -1.52268768]]


In [15]:
# 所有元素都乘以10
print("data * 10：\n" , data * 10)

data * 10：
 [[  0.94890352 -14.68228385  -5.041579  ]
 [ -1.85320398   2.71626877 -15.22687684]]


In [16]:
# 每个元素与自身相加
print("data + data : \n", data + data)

data + data : 
 [[ 0.1897807  -2.93645677 -1.0083158 ]
 [-0.3706408   0.54325375 -3.04537537]]


In [18]:
"""
ndarray所有元素必须是相同类型的。
每个数组都有一个shape（一个表示各维度大小的元组）和
一个dtype（一个用于说明数组数据类型的对象）
"""
print("data shape: ", data.shape)
print("data dtype: ", data.dtype)

data shape:  (2, 3)
data dtype:  float64


## 创建数组

创建数组最简单的办法就是使用array函数。

In [20]:
data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)
print(arr1)

[6.  7.5 8.  0.  1. ]


嵌套序列（比如由一组等长列表组成的列表）将会被转换为一个多维数组：

In [21]:
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
print(arr2)

[[1 2 3 4]
 [5 6 7 8]]


In [24]:
# data2是列表的列表，NumPy数组arr2的两个维度的shape是从data2引入的
print(arr2.ndim)  # 维度
print(arr2.shape)  # 形状

2
(2, 4)


由于NumPy关注的是数值计算，因此，如果没有特别指定，数据类型基本都是float64（浮点数）

In [25]:
# 除非特别说明（稍后将会详细介绍），
# np.array会尝试为新建的这个数组推断出一个较为合适的数据类型。数据类型保存在一个特殊的dtype对象中
print(arr1.dtype)
print(arr2.dtype)

float64
int32


除np.array之外，还有一些函数也可以新建数组。比如，zeros和ones分别可以创建指定长度或形状的全0或全1数组。empty可以创建一个没有任何具体值的数组。要用这些方法创建多维数组，只需传入一个表示形状的元组即可：

In [26]:
print(np.zeros(10))
print(np.zeros((3,6)))
print(np.empty((2,3,2)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]
[[[6.88081642e-312 3.16202013e-322]
  [0.00000000e+000 0.00000000e+000]
  [0.00000000e+000 3.79215188e+179]]

 [[3.69784746e-057 1.46202503e+185]
  [7.71801654e-043 2.95702945e-032]
  [1.73323759e+185 2.10682846e-076]]]


注意：认为np.empty会返回全0数组的想法是不安全的。很多情况下（如前所示），它返回的都是一些未初始化的垃圾值。

arange是Python内置函数range的数组版：

In [27]:
print(np.arange(15))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


## ndarray的数据类型

dtype（数据类型）是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息：

In [28]:
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype=np.int32)

print(arr1.dtype)
print(arr2.dtype)

float64
int32


可以通过ndarray的astype方法明确地将一个数组从一个dtype转换成另一个dtype：

In [29]:
arr = np.array([1,2,3,4,5])
print(arr.dtype)

float_arr = arr.astype(np.float64)
print(float_arr.dtype)

int32
float64


如果将浮点数转换成整数，则小数部分将会被截取删除：

In [30]:
arr = np.array([3.7,-1.2,-2.6,0.5,12.9,10.1])
print(arr)
print(arr.astype(np.int32))

[ 3.7 -1.2 -2.6  0.5 12.9 10.1]
[ 3 -1 -2  0 12 10]


如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式：

In [31]:
numeric_strings = np.array(['1.25','-9.6','42'], dtype=np.string_)
print(numeric_strings.astype(float))

[ 1.25 -9.6  42.  ]


注意：使用numpy.string_类型时，一定要小心，因为NumPy的字符串数据是大小固定的，发生截取时，不会发出警告。pandas提供了更多非数值数据的便利的处理方法。

数组的dtype还有另一个属性：

In [33]:
int_array = np.arange(10)
calibers = np.array([.22,.270,.357,.380,.44,.50],dtype=np.float64)
print(int_array.astype(calibers.dtype))

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


还可以用简洁的类型代码来表示dtype

In [35]:
empty_uint32 = np.empty(8, dtype='u4')
print(empty_uint32)
print(empty_uint32.dtype)

[         0 1075314688          0 1075707904          0 1075838976
          0 1072693248]
uint32


## 数组运算

In [36]:
arr = np.array([[1.,2.,3.], [4.,5.,6.]])
print(arr)
print(arr * arr)
print(arr - arr)

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]


数组与标量的算术运算会将标量值传播到各个元素：

In [37]:
print(1/arr)
print(arr ** 0.5)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]
[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


大小相同的数组之间的比较会生成布尔值数组：

In [38]:
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])
print(arr2)
print(arr2 > arr)

[[ 0.  4.  1.]
 [ 7.  2. 12.]]
[[False  True False]
 [ True False  True]]


## 数组的广播

如果两个数组的维数不相同，则元素到元素的操作是不可能的。 然而，在 NumPy 中仍然可以对形状不相似的数组进行操作，因为它拥有广播功能。 较小的数组会广播到较大数组的大小，以便使它们的形状可兼容。

如果满足以下规则，可以进行广播：
- ndim较小的数组会在前面追加一个长度为 1 的维度。
- 输出数组的每个维度的大小是输入数组该维度大小的最大值。
- 如果输入在每个维度中的大小与输出大小匹配，或其值正好为 1，则可以在计算中使用该输入。
- 如果输入的某个维度大小为 1，则该维度中的第一个数据元素将用于该维度的所有计算。

如果上述规则产生有效结果，并且满足以下条件之一，那么数组被称为可广播的。
- 数组拥有相同形状。
- 数组拥有相同的维数，每个维度拥有相同长度，或者长度为 1。
- 数组拥有极少的维度，可以在其前面追加长度为 1 的维度，使上述条件成立。

下面的例称展示了广播的示例。

In [39]:
import numpy as np
a = np.array([[0.0,0.0,0.0],[10.0,10.0,10.0],[20.0,20.0,20.0],[30.0,30.0,30.0]])
b = np.array([1.0,2.0,3.0])
print("第一个数组：")
print(a)
print("第二个数组：")
print(b)
print("第一个数组+第二个数组：")
print(a+b)

第一个数组：
[[ 0.  0.  0.]
 [10. 10. 10.]
 [20. 20. 20.]
 [30. 30. 30.]]
第二个数组：
[1. 2. 3.]
第一个数组+第二个数组：
[[ 1.  2.  3.]
 [11. 12. 13.]
 [21. 22. 23.]
 [31. 32. 33.]]


## 基本的索引和切片

NumPy数组的索引是一个内容丰富的主题，因为选取数据子集或单个元素的方式有很多。一维数组很简单。从表面上看，它们跟Python列表的功能差不多：

In [40]:
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])
arr[5:8] = 12
print(arr)

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]
[ 0  1  2  3  4 12 12 12  8  9]


如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。

创建一个arr的切片：

In [41]:
arr_slice = arr[5:8]
print(arr_slice)

[12 12 12]


当我修稿arr_slice中的值，变动也会体现在原始数组arr中：

In [42]:
arr_slice[1] = 12345
print(arr)

[    0     1     2     3     4    12 12345    12     8     9]


切片[ : ]会给数组中的所有值赋值：

In [43]:
arr_slice[:] = 64
print(arr)

[ 0  1  2  3  4 64 64 64  8  9]


注意：如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如arr[5:8].copy()

在一个二维数组中，各索引位置上的元素不再是标量而是一维数组

In [44]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d[2])

[7 8 9]


可以对各个元素进行递归访问，但这样需要做的事情有点多。你可以传入一个以逗号隔开的索引列表来选取单个元素。也就是说，下面两种方式是等价的：

In [45]:
print(arr2d[0][2])
print(arr2d[0, 2])

3
3
