In [1]:
# NumPy基础：数组和矢量计算
'''
1.ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
2.用于对整组数据进行快速运算的标准数学函数（无需编写循环）。
3.用于编写磁盘数据的工具以及用于操作内存映射文件的工具。
4.线性代数，随机数生成以及傅立叶变换功能。
5.用于集成由C，C++，Fortran等语言编写的代码工具。
'''

'\n1.ndarray\xef\xbc\x8c\xe4\xb8\x80\xe4\xb8\xaa\xe5\x85\xb7\xe6\x9c\x89\xe7\x9f\xa2\xe9\x87\x8f\xe7\xae\x97\xe6\x9c\xaf\xe8\xbf\x90\xe7\xae\x97\xe5\x92\x8c\xe5\xa4\x8d\xe6\x9d\x82\xe5\xb9\xbf\xe6\x92\xad\xe8\x83\xbd\xe5\x8a\x9b\xe7\x9a\x84\xe5\xbf\xab\xe9\x80\x9f\xe4\xb8\x94\xe8\x8a\x82\xe7\x9c\x81\xe7\xa9\xba\xe9\x97\xb4\xe7\x9a\x84\xe5\xa4\x9a\xe7\xbb\xb4\xe6\x95\xb0\xe7\xbb\x84\xe3\x80\x82\n2.\xe7\x94\xa8\xe4\xba\x8e\xe5\xaf\xb9\xe6\x95\xb4\xe7\xbb\x84\xe6\x95\xb0\xe6\x8d\xae\xe8\xbf\x9b\xe8\xa1\x8c\xe5\xbf\xab\xe9\x80\x9f\xe8\xbf\x90\xe7\xae\x97\xe7\x9a\x84\xe6\xa0\x87\xe5\x87\x86\xe6\x95\xb0\xe5\xad\xa6\xe5\x87\xbd\xe6\x95\xb0\xef\xbc\x88\xe6\x97\xa0\xe9\x9c\x80\xe7\xbc\x96\xe5\x86\x99\xe5\xbe\xaa\xe7\x8e\xaf\xef\xbc\x89\xe3\x80\x82\n3.\xe7\x94\xa8\xe4\xba\x8e\xe7\xbc\x96\xe5\x86\x99\xe7\xa3\x81\xe7\x9b\x98\xe6\x95\xb0\xe6\x8d\xae\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7\xe4\xbb\xa5\xe5\x8f\x8a\xe7\x94\xa8\xe4\xba\x8e\xe6\x93\x8d\xe4\xbd\x9c\xe5\x86\x85\xe5\xad\x98\xe6\x98\xa0\xe5\xb0

In [None]:
# 大部分分析应用，作者关注的功能集中在
'''
1.用于数据和清理，子集构造和过滤，转换等快速的矢量化数组运算。
2.常用的数组算法，排序，唯一化，集合运算。
3.高效的描述统计和数据集合/摘要运算。
4.用于异构数据集的合并/链接运算的数据对齐和关系型数据运算。
5.将条件逻辑非表述为数组表达式。
6.数据的分组运算（聚合，转换，函数应用）。
'''

In [10]:
import numpy as np

# Numpy的ndarray：一种多维数组对象
data = np.array([[0.9526, -0.246, -0.8856], [0.5639, 0.2379, 0.9104]])
print(data)
print(data*10)
print(data + data)

# 每个数组都有shape和一个dtype
data.shape
data.dtype

[[ 0.9526 -0.246  -0.8856]
 [ 0.5639  0.2379  0.9104]]
[[ 9.526 -2.46  -8.856]
 [ 5.639  2.379  9.104]]
[[ 1.9052 -0.492  -1.7712]
 [ 1.1278  0.4758  1.8208]]


dtype('float64')

In [14]:
# 创建ndarray
data1 = [6, 7.5, 8., 0., 1.]
arr1 = np.array(data1)
arr1

data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

arr2.ndim
arr2.shape

(2, 4)

In [18]:
np.zeros(10)
np.zeros((3, 6))
np.empty((2, 3, 2))
np.arrange(15)

AttributeError: 'module' object has no attribute 'arrange'

In [24]:
'''
array 将输入数据转换为ndarray。要么推断出dtype，要么显式制定dtype。
asarray 将输入转换为ndarray，如果输入本身就是一个ndarray就不进入。
arange 类似于内置的range，但反悔的是一个ndarray而不是列表。
ones，ones_like 类似于内置的range，但是反悔的是一个ndarray而不是列表。
zeros，zeros_like 类似于ones和ones_like，只不过产生的全0数组而已。
empty，empty_like 创建新数组，只分配内存空间但不填充任何值。
eye，identity 创建一个正方形NxN单位矩阵
'''

# ndarray的数据类型
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

float_arr = arr.astype(np.float64)
float_arr.dtype

arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr.astype(np.int32)

numeric_strings = np.array(['1,25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)
array([1.25, -9.6, 42.])

int_array = np.arrange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

ValueError: invalid literal for float(): 1,25

In [27]:
# 数组和标量之间的运算
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr * arr
arr - arr
1/ arr
arr**0.5
# 不同大小的数组之间的运算叫做广播

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

In [31]:
# 基本的索引和切片
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]


In [37]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]
arr2d[0, 2]
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d
arr3d[0] = old_values
arr3d[1, 0]

array([7, 8, 9])

In [43]:
# 切片索引
arr[1:6]
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [61]:
# 布尔型索引
names = np.array(['Bob', 'Joe', 'Will', 'Joe', 'Joe'])
data = np.random.rand(7, 4)
arrA = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 基本上[a：b]=[a=< x <b]
arrA[1:, :2]
names = 'Bob'
data[names == 'Bob']
data[names == 'Bob', 2:]
names != 'Bob'

False

In [70]:
# 花式索引
'''
它指的是利用整数数组进行索引。
'''
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

# 用数组表达数组
arr[[4, 3, 0, 6]]
arr[[-3, -5, -7]]

arr = np.arange(32).reshape((8, 4))
print(arr)
arr[[1, 5, 7, 2], [0, 3, 1, 2]]
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [75]:
# 数组转置和轴对换
arr = np.arange(15).reshape((3, 5))
arr.T

arr = np.random.randn(6, 3)
np.dot(arr.T, arr)

array([[  8.05692228,   2.70655598,   0.84277186],
       [  2.70655598,   2.90252284,   0.65312014],
       [  0.84277186,   0.65312014,  11.96711984]])