# NumPy：数组和矢量计算

数据分析使用的功能
- 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。
- 常用的数组算法，如排序、唯一化、集合运算等。
- 高效的描述统计和数据聚合/摘要运算。
- 用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
- 将条件逻辑表述为数组表达式（而不是if-elif-else分支的循环）。
- 数据的分组运算（聚合、转换、函数应用等）。

pandas可用于处理表格数据，另外具有NumPy不具有的某些特定功能，例如时间序列处理。

## ndarray：一种多维数组对象

ndarray是一个N维数组对象，是一个快速而灵活的大数据集容器。

可以利用这种数组对整块的数据进行数学运算，而语法却和标量数据运算一样。

In [1]:
import numpy as np

# Generate some random data
data = np.random.randn(3, 4)
print(data)

[[-0.71324301 -0.35501951  0.83263098 -0.79122427]
 [-0.06208214  0.89600981  0.71525231 -0.92900546]
 [ 0.53179077  1.11364656  1.09262526 -0.50446171]]


In [2]:
print(data * 10)

[[-7.13243014 -3.55019509  8.32630981 -7.91224268]
 [-0.62082141  8.96009811  7.15252314 -9.29005458]
 [ 5.31790766 11.13646557 10.92625265 -5.04461709]]


In [3]:
print(data + data)

[[-1.42648603 -0.71003902  1.66526196 -1.58244854]
 [-0.12416428  1.79201962  1.43050463 -1.85801092]
 [ 1.06358153  2.22729311  2.18525053 -1.00892342]]


ndarray是一个通用的**同构**数据多维容器，其中的所有元素必须是**相同类型**的。
每个数组具有一个shape（表示维度大小的元组）和一个dtype（用于说明数组数据类型的对象）。

In [4]:
print(data.shape)
print(data.dtype)

(3, 4)
float64


## 创建ndarray

### 使用array函数

array函数接受一切序列型的对象，然后产生一个含有传入数据的NumPy数组。

In [7]:
data1 = [6, 7, 8.5, 9, 1]
arr1 = np.array(data1)
print(arr1)

[6.  7.  8.5 9.  1. ]


嵌套序列（比如列表套列表）会被转换为一个多维数组。

此数组的维度和data2是相同的。

另外np.array会尝试给转换来的数组赋一个合适的数据类型，数据类型保存在一个特殊的dtype对象中。

In [10]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
print(arr2)

print('arr2.ndim =', end = ' ')
print(arr2.ndim)
print('arr2.shape =', end = ' ')
print(arr2.shape)

print('arr1.dtype =', end = ' ')
print(arr1.dtype)
print('arr2.dtype =', end = ' ')
print(arr2.dtype)

[[1 2 3 4]
 [5 6 7 8]]
arr2.ndim = 2
arr2.shape = (2, 4)
arr1.dtype = float64
arr2.dtype = int32


另外可以使用np.zeros生成全0数组，np.ones生成全1数组，np.empty生成未初始化数组。

传入参数为要生成的数组的维度。

np.arange生成0到n的自然数从小到大排列组成的数组。

在没有特别指定时，数据类型基本都是float64。

可以使用ndarray的astype方法转换dtype。

## 基本的索引和切片

### 索引

一个二维数组中，每个索引位置上的元素是一个一维数组。

axis 0 为行，axis 1 为列。