## numpy 

### 1. numpy是什么

- numpy是numcial python;
- 创建了一个数据对象ndarray，可以进行高效的数值计算;
- 包含了大量的数学函数，包括统计、线性代数，随机计算等;
- 很多高级库，比如pandas，scipy，scikit-learn等都依赖于numpy;

### 2. 为什么要用 numpy

- 速度快：numpy使用C语言编写，可以充分利用CPU的并行计算能力，大大提高了运算速度;
- 内存效率高：numpy使用了内存映射，使得数据在内存中可以直接访问，不用再拷贝到Python的内存中，大大节省了内存;
- 广播机制：numpy的广播机制可以使得数组运算更加方便和快捷;
- 便于学习：numpy的API设计简洁易懂，学习成本低，可以快速上手;

### 3. numpy的安装

- 直接安装：pip install numpy
- 下载安装：从numpy官网下载安装包，解压后运行python setup.py install命令安装;
- 在虚拟环境安装：conda install numpy (在激活的环境) 


In [1]:
# 首先导入库，然后判断是否安装成功
import numpy as np
print(f"numpy version: {np.__version__}")

numpy version: 1.26.4


In [2]:
#对比ndarray和python list效率（10-1000倍数，基于数据的规模）
import numpy as np
import time

py_list = list(range(1000000))
np_arr = np.arange(1000000)

# Python列表循环求和
start = time.time()
sum(py_list)  # 约0.03秒
print("Python list:", time.time()-start)

# NumPy向量化求和
start = time.time()
np.sum(np_arr)  # 约0.0001秒
print("NumPy:", time.time()-start)

Python list: 0.02492547035217285
NumPy: 0.0024569034576416016


In [2]:
import numpy as np

data =np.arange(100000000)
p_data = data.tolist()
%timeit np.sum(data)
%timeit sum(p_data)
#也可以使用魔法命令观察结果

36.8 ms ± 8.13 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
2.05 s ± 66.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)



### 4. numpy的基本使用

- 创建数组：numpy.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
- 数组的属性：shape, ndim, size, dtype, itemsize, nbytes, strides, ctypes, data
- 数组的索引、切片、迭代：索引、切片、迭代都与list、tuple类似，但速度更快;


####  numpy内存布局

numpy在内存中是以线性的方式存储（本质上就是一个一维数组），这部分数据包括两个部分：一部分为meta data;另一部分为data。
我们可以在order中指定数据存储的顺序，默认是C（行优先）；也可以通过reshape函数改变数据存储的形状。

meta data包括shape、strides、dtype、flags等信息，这些信息在numpy中都以属性的形式存在。  
data部分存储了numpy数组中的实际数据，其存储顺序与order有关，默认是C（行优先）；也可以通过reshape函数改变数据存储的形状。


In [4]:
# C顺序 vs F顺序数组
arr_c = np.array([[1,2,3], [4,5,6]], order='C')
arr_f = np.array([[1,2,3], [4,5,6]], order='F')

print(f"arrc:{arr_c}\n")
print(f"arrf:{arr_f}\n")
print("="*24)
print("C-order strides:\n", arr_c.strides)  # (24, 8)
print("F-order strides:\n", arr_f.strides)  # (8, 16)


arrc:[[1 2 3]
 [4 5 6]]

arrf:[[1 2 3]
 [4 5 6]]

C-order strides: (12, 4)
F-order strides: (4, 8)
