# **Numpy库介绍**
* **1 Numpy库简介**
    * 1.1 Numpy数组和Python列表性能对比


* **2 N维数组ndarray**
    * 2.1 ndarray的属性
    * 2.2 ndarray的形状
    * 2.3 ndarray的类型
        * 2.3.1 默认的数据类型
        * 2.3.2 指定dtype
        * 2.3.3 修改dtype


* **3 axis理解**

# 1 Numpy库简介

**NumPy**是一个功能强大的**Python**库，主要用于对**多维数组**执行计算。NumPy这个词来源于两个单词-- Numerical和Python。NumPy提供了大量的库函数和操作，可以帮助程序员轻松地进行数值计算。在**数据分析和机器学习领域**被广泛使用。他有以下几个特点：
* numpy内置了**并行运算**功能，当系统有多个核心时，做某种计算时，numpy会自动做并行计算。


* Numpy底层使用**C语言**编写，内部解除了**GIL（全局解释器锁）**，其对数组的操作速度不受Python解释器的限制，**效率远高于纯Python代码**。


* 有一个强大的N维数组对象Array（一种类似于列表的东西）:**ndarray**


* 实用的线性代数、傅里叶变换和随机数生成函数。

总而言之，numpy是一个**非常高效**的用于**处理数值型运算**的包。

## 1.1 Numpy数组和Python列表性能对比：
比如我们想要对一个Numpy数组和Python列表中的每个元素进行求和,代码如下：

In [1]:
import time
import random
import numpy as np

# Python 列表方式
t1 = time.time()
a = []
for x in range(100000):
    a.append(x**2)
t2 = time.time()
print("Python列表所消耗的时间为：{:.4f}秒".format(t2-t1))

# numpy 方式
t3 = time.time()
b = np.arange(100000)**2
t4 = time.time()
print("numpy方式所消耗的时间为：{:.4f}秒".format(t4-t3))

Python列表所消耗的时间为：0.0429秒
numpy方式所消耗的时间为：0.0010秒


从中我们看到ndarray的计算速度要快很多，这个简单的例子快了接近于50倍。

机器学习的最大特点就是大量的数据运算，那么如果没有一个快速的解决方案，那可能现在python也在机器学习领域达不到好的效果。

Numpy专门针对ndarray的操作和运算进行了设计，所以数组的存储效率和输入输出性能远优于Python中的嵌套列表，数组越大，Numpy的优势就越明显。

# 2 N维数组ndarray

## 2.1 ndarray的属性
| 属性名字 |                  属性解释 |
| :-----:| :----: |
| **ndarray.shape** | 数组维度的元组 |
| ndarray.ndim | 数组维数 |
| ndarray.size | 数组中的元素数量 |
| ndarray.itemsize | 一个数组元素的长度（字节） |
| **ndarray.dtype** | 数组元素的类型 |

下面着重介绍一下ndarray的**形状(ndarray.shape)**和**类型(ndarray.dtype)**

## 2.2 ndarray的形状（ndarray.shape）
首先创建一些数组。

In [2]:
# 创建不同形状的数组
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([1, 2, 3, 4])
c = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

分别打印出形状

In [3]:
# 二维数组
a.shape

(2, 3)

In [4]:
# 一维数组
b.shape

(4,)

In [5]:
# 三维数组
c.shape

(2, 2, 3)

## 2.3 ndarray的类型

| 名称 | 描述 | 简写 |
| :-----:| :----: | :----: |
| np.bool | 用一个字节存储的布尔类型（True或False） | 'b' |
| np.int8 | 一个字节大小，-128 至 127 | 'i1' |
| np.int16 | 整数，-32768 至 32767 | 'i2' |
| np.int32| 整数，-2^31 至 2^32 -1 | 'i4' |
| **np.int64** | 整数，-2^63 至 2^63 - 1 | 'i8' |
| np.uint8 | 无符号整数，0 至 255 | 'u1' |
| np.uint16 | 无符号整数，0 至 65535 | 'u2' |
| np.uint32 | 无符号整数，0 至 2^32 - 1 | 'u4' |
| np.uint64 | 无符号整数，0 至 2^64 - 1 | 'u8' |
| np.float16 | 半精度浮点数：16位，正负号1位，指数5位，精度10位 | 'f2' |
| np.float32 | 单精度浮点数：32位，正负号1位，指数8位，精度23位 | 'f4' |
| **np.float64** | 双精度浮点数：64位，正负号1位，指数11位，精度52位 | 'f8' |
| np.complex64 | 复数，分别用两个32位浮点数表示实部和虚部 | 'c8' |
| np.complex128 | 复数，分别用两个64位浮点数表示实部和虚部 | 'c16' |
| np.object_ | python对象 | 'O' |
| np.string_ | 字符串 | 'S' |
| np.unicode_ | unicode类型 | 'U' |

* 注意：若不指定，**整数默认int64**，**小数默认float64**

我们可以看到，Numpy中关于数值的类型比Python内置的多得多，这是因为Numpy为了能高效处理处理海量数据而设计的。举个例子，比如现在想要存储上百亿的数字，并且这些数字都不超过254（一个字节内），我们就可以将**dtype设置为int8**，这样就**比默认使用int64更能节省内存空间**了。类型相关的操作如下：

### 2.3.1 默认的数据类型:

In [6]:
# 新建一个数组，展示其默认数据类型
a1 = np.array([1, 2, 3])
a1.dtype

dtype('int32')

### 2.3.2 指定dtype：

In [7]:
# 新建一个数组，并指定数据类型
a1 = np.array([1, 2, 3], dtype=np.int64)
a1.dtype

dtype('int64')

### 2.3.3 修改dtype：ndarray.astype()

In [8]:
# 新建一个数组，展示其默认数据类型
a1 = np.array([1, 2, 3])
print(a1.dtype)

# 修改数组的数据类型
a2 = a1.astype(np.int64)
print(a2.dtype)

int32
int64


# 3 axis理解
一般来讲，我们处理的都是二维表，axis=0指的是行，axis=1，指的是列。但其实不是这么简单理解的，下面来说明来解释一下axis轴的概念。

简单来说，**axis=0就是跨行进行计算，axis=1就等于跨列进行计算**。下面的举例说明。

In [9]:
# 新建一个数组
a = np.array([[0,1,2],[3,4,5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

现在我们想要计算每一行的最小值，就是第一行[0,1,2]的最小值是0，第二行[3,4,5]的最小值为3，我们期望得到的是一个[0,3]这样的数组。

这时候axis就应该等于1，表示跨列进行计算，因为[0,1,2]是属于第1列第2列第3列的数字。

类似的比如求每行的均值，对每行进行排序，都相当于跨列进行操作，所以axis=1.

In [10]:
# 计算每行的最小值
np.min(a,axis=1)

array([0, 3])

现在我们想要删除第1列的数据,axis应该等于多少呢？

axis应该等于1，因为删除相当于是对第2列进行操作

In [11]:
# 删除第2列的数据
np.delete(a,1,axis=1)

array([[0, 2],
       [3, 5]])