 # <center>Numpy基础</center>

# 1 - Ndarray 对象
- NumPy 最重要的一个特点是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，以 0 下标为开始进行集合中元素的索引。
- ndarray 对象是用于存放同类型元素的多维数组。
- ndarray 中的每个元素在内存中都有相同存储大小的区域。
- ndarray 内部由以下内容组成：
    - 一个指向数据（内存或内存映射文件中的一块数据）的指针。
    - 数据类型或 dtype，描述在数组中的固定大小值的格子。
    - 一个表示数组形状（shape）的元组，表示各维度大小的元组。
    - 一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。

## 1.1 - 创建方法
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)

|  参数   | 描述  |
|  :----:  |  :----  |
| object  | 数组或嵌套的数列 |
| dtype  | 数组元素的数据类型，可选  |
| cpoy  | 对象是否需要复制，可选 |
| order  | 创建数组的样式，C为行方向，F为列方向，A为任意方向（默认） |
| subok  | 默认返回一个与基类类型一致的数组 |
| ndmin  | 指定生成数组的最小维度 |

In [3]:
import numpy as np

In [8]:
# 一维数组
a = np.array([1,2,3,4])
a

array([1, 2, 3, 4])

In [9]:
# 多个维度
a = np.array([[1,2,3],[4,5,6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

In [10]:
# 最小维度
a = np.array([1,2,3,4,5,6],ndmin=2)
a

array([[1, 2, 3, 4, 5, 6]])

In [11]:
# dtype参数
a = np.array([1,2,3,4], dtype=complex)
a

array([1.+0.j, 2.+0.j, 3.+0.j, 4.+0.j])

## 1.2 -  数据类型对象

- 数据类型对象（numpy.dtype 类的实例）用来描述与数组对应的内存区域是如何使用，它描述了数据的以下几个方面：：
    - 数据的类型（整数，浮点数或者 Python 对象）
    - 数据的大小（例如， 整数使用多少个字节存储）
    - 数据的字节顺序（小端法或大端法）
    - 在结构化类型的情况下，字段的名称、每个字段的数据类型和每个字段所取的内存块的部分
    - 如果数据类型是子数组，那么它的形状和数据类型是什么。
- 字节顺序是通过对数据类型预先设定 < 或 > 来决定的。 < 意味着小端法(最小值存储在最小的地址，即低位组放在最前面)。> 意味着大端法(最重要的字节存储在最小的地址，即高位组放在最前面)。

- dtype 对象是使用以下语法构造的： numpy.dtype(object, align, copy)
    - object - 要转换为的数据类型对象
    - align - 如果为 true，填充字段使其类似 C 的结构体。
    - copy - 复制 dtype 对象 ，如果为 false，则是对内置数据类型对象的引用

In [14]:
# 使用标量类型
dt = np.dtype(np.int32)
dt

dtype('int32')

In [15]:
# int8, int16, int32, int64 四种数据类型可以使用字符串 'i1', 'i2','i4','i8' 代替
dt = np.dtype('i4')
print(dt)

int32


In [16]:
# 字节顺序标注
dt = np.dtype('<i4')
dt

dtype('int32')

In [19]:
# 首先创建结构化数据类型
dt = np.dtype([('age',np.int8)])
dt

dtype([('age', 'i1')])

In [22]:
# 将数据类型应用于ndarray对象
a = np.array([(10,),(20,),(30,)], dtype=dt)
a
# 类型字段名可以用于存取实际的 age 列
print(a['age'])

[10 20 30]


In [24]:
# 实例
student = np.dtype([('name','S20'), ('age', 'i1'), ('marks', 'f4')]) 
student
a = np.array([('abc', 21, 50),('xyz', 18, 75)], dtype = student) 
print(a)

[(b'abc', 21, 50.) (b'xyz', 18, 75.)]


# 2 -  数组属性

- NumPy 数组的维数称为秩（rank），秩就是轴的数量，即数组的维度，一维数组的秩为 1，二维数组的秩为 2，以此类推。
- 在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴（axis），第一个轴相当于是底层数组，第二个轴是底层数组里的数组。而轴的数量——秩，就是数组的维数。
- 很多时候可以声明 axis。axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。
- NumPy 的数组中比较重要 ndarray 对象属性有：
|  属性   | 说明  |
|  :----:  |  :----  |
| ndarray.ndim  | 秩，轴的数量或维度的数量 |
| ndarray.shape  | 数组的维度，对于矩阵，n行m列  |
| ndarray.size  | 数组元素中的总个数，相当于.shape中的n*m的值 |
| ndarray.dtype  | ndarray对象的元素类型 |
| ndarray.itemsize  | ndarray 对象中每个元素的大小，以字节为单位 |
| ndarray.flags  | 	ndarray 对象的内存信息 |
| ndarray.real	|  ndarray元素的实部 | 
| ndarray.imag | ndarray 元素的虚部 | 
| ndarray.data | 包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，所以通常不需要使用这个属性。| 

In [29]:
# ndarray.ndim 用于返回数组的维数，等于秩。
a = np.arange(24)
print(a.ndim)
a = a.reshape(2,4,3)
a
print(a.ndim)

1
3


In [42]:
# ndarray.shape 表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。比如，一个二维数组，其维度表示"行数"和"列数"。
# ndarray.shape也可以用于调整数组的大小
a = np.array([[1,2,3],[4,5,6]])
print(a.shape)
a.shape = (3,2)
a

(2, 3)


array([[1, 2],
       [3, 4],
       [5, 6]])

In [35]:
# Numpy也提供了reshape函数来调整数组的大小
b = a.reshape(3,2)
b

array([[1, 2],
       [3, 4],
       [5, 6]])

In [89]:
# ndarray.itemsize 以字节的形式返回数组中每一个元素的大小。
# 例如，一个元素类型为 float64 的数组 itemsize 属性值为 8(float64 占用 64 个 bits，每个字节长度为 8，所以 64/8，占用 8 个字节），
# 又如，一个元素类型为 complex32 的数组 item 属性为 4（32/8）。

# 数组的 dtype 为 int8（一个字节）  
x = np.array([1,2,3,4,5], dtype = np.int8)  
print (x.itemsize)
 
# 数组的 dtype 现在为 float64（八个字节） 
y = np.array([1,2,3,4,5], dtype = np.float64)  
print (y.itemsize)

1
8


<font color=#FF2121>**注：ndarray.reshape 通常返回的是非拷贝副本，即改变返回后数组的元素，原数组对应元素的值也会改变。**</font>

In [41]:
a = np.array([[1,2,3],[4,5,6]])
b = a.reshape(6,)
b[0] = 100
print(b)
print(a)

[100   2   3   4   5   6]
[[100   2   3]
 [  4   5   6]]


# 3 - 创建数组

- numpy.empty
    - numpy.empty 方法用来创建一个指定形状（shape）、数据类型（dtype）且未初始化的数组
    - <font color=#FF2121>**注：数组元素为随机值，因为它们未初始化**</font>

numpy.empty(shape, dtype = float, order = 'C')

|  参数   | 描述  |
|  :----:  |  :----  |
| shape  | 数组形状 |
| dtype  | 数据类型，可选  |
| order  | 有"C"和"F"两个选项,分别代表，行优先和列优先，在计算机内存中的存储元素的顺序。 |

In [43]:
x = np.empty([2,3],dtype = int)
x

array([[1838338768,        455,          0],
       [         0,     131074,   40307812]])

- numpy.zeros
    - 创建指定大小的数组，数组元素以 0 来填充：

- numpy.zeros(shape, dtype = float, order = 'C')

In [49]:
# 默认为浮点数
x = np.zeros(5)
x

array([0., 0., 0., 0., 0.])

In [50]:
# 设置类型为整数
x = np.zeros((5,), dtype=int)
x

1

In [53]:
# 自定义类型
z = np.zeros((2,2), dtype = [('x', 'i4'), ('y', 'i4')])  
z

array([[0., 0.],
       [0., 0.]])

## 3.1 - 从已有的数组创建数组

### numpy.asarray

- numpy.asarray 类似 numpy.array，但 numpy.asarray 参数只有三个，比 numpy.array 少两个。

numpy.asarray(a, dtype = None, order = None)

In [56]:
# 将列表转换为数组
x = [1,2,3]
a = np.asarray(x)
a

array([1, 2, 3])

In [57]:
# 将元祖转换为数组
x = (1,2,3)
a = np.asarray(x)
a

array([1, 2, 3])

In [58]:
# 将元祖列表转换为数组
x = [(1,2,3),(4,5,6)]
a = np.asarray(x)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [59]:
# 设置dtype参数
x = [1,2,3]
a = np.asarray(x, dtype=float)
a

array([1., 2., 3.])

### numpy.frombutter

- numpy.formbuffer 用于实现动态数组
- numpy.formbuffer 接受butter输入参数，以流的形式读入转化成ndarray对象

numpy.frombuffer(buffer, dtype = float, count = -1, offset = 0) <br>
<font color=#FF2121>**注：buffer 是字符串的时候，Python3 默认 str 是 Unicode 类型，所以要转成 bytestring 在原 str 前加上 b。**</font>

|  参数   | 描述  |
|  :----:  |  :----  |
| butter  | 可以是任意对象，会以流的形式读入 |
| dtype  | 返回数组的数据类型，可选  |
| count  | 读取的数据数量，默认为-1，读取所有数据 |
| offset  | 读取的起始位置，默认为0 |

- S1和|S2字符串是数据类型描述符; 
    - S1意味着数组包含长度为1的字符串
    - S2意味着数组包含长度为2的字符串 
    - |管道符号是byteorder标志, 在这种情况下，不需要字节顺序标志，因此它设置为|，这意味着不适用。

In [84]:
s = b'Hello World'
a = np.frombuffer(s, dtype='S1')
a

array([b'H', b'e', b'l', b'l', b'o', b' ', b'W', b'o', b'r', b'l', b'd'],
      dtype='|S1')

### numpy.fromiter
- numpy.fromiter 方法从可迭代对象中建立 ndarray 对象，返回一维数组。

numpy.fromiter(iterable, dtype, count=-1)

|  参数   | 描述  |
|  :----:  |  :----  |
| iterable  | 可迭代对象 |
| dtype  | 返回数组的数据类型，可选  |
| count  | 读取的数据数量，默认为-1，读取所有数据 |

In [88]:
# 使用 range 函数创建列表对象  
list = range(5)
it=iter(list)

# 使用迭代器创建 ndarray 
x=np.fromiter(it, dtype=float)
print(x)

[0. 1. 2. 3. 4.]


## 3.2 - 从数值范围创建数组

### numpy.arange
- numpy 包中的使用 arange 函数创建数值范围并返回 ndarray 对象，函数格式如下：
- 根据 start 与 stop 指定的范围以及 step 设定的步长，生成一个 ndarray。

numpy.arange(start, stop, step, dtype)

In [90]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [91]:
# 设置数值类型
x = np.arange(5, dtype=float)
x

array([0., 1., 2., 3., 4.])

In [92]:
# 设置步长
x = np.arange(10, 20, 2)
x

array([10, 12, 14, 16, 18])

### numpy.linspace
- numpy.linspace 函数用于创建一个一维数组，数组是一个等差数列构成的，格式如下：

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

|  参数   | 描述  |
|  :----:  |  :----  |
| start  | 序列的起始值 |
| stop  | 序列的终止值，如果endpoint为true，该值包含于数列中  |
| num  | 要生成的等步长的样本数量，默认为50 |
| endpoint  | 该值为 true 时，数列中包含stop值，反之不包含，默认是True。 |
| retstep  | 如果为 True 时，生成的数组中会显示间距，反之不显示。 |
| dtype  | ndarray 的数据类型 |

In [94]:
a = np.linspace(1, 10, 10)
a

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [97]:
a = np.linspace(1, 10, 3)
a

array([ 1. ,  5.5, 10. ])

In [98]:
# 设置元素全部是1的等差数列
x = np.linspace(1, 1, 10)
x

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [101]:
a = np.linspace(10, 20, 5, endpoint=False)
a

array([10., 12., 14., 16., 18.])

In [102]:
# 设置间距
a = np.linspace(10, 30, 5, retstep=True)
a

(array([10., 15., 20., 25., 30.]), 5.0)

In [104]:
b = np.linspace(1,10,10).reshape([10,1])
b

array([[ 1.],
       [ 2.],
       [ 3.],
       [ 4.],
       [ 5.],
       [ 6.],
       [ 7.],
       [ 8.],
       [ 9.],
       [10.]])

### numpy.logspace
- numpy.logspace 函数用于创建一个于等比数列。格式如下：

np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)

|  参数   | 描述  |
|  :----:  |  :----  |
| start  | 序列的起始值 |
| stop  | 序列的终止值，如果endpoint为true，该值包含于数列中  |
| num  | 要生成的等步长的样本数量，默认为50 |
| endpoint  | 该值为 true 时，数列中包含stop值，反之不包含，默认是True。 |
| base  | 对数 log 的底数 |
| dtype  | ndarray 的数据类型 |

In [105]:
a = np.logspace(1.0,  2.0, num =  10) 
a

array([ 10.        ,  12.91549665,  16.68100537,  21.5443469 ,
        27.82559402,  35.93813664,  46.41588834,  59.94842503,
        77.42636827, 100.        ])

In [106]:
a = np.logspace(0,9,10,base=2)
a

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128., 256., 512.])

# 4 - 切片和索引

- ndarray对象的内容可以通过索引或切片来访问和修改，与 Python 中 list 的切片操作一样。
- ndarray 数组可以基于0 - n的下标进行索引，切片对象可以通过内置的 slice 函数，并设置 start, stop 及 step 参数进行，从原数组中切割出一个新数组。

In [108]:
# slice函数
a = np.arange(10)
a
s = slice(2, 7, 2)  # 从索引 2 开始到索引 7 停止，间隔为2
a[s]

array([2, 4, 6])

In [109]:
# start:stop:step
a = np.arange(10)
b = a[2:7:2]
b

array([2, 4, 6])

In [112]:
# 和列表的切片一样
a = np.arange(10)
b = a[2:]
b = a[2:7]
b

array([2, 3, 4, 5, 6])

In [114]:
# 多维数组
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
a[1:]

array([[4, 5, 6],
       [7, 8, 9]])