# 第二周:数据分析之表示

## Numpy 入门

### 数据的维度

### NumPy 的数组对象:ndarray

NumPy

- NumPy 是一个开源的 Python 科学计算基础库.
- 一个强大的 N 维数组对象 ndarray
- 广播功能函数
- 整合 C/C++/Fortran 代码的工具线性代数,傅里叶变换,随机数生成等功能
- NumPy 是 SciPy,Pandas 等数据处理或科学计算库的基础.

N 维数组对象:ndarray

- 数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据.
- 设置专门的数组对象,经过优化,可以提升这类应用的运算速度.
- 观察:科学计算中,一个维度所有数据的类型往往相同.
- 数组对象采用相同的数据类型,有助于节省运算和存储空间.

ndarray 是一个多维数组对象,由两部分构成

- 实际的数据
- 描述这些数据的元数据( 数据维度,数据类型等)
- ndarray 数组一般要求所有元素类型相同(同质),数组下标从 0 开始.


| 属性        | 说明                                               |
| ----------- | -------------------------------------------------- |
| `.ndim`     | 秩,即轴的数量或维度的数量.                         |
| `.shape`    | ndarray 对象的尺度,对于矩阵,n 行 m 列.             |
| `.size`     | ndarray 对象元素的个数,相当于`.shape`中 n\*m 的值. |
| `.dtype`    | ndarray 对象的元素类型.                            |
| `.itemsize` | ndarray 对象中每个元素的大小,以字节为单位.         |

In [2]:
import numpy as np
a =np.array([[8,1,2,3,4],[9,8,7,6,5]])

In [3]:
a.ndim

2

In [4]:
a.shape

(2, 5)

In [5]:
a.size

10

In [6]:
a.dtype

dtype('int32')

In [7]:
a.itemsize

4

ndarray 的元素类型
| 数据类型 | 说明 |
|-------------|------|
| `bool` | 布尔类型,True 或 False. |
| `int` | 与 C 语言中的 int 类型一致,一般是 int32 或 int64. |
| `intp` | 用于索引的整数,与 C 语言中 ssize_t 一致,int32 或 int64. |
| `int8` | 字节长度的整数,取值:[-128, 127]. |
| `int16` | 16 位长度的整数,取值:[-32768, 32767]. |
| `int32` | 32 位长度的整数,取值:[-2^31, 2^31 - 1]. |
| `int64` | 64 位长度的整数,取值:[-2^63, 2^63 - 1]. |
| `uint8` | 8 位无符号整数,取值:[0, 255]. |
| `uint16` | 16 位无符号整数,取值:[0, 65535]. |
| `uint32` | 32 位无符号整数,取值:[0, 2^32 - 1]. |
| `uint64` | 64 位无符号整数,取值:[0, 2^64 - 1]. |
| `float16` | 16 位半精度浮点数:1 位符号位,5 位指数,10 位尾数. |
| `float32` | 32 位单精度浮点数:1 位符号位,8 位指数,23 位尾数. |
| `float64` | 64 位双精度浮点数:1 位符号位,11 位指数,52 位尾数. |
| `complex64` | 复数类型,实部和虚部都是 32 位浮点数. |
| `complex128`| 复数类型,实部和虚部都是 64 位浮点数. |

对比:Python 语法仅支持整数,浮点数和复数 3 种类型

- 科学计算涉及数据较多,对存储和性能都有较高要求.
- 对元素类型精细定义,有助于 NumPy 合理使用存储空间并优化性能.
- 对元素类型精细定义,有助于程序员对程序规模有合理评估.


### ndarray数组的创建和变换
ndarray数组的创建方法

- 从Python中的列表,元组等类型创建ndarray数组.
- 使用NumPy中函数创建ndarray数组,如:arange,ones, zeros等.
- 从字节流(rawbytes)中创建ndarray数组.
- 从文件中读取特定格式,创建ndarray数组.

#### 从列表类型创建

In [8]:
x = np.array([1,2,3,4,5,6,7,8,9,10])
print(x)

[ 1  2  3  4  5  6  7  8  9 10]


#### 从元组类型创建

In [9]:
x = np.array((1,2,3,4,5,6,7,8,9,10))
print(x)

[ 1  2  3  4  5  6  7  8  9 10]


#### 从列表和元组混合类型创建

In [10]:
x = np.array([[1,2],[3,4],(5,6)])
print(x)

[[1 2]
 [3 4]
 [5 6]]


#### 使用 NumPy 中函数创建 ndarray 数组,如:arange,ones, zeros 等.

| 函数                                  | 说明                                                    |
| ------------------------------------- | ------------------------------------------------------- |
| `np.arange(n)`                        | 类似 `range` 函数, 返回 `ndarray` 类型, 元素从 0 到 n-1 |
| `np.ones(shape)`                      | 根据 `shape` 生成一个全 1 数组, `shape` 是元组类型      |
| `np.zeros(shape)`                     | 根据 `shape` 生成一个全 0 数组, `shape` 是元组类型      |
| `np.full(shape, val)`                 | 根据 `shape` 生成一个数组, 每个元素值都是 `val`         |
| `np.eye(n)`                           | 创建一个正方的 n\*n 单位矩阵, 对角线为 1, 其余为 0      |
| `np.ones_like(a)`                     | 根据数组 a 的形状生成一个全 1 数组                      |
| `np.zeros_like(a)`                    | 根据数组 a 的形状生成一个全 0 数组                      |
| `np.full_like(a, val)`                | 根据数组 a 的形状生成一个数组, 每个元素值都是 `val`     |
| `np.linspace(start, stop, num)`       | 根据起止数据等间距地填充数据, 形成数组                  |
| `np.concatenate((a1, a2, ...), axis)` | 将两个或多个数组合并成一个新的数组                      |


In [11]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [13]:
np.zeros((2,3,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [14]:
np.full((2,2),7)

array([[7, 7],
       [7, 7]])

In [15]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [16]:
a = np.eye(3)
np.ones_like(a)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [17]:
np.zeros_like(a)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [18]:
np.full_like(a,7)

array([[7., 7., 7.],
       [7., 7., 7.],
       [7., 7., 7.]])

In [19]:
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [20]:
np.concatenate([a,a])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### ndarray 数组的维度变换

| 方法                  | 说明                                                |
| --------------------- | --------------------------------------------------- |
| `.reshape(shape)`     | 不改变数组元素,返回一个 shape 形状的数组,原数组不变 |
| `.resize(shape)`      | 与 `.reshape` 功能一致,但修改原数组                 |
| `.swapaxes(ax1, ax2)` | 将数组 n 个维度中两个维度进行调换                   |
| `.flatten()`          | 对数组进行降维,返回折叠后的一维数组,原数组不变      |


In [21]:
a = np.ones((2,3,4), dtype=np.int32)
a.reshape((3,8))

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [22]:
a

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [23]:
a.resize((3,8))

In [24]:
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [25]:
a.flatten()

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

In [26]:
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [27]:
b = a.flatten()

In [28]:
b

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

#### new_a = a.astype(new_type)

In [29]:
a = np.ones((2, 3, 4), dtype=np.int32)

In [30]:
a

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [31]:
b = a.astype(np.float64)

In [32]:
b

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

astype()方法一定会创建新的数组(原始数据的一个拷贝),即使两个类型一致.

#### ndarray数组向列表的转换
ls = a.tolist()

In [33]:
a = np.full((2, 3, 4), 25, dtype=np.int32)

In [34]:
a

array([[[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]],

       [[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]]])

In [35]:
a.tolist()

[[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]],
 [[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]]]

### ndarray数组的操作(索引和切片)
数组的索引和切片
- 索引:获取数组中特定位置元素的过程
- 切片:获取数组元素子集的过程

一维数组的索引和切片:与Python的列表类似

In [36]:
a = np.array([1,2,3,4,5,6,7,8,9,10])

In [37]:
a[2]

3

In [38]:
a[1:4:2]

array([2, 4])

多位数组的索引:

In [39]:
a = np.arange(24).reshape((2,3,4))

In [40]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [41]:
a[1,2,3]

23

In [42]:
a[0,1,2]

6

In [43]:
a[-1,-2,-3]

17

多维数组的切片:

In [44]:
a[:,1,-3]

array([ 5, 17])

In [45]:
a[:,1:3,:]

array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

### ndarray数组运算
#### 数组与标量之间的运算
- 数组与标量之间的运算作用于数组的每一个元素

In [46]:
a = np.arange(24).reshape((2,3,4))

In [47]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [48]:
a.mean()

11.5

In [49]:
a/a.mean()

array([[[0.        , 0.08695652, 0.17391304, 0.26086957],
        [0.34782609, 0.43478261, 0.52173913, 0.60869565],
        [0.69565217, 0.7826087 , 0.86956522, 0.95652174]],

       [[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
        [1.39130435, 1.47826087, 1.56521739, 1.65217391],
        [1.73913043, 1.82608696, 1.91304348, 2.        ]]])

#### 对 ndarray 中的数据执行元素级运算的函数

| 函数                                                                                      | 说明                                               |
| ----------------------------------------------------------------------------------------- | -------------------------------------------------- |
| `np.abs(x)`<br>`np.fabs(x)`                                                               | 计算数组各元素的绝对值                             |
| `np.sqrt(x)`                                                                              | 计算数组各元素的平方根                             |
| `np.square(x)`                                                                            | 计算数组各元素的平方                               |
| `np.log(x)`<br>`np.log10(x)`<br>`np.log2(x)`                                              | 计算数组各元素的自然对数,10 底对数和 2 底对数     |
| `np.ceil(x)`<br>`np.floor(x)`                                                             | 计算数组各元素的 ceiling 值或 floor 值             |
| `np.rint(x)`                                                                              | 计算数组各元素的四舍五入值                         |
| `np.modf(x)`                                                                              | 将数组各元素的小数和整数部分以两个独立数组形式返回 |
| `np.cos(x)`<br>`np.cosh(x)`<br>`np.sin(x)`<br>`np.sinh(x)`<br>`np.tan(x)`<br>`np.tanh(x)` | 计算数组各元素的普通型和双曲型三角函数             |
| `np.exp(x)`                                                                               | 计算数组各元素的指数值                             |
| `np.sign(x)`                                                                              | 计算数组各元素的符号值,1(+), 0, -1(-)             |


In [50]:
a = np.arange(24).reshape((2,3,4))
np.square(a)

array([[[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121]],

       [[144, 169, 196, 225],
        [256, 289, 324, 361],
        [400, 441, 484, 529]]])

In [51]:
a = np.sqrt(a) # a = a**0.5被改变
a

array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

In [52]:
np.modf(a)

(array([[[0.        , 0.        , 0.41421356, 0.73205081],
         [0.        , 0.23606798, 0.44948974, 0.64575131],
         [0.82842712, 0.        , 0.16227766, 0.31662479]],
 
        [[0.46410162, 0.60555128, 0.74165739, 0.87298335],
         [0.        , 0.12310563, 0.24264069, 0.35889894],
         [0.47213595, 0.58257569, 0.69041576, 0.79583152]]]),
 array([[[0., 1., 1., 1.],
         [2., 2., 2., 2.],
         [2., 3., 3., 3.]],
 
        [[3., 3., 3., 3.],
         [4., 4., 4., 4.],
         [4., 4., 4., 4.]]]))

#### numpy 二元函数

| 函数                                                                 | 说明                                           |
| -------------------------------------------------------------------- | ---------------------------------------------- |
| `+ - * / **`                                                         | 两个数组各元素进行对应运算                     |
| `np.minimum(x,y)`<br>`np.fmin()`<br>`np.maximum(x,y)`<br>`np.fmax()` | 元素级的最大值/最小值计算                      |
| `np.mod(x,y)`                                                        | 元素级的模运算                                 |
| `np.copysign(x,y)`                                                   | 将数组 y 中各元素值的符号赋值给数组 x 对应元素 |
| `== != < > <= >=`                                                    | 算术比较,产生布尔型数组                        |


In [53]:
a = np.arange(24).reshape((2, 3, 4))
b = np.sqrt(a)

In [54]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [55]:
b

array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

In [56]:
np.maximum(a, b)

array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]])

In [57]:
a > b

array([[[False, False,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]])

### 单元小结

#### 数据的维度

- 一维
- 二维
- 多维
- 高维

#### ndarray 类型属性,创建和变换

- `.ndim` 数组的维数
- `.shape` 数组每一维的大小
- `.size` 数组中的元素总数
- `.dtype` 数组元素类型
- `.itemsize` 数组中每个元素的字节大小
- `.reshape(shape)` 改变数组形状
- `.resize(shape)` 改变数组大小
- `.swapaxes(ax1, ax2)` 交换数组的两个轴
- `.flatten()` 数组展平

#### 创建数组的函数

- `np.arange(n)` 创建范围内的数组
- `np.ones(shape)` 创建全 1 数组
- `np.zeros(shape)` 创建全 0 数组
- `np.full(shape, val)` 创建全为指定值的数组
- `np.eye(n)` 创建一个 n\*n 单位矩阵
- `np.ones_like(a)` 创建一个形状与 a 相同,全部元素为 1 的数组
- `np.zeros_like(a)` 创建一个形状与 a 相同,全部元素为 0 的数组
- `np.full_like(a, val)` 创建一个形状与 a 相同,全部元素为指定值 val 的数组

#### 数组的操作

- **数组的索引和切片**
- **数组的运算**
  - 一元函数
  - 二元函数


## numpy 数据存取与函数

### 数据的 CSV 文件存取

CSV 文件

- CSV(Comma-SeparatedValue,逗号分隔值)
- CSV 是一种常见的文件格式,用来存储批量数据.
  2016 年 7 月部分大中城市新建住宅价格指数
  | 城市 | 环比 | 同比 | 定基 |
  |------|--------|--------|--------|
  | 北京 | 101.5 | 120.7 | 121.4 |
  | 上海 | 101.2 | 127.3 | 127.8 |
  | 深圳 | 102.0 | 140.9 | 145.5 |
  | 广州 | 101.3 | 119.4 | 120.0 |
  | 沈阳 | 100.1 | 101.4 | 101.6 |
- 城市,环比,同比,定基
- 北京,101.5,120.7,121.4
- 上海,101.2,127.3,127.8
- 广州,101.3,119.4,120.0
- 深圳,102.0,140.9,145.5
- 沈阳,100.1,101.4,101.6

将数据写入 CSV:np.savetxt(frame, array,fmt='%.18e',delimiter=None)

- frame:文件,字符串或产生器,可以是.gz 或.bz2 的压缩文件.
- array:存人文件的数组.
- fmt:写人文件的格式,例如:%d%.2f%.18e.
- delimite:分割字符串,默认是任何空格.

In [58]:
a = np.arange(100).reshape(5,20)
np.savetxt('a.txt',a,fmt='%d',delimiter=',')
a

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
        56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
        76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
        96, 97, 98, 99]])

In [59]:
a = np.arange(100).reshape(5,20)
np.savetxt('a.txt',a,fmt='%.1f',delimiter=',')
a

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
        56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
        76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
        96, 97, 98, 99]])

从CSV文件读取数据:np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)
使用 `np.loadtxt` 函数从CSV文件中读取数据.参数说明如下:
- `frame`: 文件,字符串或产生器,可以是`.gz`或`.bz2`的压缩文件.
- `dtype`: 数据类型,默认是`np.float`.
- `delimiter`: 分隔符,默认为任何空格.
- `unpack`: 如果为True,则读入的结果数组会转置,即将行转换为列.默认值是False.

In [60]:
b = np.loadtxt('a.txt',delimiter=',')
b

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
        13., 14., 15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24., 25., 26., 27., 28., 29., 30., 31., 32.,
        33., 34., 35., 36., 37., 38., 39.],
       [40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51., 52.,
        53., 54., 55., 56., 57., 58., 59.],
       [60., 61., 62., 63., 64., 65., 66., 67., 68., 69., 70., 71., 72.,
        73., 74., 75., 76., 77., 78., 79.],
       [80., 81., 82., 83., 84., 85., 86., 87., 88., 89., 90., 91., 92.,
        93., 94., 95., 96., 97., 98., 99.]])

In [61]:
b = np.loadtxt('a.txt', delimiter=',').astype(np.int64)
b

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
        56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
        76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
        96, 97, 98, 99]], dtype=int64)

CSV 文件的局限性

- CSV 只能有效存储一维和二维数组
- np.savetxt() np.loadtxt()只能有效存取一维和二维数组


### 多维数据的存取
#### 存数据a.tofile(frame, sep=",format='%s)
- frame:文件,字符串.
- sep:数据分割字符串,如果是空串,写人文件为二进制.
- format:写人数据的格式.

In [63]:
a = np.arange(100).reshape(5,20)
a.tofile("b.dat", sep=",", format="%d")

In [64]:
a = np.arange(100).reshape(5, 20)
a.tofile("b.dat", format="%d")  # 二进制文件占用的空间更小

#### 读数据np.fromfile(frame, dtype=float,count=-1, sep=")

- frame:文件,字符串.
- dtype:读取的数据类型.
- count:读人元素个数,-1 表示读人整个文件.
- sep:数据分割字符串,如果是空串,写入文件为二进制.

In [65]:
a = np.arange(100).reshape(5, 20)
a.tofile("b.dat", sep=",", format="%d")
c = np.fromfile("b.dat", dtype=np.int64, sep=",")
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99],
      dtype=int64)

In [66]:
c.reshape(50,2)

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11],
       [12, 13],
       [14, 15],
       [16, 17],
       [18, 19],
       [20, 21],
       [22, 23],
       [24, 25],
       [26, 27],
       [28, 29],
       [30, 31],
       [32, 33],
       [34, 35],
       [36, 37],
       [38, 39],
       [40, 41],
       [42, 43],
       [44, 45],
       [46, 47],
       [48, 49],
       [50, 51],
       [52, 53],
       [54, 55],
       [56, 57],
       [58, 59],
       [60, 61],
       [62, 63],
       [64, 65],
       [66, 67],
       [68, 69],
       [70, 71],
       [72, 73],
       [74, 75],
       [76, 77],
       [78, 79],
       [80, 81],
       [82, 83],
       [84, 85],
       [86, 87],
       [88, 89],
       [90, 91],
       [92, 93],
       [94, 95],
       [96, 97],
       [98, 99]], dtype=int64)

需要注意

- 该方法需要读取时知道存入文件时数组的维度和元素类型
- a.tofile()和 np.fromfile()需要配合使用
- 可以通过元数据文件来存储额外信息

#### numpy 的便捷文件存取

- np.save(fname, array)或 np.savez(fname, array)
- frame:文件名,以.npy 为扩展名,压缩扩展名为.npz
- array:数组变量
np.load(fname)
- frame: 文件名,以.npy 为扩展名,压缩扩展名为.npz


In [67]:
a = np.arange(100).reshape(5, 20)
np.save("a.npy", a)
b  = np.load("a.npy")
b

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
        56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
        76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
        96, 97, 98, 99]])

### numpy 的随机数子库

#### numpy 的 random 子库

### NumPy 随机数函数

NumPy 提供了多种生成随机数的函数, 以下是一些常用的函数及其说明:

| 函数                          | 说明                                                                                               |
| ----------------------------- | -------------------------------------------------------------------------------------------------- |
| `rand(d0, d1, ..., dn)`       | 根据 d0-dn 创建随机数数组, 浮点数, [0,1)之间, 均匀分布                                             |
| `randn(d0, d1, ..., dn)`      | 根据 d0-dn 创建随机数数组, 标准正态分布                                                            |
| `randint(low, high, shape)`   | 根据 shape 创建随机整数或整数数组, 范围是 [low, high)                                              |
| `seed(s)`                     | 设置随机数种子, s 是给定的种子值                                                                   |
| `shuffle(a)`                  | 根据数组 a 的第 1 轴进行随机排列, 改变数组 x                                                       |
| `permutation(a)`              | 根据数组 a 的第 1 轴产生一个新的乱序数组, 不改变数组 x                                             |
| `choice(a, size, replace, p)` | 从一维数组 a 中以概率 p 抽取元素, 形成 size 形状新数组, replace 表示是否可以重用元素, 默认为 False |
| `uniform(low, high, size)`    | 产生具有均匀分布的数组, low 起始值, high 结束值, size 形状                                         |
| `normal(loc, scale, size)`    | 产生具有正态分布的数组, loc 均值, scale 标准差, size 形状                                          |
| `poisson(lam, size)`          | 产生具有泊松分布的数组, lam 随机事件发生率, size 形状                                              |

使用这些函数可以方便地生成各种随机数据, 用于数据分析, 机器学习等领域.


In [1]:
import numpy as np

# 生成一个 3x3 的随机浮点数数组
array_uniform = np.random.rand(3, 3)
print("Uniformly distributed array:\n", array_uniform)

Uniformly distributed array:
 [[0.6862318  0.330149   0.04003111]
 [0.97379456 0.32859659 0.60269048]
 [0.26902003 0.73616318 0.1173783 ]]


In [2]:
# 生成一个 2x4 的标准正态分布随机数数组
array_normal = np.random.randn(2, 4)
print("Normally distributed array:\n", array_normal)

Normally distributed array:
 [[-0.08690693  1.29299967 -0.18989697  1.6778205 ]
 [-0.87532551 -1.02944631  0.60763445  1.20456039]]


In [3]:
# 生成一个形状为 (2, 2) 的 [5, 10) 范围内的随机整数数组
array_integers = np.random.randint(5, 10, size=(2, 2))
print("Random integers array:\n", array_integers)

Random integers array:
 [[7 7]
 [6 6]]


In [4]:
# 设置随机数种子
np.random.seed(0)

In [5]:
# 创建一个数组
arr = np.arange(10)
print("Original array:\n", arr)

# 随机排列数组
np.random.shuffle(arr)
print("Shuffled array:\n", arr)

Original array:
 [0 1 2 3 4 5 6 7 8 9]
Shuffled array:
 [2 8 4 9 1 6 7 3 0 5]


In [6]:
# 创建一个数组
arr = np.arange(5)
print("Original array:\n", arr)

# 产生一个乱序数组
arr_permuted = np.random.permutation(arr)
print("Permuted array:\n", arr_permuted)

Original array:
 [0 1 2 3 4]
Permuted array:
 [1 0 2 3 4]


In [7]:
# 创建一个数组
arr = np.arange(5)
print("Original array:\n", arr)

# 从arr中随机抽取3个元素,允许重复抽取
samples = np.random.choice(arr, 3, replace=True)
print("Random samples with replacement:\n", samples)

Original array:
 [0 1 2 3 4]
Random samples with replacement:
 [0 4 2]


In [8]:
import numpy as np

# 生成一个形状为 (3, 2) 的,范围在 [0, 10) 的均匀分布数组
array_uniform = np.random.uniform(low=0, high=10, size=(3, 2))
print("Uniformly distributed array:\n", array_uniform)

Uniformly distributed array:
 [[4.77665117 8.12168729]
 [4.79977172 3.92784796]
 [8.36078764 3.3739616 ]]


In [9]:
# 生成一个形状为 (3, 2) 的,事件发生率为 5 的泊松分布数组
array_poisson = np.random.poisson(lam=5, size=(3, 2))
print("Poisson distributed array:\n", array_poisson)

Poisson distributed array:
 [[7 6]
 [3 3]
 [7 4]]


### NumPy 统计函数

以下是一些常用的 NumPy 统计函数及其说明:

| 函数                                  | 说明                                                |
| ------------------------------------- | --------------------------------------------------- |
| `sum(a, axis=None)`                   | 根据给定轴 `axis` 计算数组 `a` 相关元素之和         |
| `mean(a, axis=None)`                  | 根据给定轴 `axis` 计算数组 `a` 相关元素的期望       |
| `average(a, axis=None, weights=None)` | 根据给定轴 `axis` 计算数组 `a` 相关元素的加权平均值 |
| `std(a, axis=None)`                   | 根据给定轴 `axis` 计算数组 `a` 相关元素的标准差     |
| `var(a, axis=None)`                   | 根据给定轴 `axis` 计算数组 `a` 相关元素的方差       |
| `min(a)` `max(a)`                     | 计算数组 `a` 中元素的最小值,最大值                  |
| `argmin(a)` `argmax(a)`               | 计算数组 `a` 中元素最小值,最大值的降一维后下标      |
| `unravel_index(index, shape)`         | 根据 `shape` 将一维下标 `index` 转换成多维下标      |
| `ptp(a)`                              | 计算数组 `a` 中元素最大值与最小值的差               |
| `median(a)`                           | 计算数组 `a` 中元素的中位数(中值)                   |

这些函数可以方便地对数据进行基本的统计分析,如求和,求平均,求标准差等.


In [2]:
# 使用 sum 计算数组的总和
import numpy as np

a = np.array([[1, 2], [3, 4]])
total_sum = np.sum(a)
print("Total sum of array:", total_sum)

Total sum of array: 10


In [11]:
# 使用 mean 计算数组的平均值
mean_value = np.mean(a)
print("Mean value of array:", mean_value)

Mean value of array: 2.5


In [7]:
#  使用 average 计算数组的加权平均值
weights = np.array([0.5, 0.5])
average_value = np.average(a, axis=0, weights=weights)
print("Average value of array with weights:", average_value)

Average value of array with weights: [2. 3.]


In [4]:
# 使用 std 计算数组的标准差
std_deviation = np.std(a)
print("Standard deviation of array:", std_deviation)

Standard deviation of array: 1.118033988749895


In [8]:
# 使用 var 计算数组的方差
std_deviation = np.std(a)
print("Standard deviation of array:", std_deviation)

Standard deviation of array: 1.118033988749895


In [9]:
# 使用 min 和 max 获取数组中的最小值和最大值
min_value = np.min(a)
max_value = np.max(a)
print("Minimum value of array:", min_value)
print("Maximum value of array:", max_value)

Minimum value of array: 1
Maximum value of array: 4


In [10]:
# 使用 argmin 和 argmax 获取最小值和最大值的索引
min_index = np.argmin(a)
max_index = np.argmax(a)
print("Index of minimum value:", min_index)
print("Index of maximum value:", max_index)

Index of minimum value: 0
Index of maximum value: 3


In [12]:
# 使用 unravel_index 转换一维索引到多维索引
index = 3
shape = (2, 2)
multi_index = np.unravel_index(index, shape)
print("Multi-dimensional index:", multi_index)

Multi-dimensional index: (1, 1)


In [11]:
# 使用 ptp 计算最大值和最小值之间的差
peak_to_peak = np.ptp(a)
print("Peak to peak value of array:", peak_to_peak)

Peak to peak value of array: 3


In [13]:
# 使用 median 计算数组的中位数
median_value = np.median(a)
print("Median value of array:", median_value)

Median value of array: 2.5


### numpy 的梯度函数

### 数组的梯度 - NumPy 函数

NumPy 提供了计算数组元素梯度的函数.以下是函数及其说明:

| 函数             | 说明                                                                                       |
| ---------------- | ------------------------------------------------------------------------------------------ |
| `np.gradient(f)` | 计算数组 `f` 中元素的梯度.当数组是多维时,返回每个维度的梯度.                               |
|                  | 梯度:连续值之间的变化率,即斜率.在 XY 坐标轴上,连续三个 x 坐标对应的 Y 轴值为 a, b, c,其中, |
|                  | b 的梯度是:`(c-a)/2`.                                                                      |

使用 `np.gradient(f)` 函数可以方便地求解数值数据的梯度,这在数据分析和科学计算中非常有用.


In [14]:
# 计算一维数组的梯度
import numpy as np

# 创建一个一维数组
f = np.array([1, 2, 4, 7, 11, 16])

# 计算梯度
grad = np.gradient(f)

print("Array:", f)
print("Gradient:", grad)

Array: [ 1  2  4  7 11 16]
Gradient: [1.  1.5 2.5 3.5 4.5 5. ]


In [15]:
# 计算多维数组的梯度
# 创建一个二维数组
f = np.array([[1, 2, 6], [3, 4, 8]])

# 计算梯度
grad = np.gradient(f)

print("Array:\n", f)
print("Gradient along axis 0:\n", grad[0])  # y方向的梯度
print("Gradient along axis 1:\n", grad[1])  # x方向的梯度

Array:
 [[1 2 6]
 [3 4 8]]
Gradient along axis 0:
 [[2. 2. 2.]
 [2. 2. 2.]]
Gradient along axis 1:
 [[1.  2.5 4. ]
 [1.  2.5 4. ]]


### 单元小结

#### NumPy 数据存取和函数使用

#### 数据存取

#### CSV 文件

- `np.loadtxt()`:从文本文件加载数据
- `np.savetxt()`:将数组写入文本文件

#### 多维数据存取

- `a.tofile()`:将数组数据写入文件
- `np.fromfile()`:从文件读取数组数据
- `np.save()`:保存数组到`.npy`格式的二进制文件
- `np.savez()`:保存多个数组到一个`.npz`格式的压缩文件
- `np.load()`:从`.npy`或`.npz`文件加载数组数据

#### 随机函数

- `np.random.rand()`:生成[0, 1)之间的均匀分布随机数
- `np.random.randn()`:生成标准正态分布随机数
- `np.random.randint()`:生成给定上下限范围的随机整数
- `np.random.seed()`:设置随机数生成器的种子
- `np.random.shuffle()`:对数组进行随机排列
- `np.random.permutation()`:返回一个随机排列
- `np.random.choice()`:从给定的一维数组中随机抽取元素

#### NumPy 统计函数

- `np.sum()`:计算数组元素的总和
- `np.min()`:计算数组元素的最小值
- `np.mean()`:计算数组元素的算术平均值
- `np.max()`:计算数组元素的最大值
- `np.average()`:计算数组元素的加权平均
- `np.argmin()`:返回数组元素最小值的索引
- `np.std()`:计算数组元素的标准差
- `np.argmax()`:返回数组元素最大值的索引
- `np.var()`:计算数组元素的方差
- `np.unravel_index()`:将一维索引转换成多维索引
- `np.median()`:计算数组元素的中位数
- `np.ptp()`:计算数组元素的范围(最大值 - 最小值)

#### NumPy 梯度函数

- `np.gradient()`:计算数组中元素的梯度


## 示例 1: 图像的手绘效果

### 图像的 RGB 色彩模式

- 图像通常使用 RGB 色彩模式,即每个像素点的颜色由红(R),绿(G),蓝(B)三种颜色组成.
- RGB 三个颜色通道的变化和叠加可以生成各种颜色,具体如下:
  - R(红色):取值范围为 0-255
  - G(绿色):取值范围为 0-255
  - B(蓝色):取值范围为 0-255
- RGB 形成的颜色覆盖了人类视力所能感知的所有颜色.

### PIL 库

- PIL (Python Image Library) 是一个具有强大图像处理能力的第三方库.
- 在命令行下安装 PIL 库的方法是:`pip install pillow`
- `Image` 是 PIL 库中代表一个图像的类(对象).图像可以视为一个三维数组,其维度分别对应高度,宽度和像素的 RGB 值.

### 手绘效果的特征

- 颜色主要为黑,白,灰.
- 边界线条较为突出.
- 相同或相近的色彩趋向于白色.
- 略带光源效果.


## 梯度的重构

通过利用像素间的梯度值和虚拟深度值,我们可以对图像进行重构.这一过程主要包括以下几个步骤:

1. **梯度计算**:

   - 利用 NumPy 库的 `gradient` 函数计算图像数组的梯度.
   - `np.gradient(a)` 可以得到数组 `a` 的梯度,其中 `a` 代表图像的灰度值矩阵.

2. **梯度分解**:

   - 将得到的梯度分解为 x 方向和 y 方向的梯度值:`grad_x, grad_y = grad`.

3. **梯度调整**:
   - 根据灰度变化来模拟人类视觉的明暗程度.
   - 预设深度值 `depth = 10`,取值范围为 0-100.
   - 根据深度值调整 x 和 y 方向的梯度值:
     - `grad_x = grad_x * depth / 10e.`
     - `grad_y = grad_y * depth / 10e.`

通过上述步骤,我们可以根据像素之间的梯度差异以及预设的虚拟深度值来重构图像,从而模拟出类似手绘的视觉效果.


In [None]:
# import numpy as np

# # Assume 'a' is your input grayscale image.
# a = # ... your image data ...

# # Predefined depth value.
# depth = 10.  # The depth value, can range from 0 to 100.

# # Calculate the gradients in the x and y directions.
# grad = np.gradient(a)
# grad_x, grad_y = grad

# # Adjust the gradient values based on the depth.
# grad_x = grad_x * depth / 10.
# grad_y = grad_y * depth / 10.

# # Further processing can be done here depending on what you want to achieve with the gradients.
# # For example, you might want to combine these gradients in some way to form a new image.

## 根据灰度变化模拟人类视觉的远近程度

通过考虑灰度变化,我们可以模拟人类视觉对远近的感知.此外,通过设计一个位于图像斜上方的虚拟光源,我们可以进一步增强这种视觉效果.以下是设计和实现这一效果的步骤:
![image.png](attachment:image.png)

1. **虚拟光源的设置**:

   - 设计一个位于图像斜上方的虚拟光源.
   - 光源的位置由两个角度参数确定:
     - `Elevation`:光源相对于图像的俯视角度.
     - `Azimuth`:光源的方位角度.

2. **建立光源影响函数**:

   - 建立一个函数来描述光源对图像中各点的梯度值的影响.
   - 这个函数将考虑光源的方位,灰度梯度,以及光线与图像平面的相对位置.

3. **计算新的像素值**:
   - 利用光源影响函数,结合图像的原始灰度值和梯度信息,计算出每个像素点受光照影响后的新像素值.
   - 这一步骤将生成具有明暗变化和深度感的图像,类似于有光源照射下的手绘画效果.

通过这些步骤,我们可以实现一个较为真实的视觉效果,使图像看起来像是在特定光照条件下观察到的,从而增加图像的立体感和深度感.


In [None]:
# # np.cos(vec_el)为单位光线在地平面上的投影长度
# vec_el = np.pi / 2.2
# vec_az = np.pi / 4.0
# # dx，dy，dz是光源对x/y/z三方向的影响程度
# dx = np.cos(vec_el) * np.cos(vec_az)
# dy = np.cos(vec_el) * np.sin(vec_az)
# dz = np.sin(vec_el)

In [None]:
# # 梯度归一化
# # 构造x和y轴梯度的三维归一化单位坐标系
# A = np.sqrt(grad_×**2 + grad_y**2 + 1.)
# uni_x = grad_x/A
# uni_y = grad_y/A
# uni_z = 1./A
# b = 255*(dx*uni_x + dy*uni_y + dz*uni_z)
# # 梯度与光源相互作用，将梯度转化为灰度


In [None]:
# # 图像生成
# # 为避免数据越界，将生成的灰度值裁剪至0-255区间
# b = b.clip(e,255)
# im = Image.fromarray(b.astype('uint8'))
# # 生成图像
# im.save(./beijingHD.jpg')