## 创建ndarray对象
通过 NumPy 的内置函数 array() 可以创建 ndarray 对象，其语法格式如下：

<b>numpy.array(object, dtype = None, copy = True, order = None,subok=False,ndmin = 0)</b>

参数说明   

| 序号 | 参数 | 描述说明 |
| :--- | :--- | :--- |
| 1      | object| 表示一个数组序列。       |
| 2   | dtype | 可选参数，通过它可以更改数组的数据类型。        |
| 3      | copy | 可选参数，表示数组能否被复制(深拷贝)，默认是 True。        |
| 4      | ndmin |  用于指定数组的维度。       |
| 5      | subok |  可选参数，类型为bool值，默认False。为True，使用object的内部数据类型；False：使用object数组的数据类型。|

In [1]:
import numpy as np
# 创建ndarray对象

In [2]:
# 可以使用任何序列 类型数据进行生成对象.
np.array([1, 2, 3, 4, 5])  # 使用list生成对象.

array([1, 2, 3, 4, 5])

In [3]:
np.array([i for i in range(10)])  # 使用生成器生成ndarray序列.

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
# 列表中元素不相同的情况
np.array([1, 2, 3, 4, 5, 'a'])
# 统一转换成占用内存最大的那种数据类型. 这里就是U11

array(['1', '2', '3', '4', '5', 'a'], dtype='<U11')

In [5]:
# np.array()参数练习
# dtype: 指定数据类型
a = np.array([1, 2, 3], dtype=np.float32)
# 类型为float32.
a  # array([1., 2., 3.], dtype=float32)
print(a.dtype)

b = np.array([1, 2, 3], dtype="float")  # 默认是float
b  # array([1., 2., 3.], dtype=float64)
print(b.dtype)  # float64

float32
float64


In [6]:
# 设置copy参数， 默认为True
a = np.array([1, 2, 3, 4, 5])
b = np.array(a)  # 从a复制给b
print(f"id(a):{id(a)}, id(b):{id(b)}")  # 可见, id不同, 因此不是一个数组

b[0] = 10  # 修改b元素
print(b)
print(a)  # 可见, a与b无关

id(a):1677077058352, id(b):1677076963024
[10  2  3  4  5]
[1 2 3 4 5]


In [7]:
# 当设置copy参数为False时
a = np.array([1, 2, 3, 4, 5])
b = np.array(a, copy=False)  # 创建的时候不复制, 不会创建副本, 即,b同样指向a的区域.
print(f"id(a):{id(a)}, id(b):{id(b)}")  # 可见, id不同, 因此不是一个数组


id(a):1677076962544, id(b):1677076962544


In [8]:
# ndmin: 用于指定数组的维度
a = np.array([1, 2, 3], ndmin=2)
a.ndim  # 2维度

2

In [9]:
# subok参数: 类型为bool值, 默认为False为True, 使用object内部的数据类型, False: 使用object数组的数据类型
a = np.mat([1, 2, 3, 4]) # 创建矩阵对象
print(type(a)) # <class 'numpy.matrix'>

at = np.array(a, subok=True)
af = np.array(a, subok=False)
print('subok=True', type(at)) # subok=True <class 'numpy.matrix'> # 使用object类型作为数据类型
print('subok=False', type(af)) # subok=False <class 'numpy.ndarray'> # 仅仅使用ndarray作为数据类型



<class 'numpy.matrix'>
subok=True <class 'numpy.matrix'>
subok=False <class 'numpy.ndarray'>


In [10]:
# 复制数组
a = np.array([2, 3, 4 ,5 ])
# 从a定义b时候, 有几种方案:
b  = np.array(a)
print(id(a), id(b)) # 不同

# 使用.copy()方法
c = a.copy()
print(id(a), id(c)) # 不同

# 这些都是深拷贝, 也就是数据拷贝, 不是地址拷贝

1677077060176 1677077058928
1677077060176 1677076962544


In [11]:
# 练习:
# 创建一个1维数组
a = np.array([1, 2,], ndmin=1)
print(a)

# 创建一个2维数组
b = np.array([1, ], ndmin=2)
print(b.ndim)

# 创建嵌套序列不一样的数组,
c = np.array([[1,  2, 3], [1, 2]])
print(c) # [list([1, 2, 3]) list([1, 2])] # see, is a 1 dimension
print(c.ndim) # 1

# 测试数组a, 将数组赋给b,修改b,观察a是否发生变化.
b = np.array(a, copy=True)
print(b)

[1 2]
2
[list([1, 2, 3]) list([1, 2])]
1
[1 2]


  c = np.array([[1,  2, 3], [1, 2]])


In [12]:
# arange()生成区间数组
# 与range()类似, 不过返回对象是ndarray类型
# 使用方法:
# arange(start=None, end, step=1, dtype)
# 包前不包后
# arange([start,] stop[, step,], dtype=None, *, like=None) # 可见, start和step都是非必要参数
print(np.arange(10)) # [0 1 2 3 4 5 6 7 8 9]







[0 1 2 3 4 5 6 7 8 9]


In [13]:
# 支持使用浮点型数据
np.arange(3.1)
# 可见start=0, step=1 (默认情况下)

array([0., 1., 2., 3.])

In [14]:
# 在cpython中的range()就不支持浮点数数据
# range(3.1) # 'float' object cannot be interpreted as an integer

In [15]:
# arange指定数据类型
a = np.arange(5, dtype=np.float32)
print(a) # [0. 1. 2. 3. 4.]
print(a.dtype) #


[0. 1. 2. 3. 4.]
float32


In [16]:
# 参数
np.arange(10, 40, 2)


array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38])

In [17]:
# 默认两个参数
ar2 = np.arange(20, 3)
print(ar2)
# 正确, 但是是[] 也就是没有返回任何值, 从20, 到3, 显然不满足向左的原则. 因此也就没有返回任何元素

# 正确的书写格式
ar2 = np.arange(0, 20, 3)
print(ar2) # [ 0  3  6  9 12 15 18]

[]
[ 0  3  6  9 12 15 18]


In [18]:
# jupyter中有趣的特性 -> 如果数组过长或者显示不下, 那么jupyter就会省略中间数值, 只展示开头和结尾
np.array(10000)

array(10000)

In [19]:
# 如何防止float的不精确, 印象到np.arange()
# look a instance:
ar = np.arange(0.1, 0.4, 0.1)
print(ar) # [0.1 0.2 0.3 0.4]
# 可见, 从0.1开始到0.4结束, step is 01, 但是本应不包含0.4, 但这里却包含了, 这是因为float的存储是不精确的. 因此使用这种方法无法准确的获取我们想要的序列.
#
# 因此引出np.linspace()创建等差数列.
#

[0.1 0.2 0.3 0.4]


In [20]:
# linspace()创建等差数列
# 使用
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
# 在[start, stop] 中等间隔划分num个点, endpoint表示是否包含stop, retstep表示是否显示间距, dtype表示数据类型

# 使用案例:
a = np.linspace(1, 50)
print(a) # 可见, 默认是被分成了50等份
# see, default it Separated 50
print(a.dtype) # float64

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50.]
float64


In [21]:
# num参数, 也就是在间隔内有多少个点
a = np.linspace(1, 10, 10)
print(a)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


In [22]:
# endpoint: 默认为True, 是否包含最后截至点, 默认包含
a = np.linspace(1, 10, 10, endpoint=False)
print(a) # 可见, 此时就不包含10 stop 了.

[1.  1.9 2.8 3.7 4.6 5.5 6.4 7.3 8.2 9.1]


In [23]:
# 设置retstop显示不长
tuple_ar_step = np.linspace(1, 10, 10, retstep=True)
print(tuple_ar_step)
print(type(tuple_ar_step)) # 可见是元组类型
# 第一个元素是ndarray, 第二个元素是步长

print('=' * 40)

array, step = np.linspace(2, 6, 9, retstep=True)
print(array)
print(step)

(array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.]), 1.0)
<class 'tuple'>
[2.  2.5 3.  3.5 4.  4.5 5.  5.5 6. ]
0.5


In [24]:
# 等比数列:
# 使用
# np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)
# start: 开始
# stop: 结束
# num: 样本数量
# endpoint: 是否包含终止值
# base: 对数log的底数, 默认是10.
# dtype: 数据类型

# 使用案例：
a = np.logspace(0, 9, 10, base=2) # 可见，q就是2，然后是2^[0-9]十个点，所以也就是0-9这些个整数
print(a)

[  1.   2.   4.   8.  16.  32.  64. 128. 256. 512.]


In [25]:
# np.logspace() 例子
np.logspace(1, 5, 3, base=2)
# [1, 5], 等间隔取三个点, 也就是1, 3, 5. base=2因此, 也就是1^2, 3^2, 5^2

array([ 2.,  8., 32.])

In [26]:
# 取得1-2中的10个常用对数
np.logspace(1, 2, num=10)
# 也就是[1,2]取10个点, base=10


array([ 10.        ,  12.91549665,  16.68100537,  21.5443469 ,
        27.82559402,  35.93813664,  46.41588834,  59.94842503,
        77.42636827, 100.        ])

# 其他, 创建数组的函数

In [27]:
# 全0数组
# ndarray = np.zeros(shape=[int, iterable, tuple[int]], dtype=None, order='C')
# 作用: 返回shape形状的全零数组.
# shape是数组形状, 类型可以是int, 可迭代对象, 以及tuple[int]
# dtype: 数据类型
a = np.zeros(shape=(3, 4))
print(a)
print(a.dtype) # float64, 默认是float64类型.

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
float64


In [28]:
# *_like(array), 就是生成array形状相同的一个数组
# 例子
ar1 = np.array([[1, 2, 3], [3, 4, 5]])
print(ar1.shape)
ar1_like_zeros = np.zeros_like(ar1) # 就是创建ar1相同形状的全0数组
print(ar1_like_zeros)



(2, 3)
[[0 0 0]
 [0 0 0]]


In [29]:
# 全1数组.
# np.ones(参数列表)
# 参数列表和zeros中参数列表相同
a = np.ones(9)
print(a)
b = np.ones((2, 3, 4))
print(b)
c = np.ones_like(a)
print(c)


[1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]
[1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [30]:
# 创建单位矩阵E:
# np.eye(N) # 就是创建N秩单位向量
print(np.eye(10)) # 创建10单位向量
print()

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]



# Numpy数组属性
---
| 属性 	| 说明 |
| ------  	|:------ |
| ndarray.ndim	| 秩，即轴的数量或维度的数量 |
| ndarray.shape	 | 数组的维度，对于矩阵，n 行 m 列 |
| ndarray.size 	 | 数组元素的总个数，相当于 .shape 中 n*m 的值 |
| ndarray.dtype 	 | ndarray 对象的元素类型 |
| ndarray.itemsize  | 	ndarray 对象中每个元素的大小，以字节为单位 |

In [31]:
# ndarray.ndim
a = np.array([1, 2, 3, 4, 5, 6])
print(a.ndim) # 1 1维
b = np.array([[1, 2, 3], [3, 4, 5]])
print(b.ndim) # 2

1
2


In [32]:
# ndarray.shape
a = np.array([1, 2, 3, 4, 5, 6])
print("a.shape: " + a.shape.__str__()) # a.shape: (6,)
b = np.array([[1, 3], [4, 5]])
print(b.shape) # (2, 2)
c = np.array([
    [[1,1], [1, 2]
     ]
])
print(c.shape)  # (1, 2, 2)

# .shape返回一个元组, 返回的就是档期那元素的形状


a.shape: (6,)
(2, 2)
(1, 2, 2)


In [33]:
# 改变数组形状.
# ndarray.reshape(new_shape)
# np.reshape(a, new_shape)
# 前提: 必须要满足广播机制. 否则会报错.
# 广播机制:
# 1. 变换前后元素个数要相同
# 2. 某一维度上, 维数为1
# 3. 某一维度上, 变换前后维数相同
a = np.array([1, 2, 3, 4, 5, 6])
print(a.shape) # (6, 1)
b = a.reshape((2, 3)) #
print(a.shape) # (6,)
print(b.shape) # (2, 3)
# 可见, reshape返回新数组, 原数组不修改

(6,)
(6,)
(2, 3)


In [34]:
# new_array = np.resize(a, new_shape) 如果新数组在某一维度上大于原始数组, 则使用数组重复填充, 直到满足原始新数组
# None = ndarray.resize(new_shape) # 同理, 不过是使用0进行填充, 并且更改原数组
# 不需满足广播机制, 多余部分使用原数组或者使用0进行填充.
a = np.array([1, 2, 3])
print("a.shape ", a.shape)
print(a)
b = np.resize(a, (2, 3))
print(b) #
# [[1 2 3]
#  [1 2 3]]
print(a) # [1 2 3]
# 可见np.resize()不改变原数组
# 并且是使用原数组(a)进行重复填充

# 而ndarray.resize() 不返回值, 直接改变原数组, 而且重复的部分使用0进行填充
b = a.resize((2, 3))
print(b) # None
print(a)
# [[1 2 3]
#  [0 0 0]]
a = np.array([1, 2, 3])
a.resize((6, ))
print(a) # [1 2 3 0 0 0] # 可见进行很横向填充. (以0填充)



a.shape  (3,)
[1 2 3]
[[1 2 3]
 [1 2 3]]
[1 2 3]
None
[[1 2 3]
 [0 0 0]]
[1 2 3 0 0 0]


In [43]:
# ndarray.size # 数组元素中的总个数, 也就是数组中有少个元素
a = np.array([1, 2, 3, 4, 5, 6])
print(a.size) # 6

b = np.array([[1, 2, 3], [4, 5, 6]])
print(b.size) # 6 # 两行三列, 同样也是6个元素

6
6


In [44]:
# ndarray.dtype 表示对象的元素类型.
a = np.array([1, 2, 3, 4, 5, 6])
print(a.dtype)

b = np.array([1, 2], dtype=np.float64)
print(b.dtype)


int32
float64


In [58]:
# 数组数据类型转换: ndarray.astype()
a = np.array([1.1, 1.2])
print(a.dtype) # float64
# 修改数据类型
print(a.astype('float32').dtype) # float32
# 可见, 数据类型改变了
print(a.dtype) # float64 # 并且不改变原来数组的数据类型


a = a.astype('float32') # 支持字符串, 以及np.数据类型

print(a.dtype) # float32 此时才修改了原数组


float64
float32
float64
float32


In [60]:
# ndarray.itemsize 以字节的形式返回数组中元素的大小
a = np.array([1, 2, 3])
print(a.itemsize) # 4 可见int类型占用4个字节

4


In [None]:
# 数据类型


# 数据类型

| 名称 	| 描述 | 名称 	| 描述 |
| ------  	|:------ |------  	|:------ |
| bool_	| 布尔型数据类型（True 或者 False） |float_	| float64 类型的简写 |
|int_	 | 默认的整数类型（类似于 C 语言中的 long，int32 或 int64） |float16/32/64	| 半精度浮点数:1 个符号位，5 个指数位，10个尾数位<br/>单精度浮点数:1 个符号位，8 个指数位，23个尾数位<br/>双精度浮点数,包括：1 个符号位，11 个指数位，52个尾数位|
| intc 	 | 和 C 语言的 int 类型一样，一般是 int32 或 int 64 |complex_	| 复数类型，与 complex128 类型相同 |
| intp 	 | 用于索引的整数类型（类似于 C 的 ssize_t，通常为 int32 或 int64） |complex64/128	| 复数，表示双 32 位浮点数（实数部分和虚数部分）<br/>复数，表示双 64 位浮点数（实数部分和虚数部分） |
| int8/16/32/64  | 	代表与1字节相同的8位整数<br/>代表与2字节相同的16位整数<br/>代表与4字节相同的32位整数<br/>代表与8字节相同的64位整数 |str_	| 表示字符串类型 |
| uint8/16/32/64  | 代表1字节（8位）无符号整数<br/>代表与2字节相同的16位整数<br/>代表与4字节相同的32位整数<br/>代表与8字节相同的64位整数 |string_	| 表示字节串类型,也就是bytes类型 |

In [77]:
# 常见数据类型
a = np.array([1, 2, 3, 4], dtype=np.float64)
print(a.dtype) #

a = np.array([1, 2, 3], dtype=np.bool_)
print(a) #
print(a.dtype)

a = np.array([1, 2, 3], dtype=np.int8)
print(a.dtype) # int8

a = np.array([1, 2, 3, 4.1], dtype=np.float_) # float_默认就是float64
print(a.dtype) # float64

float64
[ True  True  True]
bool
int8
float64


In [81]:
# str_和string_数据类型的区别
str1 = np.array([1, 2, 3, 4, 5], dtype=np.str_)
string1 = np.array([1, 2, 3, 4, 5], dtype=np.string_)

str2 = np.array(['lip', 2, 3 ,4 ], dtype=np.str_)
string2 = np.array(['lipu', 2, 3], dtype=np.string_)



print(str1, str1.dtype)
print(string1, string1.dtype)
print(str2, str2.dtype)
print(string2, string2.dtype)

# str_就是普通的字符串类型, 保存在内存中, 采用unicode编码, 而保存到文件, 保存到硬盘当中去.
# 都转换成了utf-8, 以字节码(Byte)的形式存入到硬盘当中去.

['1' '2' '3' '4' '5'] <U1
[b'1' b'2' b'3' b'4' b'5'] |S1
['lip' '2' '3' '4'] <U3
[b'lipu' b'2' b'3'] |S4


In [None]:
# 定义结构化数据类型
# 结构化数据, 表示一列用一个笔名定义, 如果有多列, 则

### 定义结构化数据

使用数据类型标识码

| 字符 	| 对应类型 | 字符 	| 对应类型 | 字符 	| 对应类型 | 字符 	| 对应类型 |
| ------  	|:------ |------  	|:------ | ------  	|:------ |------  	|:------ |
| b 	| 代表布尔型| i 	| 带符号整型| u 	| 无符号整型| f 	| 浮点型|
| c 	| 复数浮点型| m 	| 时间间隔（timedelta）| M 	| datatime（日期时间）| O 	| Python对象|
| S,a 	| 字节串（S）与字符串（a）| U 	| Unicode| V 	| 原始数据（void）|  	| |


还可以将两个字符作为参数传给数据类型的构造函数。此时，第一个字符表示数据类型，
第二个字符表示该类型在内存中占用的字节数（2、4、8分别代表精度为16、32、64位的
浮点数）：

In [85]:
# 首先创建结构化数据类型: np.dtype()
dt = np.dtype([('age', 'i1')]) # 创建了一个数据类型, 别名为age, 类型为i1 -> int8 # 就是8bit int类型
print(dt) # print(dt)

# 将定义好的结构化数据类型应用于ndarray对象
students = np.array([(18), (19)], dtype=dt)
students


[('age', 'i1')]


array([(18,), (19,)], dtype=[('age', 'i1')])

In [94]:
# 练习
teacher_type = np.dtype([('name', np.str_, 1), ('age', 'i1'), ('salary', 'f4')])
print(teacher_type) #

# 将该自定义数据类型应用在ndarray对象上
b = np.array([('w1', 32, 8357.50), ('ih', 28, 7856.80)], dtype=teacher_type)
b # 在jupyter中, 可以看到别名, 以及数据本身

[('name', '<U1'), ('age', 'i1'), ('salary', '<f4')]


array([('w', 32, 8357.5), ('i', 28, 7856.8)],
      dtype=[('name', '<U1'), ('age', 'i1'), ('salary', '<f4')])