# Numpy

# 1. Basic Structure: ndarray
ndarray is used for storage of homogeneous data i.e., all elements the same type Every array must have a shape and a dtype Supports convenient slicing, indexing and efficient vectorized computation
- Arrays can have any number of dimensions, including zero (a scalar).
- Arrays are typed: np.uint8, np.int64, np.float32, np.float64
- Arrays are dense. Each element of the array exists and has the same type.

## 1. Syntax

`np.array([ ])`: One dimension \
`np.array([[],[],[],...])` Multi-dimension-->matrix

In [6]:
import numpy as np
arr1=np.array([0,2,5])
arr2=np.array([[0,0,3],[0,5,1],[9,6,4]])
print(arr1)
print(arr2)

[0 2 5]
[[0 0 3]
 [0 5 1]
 [9 6 4]]


- Using lists or tuples:`[[ ],[ ]]`
- homogeneous data: zeros, ones : `np.zeros((n,m))` ,`np.ones((n,m))`
- diagonal elements: diag, eye:`np.diag([])`, `np.eye`
- numerical ranges: arange, linspace, logspace:`np.arange()`
- random numbers: rand, randint:`np.random.randint(min,max,(n,m))`生成min-max内的随机数，形状为n*m
- Reading from files

In [19]:
#List of lists
data = [[1, 2, 3, 4], [5, 6, 7, 8]]  #list of lists
arr = np.array(data)
print(arr,'\n')

#homogeneous data: zeros, ones
array= np.zeros((2,3))
print ('np.zeros:\n',array)
array = np.ones((2,3))
print ('np.ones:\n',array,'\n')

#diagonal elements: diag, eye
array = np.eye(3) 
print ('np.eye:\n',array)
# a diagonal matrix
array= np.diag([1,2,3])
print ('np.diag:\n',array,'\n')

#numerical ranges: arange, linspace, logspace
array = np.arange(0, 10, 2) # arange is an array-valued version of the built-in Python range function
print ('np.arange:\n',array,'\n')

#random numbers: rand, randint
array = np.random.randint(0, 10, (3,3))
print ('np.random.randint:\n',array)

[[1 2 3 4]
 [5 6 7 8]] 

np.zeros:
 [[0. 0. 0.]
 [0. 0. 0.]]
np.ones:
 [[1. 1. 1.]
 [1. 1. 1.]] 

np.eye:
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
np.diag:
 [[1 0 0]
 [0 2 0]
 [0 0 3]] 

np.arange:
 [0 2 4 6 8] 

np.random.randint:
 [[1 7 6]
 [0 5 9]
 [5 1 3]]


## 2. Type, Size, Shape

 <big>`ndarray.ndim`：表示数组的维数。例如，一维数组的 ndim 是 1，二维数组的 ndim 是 2。

 <big>`ndarray.shape`：表示数组的形状，即每个维度的大小。对于二维数组，这会返回一个包含行数和列数的元组。

 <big>`ndarray.size`：表示数组中元素的总数量。

 <big>`ndarray.dtype`：数组中元素的数据类型。例如，numpy.int32, numpy.float64等。

 <big>`ndarray.itemsize`：数组中每个元素的大小（以字节为单位）。

 <big>`ndarray.real`：数组的实部（如果数组是复数数组）。

 <big>`ndarray.imag`：数组的虚部（如果数组是复数数组）。

 <big>`ndarray.T`：数组的转置版本。对于二维数组，这等同于其行列交换的结果。

In [20]:
arr = np.random.randint(0,10,(2,3))
print(arr)
print (arr.size, arr.shape, arr.dtype)

[[9 8 8]
 [9 0 2]]
6 (2, 3) int32


<big>`.reshape(n,m)`:</big>\
reshape 函数可以通过指定新的形状来重塑数组。形状是由表示维度大小的整数组成的元组。例如，如果你有一个包含 6 个元素的一维数组，你可以将它重塑为形状为 (2, 3) 的二维数组。\
注意，reshape前后两数组应该满足行*列的值相同

**自动计算维度**：你可以在 reshape 方法中将某一维度指定为 -1。这会让 NumPy 自动计算这一维度的大小。

<big>`.ravel()`</big>\
用于将多维数组“展平”成一维数组。这个方法不会创建原始数据的副本，而是返回一个视图（如果可能的话）。这意味着，通过 .ravel() 返回的数组和原始数组共享相同的数据空间
- 不复制数据：通常情况下，.ravel() 不会产生数据的复制，它仅仅返回原数组的一个视图（一维形式）。因此，对返回数组的任何修改都会反映到原始数组上。
- 一维表示：该方法将多维数组转换为一维数组。例如，如果你有一个 2x3 的数组，使用 .ravel() 之后，你将得到一个包含 6 个元素的一维数组。

In [25]:
a = np.array([1, 2, 3, 4, 5, 6])
b = a.reshape(2, 3)
b2 = a.reshape(-1,2)
c = b.ravel()

print('a:\n',a)
print('b:\n',b)
print('b2:\n',b2)
print('c:\n',c)

a:
 [1 2 3 4 5 6]
b:
 [[1 2 3]
 [4 5 6]]
b2:
 [[1 2]
 [3 4]
 [5 6]]
c:
 [1 2 3 4 5 6]


### Stack and Split
- `hstack((arr1,arr2))`:横向组合两个数组
- `vstack((arr1,arr2))`:纵向组合两个数组
- `concatenate((arr1,arr2),axis=1/0)`: 横向/纵向组合
- `hsplit(arr,n)`: 竖着切分，左边0列开始到n-1列为第一部分，剩下为第二部分
- `vsplit(arr,n)`: 横着切分，上边0行开始到n-1行为第一部分，剩下为第二部分
- `split(arr,n,axis=)`


## 3.Slicing
切片（Slicing）：在 NumPy 中，切片是一种选择数组的一部分的方法。比如，你可以选择数组的某几行、某几列，或者甚至是多维数组的一个子区域。切片操作通过在方括号内指定索引来完成，例如 `arr[a:b]`。

视图（View）而非副本（Copy）：当你对 NumPy 数组进行切片操作时，返回的结果实际上是原始数组的一个视图，而不是一个完全独立的副本。这意味着，切片返回的数组和原数组共享相同的数据空间。

任何修改都会反映在源数组上：因为切片操作返回的是视图，所以**对切片后的数组进行的任何修改都会直接影响到原始数组**。例如，如果你更改了切片后数组的一个元素，原数组对应位置的元素也会被更改。

避免内存问题的设计特性：这种设计是 NumPy 为了避免不必要的内存使用而采取的。如果每次切片都创建数据的副本，对于大型数组，这将导致巨大的内存需求。通过使用视图而非副本，NumPy 可以高效地处理大型数据集。

In [26]:
arr = np.arange(10)
print(arr)          # [0 1 2 3 4 5 6 7 8 9]

[0 1 2 3 4 5 6 7 8 9]


In [27]:
arr_slice = arr[5:8]
print(arr_slice)            # [5 6 7]

[5 6 7]


In [30]:
arr_slice[1] = 12345
print(arr_slice)     #[    5 12345     7]               
print(arr) # [    0     1     2     3     4     5 12345     7     8     9]

arr_slice[:]=666
print(arr_slice)
print(arr)
# 即对切片的数据修改会同步映射到原数据上。

[  666 12345   666]
[    0     1     2     3     4   666 12345   666     8     9]
[666 666 666]
[  0   1   2   3   4 666 666 666   8   9]


## 4. Indexing
### 1. Integer Indexing
整数组索引：使用整数数组来索引数组，可以得到任意顺序的数组元素。`arr[[row_index],[col_index]]` \
`arr[a:b:k]`:访问arr[a]--arr[b],步长为k

In [33]:
arr=np.array([[1,2,3],[4,5,6]])
print(arr[[0,1],[2,0]])# 返回第一行第3个元素和第二行第1个元素

[3 4]


### 2. Boolen Indexing
使用布尔数组来索引。布尔索引可以用于选择满足特定条件的数组元素。

In [40]:
arr = np.array([1, 2, 3, 4, 5, 6])

print(arr[arr>3]) # [4 5 6]
print(arr[[True,False,True,False,True,True]]) #[1 3 5 6]
print(arr[(arr<5)&(arr>=2)])  #[2 3 4]

[4 5 6]
[1 3 5 6]
[2 3 4]


### 3. Fancy Indexing
1. 要选择数组的特定行并按照指定的顺序排列这些行，你可以通过传递一个整数列表或整数数组，其中包含所需行的索引，并按照列表中的顺序排列这些行。这种操作通常被称为按照指定顺序对数组进行"行索引"。

In [44]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9],
                [10, 11, 12]])

selected_rows = arr[[2, 0, 3, 1]]
print(selected_rows,'\n') # 按 2，0，3，1的排序一次输出arr的行

selected_elements= arr[[1,3,2],[0,2,1]]
print(selected_elements)   #[ 4 12  8] 输出结果为arr的（1，0），（3,2）,(2,1)的元素

[[ 7  8  9]
 [ 1  2  3]
 [10 11 12]
 [ 4  5  6]] 

[ 4 12  8]


## 5. Operation
We can use the usual arithmetic operators to multiply, add, subtract, and divide arrays with scalar numbers.
### 1. 矩阵运算
`np.dot(a,b`)或`a@b`: 矩阵内积（矩阵相乘），需要满足a的列数等于b的行数


In [70]:
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
B = np.array([[9, 8, 7],
              [6, 5, 4],
              [3, 2, 1]])

result_add = A + B  # 矩阵相加
result_sub = A - B  # 矩阵相减
print(result_add,'\n',result_sub)

C = np.array([[1, 2],
              [3, 4],
              [5,0]])

result_dot = np.dot(A, C)  # np.dot()
result_at = A @ C  # 矩阵相乘（使用 @ 运算符）
print('\n','dot:\n',result_dot,'\nat:\n',result_at)


[[10 10 10]
 [10 10 10]
 [10 10 10]] 
 [[-8 -6 -4]
 [-2  0  2]
 [ 4  6  8]]

 dot:
 [[22 10]
 [49 28]
 [76 46]] 
at:
 [[22 10]
 [49 28]
 [76 46]]


### 2. Universal Functions
通用函数（Universal Functions，缩写为ufunc）是NumPy中的一个重要概念，它是一种用于在NumPy数组上进行元素级别操作的函数。通用函数允许你对数组的每个元素应用相同的操作，而不需要显式地编写循环。

通用函数有以下特点：
- 元素级别的操作：通用函数是针对数组的每个元素进行操作的函数，无需编写循环。这可以极大地提高处理大型数组的效率。
- 内置函数：NumPy提供了许多内置的通用函数，用于执行各种数学、逻辑和统计操作，如加法、减法、乘法、除法、取余、平方根、指数、对数、三角函数等。
- 向量化操作：通用函数允许你以向量化的方式处理数组，这意味着你可以一次性对整个数组进行操作，而不是逐个元素处理。这可以显著提高代码的性能和可读性。
- 支持广播：通用函数还支持广播（broadcasting），这意味着它们可以处理具有不同形状的数组，以使它们具有相同的形状并执行元素级别的操作。

常用聚合函数都可以进行广播机制
- `np.mean` or `arr.mean()`
- `np.sqrt`
- `np.sum` or `arr.sum()`

In [90]:
# 创建一个示例数组
arr = np.array([1, 2, 3, 4, 5])

# 使用通用函数进行元素级别的操作
result_sqrt = np.sqrt(arr)  # 计算每个元素的平方根
result_square = np.square(arr)  # 计算每个元素的平方

# 向量化操作示例
result = arr + 10  # 对每个元素都加上10
print(result)

# 支持广播的示例
arr1 = np.array([1, 2, 3])
arr2 = np.array([10, 20, 30])
result_broadcast = arr1 * arr2  # 支持广播，对应元素相乘
print(result_broadcast)



[11 12 13 14 15]
[10 40 90]


### 矩阵元素相乘：
- 使用`A*B`,两者shape需要兼容，即可以使得B通过广播得到与A相同的shape
- 或使用`np.multiply(A,B)`

In [82]:
# 创建一个3x2的矩阵
A = np.array([[1, 2],
              [3, 4],
              [5, 6]])

# 创建一个1x2的数组，我们将它与矩阵A的每一行进行相乘
B = np.array([2, 3])
# B-->broadcast to （[[2,3],[2,3],[2,3]]） the same as shape of A


print("使用广播相乘的结果：")
print(A*B)
print(np.multiply(A,B))

使用广播相乘的结果：
[[ 2  6]
 [ 6 12]
 [10 18]]
[[ 2  6]
 [ 6 12]
 [10 18]]


### 3. Random
`np.random.----()`
- `random(n)`:生成n个（0-1）之间随机数
- `rand(m,n)`:生成m*n的均匀分布随机数矩阵
- `randn(m,n)`:生成m*n的正态分布随机数矩阵
- `randint(low,high,size=)`:生成给定上下限，size固定的随机数，size可以是一个数字或者一个数组[m,n]

In [96]:
# 生成5个随机数
random_numbers = np.random.random(5)
print(random_numbers)

[0.50284049 0.06078022 0.37127499 0.02581107 0.27014719]
[[0.29594816 0.9040453  0.94490171]
 [0.69472481 0.33175062 0.48466521]
 [0.68404852 0.05894211 0.99439674]]


In [97]:
# 生成3x3的均匀分布随机数矩阵
random_matrix = np.random.rand(3, 3)
print(random_matrix)

[[0.55686937 0.49768543 0.32720886]
 [0.61887225 0.99212917 0.39996725]
 [0.79773031 0.83040058 0.55485061]]


In [98]:
# 生成2x4的正态分布随机数矩阵
normal_random_matrix = np.random.randn(2, 4)
print(normal_random_matrix)

[[ 0.46916475 -0.29620724 -1.13566084 -0.66680179]
 [-0.1680469  -0.69321544 -0.2784468  -1.12969521]]


In [99]:
# 生成一个随机整数，范围在1到10之间
random_integer = np.random.randint(1, 11)
print(random_integer)

# 生成一个包含5个随机整数的数组，范围在1到10之间
random_array = np.random.randint(1, 11, 5)
print(random_array)

# 生成一个3x2的随机整数矩阵，范围在1到10之间
random_matrix = np.random.randint(1, 11, (3, 2))
print(random_matrix)

7
[6 3 6 2 9]
[[4 8]
 [6 5]
 [6 5]]
