<a href="https://colab.research.google.com/github/QidiLiu/Python_learning/blob/master/Morvan-python_Notes/Python%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86_Numpy%26Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python数据处理 - Numpy&Pandas

## 1. Numpy & Pandas 简介

### 1.1 介绍
**NumPy**是使用Python进行科学计算的基本软件包。

它包含以下内容：
- 强大的N维数组对象
- 复杂的（广播）函数
- 集成C/C++和Fortran代码的工具
- 有用的线性代数，傅立叶变换和随机数功能

**Pandas**是为Python编程语言编写的用于数据处理和分析的软件库。它提供了用于操纵数值表和时间序列的数据结构和操作。

Numpy和Pandas的**优势**：
- 运算速度快
- 消耗资源少
- 业界通用

### 1.2 安装

Terminal/Powershell执行：

```
pip install numpy //Windows or MacOS
pip install pandas //Windows or MacOS
sudo apt-get install python-numpy //Linux
sudo apt-get install python-pandas //Linux
```

## 2. Numpy 学习

### 2.1 Numpy 属性

引用numpy常简写为np

In [1]:
import numpy as np

array = np.array([[1,2,3], [2,3,4]])
print(array)
def show_info(array):
    print(f'number of dim: {array.ndim}')
    print(f'shape: {array.shape}')
    print(f'size: {array.size}')

[[1 2 3]
 [2 3 4]]


### 2.2 创建数组对象array

关键字：
- array: 创建数组
- dtype: 指定数据类型
- zeros: 创建数据全部为0
- ones: 创建数据全部为1
- empty: 创建数据接近0
- arrange: 按指定范围创建数据
- linspace: 创建均分线段

dtype代表数组对象的数据类型↓↓↓

In [2]:
a = np.array([2,23,4])
print(a.dtype)

b = np.array([2,2.2,3.1415926])
print(b.dtype)

int64
float64


表示多维数组就要“套娃”，如下所示的three_dim_array是一个三维数组

In [3]:
three_dim_array = np.array([[[1,2,3],[4,5,6],[7,8,9]], [[10,11,12],[13,14,15],[16,17,18]], [[19,20,21],[22,23,24],[25,26,27]]])
show_info(three_dim_array)

number of dim: 3
shape: (3, 3, 3)
size: 27


创建全零数组

In [4]:
z = np.zeros((3,4))
print(z)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


创建全空数组

In [5]:
e = np.empty((2,3))
print(e)

[[1.2506422e-316 0.0000000e+000 0.0000000e+000]
 [0.0000000e+000 0.0000000e+000 0.0000000e+000]]


创建连续数组

In [6]:
ar = np.arange(10,21,2) # 10-21的数据，步长为2
print(ar)

[10 12 14 16 18 20]


使用reshape改变数据形状

In [7]:
print(f'数组ar的原型: {ar}')
print(f'数组ar变为2行3列: \n{ar.reshape((2,3))}')

数组ar的原型: [10 12 14 16 18 20]
数组ar变为2行3列: 
[[10 12 14]
 [16 18 20]]


用linspace创建均分线段，与arange不同的是，第三个参数指分成几个数（段数+1）

In [8]:
lin = np.linspace(10,21,6)
print(lin)

[10.  12.2 14.4 16.6 18.8 21. ]


也能用reshape重塑

In [9]:
print(f'数组lin的原型: {lin}')
print(f'数组lin变为2行3列: \n{lin.reshape((2,3))}')

数组lin的原型: [10.  12.2 14.4 16.6 18.8 21. ]
数组lin变为2行3列: 
[[10.  12.2 14.4]
 [16.6 18.8 21. ]]


### 2.3 Numpy 基础运算

#### 元素运算

形状相同的两个数组可做元素加减乘除运算。元素的几次方用双星符号**实现。

In [10]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[4,5,6],[7,8,9]])
print(f'a:\n{a}')
print(f'b:\n{b}')
print(f'a+b:\n{a+b}')
print(f'b-a:\n{b-a}')
print(f'a*b:\n{a*b}')
print(f'b/a:\n{b/a}')
print(f'a**2:\n{a**2}')

a:
[[1 2 3]
 [4 5 6]]
b:
[[4 5 6]
 [7 8 9]]
a+b:
[[ 5  7  9]
 [11 13 15]]
b-a:
[[3 3 3]
 [3 3 3]]
a*b:
[[ 4 10 18]
 [28 40 54]]
b/a:
[[4.   2.5  2.  ]
 [1.75 1.6  1.5 ]]
a**2:
[[ 1  4  9]
 [16 25 36]]


Numpy中还自带一些[基本运算函数](https://www.numpy.org.cn/reference/routines/math.html#%E4%B8%89%E8%A7%92%E5%87%BD%E6%95%B0)，比如np.sin()

In [11]:
c = 10*np.sin(a)
print(f'c: {c}')

c: [[ 8.41470985  9.09297427  1.41120008]
 [-7.56802495 -9.58924275 -2.79415498]]


矩阵乘法（点乘）在线性代数运算中经常用到

In [12]:
print(f'a:\n{a}')
print(f'b:\n{b.reshape(3,2)}') # 注意矩阵乘法的条件
print(f'a·b:\n{np.dot(a,b.reshape(3,2))}')

a:
[[1 2 3]
 [4 5 6]]
b:
[[4 5]
 [6 7]
 [8 9]]
a·b:
[[ 40  46]
 [ 94 109]]


元素求总和，最大值，最小值

In [13]:
print(a)
print(f'元素总和：{np.sum(a)}')
print(f'最大值：{np.max(a)}')
print(f'最小值：{np.min(a)}')

[[1 2 3]
 [4 5 6]]
元素总和：21
最大值：6
最小值：1


找到最大最小值的索引可以用argmax()和argmin()

In [14]:
print(a)
print(f'最大值索引：{np.argmax(a)}')
print(f'最小值索引：{np.argmin(a)}')

[[1 2 3]
 [4 5 6]]
最大值索引：5
最小值索引：0


求均值可以用np.mean()或np.average()实现，其中np.average()可以通过加参数实现加权平均值的求解。

In [15]:
print(a)
print(f'平均值：{np.mean(a)}')
print(f'加权平均值：{np.average(a, weights=b)}') # 以b数组为权重

[[1 2 3]
 [4 5 6]]
平均值：3.5
加权平均值：3.948717948717949


类似于matlab中的累加函数cumsum(),numpy中也有np.cumsum()，生成的每一项元素都是从首项开始累加到对映项的元素之和

In [16]:
print(a)
print(f'累加和：{np.cumsum(a)}')

[[1 2 3]
 [4 5 6]]
累加和：[ 1  3  6 10 15 21]


计算相邻元素之间的差用np.diff()

In [17]:
print(a)
print(f'相邻差：\n{np.diff(a)}')

[[1 2 3]
 [4 5 6]]
相邻差：
[[1 1]
 [1 1]]


np.nonzero()返回两个数组，分别装着输入数组中所有非零元素的坐标，前一个装行数，后一个装位数

In [18]:
nz = np.array([[0,1,0], [1,0,0]])
print(nz)
print(f'非零元素位置：\n{np.nonzero(nz)}')

[[0 1 0]
 [1 0 0]]
非零元素位置：
(array([0, 1]), array([1, 0]))


转置函数np.transpose(),还有个更简洁的表达方法a.T

In [19]:
print(a)
print(f'转置后：\n{np.transpose(a)}\n或者：\n{a.T}')

[[1 2 3]
 [4 5 6]]
转置后：
[[1 4]
 [2 5]
 [3 6]]
或者：
[[1 4]
 [2 5]
 [3 6]]


np.clip()函数可将元素转为某个指定范围内（掐头去尾）

In [20]:
print(a)
print(f'限制区间后：\n{np.clip(a,3,5)}')

[[1 2 3]
 [4 5 6]]
限制区间后：
[[3 3 3]
 [4 5 5]]


### 2.4 Numpy 索引

用法类似于列表对象list的坐标，用中括号表示。