# 12-Numpy和Pandas的介绍和使用🐿️

## Numpy🐍

In [26]:
# 安装numpy模块
%pip install numpy

Note: you may need to restart the kernel to use updated packages.


### 为什么需要Numpy❓

- 运行速度
- 方便使用

In [3]:
# 导入numpy
import numpy as np
np.random.seed(12345)

In [4]:
# 长度100万的numpy格式的数组
my_arr = np.arange(1_000_000) 

# 长度100万的list
my_list = list(range(1_000_000))

计算数组中一百万个数的平方，使用`timeit`测试两种方法的运行时间

In [6]:
print('numpy running time:')
%timeit my_arr2 = my_arr ** 2

print('python list running time:')
%timeit my_list2 = [x ** 2 for x in my_list]

numpy running time:
2.21 ms ± 297 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
python list running time:
236 ms ± 2.72 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


上面的运算都是使用CPU进行计算，调用pytorch，使用gpu进行同样的计算

In [1]:
# assuming there is a CUDA-compatible GPU available
import torch 
my_arr = torch.arange(1_000_000).cuda()

In [3]:
%timeit my_arr2 = my_arr ** 2

55.4 µs ± 763 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


### Numpy ndarray

numpy只有一种数据类型，ndarray，它是一个多维数组，每个元素都是相同类型的。

![ndarray](./img/2023-10-27-11-02-03.png)

In [25]:
import numpy as np

data = np.array([1, 2, 3])
data

array([1, 2, 3])

In [24]:
# ndarray的数据类型,数组只能包含相同类型的数据
data.dtype

dtype('int32')

### 创建ndarray

![create ndarray](./img/2023-10-27-11-06-02.png)

In [11]:
np.ones(3)

array([1., 1., 1.])

In [12]:
np.zeros(3)

array([0., 0., 0.])

In [13]:
np.random.random(3)

array([0.17598492, 0.70566905, 0.54675061])

In [15]:
# 类似Python中的range函数
np.arange(3)

array([0, 1, 2])

### 算术运算

![加法运算](./img/2023-10-27-11-16-15.png)

In [16]:
data = np.array([1, 2])
ones = np.array([1, 1])
data + ones

array([2, 3])

![其他运算](./img/2023-10-27-11-18-34.png)

In [17]:
data - ones

array([0, 1])

In [18]:
data * data

array([1, 4])

In [19]:
data / data

array([1., 1.])

![乘以一个数](./img/2023-10-27-11-20-07.png)

In [20]:
data * 1.6

array([1.6, 3.2])

### 索引和切片

![索引和切片](./img/2023-10-27-11-35-38.png)

In [4]:
data = np.array([1, 2, 3])
print(data[0])
print(data[-1])
print(data[:2])
print(data[1:])

1
3
[1 2]
[2 3]


### 一维数据的聚合

![数据的聚合](./img/2023-10-27-11-40-03.png)

In [8]:
# 求最大值、最小值、求和
print(data.max())
print(data.min())
print(data.sum())

# 求均值、标准差
print(data.mean())
print(data.std())

# 求最大值、最小值的索引
print(data.argmax())
print(data.argmin())

3
1
6
2.0
0.816496580927726
2
0


## Pandas🐼

## 扩展阅读

- Numpy文章：[A Visual Intro to NumPy and Data Representation](https://jalammar.github.io/visual-numpy/)

- Numpy文章的中文版：[Numpy和数据展示的可视化介绍](http://www.junphy.com/wordpress/index.php/2019/10/24/visual-numpy)

- Pandas文章:[A Gentle Visual Intro to Data Analysis in Python Using Pandas](https://jalammar.github.io/gentle-visual-intro-to-data-analysis-python-pandas)

参考书：[利用Python进行数据分析（原书第2版)](https://item.jd.com/12398725.html)

github地址：[书籍源代码](https://github.com/wesm/pydata-book)

![书籍封面](./img/2023-10-27-09-00-41.png)