# 一、数据分析工作环境

## Anaconda：

Anaconda（水蟒）是一个科学计算软件发行版，集成了大量常用扩展包的环境，包含了 Python 解释器，conda 包管理工具，以及 NumPy、Pandas、Matplotlib 等 180 多个科学计算包及其依赖项，并且支持所有操作系统平台。
下载地址：https://www.anaconda.com/distribution/

conda命令和pip命令对比：

```
安装包：pip install xxx, conda install xxx
卸载包：pip uninstall xxx, conda uninstall xxx
升级包：pip install upgrade xxx, conda update xxx
```

# 二、数据分析工具

Python本身的数据分析功能不强，需要第三方的扩展库来增强的它的能力。我们课程用到的库包括NumPy、Pandas、Matplotlib等，下面对这三个库做一个简单介绍，后面会通过案例深入讲解相关库的使用。

## Numpy

Python并没有提供数组的功能。虽然列表可以完成基本的数组功能，但它不是真正的数组，而且在数据量较大的时候，使用列表的速度会慢的让人难以接受。为此，Numpy提供了真正的数组功能，以及对数据进行快速高效处理的函数。Numpy还是很多更高级的扩展库的依赖库，后面讲解的Matplotlib库、Pandas库都依赖于它。

## Pandas

Pandas是Python下最强大的数据分析工具。它包含高级的数据结构，使得在Python中处理表格型数据非常快速和简单。Pandas构建与Numpy之上，它使得以Numpy为中心的应用很容易被使用，最初是被作为金融数据分析工具而开发出来的。
Pandas功能非常强大，支持类似与SQL的数据增、删、改、查，并且带有丰富的数据处理函数，支持灵活的处理缺失数据。

## Matplotlib

处理数据分析的结果，都免不了数据可视化的问题。对于Python来说， Matplotlib来说是最著名的绘图库，它主要用于二维绘图。它可以让我们非常快捷的用Python可视化数据。

# 三、IDE开发工具

## Jupyter Notebook：

命令：jupyter notebook
Anaconda自带，无需单独安装
实时查看运行过程
基本的web编辑器（本地）
.ipynb 文件分享
可交互式
记录历史运行结果
支持编写markdown

## IPython：

命令：ipython
Anaconda自带，无需单独安装
Python的交互式命令行 Shell
可交互式
记录历史运行结果
及时验证结果

## Spyder：

命令：spyder
Anaconda自带，无需单独安装
免费，操作简单的图形界面IDE

## PyCharm：

JetBrains公司出品，功能最强大的 Python 图形界面IDE。
收费软件，需要自行安装和购买：https://www.jetbrains.com/pycharm/download

# 四、科学计算工具Numpy

## Numpy（Numerical Python）

Numpy：提供了一个在Python中做科学计算的基础库，重在数值计算，主要用于多维数组（矩阵）处理的库。用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多。本身是由C语言开发，是个很基础的扩展，Python其余的科学计算扩展大部分都是以此为基础。

高性能科学计算和数据分析的基础包
ndarray对象，表示多维数组（矩阵），具有矢量运算能力
矩阵运算，无需循环，可完成类似Matlab中的矢量运算
线性代数、随机数生成

import numpy as np

## Scipy

Scipy ：基于Numpy提供了一个在Python中做科学计算的工具集，专为科学和工程设计的Python工具包。主要应用于统计优化、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解、积分方程、稀疏矩阵等，在数学系或者工程系相对用的多一些，和数据处理的关系不大，我们知道即可，这里不做讲解。
在NumPy库的基础上增加了众多的数学、科学及工程常用的库函数
线性代数、常微分方程求解、信号处理、图像处理
一般的数据处理numpy已经够用

import scipy as sp

### 参考学习资料：

Python、NumPy和SciPy介绍：http://cs231n.github.io/python-numpy-tutorial

NumPy和SciPy快速入门：https://docs.scipy.org/doc/numpy/user/quickstart.html

In [1]:
import numpy as np
import pandas as pd

## 4.1 ndarray的创建

### ndarray 多维数组(N Dimension Array)

NumPy数组是一个多维的数组对象（矩阵），称为ndarray，具有高效的算术运算能力和复杂的广播能力，并具有执行速度快和节省空间的特点。

注意：ndarray的下标从0开始，且数组里的所有元素必须是相同类型，每一个ndarray都拥有以下属性：

- ndim属性：维度个数
- shape属性：维度大小
- dtype属性：数据类型

### ndarray的随机抽样创建

> 通过随机抽样 (numpy.random) 生成随机数据。

#### 1. np.random.rand()

> 生成指定维度的随机多维浮点型数组，数据固定区间 0.0 ~ 1.0

In [2]:
# 生成指定维度大小（3行4列）的随机多维浮点型数组（二维），rand固定区间0.0 ~ 1.0
arr = np.random.rand(3, 4)
print(arr)
print(type(arr))

[[0.06088228 0.49803282 0.79818609 0.43772672]
 [0.77294629 0.6643921  0.41191311 0.13925151]
 [0.63587005 0.72486703 0.3659344  0.69805035]]
<class 'numpy.ndarray'>


In [3]:
print('维度个数: ', arr.ndim)
print('维度大小: ', arr.shape)
print('数据类型: ', arr.dtype)

维度个数:  2
维度大小:  (3, 4)
数据类型:  float64


#### 2. np.random.uniform()

> 生成指定维度大小的随机多维浮点型数组，可以指定数字区间

In [4]:
# 生成指定维度大小（3行4列）的随机多维浮点型数组（二维），uniform()可以指定区间（-1, 5）
arr = np.random.uniform(-1, 5, size = (3, 4)) # 'size='可省略
print(arr)
print(type(arr))

[[ 1.90506619  3.67608499  4.86852829  3.43616259]
 [ 0.45357859  4.68026882  0.98024974  1.18498789]
 [ 3.6806248   1.4442486  -0.27114883  2.83369027]]
<class 'numpy.ndarray'>


In [5]:
print('维度个数: ', arr.ndim)
print('维度大小: ', arr.shape)
print('数据类型: ', arr.dtype)

维度个数:  2
维度大小:  (3, 4)
数据类型:  float64


#### 3. np.random.randint()

> 生成指定维度大小的随机多维整型数组，可以指定数字区间

In [6]:
# 生成指定维度大小（3行4列）的随机多维整型数据（二维），randint()可以指定区间（-1, 5）
arr = np.random.randint(-1, 5, size = (3, 4)) # 'size='可省略
print(arr)
print(type(arr))

[[-1  3  2  0]
 [ 4  2 -1  0]
 [ 0  0  1  1]]
<class 'numpy.ndarray'>


In [7]:
print('维度个数: ', arr.ndim)
print('维度大小: ', arr.shape)
print('数据类型: ', arr.dtype)

维度个数:  2
维度大小:  (3, 4)
数据类型:  int32


### ndarray的序列创建

#### 1. np.array(list, dtype)

> list 为 序列型对象(list)、嵌套序列对象(list of list)，dtype表示数据类型 （int、float、str）。

In [8]:
# list 序列转换为 ndarray
arr = np.array(range(10))

print(arr)            # ndarray数据
print(arr.ndim)        # 维度个数
print(arr.shape)    # 维度大小

# list of list 嵌套序列转换为ndarray
lis_lis = [range(10), range(10)]
arr_2d = np.array(lis_lis)

print(arr_2d)            # ndarray数据
print(arr_2d.ndim)        # 维度个数
print(arr_2d.shape)        # 维度大小

[0 1 2 3 4 5 6 7 8 9]
1
(10,)
[[0 1 2 3 4 5 6 7 8 9]
 [0 1 2 3 4 5 6 7 8 9]]
2
(2, 10)


#### 2. np.zeros()

> 指定大小的全0数组。注意：第一个参数是元组，用来指定大小，如(3, 4)，第二个参数可以指定类型，如int，默认为float。

#### 3. np.ones()

> 指定大小的全1数组。注意：第一个参数是元组，用来指定大小，如(3, 4)，第二个参数可以指定类型，如int，默认为float。

In [9]:
# np.zeros
zeros_arr = np.zeros((3, 4))

# np.ones
ones_arr = np.ones((2, 3))


print('------zeros_arr-------')
print(zeros_arr)

print('\n------ones_arr-------')
print(ones_arr)

------zeros_arr-------
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

------ones_arr-------
[[1. 1. 1.]
 [1. 1. 1.]]


#### 4. np.arange()

> arange() 类似 python 的 range() ，用来创建一个一维 ndarray 数组，结果等同于 np.array(range())。

In [10]:
# np.arange()
arr = np.arange(15) # 0 ~ 14、共15个元素的 一维数组
print(arr)

arr = np.arange(10, 20, 2) # 10 ~ 19、步长为2、共5个元素的一维数组
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
[10 12 14 16 18]


#### 5. reshape()

> reshape() 将 重新调整数组的维度。

In [11]:
arr = np.arange(15)
print(arr.reshape(3, 5)) # 3x5个元素的 二维数组

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


#### 6. random.shuffle()

> random.shuffle() 将打乱数组序列（随机重新排列）。

In [12]:
arr = np.arange(15)
print(arr)

np.random.shuffle(arr)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
[13  6 10  1 14 12 11  5  8  2  7  9  3  4  0]


## 4.2 ndarray的数据类型

通过ndarray的dtype来打印数组中元素的类型，ndarray常见的数据类型如下：

```
类型	类型代码	说明
int8、uint8	i1、u1	有符号和无符号的8位(1个字节长度)整型
int16、uint16	i2、u2	有符号和无符号的16位(2个字节长度)整型
int32、uint32	i4、u4	有符号和无符号的32位(4个字节长度)整型
float16	f2	半精度浮点数
float32	f4或f	标准单精度浮点数
float64	f8或d	双精度浮点数
bool	?	布尔类型
object	O	Python对象类型
unicode	<U1或U	固定长度的unicode类型，跟字符串定义方式一样
```

#### 1. dtype参数

> 指定数组的数据类型，类型名+位数，如float64, int32

In [13]:
# 创建一个ndarray，并将数据类型转为float64
float_arr = np.array([1, 2, 3, 4], dtype = np.float64)

print(float_arr)

print(float_arr.dtype)

[1. 2. 3. 4.]
float64


#### 2. astype方法

> 转换数组的数据类型

In [14]:
# astype转换数据类型，将已有的数组的数据类型转换为int32
int_arr = float_arr.astype(np.int32)

print(int_arr)

print(int_arr.dtype)

[1 2 3 4]
int32


## 4.3 ndarray的矩阵运算

> 矩阵、标量、向量/矢量是数学概念，数组是编程中的概念。

> 在计算机编程中，矩阵可以用数组形式表示，标量可以用数值表示，向量/矢量可以用数据结构表示。

> 向量化/矢量化：就是将自然数据，转化为计算机可以处理的数据结构。

In [15]:
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([10, 20, 30, 40, 50])

# 1. 数组和数组之间的运算
print(arr1 * arr2)
print(arr1 + arr2)

[ 10  40  90 160 250]
[11 22 33 44 55]


In [16]:
# 2. 数组和数字之间的运算
print(arr1 + 100)
print(arr2 / 5)

[101 102 103 104 105]
[ 2.  4.  6.  8. 10.]


In [17]:
# 3. 多维数组和多维数组之间的运算
arr3 = np.arange(9).reshape((3, 3))
arr4 = np.arange(9).reshape((3, 3))

print(arr3)
print(arr4)
print(arr3 + arr4)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[ 0  2  4]
 [ 6  8 10]
 [12 14 16]]


In [18]:
# 4. 一维数组和多维数组之间运算
arr5 = np.arange(5)
print(arr5)

arr6 = np.arange(10).reshape((2, 5))
print(arr6)

print(arr5 + arr6)

[0 1 2 3 4]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[ 0  2  4  6  8]
 [ 5  7  9 11 13]]


## 4.4 ndarray的索引与切片

### 1. 一维数组的索引与切片

> 与Python的列表索引功能相似

In [19]:
# 一维数组
arr1 = np.arange(10)
print(arr1)
print(arr1[2:5])

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]


### 2. 多维数组的索引与切片：

arr[r1:r2, c1:c2]

arr[1, 1] 等价 arr[1][1]

[ : ] 代表某个维度的数据

In [20]:
# 多维数组
arr2 = np.arange(12).reshape(3,4)
print(arr2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [21]:
# 行下标为1
print( arr2[1] )

[4 5 6 7]


In [22]:
# 行下标为1 的 列下标为2 的数据
print( arr2[1, 2] )

6


In [23]:
# 所有行 的 列下标为1~3 的数据
print( arr2[:, 1:3] )

[[ 1  2]
 [ 5  6]
 [ 9 10]]


In [24]:
# 行下标0~1 的 列下标2~最后 的数据
print( arr2[0:2, 2:] )

[[2 3]
 [6 7]]


In [25]:
# 所有行 的 列下标为3 的数据
print( arr2[:, 3] )

[ 3  7 11]


In [26]:
# 选取特定的子集,参数为列表

# 行下标为0和2 的数据
print( arr2[[0, 2]] )

[[ 0  1  2  3]
 [ 8  9 10 11]]


In [27]:
# 行下标为0 的 列下标为1 的数据，和 行下标为-1 的 列下标为2 的数据
print( arr2[[0, -1], [1, 2]] )

[ 1 10]


In [28]:
# 先取行下标为0和1 的数据，再取结果中行下标为1~最后 的 列下标为1~3的数据
print( arr2[[0, 1]][1:, 1:3] )

[[5 6]]


### 3. 条件索引

> 布尔值多维数组：arr[condition]，condition也可以是多个条件组合。

> 条件索引将返回一个一维数组

> 注意，多个条件组合要使用 & | ~ 连接，而不是Python的 and or not。

In [29]:
# 条件索引

year_arr = np.array([[2010, 2011, 2012],
                     [2013, 2014, 2015],
                     [2016, 2017, 2018]])

is_year_after_2015 = year_arr >= 2015
print(is_year_after_2015, is_year_after_2015.dtype)

[[False False False]
 [False False  True]
 [ True  True  True]] bool


In [30]:
# 将bool索引应用到数组上，将返回bool值为True的数据
filtered_arr = year_arr[is_year_after_2015]
print(filtered_arr)

[2015 2016 2017 2018]


In [31]:
# 上述代码简写形式
filtered_arr = year_arr[year_arr >= 2005]
print(filtered_arr)

[2010 2011 2012 2013 2014 2015 2016 2017 2018]


In [32]:
# ~ 对条件取反
print(year_arr[~(year_arr >= 2015)])

[2010 2011 2012 2013 2014]


In [33]:
# 多个条件 通过 & 和 | 来表示 与和或
filtered_arr = year_arr[(year_arr <= 2015) & (year_arr % 2 == 0)]
print(filtered_arr)

[2010 2012 2014]


## 4.5 ndarray的ufunc

- ufunc是universal function（通用函数）的缩写，是一种对ndarray中的数据执行元素级的运算。既可以对单个数值操作，也可以对数组的每个元素进行操作的函数（支持广播运算）。

- NumPy内置的许多ufunc函数都是在C语言实现的，因此它们的计算速度非常快，我们可以将其看做是简单的函数(接收一个或多个参数，返回一个或者多个返回值)。

### 常用的元素计算函数

#### 一元ufunc：

> 1. ceil(x): 向上最接近的整数，参数是 number 或 ndarray
> 2. floor(x): 向下最接近的整数，参数是 number 或 ndarray
> 3. rint(x): 四舍五入，参数是 number 或 ndarray
> 4. negative(x): 元素取反，参数是 number 或 ndarray
> 5. abs(x)：元素的绝对值，参数是 number 或 ndarray
> 6. square(x)：元素的平方，参数是 number 或 ndarray
> 7. aqrt(x)：元素的平方根，参数是 number 或 ndarray
> 8. sign(x)：计算各元素的正负号, 1(正数)、0（零）、-1(负数)，参数是 number 或 ndarray
> 9. modf(x)：将数组的小数和整数部分以两个独立数组的形式返回，参数是 number 或 ndarray
> 10. isnan(x): 判断元素是否为 NaN(Not a Number)，返回bool，参数是 number 或 ndarray

#### 二元ufunc：

> 1. add(x, y): 元素相加，x + y，参数是 number 或 ndarray
> 2. subtract(x, y): 元素相减，x - y，参数是 number 或 ndarray
> 3. multiply(x, y): 元素相乘，x * y，参数是 number 或 ndarray
> 4. divide(x, y): 元素相除，x / y，参数是 number 或 ndarray
> 5. floor_divide(x, y): 元素相除取整数商(丢弃余数)，x // y，参数是 number 或 ndarray
> 6. mod(x, y): 元素求余数，x % y，参数是 number 或 array
> 7. power(x, y): 元素求次方，x ** y，参数是 number 或 array

#### 三元ufunc：

> where(condition, x, y): 三元运算符，x if condition else y，条件满足返回x，否则返回y，参数condition 是条件语句，参数 x 和 y 是 number 或 ndarray

In [34]:
# 创建两个数组
arr1 = np.array([16, 7, 8, 2, 8, 3, 4, -5, 4, 27])
arr2 = np.array([23, 5, 3, 7, 2, 1, 2, -2, 7, 14])

# 已知有两个数组，依次对比两个数组中对应下标位置的值，取出大的值，组成新的数组.
# 按下标依次迭代arr1和arr2两个数组的每个元素，并比较元素大小，如果结果为True，返回当前arr1的元素，否则返回当前arr2的元素，并将结果构建为一个数组。
arr3 = np.where(arr1 > arr2, arr1, arr2)
print(arr3)

[23  7  8  7  8  3  4 -2  7 27]


### 常用的元素统计函数

多维数组默认统计全部数据，添加axis参数可以按指定轴心统计，值为0则按列统计，值为1则按行统计。

> 1. np.mean(x [, axis])：所有元素的平均值，参数是 number 或 ndarray
> 2. np.sum(x [, axis])：所有元素的和，参数是 number 或 ndarray
> 3. np.max(x [, axis])：所有元素的最大值，参数是 number 或 ndarray
> 4. np.min(x [, axis])：所有元素的最小值，参数是 number 或 ndarray
> 5. np.std(x [, axis])：所有元素的标准差，参数是 number 或 ndarray
> 6. np.var(x [, axis])：所有元素的方差，参数是 number 或 ndarray
> 7. np.argmax(x [, axis])：最大值的下标索引值，参数是 number 或 ndarray
> 8. np.argmin(x [, axis])：最小值的下标索引值，参数是 number 或 ndarray
> 9. np.cumsum(x [, axis])：返回一个一维数组，每个元素都是之前所有元素的 累加和，参数是 number 或 ndarray
> 10. np.cumprod(x [, axis])：返回一个一维数组，每个元素都是之前所有元素的 累乘积，参数是 number 或 ndarray

### ndarray支持常用的增加和删除操作，以及数组合并。

> 1. append()：在数组后面追加元素
> 2. insert()：在指定下标插入元素
> 3. delete()：删除指定行/列数据
> 4. concatenate((arr1, arr2, ...), axis=0)：合并多个数组

In [35]:
#  4列 的 一维数组
arr1 = np.arange(4)
arr2 = np.arange(4)

# 3行4列 的 二维数组
arr3 = np.arange(12).reshape((3, 4))

#### 1. append数组中追加元素

注意：append总是返回一维数组

In [36]:
print(arr1)

[0 1 2 3]


In [37]:
# 数组追加一个数值元素
np.append(arr1, 100)

array([  0,   1,   2,   3, 100])

In [38]:
# 在一维数组后追加一维数组
print(arr2)

[0 1 2 3]


In [39]:
np.append(arr1, arr2)

array([0, 1, 2, 3, 0, 1, 2, 3])

In [40]:
# 在多维数组后追加标量元素
print(arr3)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [41]:
np.append(arr3, 100)

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11, 100])

In [42]:
# 在一维数组后追加多维数组
np.append(arr1, arr3)

array([ 0,  1,  2,  3,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

#### 2. insert插入元素

In [43]:
# 一维数组插入元素
print(arr1)

[0 1 2 3]


In [44]:
# 在下标为2位置插入元素100
np.insert(arr1, 1, 100)

array([  0, 100,   1,   2,   3])

In [45]:
# 在在下标为2位置插入两个元素10、20
np.insert(arr1, 2, [10, 20])

array([ 0,  1, 10, 20,  2,  3])

In [46]:
# 多维数组插入元素
print(arr3)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [47]:
# 在第2行插入一行元素
np.insert(arr3, 1, np.array([100, 200, 300, 400]), axis=0)

array([[  0,   1,   2,   3],
       [100, 200, 300, 400],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11]])

In [48]:
# 在第3列插入一列元素
np.insert(arr3, 2, np.array([100, 200, 300]), axis=1)

array([[  0,   1, 100,   2,   3],
       [  4,   5, 200,   6,   7],
       [  8,   9, 300,  10,  11]])

#### 3. delete删除一行或者一列数组元素

> 为了保证数组结构完整性，多维ndarray不能删除单个元素

In [49]:
print(arr3)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [50]:
# 删除第0行元素
np.delete(arr3, 0, axis=0)

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [51]:
# 删除第2列元素
np.delete(arr3, 1, axis=1)

array([[ 0,  2,  3],
       [ 4,  6,  7],
       [ 8, 10, 11]])

In [52]:
# 删除第0、2、3列元素
np.delete(arr3, [0, 2, 3], axis=1)

array([[1],
       [5],
       [9]])

#### 4. concatenate合并两个数组元素

> 注意：合并的两个数组必须维度相同。

In [53]:
arr4 = np.arange(12).reshape((3, 4))
arr4

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [54]:
# 合并两个一维数组
np.concatenate((arr1, arr2))

array([0, 1, 2, 3, 0, 1, 2, 3])

In [55]:
# 按列合并合并两个二维数组
np.concatenate((arr3, arr4), axis=0)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [56]:
# 按行合并两个二维数组
np.concatenate((arr3, arr4), axis=1)

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

### ndarray数组排序函数

> 注意：ndarray.sort()在原数组上进行排序，np.sort()将返回排序后的新数组，原数组不变。

In [57]:
## 1. 对一维数组排序

arr1 = np.random.randint(1, 10, (1, 5))
arr1

array([[6, 2, 6, 3, 1]])

In [58]:
arr1.sort()
arr1

array([[1, 2, 3, 6, 6]])

In [59]:
## 2. 对二维数组排序
arr2 = np.random.randint(1, 10, (5, 5))
arr2

array([[5, 6, 2, 8, 2],
       [2, 7, 2, 4, 5],
       [1, 7, 9, 4, 9],
       [1, 8, 9, 8, 1],
       [7, 5, 4, 5, 5]])

In [60]:
# 对每行数据进行排序
arr2.sort()  
arr2

array([[2, 2, 5, 6, 8],
       [2, 2, 4, 5, 7],
       [1, 4, 7, 9, 9],
       [1, 1, 8, 8, 9],
       [4, 5, 5, 5, 7]])

In [61]:
# axis = 0，指定对每列数据进行排序
arr2.sort(axis=0)  
arr2

array([[1, 1, 4, 5, 7],
       [1, 2, 5, 5, 7],
       [2, 2, 5, 6, 8],
       [2, 4, 7, 8, 9],
       [4, 5, 8, 9, 9]])

In [62]:
## 3. np.sort() 返回排序后的新数组
arr3 = np.sort(arr2)  # 源数据不变
arr3

array([[1, 1, 4, 5, 7],
       [1, 2, 5, 5, 7],
       [2, 2, 5, 6, 8],
       [2, 4, 7, 8, 9],
       [4, 5, 8, 9, 9]])

## 4.6 NumPy的文件读写

### 1. save() 和 load()

> NumPy中的np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下，数组是以原始二进制格式保存在扩展名为.npy的文件中。如果在保存文件时没有指定扩展名.npy，则该扩展名会被自动加上。

通过np.savez可以将多个数组保存到同一个文件中，将数组以关键字参数的形式传入即可。

例如: np.savez(‘myarr.npz’, a=arr1, b=arr2) 加载文件的时候，我们会得到一个类似字典的对象。

In [63]:
arr1 = np.random.randint(1, 50, (5, 6))
arr1

array([[12, 20,  4, 14,  3, 39],
       [30, 20, 19, 12,  2, 36],
       [22, 39, 30, 24, 46,  4],
       [26, 46, 20, 42, 45, 25],
       [39, 14, 36, 35,  8, 36]])

In [64]:
### 1. save() 
# 将单个数组写入到文件中，默认后缀为 .npy
np.save('arr1', arr1)

In [65]:
# 从文件中读取数组
arr2 = np.load('arr1.npy')
arr2

array([[12, 20,  4, 14,  3, 39],
       [30, 20, 19, 12,  2, 36],
       [22, 39, 30, 24, 46,  4],
       [26, 46, 20, 42, 45, 25],
       [39, 14, 36, 35,  8, 36]])

In [66]:
arr3 = np.random.randint(1, 50, (8, 8))
arr3

array([[38, 31, 27, 11, 25, 37,  4, 39],
       [29, 33, 32, 13, 32,  9, 42,  7],
       [43, 46, 35, 25, 28,  7, 37, 49],
       [25, 21, 32, 10,  3, 28, 42, 13],
       [39, 30, 15,  2,  9, 13, 33, 19],
       [ 9, 49, 29, 19, 33,  8, 47, 39],
       [45, 48,  6, 20,  6, 45, 11,  9],
       [36, 11, 13, 28, 38, 46, 20,  3]])

In [67]:
### 2. savez()
# 写入多个数组到文件中，默认后缀为 .npz
np.savez('more_arr', n2=arr2, n3=arr3)

In [68]:
# 从文件中读取数组
arr4 = np.load('more_arr.npz')
arr4['n2']

array([[12, 20,  4, 14,  3, 39],
       [30, 20, 19, 12,  2, 36],
       [22, 39, 30, 24, 46,  4],
       [26, 46, 20, 42, 45, 25],
       [39, 14, 36, 35,  8, 36]])

In [69]:
arr4['n3']

array([[38, 31, 27, 11, 25, 37,  4, 39],
       [29, 33, 32, 13, 32,  9, 42,  7],
       [43, 46, 35, 25, 28,  7, 37, 49],
       [25, 21, 32, 10,  3, 28, 42, 13],
       [39, 30, 15,  2,  9, 13, 33, 19],
       [ 9, 49, 29, 19, 33,  8, 47, 39],
       [45, 48,  6, 20,  6, 45, 11,  9],
       [36, 11, 13, 28, 38, 46, 20,  3]])

### 2. savetxt() 和 genfromtxt()：

> NumPy中使用np.loadtxt()或者更加专门化的np.genfromtxt()将数据加载到普通的Numpy数组中，savetxt() 将数据保存到磁盘文件里。这些函数都有许多选项可供使用：指定各种分隔符、读取指定列，指定数据类型等。我们以一个简单的逗号分割文件(csv)为例：

In [70]:
arr1 = np.array([
    ['column1', 'column2', 'column3', 'column4', 'column5'],
    ['Python', 'JavaScript', 'Ruby', 'PHP', 'R'],
    ['C', 'C++', 'Java', 'D', 'Go'],
    ['Fortran', 'Lisp', 'VB', 'Delphi', 'Perl'],
    ['MySQL', 'Oracle', 'Redis', 'MongoDB', 'HBase']
])

In [71]:
# np.savetxt() 可以将数组保存成csv文件，每个数据之间用逗号隔开，fmt表示按字符串保存
np.savetxt('arr1.csv', arr1, delimiter=',', fmt='%s')

In [72]:
# np.gensfromtxt() 读取csv文件，并指定分隔符和数据类型
np.genfromtxt('arr1.csv', delimiter=',', dtype=str)

array([['column1', 'column2', 'column3', 'column4', 'column5'],
       ['Python', 'JavaScript', 'Ruby', 'PHP', 'R'],
       ['C', 'C++', 'Java', 'D', 'Go'],
       ['Fortran', 'Lisp', 'VB', 'Delphi', 'Perl'],
       ['MySQL', 'Oracle', 'Redis', 'MongoDB', 'HBase']], dtype='<U10')

In [75]:
# np.gensfromtxt() 读取csv文件，并指定分隔符和数据类型，以及列索引
np.genfromtxt('arr1.csv', delimiter=',', dtype=str, usecols=[0, 2, 4])

array([['column1', 'column3', 'column5'],
       ['Python', 'Ruby', 'R'],
       ['C', 'Java', 'Go'],
       ['Fortran', 'VB', 'Perl'],
       ['MySQL', 'Redis', 'HBase']], dtype='<U7')