# 第四课 - NumPy 入门

本课内容：
* 0\. 导入 NumPy 包
* 1\. 创建 NumPy 数组
* 2\. 索引和切片
* 3\. 读取文件
* 4\. 布尔型索引
* 5\. 数组的运算
* 6\. 常用函数举例


NumPy 是 Numerical Python 的简称，是 Python 科学计算的核心包。其强大的科学计算能力在很多高级包中得到应用。比如，在后续课程中的 pandas 就是基于 NumPy 的一种工具包。

** numpy主要特点 **
* 使用向量化操作以简化数据处理，包括取子集，过滤，和变形等等。
* 高效的数据总结，排序功能。

## 0. 导入 NumPy 包

In [1]:
import numpy as np  # 将之简写为 np

## 1. 创建 NumPy 数组

** numpy的一个重要对象(object)是 ndarray， 也称 NumPy 数组 **
* ndarray 是 Multidimensional Array的缩写，中文称为多(multi)维(dimensional)数组(array)。
* 数组可以存储大量数据并在其进行数学运算，我们可以使用数组在一块数据上进行操作从而避免使用循环来操作单个元素。

### 1-1. 一维数组

In [2]:
# 从列表中创建数组，使用np.array函数创建
value = [1,2,3] 
arr1d = np.array(value)
arr1d

array([1, 2, 3])

In [3]:
# 查看数据类型
type(arr1d)

numpy.ndarray

In [4]:
# 查看维度，返回1，说明是一维数组
arr1d.ndim

1

### 1-2. 二维数组

In [5]:
# 从二维列表中创建二维数组
value = [[1,2,3],[4,5,6]]
arr2d = np.array(value)
arr2d

array([[1, 2, 3],
       [4, 5, 6]])

二维数组就类似一个矩阵

\begin{bmatrix}
    1 & 2  & 3 \\
    4 & 5 & 6 
\end{bmatrix}


* 0轴 (axis=0) 是列，也就是垂直方向
* 1轴 (axis=1) 是行，也就是水平方向
* 矩阵对于数据分析来说，是一个重要的概念，一般用列来代表观测对象的各种属性、特征，用行来记录每一个观测对象的一组测量数据。

In [6]:
# 查看维度，返回2，代表二维数组
arr2d.ndim

2

In [7]:
# 使用shape来查看行数以及列数
# arr2d是一个两行三列的二维数组
arr2d.shape # 注意，结果存储在一个元组里

(2, 3)

### 1-3. 其他快速创建数组的函数



* 一维数组

In [8]:
# 创建全0数组
np.zeros(5)

array([ 0.,  0.,  0.,  0.,  0.])

In [9]:
# 创建空数组，其元素的值不一定为0，它返回的是一些未初始化的垃圾值。
np.empty(10)

array([ -1.72723371e-077,   2.00389882e+000,   1.94100914e-080,
         3.90719476e-086,   2.28191497e+232,   4.08955235e-080,
         2.55671117e+161,   1.98854918e-081,   3.03467606e-086,
         6.95335581e-309])

In [10]:
# 创建元素都为1的数组
np.ones(5)

array([ 1.,  1.,  1.,  1.,  1.])

In [11]:
# np.arange 类似于Python中的range函数，是它是数组版
# 数组元素从0 到 9
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
# 10以内的偶数构成数组
# arange() 中的参数分别是：起始值，终值（不被包含），步长（类似等差数列）
np.arange(2, 10, 2)

array([2, 4, 6, 8])

In [13]:
# 创建 [0, 1) 之间的随机数
np.random.rand(5)

array([ 0.78408467,  0.38615392,  0.20028395,  0.4741344 ,  0.8794998 ])

In [14]:
# 创建指定范围内的随机整数
np.random.randint(1, 10, size=8)

array([6, 4, 9, 2, 2, 3, 1, 3])

* 二维数组

In [15]:
np.zeros((2,3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [16]:
np.empty((3,3))

array([[  4.94065646e-324,   9.88131292e-324,   1.48219694e-323],
       [  1.97626258e-323,   2.47032823e-323,   2.96439388e-323],
       [  3.45845952e-323,   3.95252517e-323,   4.44659081e-323]])

In [17]:
np.random.rand(3,5)

array([[ 0.61108731,  0.28309232,  0.3224213 ,  0.97465818,  0.67250497],
       [ 0.42063949,  0.97061055,  0.63820155,  0.53084675,  0.65285927],
       [ 0.36935495,  0.4308036 ,  0.40956562,  0.42018877,  0.78010878]])

In [18]:
np.random.randint(1, 10, size=(3,5))

array([[9, 5, 7, 9, 4],
       [2, 6, 6, 7, 3],
       [6, 7, 4, 5, 1]])

## 2. 索引和切片

选取数组中的元素或者是数据的子集

使用[ ]运算符对数进行切片和索引等操作

### 2-1. 一维数组
* 一维数组的索引和切片，与Python列表差不多

In [19]:
# 创建一个一维的数组
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
# 一维数组的索引
arr[3]

3

In [21]:
# 一维数组的切片
arr[3:7]

array([3, 4, 5, 6])

* 数组切片是原始数组的视图，也就是说数据不会被复制，任何修改都会影响到原有的数组上。

In [22]:
arr2 = arr[3:7]
arr2[0] = 13
arr              # arr的元素被改变了

array([ 0,  1,  2, 13,  4,  5,  6,  7,  8,  9])

* 如果要对数组的切片进行复制，需要使用`.copy()`方法

In [23]:
arr = np.arange(10)
arr3 = arr[3:7].copy()   # 使用.copy()
arr3[0] = 13
arr                      # arr的元素没有被改变

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 2-2. 二维数组

In [24]:
# 用一维数组来生成二维数组
mat = np.arange(1,17)
mat.shape = (4, 4)
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

* 获取二维数组的某一行 

In [25]:
# 对于二维数组，每个索引对应的是一个一维数组！
mat[0]  # 对应第0行

array([1, 2, 3, 4])

* 获取二维数组的行

    * mat[起始行:终结行] ：从起始行开始，但不包括终结行
    * mat[起始行:] ： 从起始行到最后一行
    * mat[: 终结行] ： 从第0行到终结行但不包括终结行

In [26]:
# 类似于列表切片，查看第二和第三行
# ndarray的切片是沿着行方向的
# 和列表切片一样，第三行是不包括的
mat[1:3] #等价于mat[[1,2]]

array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

* 获取二维数组的行和列

下面的矩阵给出了数组里的每一个元素的索引


\begin{bmatrix}
    (0,0) & (0,1) & (0,2) & (0,3) \\
    (1,0) & (1,1) & (1,2) & (1,3) \\
    (2,0) & (2,1) & (2,2) & (2,3) \\
    (3,0) & (3,1) & (3,2) & (3,3)
\end{bmatrix}

* 查看某一个元素，有两种方式

In [27]:
# 先获取第一行，再查找第三列
mat[1][3] 

8

In [28]:
# 用一个逗号来隔开行和列的索引
mat[1,3]

8

* 索引和切片的混用

方括号第一个参数指定要取的行位置，第二个参数指定要取得列位置，中间使用逗号隔开

In [29]:
# 取出第0行到第2行，第1列
mat[0:3, 1]

array([ 2,  6, 10])

In [30]:
# 可以同时在行和列同时做切片
# 取出第1行到最后一行，第2列到第3列
mat[2:, 2:]

array([[11, 12],
       [15, 16]])

## 作业4-1：

生成一个3行5列的数组，元素值从1到15排列
1. 取出其中的第1行，第3列元素
2. 取出其中的第2行到最后一行
3. 取出其中的第1行到第2行，第1列到最后一列
4. 取出其中的第0行和第2行，第三列

## 3. 读取文件

In [31]:
# 读取红酒品质数据，原数据以分号进行分隔，并且跳过第一行
# 数据文件中第一行是字段名，属于字符串类型，而numpy数组的所有元素必须是一致的数据类型，故需要跳过第一行，否则会出错。
wine_data = np.genfromtxt('winequality-red.csv', delimiter=';', skip_header=1)

In [32]:
wine_data

array([[  7.4  ,   0.7  ,   0.   , ...,   0.56 ,   9.4  ,   5.   ],
       [  7.8  ,   0.88 ,   0.   , ...,   0.68 ,   9.8  ,   5.   ],
       [  7.8  ,   0.76 ,   0.04 , ...,   0.65 ,   9.8  ,   5.   ],
       ..., 
       [  6.3  ,   0.51 ,   0.13 , ...,   0.75 ,  11.   ,   6.   ],
       [  5.9  ,   0.645,   0.12 , ...,   0.71 ,  10.2  ,   5.   ],
       [  6.   ,   0.31 ,   0.47 , ...,   0.66 ,  11.   ,   6.   ]])

In [33]:
# 查看数组的形状，行和列
wine_data.shape

(1599, 12)

In [34]:
# 查看数组中元素的类型
wine_data.dtype

dtype('float64')

In [35]:
# 取前10行数据中的8，10，11列,分别对应红酒的PH值、酒精度、质量评分这三类属性
# 为简单起见，后续将使用这组数据进行分析示例
wine = wine_data[:10, [8,10,11]]
wine

array([[  3.51,   9.4 ,   5.  ],
       [  3.2 ,   9.8 ,   5.  ],
       [  3.26,   9.8 ,   5.  ],
       [  3.16,   9.8 ,   6.  ],
       [  3.51,   9.4 ,   5.  ],
       [  3.51,   9.4 ,   5.  ],
       [  3.3 ,   9.4 ,   5.  ],
       [  3.39,  10.  ,   7.  ],
       [  3.36,   9.5 ,   7.  ],
       [  3.35,  10.5 ,   5.  ]])

## 4. 布尔型索引
* 之前的切片索引方法是通过指定行或列的位置来取一个数组的一部分
* 顾名思义，布尔索引是通过一个布尔型数组来确定所需要的行或者列的位置
* 当行或列位置对应的布尔索引为True的时候，我们会保留这个行或列。反之，当对应的布尔索引为False的时候，则不选取。

*例1：获取评分大于5的红酒数据*

In [36]:
# 第2列数据代表质量评分
wine[:, 2] > 5   

array([False, False, False,  True, False, False, False,  True,  True, False], dtype=bool)

In [37]:
wine[wine[:, 2] > 5]

array([[  3.16,   9.8 ,   6.  ],
       [  3.39,  10.  ,   7.  ],
       [  3.36,   9.5 ,   7.  ]])

*例2：获取评分大于5，且酒精度大于等于10的红酒数据*

In [38]:
# 第1列代表酒精度，第2列代表评分
# 使用布尔运算符 (& , | ) 来组合多个布尔条件
mask = (wine[:,2] > 5) & (wine[:,1] >= 10)
mask

array([False, False, False, False, False, False, False,  True, False, False], dtype=bool)

In [39]:
wine[mask]

array([[  3.39,  10.  ,   7.  ]])

## 5. 数组的运算

### 5-1. 数组与单个数之间的运算

In [40]:
# 每个元素都除以2
mat / 2

array([[ 0.5,  1. ,  1.5,  2. ],
       [ 2.5,  3. ,  3.5,  4. ],
       [ 4.5,  5. ,  5.5,  6. ],
       [ 6.5,  7. ,  7.5,  8. ]])

In [41]:
# 每个元素都平方
mat ** 2 

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144],
       [169, 196, 225, 256]])

In [42]:
(mat + 100) / 100

array([[ 1.01,  1.02,  1.03,  1.04],
       [ 1.05,  1.06,  1.07,  1.08],
       [ 1.09,  1.1 ,  1.11,  1.12],
       [ 1.13,  1.14,  1.15,  1.16]])

*例：将红酒评分数据转换成百分制，即原评分乘以10*

In [43]:
# 获取评分数据的数组
score = wine[:, 2]
score

array([ 5.,  5.,  5.,  6.,  5.,  5.,  5.,  7.,  7.,  5.])

In [44]:
score * 10

array([ 50.,  50.,  50.,  60.,  50.,  50.,  50.,  70.,  70.,  50.])

* Numpy 数组的任何算数运算，都会将运算运用到**元素**级别。
* 这样的矢量化运算是NumPy 数组的优势， Python列表要实现这一操作就需要编写循环。

In [45]:
# 将上述评分数据转化成Python列表
score_list = list(score)
score_list

[5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0]

In [46]:
# 直接将列表乘以10，并不能得到类似数组的计算结果，而是把列表复制了10遍
print(score_list * 10)

[5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0, 5.0, 5.0, 5.0, 6.0, 5.0, 5.0, 5.0, 7.0, 7.0, 5.0]


In [47]:
# 方法一：使用循环将列表的每一个元素乘以10
new_list = list()
for s in score_list:
    new_list.append(s * 10)
print(new_list)

[50.0, 50.0, 50.0, 60.0, 50.0, 50.0, 50.0, 70.0, 70.0, 50.0]


In [48]:
# 方法二：使用列表解析
[ s * 10 for s in score_list]

[50.0, 50.0, 50.0, 60.0, 50.0, 50.0, 50.0, 70.0, 70.0, 50.0]

### 5-2. 数组与数组之间的运算
* 两个行列数相符的数列可以进行运算
* 运算操作将应用到数列中对应的每一个元素

In [49]:
# 两个数组相加
mat + mat

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

In [50]:
np.add(mat, mat)

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

In [51]:
# 两个数组相乘， 也可以使用np.multiply函数实现
# 对应元素之间的乘法，不同于线性代数中的矩阵相乘
mat * mat  

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144],
       [169, 196, 225, 256]])

*例：将每一行的红酒数据与第0行数据进行比较，即计算与第0行数据的差值*

In [52]:
# 注意，这里两个数组的大小不同
# 大小不同的数组之间的运算叫做广播
wine - wine[0]

array([[ 0.  ,  0.  ,  0.  ],
       [-0.31,  0.4 ,  0.  ],
       [-0.25,  0.4 ,  0.  ],
       [-0.35,  0.4 ,  1.  ],
       [ 0.  ,  0.  ,  0.  ],
       [ 0.  ,  0.  ,  0.  ],
       [-0.21,  0.  ,  0.  ],
       [-0.12,  0.6 ,  2.  ],
       [-0.15,  0.1 ,  2.  ],
       [-0.16,  1.1 ,  0.  ]])

## 6. 常用函数举例

In [53]:
wine

array([[  3.51,   9.4 ,   5.  ],
       [  3.2 ,   9.8 ,   5.  ],
       [  3.26,   9.8 ,   5.  ],
       [  3.16,   9.8 ,   6.  ],
       [  3.51,   9.4 ,   5.  ],
       [  3.51,   9.4 ,   5.  ],
       [  3.3 ,   9.4 ,   5.  ],
       [  3.39,  10.  ,   7.  ],
       [  3.36,   9.5 ,   7.  ],
       [  3.35,  10.5 ,   5.  ]])

*例1：计算红酒数据每一个属性的平均值（即每一列数据的平均值）*

In [54]:
# 首先用np.sum()获取数据的和
# 这里将数组中的所有元素相加了，但是我们想要的是每一列数据的和
np.sum(wine)

185.55000000000001

In [55]:
# 使用axis参数来设置求和的方式， axis=0表示对列求和，axis=1表示对行求和
np.sum(wine, axis=0)

array([ 33.55,  97.  ,  55.  ])

In [56]:
# 每列的总和除以行数，得到每列的均值
np.sum(wine, axis=0) / len(wine)

array([ 3.355,  9.7  ,  5.5  ])

In [57]:
# 直接使用np.mean()函数，但记得设置axis参数
np.mean(wine, axis=0)

array([ 3.355,  9.7  ,  5.5  ])

*例2：找到红酒数据每一项属性中的最大和最小值*

In [58]:
np.max(wine, axis=0)

array([  3.51,  10.5 ,   7.  ])

In [59]:
np.min(wine, axis=0)

array([ 3.16,  9.4 ,  5.  ])

* NumPy 数组比 Python 列表效率更高

数组和列表都有max函数可以找到最大值，我们来看下他们的运算速度。

In [60]:
# 先生成10000个随机数，然后需要找到它们中的最大值
random_arr = np.random.rand(10000)
random_list = list(random_arr)

In [61]:
# 直接使用Python的max函数
%timeit max(random_list)

1000 loops, best of 3: 290 µs per loop


In [62]:
# 使用NumPY中的max函数
%timeit np.max(random_arr)

The slowest run took 33.31 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 8.55 µs per loop


*例3：将红酒数据中的PH值数据进行排序*

In [63]:
np.sort(wine[:, 0])

array([ 3.16,  3.2 ,  3.26,  3.3 ,  3.35,  3.36,  3.39,  3.51,  3.51,  3.51])

*例4：找出红酒数据中都有哪几种评分，即求评分数据中不重复的打分*

In [64]:
np.unique(wine[:,2])

array([ 5.,  6.,  7.])

*例5：生成一组新的数据，如果评分大于5，其值为‘Good’；如果评分小于等于5，其值为‘Bad'*

In [65]:
# 使用循环和判断语句
new = list()
for s in wine[:,2] :
    if s > 5 :
        new.append('Good')
    else:
        new.append('Bad')

new 

['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']

In [66]:
# 使用列表解析
[('Good' if s > 5 else 'Bad') for s in wine[:,2]]

['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']

In [67]:
# 使用np.where()函数
np.where(wine[:,2] > 5, 'Good', 'Bad')

array(['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good',
       'Bad'], 
      dtype='<U4')

## 作业4-2：
给出一组学生姓名，和他们对应的成绩，存储在下方数组中。请计算以下问题：
1. 找出不及格的学生姓名（提示：使用布尔型索引）
2. 找出最高分、最低分，平均分数
3. 将数值成绩转化成字母成绩，大于等于90分为A， 70-89分为B，小于70分为C

In [68]:
names = np.array(["Xiao Ming","Xiao Zhang","Xiao Gang","Xiao Hong","Xiao Pang","Xiao Wu","Xiao Dai",
                  "Xiao Qian","Xiao Fan","Xiao Wang"])
scores = np.array([ 91,  68,  84,  55,  95,  81,  67,  82,  86,  78])