https://www.machinelearningplus.com/python/101-numpy-exercises-python/

### 1. 将 NumPy 导入为 np，并查看版本

In [1]:
import numpy as np
np.__version__

'1.16.2'

### 2. 如何创建 1 维数组？
创建数字从 0 到 9 的 1 维数组。

In [2]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 3. 如何创建 boolean 数组？
创建所有 True 的 3×3 NumPy 数组。

In [7]:
np.ones((3, 3), dtype=np.bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

### 4. 如何从 1 维数组中提取满足给定条件的项？
从 arr 中提取所有奇数。

In [14]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# arr % 2 == 1
arr[arr % 2 == 1]

array([1, 3, 5, 7, 9])

### 5. 如何将 NumPy 数组中满足给定条件的项替换成另一个数值？
将 arr 中的所有奇数替换成 -1。

In [16]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[arr % 2 == 1] = -1
arr

array([ 0, -1,  2, -1,  4, -1,  6, -1,  8, -1])

### 6. 如何在不影响原始数组的前提下替换满足给定条件的项？
将 arr 中所有奇数替换成 -1，且不改变 arr。

In [18]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr_c = arr.copy()
arr_c[arr % 2 == 1] = -1
arr_c
# arr

array([ 0, -1,  2, -1,  4, -1,  6, -1,  8, -1])

### 7. 如何重塑（reshape）数组？
将 1 维数组转换成 2 维数组（两行）。

In [19]:
np.arange(10).reshape((2, -1))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 8. 如何垂直堆叠两个数组？
垂直堆叠数组 a 和 b。

In [21]:
a = np.arange(10).reshape(2,-1)
b = np.repeat(1, 10).reshape(2,-1)
np.vstack([a, b])

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [22]:
np.concatenate([a, b])

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

### 9. 如何水平堆叠两个数组？
水平堆叠数组 a 和 b。

In [23]:
a = np.arange(10).reshape(2,-1)
b = np.repeat(1, 10).reshape(2,-1)
np.concatenate([a, b], axis=1)

array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
       [5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])

In [24]:
np.hstack([a, b])

array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
       [5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])

### 10. 在不使用硬编码的前提下，如何在 NumPy 中生成自定义序列？
在不使用硬编码的前提下创建以下模式。仅使用 NumPy 函数和以下输入数组 a。

In [43]:
a = np.array([1,2,3])
b = a.reshape((3,-1))
np.hstack([np.hstack([b, b, b]).reshape((-1)), a, a, a])

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])

In [49]:
np.vstack([np.hstack([b, b, b]), a, a, a]).reshape((-1))

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])

### 11. 如何获得两个 Python NumPy 数组中共同的项？
获取数组 a 和 b 中的共同项。

In [53]:
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])
np.intersect1d(a, b)

array([2, 4])

### 12. 如何从一个数组中移除与另一个数组重复的项？
从数组 a 中移除出现在数组 b 中的所有项。

In [61]:
a = np.array([1,2,3,4,5])
b = np.array([5,6,7,8,9])
np.setdiff1d(a, b)

array([1, 2, 3, 4])

### 13. 如何获取两个数组匹配元素的位置？
获取数组 a 和 b 中匹配元素的位置。

In [68]:
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])
np.where(a==b)

(array([1, 3, 5, 7], dtype=int64),)

### 14. 如何从 NumPy 数组中提取给定范围内的所有数字？
从数组 a 中提取 5 和 10 之间的所有项。

In [73]:
a = np.arange(15)
a[(a >=5) & (a <= 10)]

array([ 5,  6,  7,  8,  9, 10])

### 15. 如何创建一个 Python 函数以对 NumPy 数组执行元素级的操作？
转换函数 maxx，使其从只能对比标量而变为对比两个数组。

In [74]:
a = np.array([5, 7, 9, 8, 6, 4, 5])
b = np.array([6, 3, 4, 8, 9, 7, 1])
def maxx(x, y):
    """Get the maximum of two items"""
    if x >= y:
        return x
    else:
        return y
pair_max = np.vectorize(maxx, otypes=[float])
pair_max(a, b)

array([6., 7., 9., 8., 9., 7., 5.])

### 16. 如何在 2d NumPy 数组中交换两个列？
在数组 arr 中交换列 1 和列 2。

In [76]:
arr = np.arange(9).reshape(3,3)
arr[:, [1, 0, 2]]

array([[1, 0, 2],
       [4, 3, 5],
       [7, 6, 8]])

### 17. 如何在 2d NumPy 数组中交换两个行？
在数组 arr 中交换行 1 和行 2。

In [77]:
arr = np.arange(9).reshape(3,3)
arr[[1, 0, 2], :]

array([[3, 4, 5],
       [0, 1, 2],
       [6, 7, 8]])

### 18. 如何反转 2D 数组的所有行？
反转 2D 数组 arr 中的所有行。

In [78]:
arr = np.arange(9).reshape(3,3)
arr[::-1]

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

### 19. 如何反转 2D 数组的所有列？
反转 2D 数组 arr 中的所有列。

In [79]:
arr = np.arange(9).reshape(3,3)
arr[:, ::-1]

array([[2, 1, 0],
       [5, 4, 3],
       [8, 7, 6]])

### 20. 如何创建一个包含 5 和 10 之间随机浮点的 2 维数组？
创建一个形态为 5×3 的 2 维数组，包含 5 和 10 之间的随机十进制小数。

In [81]:
np.random.uniform(5, 10, size=(5, 3))

array([[7.56643999, 6.27758019, 8.72763936],
       [7.08120483, 9.15897634, 9.40248677],
       [6.25576083, 6.06481415, 7.83766073],
       [5.78257283, 9.55934701, 6.57791046],
       [6.64986637, 7.14178152, 6.40914396]])

### 21. 如何在 Python NumPy 数组中仅输出小数点后三位的数字？
输出或显示 NumPy 数组 rand_arr 中小数点后三位的数字。

In [88]:
rand_arr = np.random.random((5,3))
# Limit to 3 decimal places
np.set_printoptions(precision=3)
rand_arr[:4]

array([[0.706, 0.805, 0.389],
       [0.075, 0.407, 0.937],
       [0.859, 0.356, 0.296],
       [0.93 , 0.992, 0.453]])

### 22. 如何通过禁用科学计数法（如 1e10）打印 NumPy 数组？
通过禁用科学计数法（如 1e10）打印 NumPy 数组 rand_arr。

In [89]:
# Reset printoptions to default
np.set_printoptions(suppress=False)
# Create the random array
np.random.seed(100)
rand_arr = np.random.random([3,3])/1e3
rand_arr

array([[5.434e-04, 2.784e-04, 4.245e-04],
       [8.448e-04, 4.719e-06, 1.216e-04],
       [6.707e-04, 8.259e-04, 1.367e-04]])

In [90]:
np.set_printoptions(suppress=True, precision=6)  # precision is optional
rand_arr

array([[0.000543, 0.000278, 0.000425],
       [0.000845, 0.000005, 0.000122],
       [0.000671, 0.000826, 0.000137]])

### 23. 如何限制 NumPy 数组输出中项的数目？
将 Python NumPy 数组 a 输出的项的数目限制在最多 6 个元素。

In [94]:
np.set_printoptions(suppress=False)
a = np.arange(15)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [96]:
np.set_printoptions(threshold=5)
a

array([ 0,  1,  2, ..., 12, 13, 14])

### 24. 如何在不截断数组的前提下打印出完整的 NumPy 数组？
在不截断数组的前提下打印出完整的 NumPy 数组 a。

In [100]:
np.set_printoptions(threshold=6)
a = np.arange(15)
a

array([ 0,  1,  2, ..., 12, 13, 14])

In [102]:
import sys
np.set_printoptions(threshold=sys.maxsize)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### 25. 如何向 Python NumPy 导入包含数字和文本的数据集，同时保持文本不变？
导入 iris 数据集，保持文本不变。

In [104]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
iris[:3]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa']], dtype=object)

### 26. 如何从 1 维元组数组中提取特定的列？
从前一个问题导入的 1 维 iris 中提取文本列 species。

In [110]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_1d = np.genfromtxt(url, delimiter=',', dtype='object')
species = np.array([row[4] for row in iris_1d])
species[:5]

array([b'Iris-setosa', b'Iris-setosa', b'Iris-setosa', b'Iris-setosa',
       b'Iris-setosa'], dtype='|S15')

### 27. 如何将 1 维元组数组转换成 2 维 NumPy 数组？
忽略 species 文本字段，将 1 维 iris 转换成 2 维数组 iris_2d。

In [114]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_1d = np.genfromtxt(url, delimiter=',', dtype=None)
iris_2d = np.array([row.tolist()[:4] for row in iris_1d])
iris_2d[:5]

  


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

### 28. 如何计算 NumPy 数组的平均值、中位数和标准差？
找出 iris sepallength（第一列）的平均值、中位数和标准差。

In [117]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])
np.mean(sepallength), np.median(sepallength), np.std(sepallength)

(5.843333333333334, 5.8, 0.8253012917851409)

### 29. 如何归一化数组，使值的范围在 0 和 1 之间？
创建 iris sepallength 的归一化格式，使其值在 0 到 1 之间。

In [120]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])
smax, smin = np.max(sepallength), np.min(sepallength)
(sepallength - smin) / (smax - smin)

array([0.222222, 0.166667, 0.111111, 0.083333, 0.194444, 0.305556,
       0.083333, 0.194444, 0.027778, 0.166667, 0.305556, 0.138889,
       0.138889, 0.      , 0.416667, 0.388889, 0.305556, 0.222222,
       0.388889, 0.222222, 0.305556, 0.222222, 0.083333, 0.222222,
       0.138889, 0.194444, 0.194444, 0.25    , 0.25    , 0.111111,
       0.138889, 0.305556, 0.25    , 0.333333, 0.166667, 0.194444,
       0.333333, 0.166667, 0.027778, 0.222222, 0.194444, 0.055556,
       0.027778, 0.194444, 0.222222, 0.138889, 0.222222, 0.083333,
       0.277778, 0.194444, 0.75    , 0.583333, 0.722222, 0.333333,
       0.611111, 0.388889, 0.555556, 0.166667, 0.638889, 0.25    ,
       0.194444, 0.444444, 0.472222, 0.5     , 0.361111, 0.666667,
       0.361111, 0.416667, 0.527778, 0.361111, 0.444444, 0.5     ,
       0.555556, 0.5     , 0.583333, 0.638889, 0.694444, 0.666667,
       0.472222, 0.388889, 0.333333, 0.333333, 0.416667, 0.472222,
       0.305556, 0.472222, 0.666667, 0.555556, 0.361111, 0.333

### 30. 如何计算 softmax 分数？
计算 sepallength 的 softmax 分数。

In [122]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])
def softmax(x):
    """Compute softmax values for each sets of scores in x.
    https://stackoverflow.com/questions/34968722/how-to-implement-the-softmax-function-in-python"""
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=0)
softmax(sepallength)

array([0.00222 , 0.001817, 0.001488, 0.001346, 0.002008, 0.002996,
       0.001346, 0.002008, 0.001102, 0.001817, 0.002996, 0.001644,
       0.001644, 0.000997, 0.00447 , 0.004044, 0.002996, 0.00222 ,
       0.004044, 0.00222 , 0.002996, 0.00222 , 0.001346, 0.00222 ,
       0.001644, 0.002008, 0.002008, 0.002453, 0.002453, 0.001488,
       0.001644, 0.002996, 0.002453, 0.003311, 0.001817, 0.002008,
       0.003311, 0.001817, 0.001102, 0.00222 , 0.002008, 0.001218,
       0.001102, 0.002008, 0.00222 , 0.001644, 0.00222 , 0.001346,
       0.002711, 0.002008, 0.01484 , 0.008144, 0.013428, 0.003311,
       0.009001, 0.004044, 0.007369, 0.001817, 0.009947, 0.002453,
       0.002008, 0.00494 , 0.005459, 0.006033, 0.003659, 0.010994,
       0.003659, 0.00447 , 0.006668, 0.003659, 0.00494 , 0.006033,
       0.007369, 0.006033, 0.008144, 0.009947, 0.01215 , 0.010994,
       0.005459, 0.004044, 0.003311, 0.003311, 0.00447 , 0.005459,
       0.002996, 0.005459, 0.010994, 0.007369, 0.003659, 0.003

### 31. 如何找到 NumPy 数组的百分数？
找出 iris sepallength（第一列）的第 5 个和第 95 个百分数。

In [123]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])
np.percentile(sepallength, [5, 95])

array([4.6  , 7.255])

In [124]:
sepallength

array([5.1, 4.9, 4.7, 4.6, 5. , 5.4, 4.6, 5. , 4.4, 4.9, 5.4, 4.8, 4.8,
       4.3, 5.8, 5.7, 5.4, 5.1, 5.7, 5.1, 5.4, 5.1, 4.6, 5.1, 4.8, 5. ,
       5. , 5.2, 5.2, 4.7, 4.8, 5.4, 5.2, 5.5, 4.9, 5. , 5.5, 4.9, 4.4,
       5.1, 5. , 4.5, 4.4, 5. , 5.1, 4.8, 5.1, 4.6, 5.3, 5. , 7. , 6.4,
       6.9, 5.5, 6.5, 5.7, 6.3, 4.9, 6.6, 5.2, 5. , 5.9, 6. , 6.1, 5.6,
       6.7, 5.6, 5.8, 6.2, 5.6, 5.9, 6.1, 6.3, 6.1, 6.4, 6.6, 6.8, 6.7,
       6. , 5.7, 5.5, 5.5, 5.8, 6. , 5.4, 6. , 6.7, 6.3, 5.6, 5.5, 5.5,
       6.1, 5.8, 5. , 5.6, 5.7, 5.7, 6.2, 5.1, 5.7, 6.3, 5.8, 7.1, 6.3,
       6.5, 7.6, 4.9, 7.3, 6.7, 7.2, 6.5, 6.4, 6.8, 5.7, 5.8, 6.4, 6.5,
       7.7, 7.7, 6. , 6.9, 5.6, 7.7, 6.3, 6.7, 7.2, 6.2, 6.1, 6.4, 7.2,
       7.4, 7.9, 6.4, 6.3, 6.1, 7.7, 6.3, 6.4, 6. , 6.9, 6.7, 6.9, 5.8,
       6.8, 6.7, 6.7, 6.3, 6.5, 6.2, 5.9])

### 32. 如何在数组的随机位置插入值？
在 iris_2d 数据集中的 20 个随机位置插入 np.nan 值。

In [136]:
url =  'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype=object)
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
iris_2d[:10]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa'],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa'],
       [b'5.0', b'3.6', b'1.4', b'0.2', b'Iris-setosa'],
       [b'5.4', b'3.9', b'1.7', b'0.4', b'Iris-setosa'],
       [b'4.6', b'3.4', b'1.4', nan, b'Iris-setosa'],
       [b'5.0', b'3.4', b'1.5', b'0.2', b'Iris-setosa'],
       [b'4.4', b'2.9', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', nan, b'1.5', b'0.1', b'Iris-setosa']], dtype=object)

### 33. 如何在 NumPy 数组中找出缺失值的位置？
在 iris_2d 的 sepallength（第一列）中找出缺失值的数目和位置。

In [139]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

# Solution
print("Number of missing values: \n", np.isnan(iris_2d[:, 0]).sum())
print("Position of missing values: \n", np.where(np.isnan(iris_2d[:, 0])))

Number of missing values: 
 5
Position of missing values: 
 (array([ 11,  22,  51, 116, 143], dtype=int64),)


### 34. 如何基于两个或以上条件过滤 NumPy 数组？
过滤 iris_2d 中满足 petallength（第三列）> 1.5 和 sepallength（第一列）< 5.0 的行。

In [141]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
condition = (iris_2d[:, 2] > 1.5) & (iris_2d[:, 0] < 5.0)
iris_2d[condition]

array([[4.8, 3.4, 1.6, 0.2],
       [4.8, 3.4, 1.9, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [4.9, 2.4, 3.3, 1. ],
       [4.9, 2.5, 4.5, 1.7]])

### 35. 如何在 NumPy 数组中删除包含缺失值的行？
选择 iris_2d 中不包含 nan 值的行。

In [143]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
any_nan_in_row = np.array([~np.any(np.isnan(row)) for row in iris_2d])
iris_2d[any_nan_in_row][:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

### 36. 如何找出 NumPy 数组中两列之间的关联性？
找出 iris_2d 中 SepalLength（第一列）和 PetalLength（第三列）之间的关联性。

In [152]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
np.corrcoef(iris_2d[:, 0], iris_2d[:, 2])[0, 1]

0.8717541573048718

### 37. 如何确定给定数组是否有空值？
确定 iris_2d 是否有缺失值。

In [154]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
# iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
np.any(np.isnan(iris_2d))

False

### 38. 如何在 NumPy 数组中将所有缺失值替换成 0？
在 NumPy 数组中将所有 nan 替换成 0。

In [158]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
iris_2d[np.isnan(iris_2d)] = 0
iris_2d[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [0. , 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

### 39. 如何在 NumPy 数组中找出唯一值的数量？
在 iris 的 species 列中找出唯一值及其数量。

In [164]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
species = np.array([row.tolist()[4] for row in iris])
np.unique(species, return_counts=True)

(array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],
       dtype='|S15'), array([50, 50, 50], dtype=int64))

### 40. 如何将一个数值转换为一个类别（文本）数组？
将 iris_2d 的 petallength（第三列）转换以构建一个文本数组，按如下规则进行转换：
* Less than 3 –> small
* 3-5 –>  medium
* =>5 –>  large

In [168]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
petal_length_bin = np.digitize(iris[:, 2].astype('float'), [0, 3, 5, 10])
label_map = {1: 'small', 2: 'medium', 3: 'large', 4: np.nan}
petal_length_cat = [label_map[x] for x in petal_length_bin]
petal_length_cat[:5]

['small', 'small', 'small', 'small', 'small']

### 41. 如何基于 NumPy 数组现有列创建一个新的列？
为 iris_2d 中的 volume 列创建一个新的列，volume 指 (pi x petallength x sepal_length^2)/3。

In [177]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
sepallength = iris_2d[:, 0].astype('float')
petallength = iris_2d[:, 2].astype('float')
volume = (np.pi * petallength * (sepallength ** 2)) / 3
volume = volume.reshape(-1, 1)
# volume[:, np.newaxis]
np.hstack([iris_2d, volume])[:5]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa',
        38.13265162927291],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa',
        35.200498485922445],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa', 30.0723720777127],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa',
        33.238050274980004],
       [b'5.0', b'3.6', b'1.4', b'0.2', b'Iris-setosa',
        36.65191429188092]], dtype=object)

### 42. 如何在 NumPy 中执行概率采样？
随机采样 iris 数据集中的 species 列，使得 setose 的数量是 versicolor 和 virginica 数量的两倍。

In [180]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
species = iris[:, 4]
a = np.array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'])
np.random.choice(a, 150, p=[0.5, 0.25, 0.25])

array(['Iris-setosa', 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-versicolor',
       'Iris-setosa', 'Iris-setosa', 'Iris-virginica', 'Iris-versicolor',
       'Iris-setosa', 'Iris-versicolor', 'Iris-setosa', 'Iris-virginica',
       'Iris-versicolor', 'Iris-setosa', 'Iris-setosa', 'Iris-virginica',
       'Iris-setosa', 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica',
       'Iris-virginica', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-setosa', 'Iris-setosa',
       'Iris-versicolor', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-virginica', 'Iris-setosa', 'Iris-versicolor', 'Iris-setosa',
       'Iris-virginica', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-setosa', 'Iris-virginica', 'Iris-setosa', 'Iris-versicolor',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
     

### 43. 如何在多维数组中找到一维的第二最大值？
在 species setosa 的 petallength 列中找到第二最大值。

In [191]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
petal_len_setosa = iris[iris[:, 4] == b'Iris-setosa', 2].astype('float')
np.unique(np.sort(petal_len_setosa))[-2]

1.7

### 44. 如何用给定列将 2 维数组排序？
基于 sepallength 列将 iris 数据集排序。

In [193]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
iris[iris[:, 0].argsort()][:10]

array([[b'4.3', b'3.0', b'1.1', b'0.1', b'Iris-setosa'],
       [b'4.4', b'3.2', b'1.3', b'0.2', b'Iris-setosa'],
       [b'4.4', b'3.0', b'1.3', b'0.2', b'Iris-setosa'],
       [b'4.4', b'2.9', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.5', b'2.3', b'1.3', b'0.3', b'Iris-setosa'],
       [b'4.6', b'3.6', b'1.0', b'0.2', b'Iris-setosa'],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa'],
       [b'4.6', b'3.4', b'1.4', b'0.3', b'Iris-setosa'],
       [b'4.6', b'3.2', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa']], dtype=object)

### 45. 如何在 NumPy 数组中找到最频繁出现的值？
在 iris 数据集中找到 petallength（第三列）中最频繁出现的值。

In [197]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
value, counts = np.unique(iris[:, 2], return_counts=True)
value, counts

(array([b'1.0', b'1.1', b'1.2', b'1.3', b'1.4', b'1.5', b'1.6', b'1.7',
        b'1.9', b'3.0', b'3.3', b'3.5', b'3.6', b'3.7', b'3.8', b'3.9',
        b'4.0', b'4.1', b'4.2', b'4.3', b'4.4', b'4.5', b'4.6', b'4.7',
        b'4.8', b'4.9', b'5.0', b'5.1', b'5.2', b'5.3', b'5.4', b'5.5',
        b'5.6', b'5.7', b'5.8', b'5.9', b'6.0', b'6.1', b'6.3', b'6.4',
        b'6.6', b'6.7', b'6.9'], dtype=object),
 array([ 1,  1,  2,  7, 12, 14,  7,  4,  2,  1,  2,  2,  1,  1,  1,  3,  5,
         3,  4,  2,  4,  8,  3,  5,  4,  5,  4,  8,  2,  2,  2,  3,  6,  3,
         3,  2,  2,  3,  1,  1,  1,  2,  1], dtype=int64))

In [198]:
value[np.argmax(counts)]

b'1.5'

### 46. 如何找到第一个大于给定值的数的位置？
在 iris 数据集的 petalwidth（第四列）中找到第一个值大于 1.0 的数的位置。

In [200]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
np.argwhere(iris[:, 3].astype('float') > 1.0)[0]

array([50], dtype=int64)

### 47. 如何将数组中所有大于给定值的数替换为给定的 cutoff 值？
对于数组 a，将所有大于 30 的值替换为 30，将所有小于 10 的值替换为 10。

In [214]:
np.random.seed(100)
a = np.random.uniform(1,50, 20)
a[a > 30] = 30
a[a < 10] = 10
a

array([27.626842, 14.6401  , 21.801362, 30.      , 10.      , 10.      ,
       30.      , 30.      , 10.      , 29.179573, 30.      , 11.250904,
       10.081083, 10.      , 11.765177, 30.      , 30.      , 10.      ,
       30.      , 14.429614])

### 48. 如何在 NumPy 数组中找到 top-n 数值的位置？
在给定数组 a 中找到 top-5 最大值的位置。

In [219]:
np.random.seed(100)
a = np.random.uniform(1,50, 20)
np.argsort(a)[-5:]

array([18,  7,  3, 10, 15], dtype=int64)

### 49. 如何逐行计算数组中所有值的数量？
逐行计算唯一值的数量。

In [225]:
np.random.seed(100)
arr = np.random.randint(1,11,size=(6, 10))
num_counts_array = [np.unique(row, return_counts=True) for row in arr]
num_counts_array

[(array([1, 3, 4, 5, 6, 8, 9]), array([1, 2, 1, 1, 1, 2, 2], dtype=int64)),
 (array([ 1,  2,  3,  5,  7,  9, 10]),
  array([2, 1, 3, 1, 1, 1, 1], dtype=int64)),
 (array([2, 4, 5, 6, 8]), array([3, 2, 3, 1, 1], dtype=int64)),
 (array([ 1,  3,  4,  6,  8,  9, 10]),
  array([1, 2, 1, 1, 2, 1, 2], dtype=int64)),
 (array([1, 2, 3, 6, 7, 8, 9]), array([2, 2, 2, 1, 1, 1, 1], dtype=int64)),
 (array([ 1,  2,  3,  4,  5,  6,  9, 10]),
  array([1, 1, 1, 1, 1, 2, 2, 1], dtype=int64))]

In [235]:
np.unique(arr)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [233]:
[[int(b[a==i]) if i in a else 0 for i in np.unique(arr)] for a, b in num_counts_array]

[[1, 0, 2, 1, 1, 1, 0, 2, 2, 0],
 [2, 1, 3, 0, 1, 0, 1, 0, 1, 1],
 [0, 3, 0, 2, 3, 1, 0, 1, 0, 0],
 [1, 0, 2, 1, 0, 1, 0, 2, 1, 2],
 [2, 2, 2, 0, 0, 1, 1, 1, 1, 0],
 [1, 1, 1, 1, 1, 2, 0, 0, 2, 1]]

### 50. 如何将 array_of_arrays 转换为平面 1 维数组？
将 array_of_arrays 转换为平面线性 1 维数组。

In [236]:
arr1 = np.arange(3)
arr2 = np.arange(3,7)
arr3 = np.arange(7,10)
array_of_arrays = np.array([arr1, arr2, arr3])
array_of_arrays

array([array([0, 1, 2]), array([3, 4, 5, 6]), array([7, 8, 9])],
      dtype=object)

In [240]:
np.hstack([arr1, arr2, arr3])

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [241]:
np.concatenate([arr1, arr2, arr3])

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 51. 如何为 NumPy 数组生成 one-hot 编码？
计算 one-hot 编码。

In [242]:
np.random.seed(101) 
arr = np.random.randint(1,4, size=6)
arr

array([2, 3, 2, 2, 2, 1])

In [248]:
a = np.zeros([arr.shape[0], np.max(arr)])
for i, j in enumerate(arr):
    a[i, j-1] = 1.
a

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [1., 0., 0.]])

### 52. 如何创建由类别变量分组确定的一维数值？
创建由类别变量分组的行数。使用以下来自 iris species 的样本作为输入。

In [251]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='str', usecols=4)
species_small = np.sort(np.random.choice(species, size=20))
species_small

array([b'Iris-setosa', b'Iris-setosa', b'Iris-setosa', b'Iris-setosa',
       b'Iris-setosa', b'Iris-versicolor', b'Iris-versicolor',
       b'Iris-versicolor', b'Iris-versicolor', b'Iris-versicolor',
       b'Iris-versicolor', b'Iris-virginica', b'Iris-virginica',
       b'Iris-virginica', b'Iris-virginica', b'Iris-virginica',
       b'Iris-virginica', b'Iris-virginica', b'Iris-virginica',
       b'Iris-virginica'], dtype=object)

In [258]:
counts = np.unique(species_small, return_counts=True)[1]
np.hstack([np.array([i for i in range(n)]) for n in counts])

array([0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 6, 7, 8])

### 53. 如何基于给定的类别变量创建分组 id？
基于给定的类别变量创建分组 id。使用以下来自 iris species 的样本作为输入。

In [259]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='str', usecols=4)
species_small = np.sort(np.random.choice(species, size=20))
species_small

array([b'Iris-setosa', b'Iris-setosa', b'Iris-setosa', b'Iris-setosa',
       b'Iris-setosa', b'Iris-setosa', b'Iris-versicolor',
       b'Iris-versicolor', b'Iris-versicolor', b'Iris-versicolor',
       b'Iris-versicolor', b'Iris-versicolor', b'Iris-virginica',
       b'Iris-virginica', b'Iris-virginica', b'Iris-virginica',
       b'Iris-virginica', b'Iris-virginica', b'Iris-virginica',
       b'Iris-virginica'], dtype=object)

In [268]:
counts = np.unique(species_small, return_counts=True)[1]
np.hstack([np.ones(n) * i for i, n in enumerate(counts)]).astype(np.int32)

array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2])

### 54. 如何使用 NumPy 对数组中的项进行排序？
为给定的数值数组 a 创建排序。

In [269]:
np.random.seed(10)
a = np.random.randint(20, size=10)
a

array([ 9,  4, 15,  0, 17, 16, 17,  8,  9,  0])

In [271]:
a.argsort().argsort()

array([4, 2, 6, 0, 8, 7, 9, 3, 5, 1], dtype=int64)

### 55. 如何使用 NumPy 对多维数组中的项进行排序？
给出一个数值数组 a，创建一个形态相同的排序数组。

In [272]:
np.random.seed(10)
a = np.random.randint(20, size=[2,5])
a

array([[ 9,  4, 15,  0, 17],
       [16, 17,  8,  9,  0]])

In [277]:
a.ravel().argsort().argsort().reshape(a.shape)

array([[4, 2, 6, 0, 8],
       [7, 9, 3, 5, 1]], dtype=int64)

### 56. 如何在 2 维 NumPy 数组中找到每一行的最大值？
在给定数组中找到每一行的最大值。

In [278]:
np.random.seed(100)
a = np.random.randint(1,10, [5,3])
a

array([[9, 9, 4],
       [8, 8, 1],
       [5, 3, 6],
       [3, 3, 3],
       [2, 1, 9]])

In [279]:
[np.max(row) for row in a]

[9, 8, 6, 3, 9]

### 57. 如何计算 2 维 NumPy 数组每一行的 min-by-max？
给定一个 2 维 NumPy 数组，计算每一行的 min-by-max。

In [280]:
np.random.seed(100)
a = np.random.randint(1,10, [5,3])
a

array([[9, 9, 4],
       [8, 8, 1],
       [5, 3, 6],
       [3, 3, 3],
       [2, 1, 9]])

In [282]:
np.apply_along_axis(lambda x: np.min(x) / np.max(x), arr=a, axis=1)

array([0.444444, 0.125   , 0.5     , 1.      , 0.111111])

### 58. 如何在 NumPy 数组中找到重复条目？
在给定的 NumPy 数组中找到重复条目（从第二次出现开始），并将其标记为 True。第一次出现的条目需要标记为 False。

In [303]:
np.random.seed(100)
a = np.random.randint(0, 5, 10)
a

array([0, 0, 3, 0, 2, 4, 2, 2, 2, 2])

In [304]:
b = np.ones(a.shape)
uni_a = np.unique(a, return_index=True)
b[uni_a[1]] = False
b.astype(np.bool)

array([False,  True, False,  True, False, False,  True,  True,  True,
        True])

### 59. 如何找到 NumPy 的分组平均值？
在 2 维 NumPy 数组的类别列中找到数值的平均值。