# Numpy中重要的函数

上一篇文章中，重点介绍ndarray的使用，这篇着重介绍Numpy中重要的函数

## 1. 如何使用np.where获得满足给定条件的索引位置？

在此之前，已经介绍了如何从满足给定条件的矩阵中提取item, 即布尔检索。<br>
但有时我们想知道项目的索引位置（满足某条件），并做任何想做的事情。<br>
```np.where```可以定位矩阵中一个给定条件为True的位置。

In [1]:
# Create an array
import numpy as np
np.random.seed(100)
arr_rand = np.random.randint(0, 10, size=10)
print("Array: ", arr_rand)

# Positions where value > 5
index_gt5 = np.where(arr_rand > 5)
print("Positions where value > 5: ", index_gt5)

Array:  [8 8 3 7 7 0 4 2 5 2]
Positions where value > 5:  (array([0, 1, 3, 4], dtype=int64),)


通过np.where获取的是满足条件的item的索引数组，一旦获取到这个索引数组，就可以通过```take```方法，获取对应矩阵的值

In [2]:
print(arr_rand.take(index_gt5))

[[8 8 7 7]]


此外，```np.where```也接受额外的可选参数：x与y。<br>
只要条件为真，即得到x，否则得到y<br>
下面的例子中，将尝试创建一个数组：大于5的位置将设置为gt5；否则设置为le5

In [3]:
print(np.where(arr_rand > 5, 'gt5', 'le5'))

['gt5' 'gt5' 'le5' 'gt5' 'gt5' 'le5' 'le5' 'le5' 'le5' 'le5']


此外，可以通过```np.argmax```获得最大值所在的索引；```np.argmin```获得最小值所在的索引

In [5]:
# Location of the max
print('Position of max value: ', np.argmax(arr_rand))  
print('Max value is: ', arr_rand[np.argmax(arr_rand)])

# Location of the min
print('Position of min value: ', np.argmin(arr_rand)) 
print('Min value is: ', arr_rand[np.argmin(arr_rand)])

Position of max value:  0
Max value is:  8
Position of min value:  5
Min value is:  0


## 2. 如何从csv文件导入与导出数据？

导入数据集的标准方法是使用```np.genfromtxt```函数。它可以从本地文件或者web url导入数据集。<br>
该函数可以处理csv中缺失的值（事实上，对于csv中非数值型的单元值，其都会用缺失值进行填充），多个分隔符，处理不规则的列数等。<br>
一个不太通用的版本是```np.loadtxt```，它假设数据集没有丢失的值。<br>
下面试着读取一个.csv文件。由于numpy数组中的所有元素都应该是相同的数据类型，所以最后一列是文本，而设置的dtype是float，所以文本在默认情况下被作为“nan”识别。<br>
设定fillingvalues参数，即可替代nan，当然也可以用其他数值替换缺失的值，比如0或-1。

CSV的数据大致如下（这里用了pandas进行较美观格式输出，就不用贴截图图片了哈~~~）：

In [17]:
import pandas as pd
from IPython.display import display, HTML 
df = pd.read_csv('./csv/Auto.csv', encoding='utf-8')
display(HTML(df[:10].to_html()))

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
5,15.0,8,429.0,198,4341,10.0,70,1,ford galaxie 500
6,14.0,8,454.0,220,4354,9.0,70,1,chevrolet impala
7,14.0,8,440.0,215,4312,8.5,70,1,plymouth fury iii
8,14.0,8,455.0,225,4425,10.0,70,1,pontiac catalina
9,15.0,8,390.0,190,3850,8.5,70,1,amc ambassador dpl


In [18]:
# Turn off scientific notation
np.set_printoptions(suppress=True)  

# Import data from csv file url
path = './csv/Auto.csv'
data = np.genfromtxt(path, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
# see first 3 rows
print(data[:10])

[[  18.     8.   307.   130.  3504.    12.    70.     1.  -999. ]
 [  15.     8.   350.   165.  3693.    11.5   70.     1.  -999. ]
 [  18.     8.   318.   150.  3436.    11.    70.     1.  -999. ]
 [  16.     8.   304.   150.  3433.    12.    70.     1.  -999. ]
 [  17.     8.   302.   140.  3449.    10.5   70.     1.  -999. ]
 [  15.     8.   429.   198.  4341.    10.    70.     1.  -999. ]
 [  14.     8.   454.   220.  4354.     9.    70.     1.  -999. ]
 [  14.     8.   440.   215.  4312.     8.5   70.     1.  -999. ]
 [  14.     8.   455.   225.  4425.    10.    70.     1.  -999. ]
 [  15.     8.   390.   190.  3850.     8.5   70.     1.  -999. ]]


看起来很整洁，但是有没有注意到最后一列的所有值都有相同的值'-999'？<br>
这是因为，之前提到过```dtype='float'```。<br>
而文件的最后一列包含文本值，因为numpy数组中的所有值都必须是相同的'dtype'，所以```np.genfromtxt```不知道如何将其转换为浮点数，只能讲其转为'nan'，此时filling_values就起作用了。