# 从文件对数据的读取及数组的操作

## 文件I/O(从文件中读取数据)

### Comma-separated values(CSV,逗号分隔符)
   数据文件非常常见的文件格式是逗号分隔值（CSV），或相关的格式，如TSV（制表符分隔值）。读取这样的文件数据到numpy的数组，我们可以使用numpy.genfromtxt的功能来读取CSV文件中的数据，我们也可以使用numpy.savetxt我们可以存储一个numpy的数组到CSV格式的文件：

In [1]:
from numpy import *
M=random.rand(3,3)
M

array([[ 0.31894587,  0.44453768,  0.38532931],
       [ 0.40249221,  0.56235974,  0.37065319],
       [ 0.43648797,  0.17579779,  0.22275414]])

In [2]:
savetxt("random-matrix.csv",M)

In [3]:
!cat random-matrix.csv

3.189458722516019806e-01 4.445376794728896908e-01 3.853293075720791716e-01
4.024922110223463356e-01 5.623597362650881726e-01 3.706531948322473458e-01
4.364879680883138047e-01 1.757977922505151724e-01 2.227541398708245968e-01


In [4]:
savetxt("random-matrix.csv",M,fmt='%.5f')

In [5]:
!cat random-matrix.csv

0.31895 0.44454 0.38533
0.40249 0.56236 0.37065
0.43649 0.17580 0.22275


### Numpy的原生文件格式
这种格式在存储和读回numpy的数组数据时非常有效，此时可以使用numpy.save和numpy.load:

In [6]:
save("random-matrix.npy",M)

In [7]:
!file random-matrix.npy

random-matrix.npy: data


In [8]:
!file random-matrix.csv

random-matrix.csv: ASCII text


In [9]:
load("random-matrix.npy")

array([[ 0.31894587,  0.44453768,  0.38532931],
       [ 0.40249221,  0.56235974,  0.37065319],
       [ 0.43648797,  0.17579779,  0.22275414]])

## NumPy数组更多属性
这里简单介绍一下NumPy数组的其他一些属性
- 数组中每个元素所占字节
- 数组中所占总字节数
- 数组的维度

In [10]:
M.itemsize#每个元素字节

8

In [11]:
M.nbytes#字节数

72

In [12]:
M.ndim#维度

2

## 数组的操作

### 索引
索引即对数组中的元素的引用，可以用方括号和索引数组索引元素

In [13]:
#v是矢量，并且只有一个维度，用一个索引
v=[1,2,3]
v[0]

1

In [14]:
#M是一个矩阵，或2维数组，用两个索引
M[1,1]

0.56235973626508817

如果忽略多维数组索引，将返回整行

In [15]:
M[1]

array([ 0.40249221,  0.56235974,  0.37065319])

可以通过(:)代替索引:

In [16]:
M[1,:]#第二行

array([ 0.40249221,  0.56235974,  0.37065319])

In [17]:
M[:,1]#第二列

array([ 0.44453768,  0.56235974,  0.17579779])

也可以通过索引将新值赋给数组中元素

In [18]:
M[0,0]=1
M

array([[ 1.        ,  0.44453768,  0.38532931],
       [ 0.40249221,  0.56235974,  0.37065319],
       [ 0.43648797,  0.17579779,  0.22275414]])

In [19]:
#也可以用于行和列
M[1,:]=0
M[:,2]=-1
M

array([[ 1.        ,  0.44453768, -1.        ],
       [ 0.        ,  0.        , -1.        ],
       [ 0.43648797,  0.17579779, -1.        ]])

### 切片索引
切片索引（Index Slicing）是语法名，指采用 M[下限:上限:步数]提取数组的一部分，具体实例如下：

In [20]:
A=array([1,2,3,4,5])
A

array([1, 2, 3, 4, 5])

In [21]:
A[1:3]

array([2, 3])

In [22]:
A[1:3]=[-2,-3]
A

array([ 1, -2, -3,  4,  5])

另外，索引的三个参数都可以省略

In [23]:
A[::]

array([ 1, -2, -3,  4,  5])

In [24]:
A[::2]#步数为2，其他为默认

array([ 1, -3,  5])

In [25]:
A[:3]#前三个

array([ 1, -2, -3])

In [26]:
A[3:]#从索引为3的元素开始

array([4, 5])

负数索引表示从数组的尾部开始计数

In [27]:
A[-1]#数组最后一个元素

5

In [28]:
A[-3:]#最后三个元素

array([-3,  4,  5])

索引切片在多维数组中的工作方式完全一致:

In [29]:
A=array([[n+m*10 for n in range(5)]for m in range(5)])
A

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [30]:
#从原来的数组提取一部分
A[1:4,1:4]

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

In [31]:
#strides
A[::2,::2]

array([[ 0,  2,  4],
       [20, 22, 24],
       [40, 42, 44]])

### Fancy Indexing
花式索引是当一个数组或列表用于就地索引的名字：

In [32]:
row_indices=[1,2,3]
A[row_indices]

array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34]])

In [33]:
col_indices=[1,2,-1]
A[row_indices,col_indices]

array([11, 22, 34])

我们还可以使用索引掩码（index masks）：如果index mask是一个具有bool数据类型的Numpy数组，那么元素被选中（True）还是没有（假）依靠每个元素的位置开确定index mask的值


In [34]:
B=array([n for n in range(5)])
B

array([0, 1, 2, 3, 4])

In [35]:
row_mask=array([True,False,True,False,False])
B[row_mask]

array([0, 2])

In [36]:
row_mask=array([1,0,1,0,0],dtype=bool)
B[row_mask]

array([0, 2])

这个功能非常游泳，特别是在有条件的从数组选择元素时，例如使用比较操作:

In [37]:
x=arange(0,10,0.5)
x

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

In [38]:
mask=(5<x)*(x<7.5)
mask

array([False, False, False, False, False, False, False, False, False,
       False, False,  True,  True,  True,  True, False, False, False,
       False, False], dtype=bool)

In [39]:
x[mask]

array([ 5.5,  6. ,  6.5,  7. ])

## 从数组中提取数据并创建数组

**where**

使用where函数可以将index mask转换为位置索引(position index)

In [40]:
indices=where(mask)
indices

(array([11, 12, 13, 14]),)

In [41]:
x[indices]#这个索引等同于fancy index x[mask]

array([ 5.5,  6. ,  6.5,  7. ])

**diag**

使用diag函数我们可以提取数组的对角和子对角线

In [42]:
diag(A)

array([ 0, 11, 22, 33, 44])

In [43]:
diag(A,-1)

array([10, 21, 32, 43])

**take**

使用take函数与之前提到的fancy indexing非常相似

In [44]:
v2=arange(-3,3)
v2

array([-3, -2, -1,  0,  1,  2])

In [45]:
row_indices=[1,3,5]
v2[row_indices]#fancy indexing

array([-2,  0,  2])

In [46]:
v2.take(row_indices)

array([-2,  0,  2])

但是take函数在列表和其他对象也起作用:

In [47]:
take([-3,-2,-1,0,1,2],row_indices)

array([-2,  0,  2])

**choose**

通过提取不同数组的元素建立新数组：

In [48]:
which=[1,0,1,0]
choices=[[-2,-2,-2,-2],[5,5,5,5]]
choose(which,choices)

array([ 5, -2,  5, -2])