## 学习Numpy 的一些操作

In [1]:
import numpy as np

In [2]:
np.version.full_version  #显示版本

'1.11.0'

In [3]:
a=np.array([0,1,2,3,4,5]) #通过列表创建一个数组
a

array([0, 1, 2, 3, 4, 5])

- numpy的数组就是表示成这个样子，其中array()是不能省略的。

In [4]:
a.ndim #数组的维度

1

In [5]:
a.shape #数组的形状（几行，几列）

(6,)

In [6]:
b=a.reshape((3,2)) #reshape()的参数是一个元组
b

array([[0, 1],
       [2, 3],
       [4, 5]])

这种表示初次看起来很怪，其实很好理解，只是在二维列表的外面加了一个array()标示。

#### 三维数组的表示方法

In [7]:
arr=range(0,27)
arr1=np.array(arr)
arr1.reshape((3,3,3))

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [8]:
b.ndim

2

In [9]:
b.shape

(3, 2)

In [10]:
b[1][0]=77
b

array([[ 0,  1],
       [77,  3],
       [ 4,  5]])

In [11]:
a

array([ 0,  1, 77,  3,  4,  5])

以上两个cell可以表明，b和a并不是独立的两个数组，而是相互关联的，就好像是两个指针指向同一个数据区域。
如果想得到一个真正的副本应该执行如下操作：

In [12]:
c=a.reshape((3,2)).copy()
c

array([[ 0,  1],
       [77,  3],
       [ 4,  5]])

In [13]:
c[0][0]=-99
c

array([[-99,   1],
       [ 77,   3],
       [  4,   5]])

In [14]:
a

array([ 0,  1, 77,  3,  4,  5])

#### Numpy数组的一大优势，对数组的操作可以传递到每个元素当中去，其实对于数组的操作，主要目的就是操作其中的元素。

In [15]:
a=np.array([0,1,2,3,4,5]) #通过列表创建一个数组
a

array([0, 1, 2, 3, 4, 5])

In [16]:
a*2

array([ 0,  2,  4,  6,  8, 10])

In [17]:
a**2

array([ 0,  1,  4,  9, 16, 25])

#### 而对一个列表的整体操作，则不是这样的。

In [18]:
[1,2,3,4,5]*2

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

#### 索引

除了正常的列表索引方式，还允许我们将**本身**当做索引号

In [19]:
a=np.array([1,2,3,4,5,6]) #通过列表创建一个数组
a

array([1, 2, 3, 4, 5, 6])

In [20]:
a[np.array([2,3,4])]

array([3, 4, 5])

#### 判断条件也可以传递到每个元素

In [21]:
a>4

array([False, False, False, False,  True,  True], dtype=bool)

In [22]:
# 而上一个Cell的输出结果又可以当做索引来使用
a[a>4]

array([5, 6])

- ** 这个功能可以用来提取特定值，例如：从一列数据中选取特殊值（例如上式中大于4的值），假如这个值是个异常值的话就很容易将其提取出来，并将其改变 **

In [23]:
a[a>4]=4 #将所有大于4的值全部改为4
a

array([1, 2, 3, 4, 4, 4])

- 上述情况是经常会遇到的，因此就有一个修剪函数 clip()，它将数组中超出某个区间边界的部分修剪掉，分别改为这个区间的上下边界的值

In [24]:
arr=np.array(range(0,27))
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26])

In [25]:
arr.clip(8,14)

array([ 8,  8,  8,  8,  8,  8,  8,  8,  8,  9, 10, 11, 12, 13, 14, 14, 14,
       14, 14, 14, 14, 14, 14, 14, 14, 14, 14])

### 处理“非法”值

In [30]:
c=np.array([1,2,np.NAN,3,4]) 
#新建一个含有非法数据的数组，但是并不是像我理解的那样，有一个不同类型的元素，例如‘abc’，
#这样整个数组的类型就会改变，numpy的数组的元素必须保持一致
c

array([  1.,   2.,  nan,   3.,   4.])

In [27]:
np.isnan(c) #判断是否是非法值，如果是，对应的位置显示True

array([False, False,  True, False, False], dtype=bool)

In [28]:
~np.isnan(c) #对于该逻辑数组元素，取反

array([ True,  True, False,  True,  True], dtype=bool)

In [29]:
c[~np.isnan(c)] #将上述结果作为索引带入原来数组中，这样就间接清洗掉了非法值

array([ 1.,  2.,  3.,  4.])