## NumPy基础

本课内容：
* 1\. 创建 NumPy 数组
* 2\. 索引和切片
* 3\. 读取文件
* 4\. 布尔型索引
* 5\. 数组的运算

NumPy 是 Numerical Python 的简称，是 Python 科学计算的核心包。其强大的科学计算能力在很多高级包中得到应用。比如，在后续课程中的 pandas 就是基于 NumPy 的一种工具包。

** numpy主要特点 **
* 使用向量化操作以简化数据处理，包括取子集，过滤，和变形等等。
* 高效的数据总结，排序功能。

## 1. 创建Numpy数组

In [1]:
import numpy as np

# 创建一维数组
value=[1,2,3]
arr1d=np.array(value) #使用np.array函数，从列表创建数组
print(arr1d)
type(arr1d)

[1 2 3]


numpy.ndarray

In [2]:
# 创建二维数组
value2=[["name","gender","age"],["Tom","Male","18"]]
arr2d=np.array(value2)
print(value2)
value2
print(arr2d.ndim) #查看数组arr2d维度
print(arr2d.shape) #查看数组行数，列数

[['name', 'gender', 'age'], ['Tom', 'Male', '18']]
2
(2, 3)


In [4]:
#其他快速创建数组的函数
np.zeros((3,5))
#np.ones(5)
#np.empty(5)
#np.arange(3,10,3)
np.random.randint(1,30,size=(3,5))

array([[20, 21,  8,  9, 25],
       [15, 26, 12,  2, 18],
       [19, 10, 24, 12, 25]])

## 2. 索引和切片
  - 选取数组中的元素或者是数据的子集
  - 使用[ ]运算符对数进行切片和索引等操作
  - 注意：数组切片是原始数组的视图，也就是说数据不会被复制，任何修改都会影响到原有的数组上

### 一维数组的索引和切片，与Python列表差不多

In [5]:
# 创建一个一维的数组
arr = np.arange(10)
arr


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
# 一维数组的索引
arr[3]

3

In [7]:
# 一维数组的切片
arr[3:7]

array([3, 4, 5, 6])

### 二维数组

In [8]:
# 用一维数组来生成二维数组
mat = np.arange(1,17)
mat.shape = (4, 4)
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [9]:
# 对于二维数组，每个索引对应的是一个一维数组！
mat[0]  # 对应第0行

array([1, 2, 3, 4])

In [10]:
# 类似于列表切片，查看第二和第三行
# ndarray的切片是沿着行方向的
# 和列表切片一样，第三行是不包括的
mat[1:3] #等价于mat[[1,2]]

array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [11]:
# 先获取第一行，再查找第三列
mat[1][3] 

8

In [12]:
# 用一个逗号来隔开行和列的索引
mat[1,3]

8

### 索引和切片的混用
   - 方括号第一个参数指定要取的行位置，第二个参数指定要取得列位置，中间使用逗号隔开

In [13]:
# 取出第0行到第2行，第1列
mat[0:3, 1]

array([ 2,  6, 10])

In [14]:
# 可以同时在行和列同时做切片
# 取出第1行到最后一行，第2列到第3列
mat[2:, 2:]

array([[11, 12],
       [15, 16]])

## 3. 读取文件

In [65]:
wine_data=np.genfromtxt('/Users/dengsudden/Documents/python_course/winequality-red.txt',delimiter=';',skip_header=1)
print (wine_data)

[[  7.4     0.7     0.    ...,   0.56    9.4     5.   ]
 [  7.8     0.88    0.    ...,   0.68    9.8     5.   ]
 [  7.8     0.76    0.04  ...,   0.65    9.8     5.   ]
 ..., 
 [  6.3     0.51    0.13  ...,   0.75   11.      6.   ]
 [  5.9     0.645   0.12  ...,   0.71   10.2     5.   ]
 [  6.      0.31    0.47  ...,   0.66   11.      6.   ]]


In [68]:
wine_data.dtype
wine_data.shape

(1599, 12)

In [74]:
wine=wine_data[:10,[8,10,11]] #取wine_data数组前十行的第9，11，12列元素（分别表示红酒PH值，酒精度，质量评分）
print (wine)

[[  3.51   9.4    5.  ]
 [  3.2    9.8    5.  ]
 [  3.26   9.8    5.  ]
 [  3.16   9.8    6.  ]
 [  3.51   9.4    5.  ]
 [  3.51   9.4    5.  ]
 [  3.3    9.4    5.  ]
 [  3.39  10.     7.  ]
 [  3.36   9.5    7.  ]
 [  3.35  10.5    5.  ]]


## 4. 布尔型索引    
   - 索引：通过指定的行列值来取一个数组的一部分
   - 布尔型索引：通过一个布尔型数组(True,False)，来取一个数组（假设是数组A）的一部分
   - 当数组A中元素对应位置的布尔型值为True时，我们保留改位置的元素，否则不保留

In [83]:
# 选取红酒质量评分高于5的红酒数据
arr5=wine[:,2]>5 #arr5表示wine数组中第3列值大于5的元素的索引位置
print(arr5)
wine[arr5] #取wine数组中，arr5值为True的元素位置对应的元素
wine[wine[:,2]>5] #也可直接这样写

[False False False  True False False False  True  True False]


array([[  3.16,   9.8 ,   6.  ],
       [  3.39,  10.  ,   7.  ],
       [  3.36,   9.5 ,   7.  ]])

In [88]:
# 选取红酒质量评分大于5且酒精度数大于等于10的红酒数据
arr6=(wine[:,2]>5) & (wine[:,1]>=10) #评分大于5且酒精度数大于10的元素对应值为True
print(arr6)
wine[arr6] #找到评分大于5且酒精度数大于10的元素
wine[(wine[:,2]>5)&(wine[:,1]>=10)] #也可直接这样写

[False False False False False False False  True False False]


array([[  3.39,  10.  ,   7.  ]])

## 5. 数组的运算
   - Numpy数组的运算针对数组中的每一个元素
      - Numpy 数组的任何算数运算，都会将运算运用到元素级别。
      - 这样的矢量化运算是NumPy 数组的优势， Python列表要实现这一操作就需要编写循环。
   - List的运算只针对list，而非list中的元素
   - 因此，numpy数组在元素运算方面更高效

### 5.1 数组与单个数之间的运算

In [15]:
# 每个元素都除以2
mat / 2

array([[0.5, 1. , 1.5, 2. ],
       [2.5, 3. , 3.5, 4. ],
       [4.5, 5. , 5.5, 6. ],
       [6.5, 7. , 7.5, 8. ]])

In [16]:
(mat + 100) / 100

array([[1.01, 1.02, 1.03, 1.04],
       [1.05, 1.06, 1.07, 1.08],
       [1.09, 1.1 , 1.11, 1.12],
       [1.13, 1.14, 1.15, 1.16]])

In [123]:
arr7=np.random.randint(2,17,size=(3,4))
print (arr7)
print (arr7*2)  #Numpy数组的运算是针对数组中的每一个元素的
arr7_list=list(arr7)
#print (arr7_list)
arr7_list*2   #List的运算只针对list，而非list中的元素
%timeit [s*2 for s in arr7_list] #为了使list中的每个元素像numpy数组一样都被运算一次，需要使用列表解析或循环
%timeit [s*2 for s in arr7_list] #预估代码执行时间
%timeit arr7*2  #numpy数组运算比list运算高效得多！！

[[ 9 15 11  4]
 [ 5  6 11 10]
 [ 6 14  6 15]]
[[18 30 22  8]
 [10 12 22 20]
 [12 28 12 30]]
The slowest run took 9.49 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 3.3 µs per loop
100000 loops, best of 3: 3.39 µs per loop
The slowest run took 13.53 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 984 ns per loop


### 5.2 数组与数组之间的运算
- 两个行列数相符的数列可以进行运算
- 运算操作将应用到数列中对应的每一个元素

In [134]:
arr8=np.arange(1,25,2).reshape(3,4)
#arr8.shape=(3,4)
print (arr8)
arr8+arr8 
np.add(arr8,arr8) #与上一行代码等价

[[ 1  3  5  7]
 [ 9 11 13 15]
 [17 19 21 23]]


array([[ 2,  6, 10, 14],
       [18, 22, 26, 30],
       [34, 38, 42, 46]])

In [117]:
print (wine)
wine-wine[0] #将数组wine中的每一行数据与wine的第0行相减（由于两个相减的数组大小不同，这样的运算叫——广播）

[[  3.51   9.4    5.  ]
 [  3.2    9.8    5.  ]
 [  3.26   9.8    5.  ]
 [  3.16   9.8    6.  ]
 [  3.51   9.4    5.  ]
 [  3.51   9.4    5.  ]
 [  3.3    9.4    5.  ]
 [  3.39  10.     7.  ]
 [  3.36   9.5    7.  ]
 [  3.35  10.5    5.  ]]


array([[ 0.  ,  0.  ,  0.  ],
       [-0.31,  0.4 ,  0.  ],
       [-0.25,  0.4 ,  0.  ],
       [-0.35,  0.4 ,  1.  ],
       [ 0.  ,  0.  ,  0.  ],
       [ 0.  ,  0.  ,  0.  ],
       [-0.21,  0.  ,  0.  ],
       [-0.12,  0.6 ,  2.  ],
       [-0.15,  0.1 ,  2.  ],
       [-0.16,  1.1 ,  0.  ]])

## 课堂作业
   - 给出一组学生姓名，和他们对应的成绩，存储在下方数组中。请计算以下问题：
       - 找出不及格的学生姓名（提示：使用布尔型索引）
       - 找出最高分、最低分，平均分数
       - 将数值成绩转化成字母成绩，大于等于90分为A， 70-89分为B，小于70分为C

In [150]:
names = np.array(["Xiao Ming","Xiao Zhang","Xiao Gang","Xiao Hong","Xiao Pang","Xiao Wu","Xiao Dai",
                  "Xiao Qian","Xiao Fan","Xiao Wang"])
scores = np.array([ 91,  68,  84,  55,  95,  81,  67,  82,  86,  78])

# 不及格学生姓名
names[scores<60] #score数组中元素值小于60分的索引位置返回True，然后返回索引位置值为True的names数组的元素值

# 最高分／最低分／平均分
print ('Max Score is',np.max(scores))
print ('Min Score is',np.min(scores))
print ('Average Score is',np.mean(scores))
print ('成绩的方差为',np.var(scores))
print ('成绩的标准差为',np.std(scores))


# 数组转化为字母成绩
#方法一：np.where嵌套
print (np.where(scores>=90,'A',np.where(scores<70,'C','B')))

#方法二：列表解析
print (['A' if s>=90 else 'C' if s<70 else 'B' for s in scores])

#方法三：循环
rank=[]
for s in scores:
    if s>=90:
        rank.append('A')
    elif s>=70:
        rank.append('B')
    else:
        rank.append('C')

print (rank)

# 用%timeit评估3中方法的运算速度
%timeit np.where(scores>=90,'A',np.where(scores<70,'C','B'))
%timeit ['A' if s>=90 else 'C' if s<70 else 'B' for s in scores]
%timeit rank=[]
for s in scores:
    if s>=90:
        rank.append('A')
    elif s>=70:
        rank.append('B')
    else:
        rank.append('C')
# 发现对于小数据量的数组，用循环的方式更高效，对于大数据了的数组，用numpy函数运算更高效

Max Score is 95
Min Score is 55
Average Score is 78.7
成绩的方差为 132.81
成绩的标准差为 11.5243221059
['A' 'C' 'B' 'C' 'A' 'B' 'C' 'B' 'B' 'B']
['A', 'C', 'B', 'C', 'A', 'B', 'C', 'B', 'B', 'B']
['A', 'C', 'B', 'C', 'A', 'B', 'C', 'B', 'B', 'B']
The slowest run took 7.26 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 7.54 µs per loop
100000 loops, best of 3: 4.83 µs per loop
10000000 loops, best of 3: 35.6 ns per loop
