#Python 科学计算——numpy 篇

##1、Python科学计算介绍

##2、Numpy之ndarray对象

标准安装的Python中用列表(list)保存一组值，可以用来当作数组使用，不过由于列表的元素可以是任何对象，因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3]，需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。

此外Python还提供了一个array模块，array对象和列表不同，它直接保存数值，和C语言的一维数组比较类似。但是由于它不支持多维，也没有各种运算函数，因此也不适合做数值运算。

NumPy的诞生弥补了这些不足，NumPy提供了两种基本的对象：ndarray（N-dimensional array object）和 ufunc（universal function object）。ndarray(下文统一称之为数组)是存储单一数据类型的多维数组，而ufunc则是能够对数组进行处理的函数。

###2.1 创建

首先需要创建数组才能对其进行其它操作。

我们可以通过给array函数传递Python的序列对象创建数组，如果传递的是多层嵌套的序列，将创建多维数组(下例中的变量c):

In [36]:
import numpy as np
x=(2,3.2,1,4)

a=np.array(x)
type(a)
print(a)

[ 2.   3.2  1.   4. ]


In [31]:
a


array([2, 3, 1, 4])

In [37]:
#print(a.argmax())
a.dtype

dtype('float64')

In [20]:
np.nan?

In [39]:
np.array(range(0,10,5))/5

array([ 0.,  1.])

In [4]:
#查看数组类型
a.dtype

dtype('int32')

In [5]:
a.min()

1

In [6]:
c=np.array([[1,2,3,4],[1,2,3,4]])

In [7]:
c

array([[1, 2, 3, 4],
       [1, 2, 3, 4]])

In [8]:
c.shape

(2, 4)

In [9]:
#数组的大小可以通过其shape属性获得：
c.shape

(2, 4)

In [11]:
print (c)

[[1 2 3 4]
 [1 2 3 4]]


###2.2 其他创建数组的方式

arange函数类似于python的range函数，通过指定开始值、终值和步长来创建一维数组，注意数组不包括终值:

In [12]:
a=np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [9]:
np.arange(0,1,0.1)

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9])

linspace函数通过指定开始值、终值和元素个数来创建一维数组，可以通过endpoint关键字指定是否包括终值，缺省设置是包括终值:

In [14]:
np.linspace(0, 1, 12)

array([ 0.        ,  0.09090909,  0.18181818,  0.27272727,  0.36363636,
        0.45454545,  0.54545455,  0.63636364,  0.72727273,  0.81818182,
        0.90909091,  1.        ])

In [41]:
np.tan([[1,2,3,4],[2,3,4,5]])

array([[ 1.55740772, -2.18503986, -0.14254654,  1.15782128],
       [-2.18503986, -0.14254654,  1.15782128, -3.38051501]])

##3、Numpy之ufunc运算

ufunc是universal function的缩写，它是一种能对数组的每个元素进行操作的函数。NumPy内置的许多ufunc函数都是在C语言级别实现的，因此它们的计算速度非常快。让我们来看一个例子：

In [16]:
import numpy as np
x=np.arange(1,10,1)
y=np.sin(x)
y

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427,
       -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849])

In [18]:
#比较ufunc和其他python方式的计算时间
from time import time 
import math
x=[i*0.001 for i in range(1000000)]
start=time()
for i,t in enumerate(x):
    x[i]=math.sin(t)
print (time()-start)

0.4542067050933838


In [4]:
y=[]
for i in np.arange(1000000):
    y.append(i*0.001)
y 

[0.0,
 0.001,
 0.002,
 0.0030000000000000001,
 0.0040000000000000001,
 0.0050000000000000001,
 0.0060000000000000001,
 0.0070000000000000001,
 0.0080000000000000002,
 0.0090000000000000011,
 0.01,
 0.010999999999999999,
 0.012,
 0.013000000000000001,
 0.014,
 0.014999999999999999,
 0.016,
 0.017000000000000001,
 0.018000000000000002,
 0.019,
 0.02,
 0.021000000000000001,
 0.021999999999999999,
 0.023,
 0.024,
 0.025000000000000001,
 0.026000000000000002,
 0.027,
 0.028000000000000001,
 0.029000000000000001,
 0.029999999999999999,
 0.031,
 0.032000000000000001,
 0.033000000000000002,
 0.034000000000000002,
 0.035000000000000003,
 0.036000000000000004,
 0.036999999999999998,
 0.037999999999999999,
 0.039,
 0.040000000000000001,
 0.041000000000000002,
 0.042000000000000003,
 0.043000000000000003,
 0.043999999999999997,
 0.044999999999999998,
 0.045999999999999999,
 0.047,
 0.048000000000000001,
 0.049000000000000002,
 0.050000000000000003,
 0.051000000000000004,
 0.052000000000000005,
 0.

In [21]:
x=[i*0.001 for i in range(1000000)]
x=np.array(x)
start=time()
np.sin(x)
print (time()-start)
print (np.sin(x))

0.01704573631286621
[ 0.          0.001       0.002      ...,  0.82518868  0.82575313
  0.82631675]


NumPy中有众多的ufunc函数为我们提供各式各样的计算。除了sin这种单输入函数之外，还有许多多个输入的函数，add函数就是一个最常用的例子。先来看一个例子:

In [42]:
a = np.arange(0,4)
print (a)
b = np.arange(1,5)
print (b)
print(a+b)
print (np.add(a,b))

[0 1 2 3]
[1 2 3 4]
[1 3 5 7]
[1 3 5 7]


由于Python的操作符重载功能，计算两个数组相加可以简单地写为a+b，而np.add(a,b,a)则可以用a+=b来表示。下面是数组的运算符和其对应的ufunc函数的一个列表，注意除号"/"的意义根据是否激活__future__.division有所不同。

In [23]:
np.negative(9)

-9

In [24]:
np.add(10,10)

20

In [25]:
-a

array([ 0, -1, -2, -3])

##4、Numpy之矩阵运算

NumPy和Matlab不一样，对于多维数组的运算，缺省情况下并不使用矩阵运算，如果你希望对数组进行矩阵运算的话，可以调用相应的函数。

matrix对象

numpy库提供了matrix类，使用matrix类创建的是矩阵对象，它们的加减乘除运算缺省采用矩阵方式计算，因此用法和matlab十分类似。但是由于NumPy中同时存在ndarray和matrix对象，因此用户很容易将两者弄混。这有违Python的“显式优于隐式”的原则，因此并不推荐在较复杂的程序中使用matrix。下面是使用matrix的一个例子：

In [46]:
import numpy as np
a = np.matrix([[1,2,3],[5,5,6]])
b = np.array([[1,2,3],[5,5,6]])
print  (a.shape)
print  (b.shape)
print  (a)
print  (b)
type(b)

(2, 3)
(2, 3)
[[1 2 3]
 [5 5 6]]
[[1 2 3]
 [5 5 6]]


numpy.ndarray

In [27]:
x = np.matrix([1.00,2.00,4.00,1.00,3.00,2.00,4.00,2.00,3.00,4.00,2.00])
x.shape

(1, 11)

##5、计算回归系数

In [28]:
import numpy as np
#定义变量
x = np.array([1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0])
y=np.array([2.10,3.90,8.20,1.96,6.30,4.40,7.70,4.30,5.40,8.70,2.50])

#进行转置，因为计量经济学中的向量均为列向量
X = np.vstack([np.ones(len(x)),x ]).T#带截距地回归
Y = y.T

#按步骤计算回归系数beta
XX = np.dot(X.T,X)#点乘
XX_inv = np.linalg.inv(XX)#取逆
XY=np.dot(X.T,Y)
beta = np.dot(XX_inv,XY)
beta   # 4.012 截距项 0.17 beta   # 此处看懂即可，回归不推荐用此类方法做

array([ 4.012     ,  0.17163636])

In [29]:
XX_inv = np.linalg.inv?


In [30]:
XX_inv = np.linalg.inv

In [32]:
XX_inv

<function numpy.linalg.linalg.inv>