In [4]:

import numpy as np
import pylab as pl

## 延伸庫介紹

Python的科學計算方面的內容由許多延伸庫構成。本書將對撰寫科學計算軟體時常用的一些延伸庫做詳細的介紹，這裡先簡要介紹本書涉及的延伸庫。

### 數值計算庫

NumPy為Python帶來了真正的多維陣列功能，並且提供了豐富的函數庫處理這些陣列。在下面的實例中，使用如下公式計算$\pi$，可以看到在NumPy中使用陣列運算替代通常需要循環的運算：

$$ \pi = \frac{4}{1} - \frac{4}{3} + \frac{4}{5} - \frac{4}{7} + \frac{4}{9} - \frac{4}{11} + \frac{4}{13} - \cdots$$

In [5]:
import numpy as np
n = 100000
np.sum(4.0 / np.r_[1:n:4, -3:-n:-4])

3.141572653589794

SciPy則在NumPy基礎上加入了眾多的科學計算所需的各種工具，它的核心計算部分都是一些久經考驗的Fortran數值計算庫，例如：

* 線性代數使用LAPACK庫

* 快速傅立葉變換使用FFTPACK庫

* 常微分方程式求解使用ODEPACK庫

* 非線性方程式群組求解以及最小值求解等使用MINPACK庫

在下面的實例中，使用SciPy中提供的數值積分函數`quad()`計算$\pi$：

$$\pi = 2 \int_{-1}^1 \sqrt{1-x^2}\,dx$$

In [6]:
from scipy.integrate import quad
quad(lambda x:(1-x**2)**0.5, -1, 1)[0] * 2

3.1415926535897967

### 符號計算庫

SymPy是一套數學符號運算的延伸庫，雖然與一些專門的符號運算軟體相比，SymPy的功能以及運算速度都還是較弱的，但是由於它完全采用Python撰寫，能夠很好地與其它的科學計算庫相結合。

下面用SymPy提供的符號積分`integrate()`對上面的公式進行積分運算，可以看到運算的結果為符號表示的$\pi$：

In [7]:
from sympy import symbols, integrate, sqrt
x = symbols("x")
integrate(sqrt(1-x**2), (x, -1, 1)) * 2

pi

### 繪圖與可視化

matplotlib是Python最著名的繪圖庫，它提供了一整套和MATLAB類別似的繪圖函數集，十分適合撰寫短小的指令稿程式進行快速繪圖。此外，matplotlib采用面對物件的技術實現，因此群組成圖表的各個元素都是物件，在撰寫較大的套用程式時透過面對物件的模式使用matplotlib將更加有效。

下面的程式繪制隱函數$(x^2 + y^2 - 1)^3 - x^2 y^3 = 0$的曲線，其結果如`ref:fig-next`所示：

In [8]:
#%fig=matplotlib繪制心形隱函數曲線
x, y = np.mgrid[-2:2:500j, -2:2:500j]
z = (x**2 + y**2 - 1)**3 - x**2 * y**3
pl.contourf(x, y, z, levels=[-1, 0], colors=["red"])
pl.gca().set_aspect("equal");

VTK是一套功能十分強大的3D資料可視化庫，TVTK庫在標准的VTK庫之上用Traits庫進行封裝。而Mayavi2則在TVTK的基礎上再加入了一套面對套用的方便工具，它既可以單獨作為3D可視化程式使用，也可以很方便地內嵌到TraitsUI撰寫的界面程式中。在下面的實例中，使用Mayavi繪制如下隱函數的曲面，其結果如`ref:fig-next`所示：

$$(x^2 + \frac{9}{4} y^2 + z^2 - 1)^3 - x^2 z^3 - \frac{9}{80} y^2 z^3 = 0$$

In [9]:
%%mlab_plot
#%fig=mayavi繪制心形隱函數曲面
from mayavi import mlab
x, y, z = np.mgrid[-3:3:100j, -1:1:100j, -3:3:100j]
f = (x**2 + 9.0/4*y**2 + z**2 - 1)**3 - x**2 * z**3 - 9.0/80 * y**2 * z**3
contour = mlab.contour3d(x, y, z, f, contours=[0], color=(1, 0, 0))

UsageError: Cell magic `%%mlab_plot` not found.


### 資料處理和分析

Pandas在NumPy的基礎之上提供類別似電子表格的資料結構`DataFrame`，並以此為核心提供了大量的資料的輸入輸出、清洗、處理、分析函數。其核心運算函數使用Cython撰寫，在不失靈活性的前提下確保了函數庫的運算速度。

在下面的實例中，從電影打分資料MovieLens中讀入使用者資料檔`u.user`，並顯示其頭5條資料：

In [10]:
import pandas as pd
columns = 'user_id', 'age', 'sex', 'occupation', 'zip_code'
df = pd.read_csv("../data/ml-100k/u.user", 
                 delimiter="|", header=None, names=columns)
print df.head()

SyntaxError: invalid syntax (<ipython-input-10-f43f67364a28>, line 5)

下面使用職業欄對使用者資料進行分群組，計算每群組的平均年齡，按年齡排序之後將結果顯示為柱狀圖。可以看到如此復雜的運算在Pandas中可以使用一行程式碼完成：

In [11]:
#%fig=使用Pandas統計電影打分使用者的職業
df.groupby("occupation").age.mean().order().plot(kind="bar", figsize=(12, 4));

NameError: name 'df' is not defined

### 界面設計

Python可以使用多種界面庫撰寫GUI程式，例如標准庫中附帶的以TK為基礎的Tkinter，以wxWidgets為基礎的wxPython和以QT為基礎的pyQt4等界面庫。但是使用這些界面庫撰寫GUI程式仍然是一件十分繁雜的工作。為了讓讀者不在界面設計上耗費大量精力，進一步能把注意力集中到如何處理資料上去，本書詳細介紹了使用Traits庫設計圖形界面程式的方法。

Traits庫分為Traits和TraitsUI兩大部分，Traits為Python加入了型態定義的功能，使用它定義的Trait屬性具有起始化、驗證、代理、事件等諸多功能。

TraitsUI庫基於Traits庫，使用MVC（模型—檢視—控制器）模式快速定義使用者界面，在最簡單的情況下，甚至不需要寫一句界面關聯的程式碼，就可以透過Traits的屬性定義獲得一個可以使用的圖形界面。使用TraitsUI庫撰寫的程式自動支援wxPython和pyQt兩個經典的界面庫。

### 圖形處理和電腦視覺

OpenCV是一套開放原始碼的跨平台電腦視覺庫。它可用於開發實時的圖形處理、電腦視覺以及模式識別程式。它提供的Python包裝模組可呼叫大部分OpenCV提供的功能。由於它采用NumPy陣列表示圖形，因此能很方便地與其它延伸庫共享圖形資料。

在下面的實例中，讀入圖形`moon.jpg`，並轉為二值圖形。找到二值圖中黑白區域相交的邊線，並計算其周長和面積。然後透過這兩個參數計算$\pi$。

In [12]:
import cv2
img = cv2.imread("moon.jpg", cv2.IMREAD_GRAYSCALE)
_, bimg = cv2.threshold(img, 50, 255, cv2.THRESH_BINARY)
contour, _ = cv2.findContours(bimg, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_TC89_L1)
contour = cv2.approxPolyDP(contour[0], epsilon=2, closed=False)
area = cv2.contourArea(contour)
perimeter = cv2.arcLength(contour, True)
perimeter**2 / (4 * area)

ImportError: No module named 'cv2'

### 提昇運算速度

Python的動態特性雖然方便了程式的開發，但也會極大地降低程式的執行速度。使用Cython可以將加入了型態宣告的Python程式編譯成C語系源程式碼，再編譯成延伸模組，進一步提昇程式的運算速度。使用Cython即能實現C語系的運算速度，也能使用Python的所有動態特性，極大地方便了延伸庫的撰寫。

下面是按照前面介紹的公式使用循環計算$\pi$的源程式，使用`cdef`關鍵字定義變數的型態，進一步提昇程式的執行效率：

In [13]:
%%cython
import cython

@cython.cdivision(True)
def calc_pi(int n):
    cdef double pi = 0
    cdef int i
    for i in range(1, n, 4):
        pi += 4.0 / i
    for i in range(3, n, 4):
        pi -= 4.0 / i
    return pi

UsageError: Cell magic `%%cython` not found.


呼叫`calc_pi()`計算$\pi$的近似值：

In [14]:
calc_pi(1000000)

NameError: name 'calc_pi' is not defined

下面使用`%timeit`比較`calc_pi()`和NumPy庫計算$\pi$的運算時間：

In [15]:
n = 1000000
%timeit calc_pi(n)
%timeit np.sum(4.0 / np.r_[1:n:4, -3:-n:-4])

NameError: name 'calc_pi' is not defined