**Chapter 2 Introduction to NumPy**
* Understanding Data Types in Python
* The Basics of NumPy Arrays
* Computation on NumPy Arrays: Universal Functions
* Aggregations: Min, Max, and Everything in Between
* Computation on Arrays: Broadcasting
* Comparisons, Masks, and Boolean Logic
* Fancy Indexing
* Sorting Arrays
* Structured Data: NumPy’s Structured Arrays

**Chapter 3 Data Manipulation with Pandas**
* Installing and Using Pandas
* Introducing Pandas Objects
* Data Indexing and Selection
* Operating on Data in Pandas
* Handling Missing Data
* Hierarchical Indexing
* Combining Datasets: Concat and Append
* Combining Datasets: Merge and Join
* Aggregation and Grouping
* Pivot Tables
* Vectorized String Operations
* Working with Time Series
* High-Performance Pandas: eval() and query()
* Further Resources

### Numpy 簡介

1. NumPy是Python語言的一個擴充程式庫。支援大量的**高維度陣列與矩陣運算**，此外也提供陣列運算的數學函式庫。NumPy為**開放原始碼**並且由許多協作者共同維護開發。

2. NumPy引入了多維陣列以及可以直接有效率地操作多維陣列的函式與運算子。因此在NumPy上只要能被表示為針對陣列或矩陣運算的演算法，其執行效率幾乎都可以與編譯過的等效C語言程式碼一樣快。

3. NumPy可以結合其它的Python擴充函式庫。例如**SciPy函式庫**提供了許多與MATLAB相似的功能；及**Matplotlib函式庫**，與MATLAB內建繪圖功能類似的函式庫。

4. NumPy的核心功能是**ndarray**（即n-dimensional array，多維陣列）資料結構。一個表示多維度、同質並且固定大小的陣列物件。

### Python的基本資料型別

Python可以處理數值與文字資料。Python所能處理的數值資料型別包括「整數」、「浮點數」、「複數」、及「布林數」。不同資料型別佔據記憶體大小決定資料範圍。
* 整數(int)，如1, 23, 789
* 浮點數(float)，如12.3, 1.23e10
* 複數(complex)，如1+2j
* 布林數(boolean)，如True或 False

#### 整數(Integer)

在Python中，只要沒有帶小數點的數值或負數，都視為整數，且整數的大小是沒有限制的，例如

In [1]:
1000000000000000000000000000000000000000000000000000000+1

1000000000000000000000000000000000000000000000000000001

#### 浮點數(float)

浮點數是帶有小數點的數值，如12.345，0.87654，也可以使用科學符號表示，如1.234e5，0.00345e10。

In [2]:
print(1.23, type(1.23))
print(0.00543e5,  type(1.23))

1.23 <class 'float'>
543.0 <class 'float'>


* 內建函數type()可以用來顯示資料的型別
* 0.00543e5 = 0.00543 x 10<sup>**5**</sup> = 5.43 x 10<sup>**2**</sup> = 543.0

#### 複數(complex)

帶有虛數的數，如 1+2j

#### 布林值(Boolean value)

布林值包含「真」與「假」二個值，真假值是有邏輯判斷式來決定，邏輯式有關於一個事實(Fact)的真假，例如 (5>3) 是一個事實，如果 5>3 為真，則布林值為True，否則布林值為False。

In [4]:
print(5>3, type(5>3)) # 5>3為真
print(0==5, type(0==5)) # 0 == 5 為假

True <class 'bool'>
False <class 'bool'>


### Numpy Array

#### Pyhton List與numpy array記憶體大小比較

> Python List所占記憶體包含(1)List資訊記憶體、(2)指向元素所需的記憶體、及(3)List元素所需的記憶體

> | numpy array所占記憶體包含(1)numpy array物件所佔記憶體，及(2)numpy array元素所需的記憶體

1. **python list 記憶體需求分析**

    a. ListList物件及指向元素記憶體需求 (64 + 8 * 元素數量) <br>
    b. List元素所需記憶體 (元素型別記憶體需求 * 元素數量)
    
    List所需的記憶體 = a + b


In [16]:
from sys import getsizeof
lst = [1, 2, 3]
size_of_list_object = getsizeof(lst)
size_of_list_elements = getsizeof(lst[0])*len(lst)
print("List物件及指向元素記憶體需求： ", getsizeof(lst))
print("List元素所需記憶體[1, 2, 3]： ", size_of_list_elements)
print("List(lst)記憶體總共需求：", size_of_list_object+size_of_list_elements)
print("空List所佔記憶體：", getsizeof([]))


List物件及指向元素記憶體需求：  88
List元素所需記憶體[1, 2,3]：  84
List(lst)記憶體總共需求： 172
空List所佔記憶體： 64


2. **numpy array 記憶體需求分析**

    a. 空numpy array記憶體需求<br>
    b. numpy array 元素記憶體需求(元素型別記憶體需求 * 元素數量)
    
    numpy array 所需的記憶體 = a + b

In [19]:
from sys import getsizeof
import numpy as np
a = np.array([1, 3, 4])
e = np.array([])
print("空numpy array記憶體需求：", getsizeof(e)) #96
print("具3個整數的numpy array記憶體需求： ", getsizeof(a)) #108
print("每一個元素所需記憶體：", (getsizeof(a)-getsizeof(e))/3) #np.int32

空numpy array記憶體需求： 96
具3個整數的numpy array記憶體需求：  108
每一個元素所需記憶體： 4.0


#### Python List與 numpy array執行速度比較

In [35]:
import time
size_of_vec = 1000000

def pure_python_version():
    t1 = time.time()
    X = range(size_of_vec)
    Y = range(size_of_vec)
    Z = [X[i] + Y[i] for i in range(len(X)) ]
    return time.time() - t1

def numpy_version():
    t1 = time.time()
    X = np.arange(size_of_vec)
    Y = np.arange(size_of_vec)
    Z = X + Y
    return time.time() - t1

In [53]:
t1 = pure_python_version()
t2 = numpy_version()
print("{0:>30s} {1:10.7f} ".format("execution time of pure python",t1))
print("{0:>30s} {1:10.7f} ".format("executrion time of numpy array",t2))
print("numpy array 比 python List 快 {:5.2f} 倍".format(t1/t2))

 execution time of pure python  0.3343043 
executrion time of numpy array  0.0050046 
numpy array 比 python List 快 66.80 倍


### 建立矩陣

numpy 提供一個 **`arange`**方法用來將數值範圍產生等距數列，方法定義如後 **`np.arange([start,] stop[, step], [, dtype=None])`**
* a = `np.arange(1, 10)` 結果 a = \[1 2 3 4 5 6 7 8 9\]
* a = `np.arange(10.4)` 結果 a = \[0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.\]
* a = `np.arange(0.5, 10.4, 0.8)` 結果 a = \[0.5 1.3 2.1 2.9 3.7 4.5 5.3 6.1 6.9 7.7 8.5 9.3 10.1\]
* a = `np.arange(0.5, 10.4, 0.8, int)` 結果 a = \[0 1 2 2 3 4 5 6 6 7 8 9 10 11 12\]

In [54]:
import numpy as np
a = np.arange(1, 10); print(a)
a = np.arange(10.4); print(a)
a = np.arange(0.5, 10.4, 0.8); print(a)
a = np.arange(0.5, 10.4, 0.8, int); print(a)

[1 2 3 4 5 6 7 8 9]
[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
[ 0.5  1.3  2.1  2.9  3.7  4.5  5.3  6.1  6.9  7.7  8.5  9.3 10.1]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12]


另一個numpy方法`linspce`可以用來將數值範圍分隔成**num**個區間的數列，方法定義如後**`linsapce(start, stop, num=50, endpoint=True, retstep=False)`**，如果**endpoint=True**，**stop端點數值**必須包含於產生的數列。如果num沒有指定，則預設值為**50**。endpoint的預設值為**True**。retstep=**True**則傳回分割值。

In [64]:
a = np.linspace(1, 10, 5)
print(a)
a = np.linspace(1, 10, 5, endpoint=False)
print(a)
a = np.linspace(1, 10)
print(a)

[ 1.    3.25  5.5   7.75 10.  ]
[1.  2.8 4.6 6.4 8.2]
[ 1.          1.18367347  1.36734694  1.55102041  1.73469388  1.91836735
  2.10204082  2.28571429  2.46938776  2.65306122  2.83673469  3.02040816
  3.20408163  3.3877551   3.57142857  3.75510204  3.93877551  4.12244898
  4.30612245  4.48979592  4.67346939  4.85714286  5.04081633  5.2244898
  5.40816327  5.59183673  5.7755102   5.95918367  6.14285714  6.32653061
  6.51020408  6.69387755  6.87755102  7.06122449  7.24489796  7.42857143
  7.6122449   7.79591837  7.97959184  8.16326531  8.34693878  8.53061224
  8.71428571  8.89795918  9.08163265  9.26530612  9.44897959  9.63265306
  9.81632653 10.        ]


In [69]:
samples, spacing = np.linspace(1, 10, 20, retstep=True)
print(spacing)
samples, spacing = np.linspace(1, 10, 20, endpoint=False, retstep=True)
print(spacing)

0.47368421052631576
0.45


針對一個純量數值(如123)，有別於是數列，則其維度為0。從向量空間的觀點而言，有一維空間(1-d space)，二維空間(2-d space)，及三維空間(3-d space)，一維空間的維度為1，而純數值的維度為0。numpy的`np.ndim()`用來獲得數列的維度，另numpy array的屬性**`ndim`**也可用於獲得數列的維度。

In [83]:
import numpy as np
x = np.array(42)
print("x = ", x)
print("x的型別 =  ", type(x)) #注意此處x的型別並非為整數，而是numpy數列
print("x的維度 = ", np.ndim(x))

x =  42
x的型別 =   <class 'numpy.ndarray'>
x的維度 =  0


利用`np.linspace(1, 10)`建立一個數列，`np.ndim()`方法可用來檢查數列的維度。

In [74]:
a = np.linspace(1, 10)
print("a 的維度 ", np.ndim(a))

a 的維度  1


numpy提供`np.array()`方法用來將python List轉換為numpy array，如`np.array([1, 2, 3])`將`[1, 2, 3]`轉換為一維數列`[1 2 3]`，`np.array([[1, 0],[0,1]]`將轉換成一個二維陣列，\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}

In [79]:
# one dimensional array
a = np.array([1, 2, 3])
print("a = ", a)
print("a的型別為", type(a))
print("a的維度 = ", np.ndim(a))

a =  [1 2 3]
a的型別為 <class 'numpy.ndarray'>
a的維度 =  1


In [81]:
# two dimensional array
a = np.array([[1, 2, 3], [4, 5, 6]])
print("a = ", a)
print("a的型別為", type(a))
print("a的維度 = ", np.ndim(a))

a =  [[1 2 3]
 [4 5 6]]
a的型別為 <class 'numpy.ndarray'>
a的維度 =  2


In [87]:
# three dimensional array
a = np.array([ [[111, 112, 113], [121, 122, 123], [131, 132, 133]],
              [[211, 212, 213], [221, 222, 223], [231, 232, 233]],
               [[311, 312, 313], [321, 322, 323], [331, 332, 333]] ])
print("a = ", a)
print("a的型別為", type(a))
print("a的維度 = ", np.ndim(a))

a =  [[[111 112 113]
  [121 122 123]
  [131 132 133]]

 [[211 212 213]
  [221 222 223]
  [231 232 233]]

 [[311 312 313]
  [321 322 323]
  [331 332 333]]]
a的型別為 <class 'numpy.ndarray'>
a的維度 =  3


![](pic/matrix3d.png)

numpy提供**`np.shape()`**方法及**`.shape`**屬性用於獲得陣列的形狀資訊，如a.shape為(3, 3, 3)，表示a為一個3x3x3的立方矩陣。

In [90]:
print(np.shape(a))
print(a.shape)

(3, 3, 3)
(3, 3, 3)
