## Python資料類型和結構

+ 整數 - int

In [1]:
n = 10
type(n)

int

 type為內建函數，顯示參數的型態，Python跟Java一樣，一切都是物件導向，這意味著int也有自己的method，例如，可以使用bit_length方法

In [2]:
n.bit_length()

4

 若數值越大，需要的位數更多

In [3]:
n = 1000000
n.bit_length()

20

 Python一個很大的特色是，他沒有大數的限制，可以無限大，例如天文數字$10^{100}$，對Python處理來說毫無問題

In [4]:
n = 10 ** 100
n

10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000L

In [5]:
n.bit_length()

333

 以下示範幾個int的使用例子

In [6]:
2 + 3

5

In [7]:
print 1 / 4 
type(1 / 4)

0


int

In [8]:
3 * 5

15

+ 浮點數 - float

In [9]:
print 1. / 4
type(1. / 4)

0.25


float

定義一個浮點數

In [10]:
b = 0.35
type(b)

float

In [11]:
b + 0.1

0.44999999999999996

會出現以上結果是因為浮點數內部是以二進位表示 $$n=\frac{x}{2} + \frac{y}{4} + \frac{z}{8} + ...$$ 
因此若有精確的二進位表示就可以精確的儲存

In [12]:
c = 0.5
c.as_integer_ratio()

(1, 2)

$$0.5 = \frac{1}{2}$$  
Python運行的所有平台都是雙精度(64位元)表示，可以精確到15位的精度  
這個主題在多個領域都很重要，例如金融領域

decimal模組為浮點數提供任意精度的物件，以及使用這些數值時處理精度問題的多個方法：

In [13]:
import decimal
from decimal import Decimal

In [14]:
decimal.getcontext()

Context(prec=28, rounding=ROUND_HALF_EVEN, Emin=-999999999, Emax=999999999, capitals=1, flags=[], traps=[InvalidOperation, Overflow, DivisionByZero])

In [15]:
d = Decimal(1) / Decimal(11)
d

Decimal('0.09090909090909090909090909091')

可以改變Context物件的各個屬性，從而改變表示精度

In [16]:
decimal.getcontext().prec = 4

In [17]:
e = Decimal(1) / Decimal(11)
e

Decimal('0.09091')

In [18]:
decimal.getcontext().prec = 50
f = Decimal(1) / Decimal(11)
f

Decimal('0.090909090909090909090909090909090909090909090909091')

In [19]:
g = d + e + f
g

Decimal('0.27272818181818181818181818181909090909090909090909')

+ 字串 - str

In [20]:
t = 'hello world'

同樣的，str也是一個物件，裡面包含許多方法，舉個例子，你可以將字串中的第一個字轉為大寫

In [21]:
t.capitalize()

'Hello world'

也可以猜分成一個一個的單字

In [22]:
t.split()

['hello', 'world']

搜索一段文字

In [23]:
t.find('orl')

7

In [24]:
t.find('string')

-1

得到該值的索引值，若沒有則回傳-1

也可以替換字元

In [25]:
t.replace(' ','$')

'hello$world'

刪除字串中的子字串

In [26]:
'http://www.python.org'.strip('http://')

'www.python.org'

使用字串時，正規表達式也是一個強力的工具

In [27]:
import re

In [28]:
series = """
'2016/08/02 18:00:00';
'2016-08-03 12:00:00';
'2016-08-04 11:00:00';
"""

In [29]:
dt = re.compile("'[\d{/\-}:\s]+'")
result = dt.findall(series)
result

["'2016/08/02 18:00:00'", "'2016-08-03 12:00:00'", "'2016-08-04 11:00:00'"]

在解析字串時，建議使用正規表達式，他可以為操作帶來便利和高性能  
[正規表達式參考語法](https://atedev.wordpress.com/2007/11/23/%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%A4%BA%E5%BC%8F-regular-expression/)

+ tuple

In [30]:
t = (1, 2.5, 'data')
type(t)

tuple

In [31]:
t[2]

'data'

In [32]:
type(t[2])

str

其中，count方法給出某個物件的出現次數，index方法給出某個物件第一次出現的索引值

In [33]:
t.count('data')

1

In [34]:
t.index(1)

0

tuple不是非常靈活，一旦定義就不容易更改，無法變長與縮小

+ List

In [35]:
l = [1, 3, 5 ,'data']
l[1]

3

可以將tuple轉換成list

In [36]:
l = list(t)
l

[1, 2.5, 'data']

List除了有tuple的特性之外，List還可以透過method變長和縮小

In [37]:
l.append([4, 3])
l

[1, 2.5, 'data', [4, 3]]

In [38]:
l.insert(1, 'insert data') #放在索引值1，原本索引是1以後的後退一個
l

[1, 'insert data', 2.5, 'data', [4, 3]]

In [39]:
l.remove('data')
l

[1, 'insert data', 2.5, [4, 3]]

再來一個是比較有趣的部分-slice，指的是將數據分解成某一段較小的部分

In [40]:
l[2:5] # 3rd to 5th elements

[2.5, [4, 3]]

In [41]:
l[0:5:2] #第一個到第五個每隔兩個的元素

[1, 2.5]

+ map、filter、reduce和匿名函式

判斷是否為偶數

In [42]:
def even(x):
    return x % 2 == 0
even(3)

False

使用map加入到List

In [43]:
map(even, range(10))

[True, False, True, False, True, False, True, False, True, False]

even是一個函數，我們把函數當作參數傳進去，我們也可以使用匿名函式lambda

In [44]:
map(lambda x: x % 2 == 0, range(10))

[True, False, True, False, True, False, True, False, True, False]

filter可以過濾List，只把<font color='gray'>return True</font>的index放進List

In [45]:
filter(even, range(10))

[0, 2, 4, 6, 8]

最後reduce(歸納)，對於一個List return 一個值很有用，以1加到10為例

In [46]:
reduce(lambda x,y : x+y, range(10))

45

+ 字典 - dict

In [47]:
d = {
    'Name': 'Andy',
    'Country': 'Taiwan',
    'Profession': 'Python',
    'Age': 22
}
type(d)

dict

In [48]:
d['Country']

'Taiwan'

一些內建method

In [49]:
d.keys()

['Country', 'Age', 'Profession', 'Name']

In [50]:
d.values()

['Taiwan', 22, 'Python', 'Andy']

In [51]:
d.items()

[('Country', 'Taiwan'),
 ('Age', 22),
 ('Profession', 'Python'),
 ('Name', 'Andy')]

用for-in取得所有key和value

In [52]:
for key, value in d.iteritems():
    print 'd[\'' + str(key) + '\']: ' + str(value)

d['Country']: Taiwan
d['Age']: 22
d['Profession']: Python
d['Name']: Andy


+ 集合 - set

介紹最後一個資料結構 - set
他跟List最大的不一樣是set裡面不能有重複的元素

In [53]:
s = set(['a','b','c','d','e','a','b'])
s

{'a', 'b', 'c', 'd', 'e'}

In [54]:
t = set(['a','b','e','e','f','a','b'])
t

{'a', 'b', 'e', 'f'}

可以使用數學的集合論來進行運算，可以生成交集、連集、差集等等

In [55]:
s.union(t)

{'a', 'b', 'c', 'd', 'e', 'f'}

In [56]:
s.intersection(t)

{'a', 'b', 'e'}

In [57]:
s.difference(t)

{'c', 'd'}

set最大的應用便是把List重複的資料清掉

### NumPy資料結構

前面說明了Python基本的資料型態，特別是list和dict有許多方便的特性和應用讓我們可以方便地處理資料，然而，科學和金融常常會有更高性能的需求

假設我們只有使用數值，在最簡單的狀況下就是一維陣列，然而，更常見的情況下是多維陣列$i\times j$  
這時線性代數和向量空間等數學類理論闡述了這種資料結構在各個領域學科的重要性，這就是<font color='green'>Numpy</font>大展身手的地方

In [58]:
v = [0.1, 0.3, 0.4, 0.8, 0.5] #一維陣列
m = [v, v, v] #二維陣列
m

[[0.1, 0.3, 0.4, 0.8, 0.5],
 [0.1, 0.3, 0.4, 0.8, 0.5],
 [0.1, 0.3, 0.4, 0.8, 0.5]]

In [59]:
m[1][0]

0.1

改變v，m也會跟著改

In [60]:
v[0] = 'Python'
m

[['Python', 0.3, 0.4, 0.8, 0.5],
 ['Python', 0.3, 0.4, 0.8, 0.5],
 ['Python', 0.3, 0.4, 0.8, 0.5]]

接下來開始介紹Numpy

In [61]:
import numpy as np

In [62]:
a = np.array([0, 0.5, 0.3, 0.42, 0.11])
type(a)

numpy.ndarray

In [63]:
a[:2] #從0到1

array([ 0. ,  0.5])

numpy.ndarray的主要特徵是有多種內建的method

In [64]:
a.sum()

1.3300000000000001

In [65]:
a.std() #標準差

0.18693314312876674

In [66]:
a.cumsum() #累加

array([ 0.  ,  0.5 ,  0.8 ,  1.22,  1.33])

In [67]:
a ** 2

array([ 0.    ,  0.25  ,  0.09  ,  0.1764,  0.0121])

二維陣列

In [68]:
b = np.array([a, a * 2])
b

array([[ 0.  ,  0.5 ,  0.3 ,  0.42,  0.11],
       [ 0.  ,  1.  ,  0.6 ,  0.84,  0.22]])

In [69]:
b[0] #first row

array([ 0.  ,  0.5 ,  0.3 ,  0.42,  0.11])

In [70]:
b.sum()

3.9900000000000002

In [71]:
b.sum(axis=0) #行相加

array([ 0.  ,  1.5 ,  0.9 ,  1.26,  0.33])

In [72]:
b.sum(axis=1) #列相加

array([ 1.33,  2.66])

初始化有很多方式

In [73]:
c = np.zeros((2, 3, 4), dtype='float')
c

array([[[ 0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.]],

       [[ 0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.]]])

性能比較  
我們生成5000 * 5000的矩陣，並對他做運算比較時間

In [74]:
import random
I = 5000

In [75]:
#init
%time mat = [[random.gauss(0, 1) for j in range(I)] for i in range(I)]

CPU times: user 54.3 s, sys: 1.31 s, total: 55.6 s
Wall time: 1min 1s


In [76]:
#sum
%time reduce(lambda x, y: x+y, [reduce(lambda x, y:x+y, row) for row in mat])

CPU times: user 5.15 s, sys: 704 ms, total: 5.85 s
Wall time: 6.24 s


1686.766214498019

In [77]:
#init by numpy
%time mat = np.random.standard_normal((I, I))

CPU times: user 1.39 s, sys: 140 ms, total: 1.53 s
Wall time: 1.74 s


In [78]:
%time mat.sum()

CPU times: user 31.8 ms, sys: 1.14 ms, total: 32.9 ms
Wall time: 32.6 ms


1626.9355029914846

雖然Numpy比純Python程式碼快超多倍，不過他有個限制是最多允許在每列上使用不同的資料結構，就像sql一樣，每個column的型態可以不同，但是每個row的資料結構必須一樣

### 記憶體分布

為了說明記憶體佈局在數據處理的重要性，考慮以下多維numpy.ndarray物件的構造

In [79]:
x = np.random.standard_normal((5, 10000000))
y = 2 * x + 3
C = np.array((x, y), order='C') #行優先
F = np.array((x, y), order='F') #列優先
x = 0.0 #清除記憶體空間
y = 0.0

In [80]:
C[:2].round(2)

array([[[ 0.35, -0.07,  0.39, ...,  0.35,  1.39, -1.08],
        [ 0.22,  0.27,  0.01, ..., -1.03,  0.5 ,  1.75],
        [ 0.32,  1.38, -0.12, ..., -0.75,  0.18,  0.66],
        [-2.44,  0.38,  1.04, ...,  1.13,  0.18,  1.35],
        [-2.15, -1.75,  0.98, ...,  0.64, -0.42,  0.47]],

       [[ 3.7 ,  2.86,  3.79, ...,  3.7 ,  5.77,  0.83],
        [ 3.43,  3.55,  3.02, ...,  0.94,  4.  ,  6.51],
        [ 3.64,  5.76,  2.76, ...,  1.5 ,  3.36,  4.32],
        [-1.88,  3.76,  5.08, ...,  5.26,  3.36,  5.7 ],
        [-1.31, -0.49,  4.97, ...,  4.28,  2.16,  3.94]]])

In [81]:
%timeit C.sum()

10 loops, best of 3: 75.5 ms per loop


In [82]:
%timeit F.sum()

10 loops, best of 3: 68.3 ms per loop


加總的話，兩者沒有太大性能上的差異，但如果根據行列加總時

In [83]:
%timeit C.sum(axis=0)

The slowest run took 8.46 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 484 ms per loop


In [84]:
%timeit C.sum(axis=1)

1 loop, best of 3: 263 ms per loop


使用F的差異會更可觀

In [85]:
%timeit F.sum(axis=0)

1 loop, best of 3: 1.49 s per loop


In [86]:
%timeit F.sum(axis=1)

1 loop, best of 3: 3.81 s per loop


這是因為一個row單位元素儲存位置相鄰，所以速度較快