# 函數

### **ye yung jie 葉永傑**
### **feb 8, 2019**
---

# 前言
```
我們拿到的資料不一定適合直接分析，最常見的處理是對某些變數做不同的數值轉換，例如對數轉換、絕對值轉換等。
但有時轉換可能更複雜，我們需要能自訂轉換函數。

另外，幾乎所有Python的操作都是透過指令完成，一個指令其實就是一個函數。學習函數是讓Python能落實你的意念的關鍵。
```
# 一般函數

## 事前安裝套件
課程可能會遇到的套件

In [1]:
import numpy as np                # 處理數據
import scipy.stats as st          # 統計、機率分配
import pandas as pd               # 資料處理套件
import matplotlib.pyplot as plt   # 資料視覺化套件

## 使用套件內函數

```
基本上如果要使用套件則需先 import
使用時，把名稱放在前頭就可以使用
而用 as 可以將很長名稱的套件化簡，方便使用，如 numpy 化簡為 np

小技巧:打出前面幾個文字再按 tab 鍵可查詢命名類似的函數
```

## 數值函數
+ 常用數值函數


|數值類語法|	說明|	統計類語法|	說明|
|:---:|:---:|:---:|:---:|
|np.abs	|絕對值	|np.mean	|平均|
|np.exp	|自然指數	|np.var	|變異數|
|np.log	|自然對數	|np.std	|標準差|
|np.log10	|log10	|np.cov	|共變異數|
|np.sqrt	|開根號	|np.corrcoef	|相關係數|
|np.ceil	|無條件進位	|np.median	|中位數|
|np.floor	|無條件捨去	|np.sum	|全部相加|
|np.round	|四捨五入	|np.max	|最大值|
|np.tan、np.sin	|三角函數	|np.min	|最小值|
|np.arctan、np.arcsin	|反三角	|np.argmax	|最大值的位置|
|np.linalg.norm	|範數|np.argmin|最小值的位置|

<br>

+ 以上列的都是 numpy 的函數，numpy 支援高階大規模的多維陣列與矩陣運算，此外也針對陣列運算提供大量的數學函式函式庫
+ SciPy、math 等套件也含有大量的數學函式函式庫



**數值類語法**

In [2]:
np.abs(-4)

4

In [3]:
np.log(np.exp(1))

1.0

In [4]:
np.arcsin(np.sin(np.pi/2))

1.5707963267948966

In [5]:
np.sqrt(4)

2.0

In [6]:
np.ceil(4.2)

5.0

In [7]:
np.floor(4.2)

4.0

In [8]:
np.round(4.22952,3)

4.23

In [9]:
a = np.arange(9)
np.linalg.norm(a)

14.2828568570857

**統計類語法**

In [10]:
b = np.arange(1,5)
c = np.array([6,10,14,18])
np.mean(b)

2.5

In [11]:
np.var(b)

1.25

In [12]:
 np.std(b)

1.118033988749895

In [13]:
np.cov(b,c)

array([[ 1.66666667,  6.66666667],
       [ 6.66666667, 26.66666667]])

In [14]:
np.corrcoef(b,c)

array([[1., 1.],
       [1., 1.]])

In [15]:
np.median(b)

2.5

In [16]:
np.sum(b)

10

In [17]:
np.max(b)

4

In [18]:
np.argmax(b)

3

## 建立自己的函數
語法 :<br>
```
def 名稱(a = 預設的輸入值, b) :
    
    函數做的事情
    return (傳回的輸出)
```
1. 記得一定要加 :
2. 若沒有 return 這行，也沒有 print，則無輸出
3. 如果內容只有一行，則不一定要縮排，可以直接放在 : 後面
4. return 裡可以放不只一個物件 (舉例在list中的函數)

In [19]:
def test1(a = 3) :
    (a + 3)

test1()

In [20]:
def test1(a = 3) :
    return(a + 3)

test1()

6

In [21]:
def test2(a = 3) :
    print(a + 3)
    
test2()

6


```
基本上，Python的函式都有回傳值，為什麼會這樣說呢？
當我們用一個變數來接無回傳值函式的結果時，從執行結果可以看到 Python 隱含回傳了一個 None 給我們，如下範例
```

In [22]:
a = test1()
b = test2()

6


In [23]:
a

6

In [24]:
b

```
因為在函式中沒有使用 return 關鍵字回傳結果，所以在來源端用一個變數來接回傳值時，會得到 None (也就是此函式無回傳值的意思)
```

**平均統計量**

以下是測驗 $\overline{x}$ 電腦模擬出來的結果

In [25]:
def apal(a,n=10):
    tem = np.random.randint(0,len(a[1,:]),size = n)
    return(a[:,tem]).mean(axis = 0)

np.round(apal(np.random.normal(size = 100).reshape((10,10))),5)

array([ 0.02216, -0.41974, -0.40887, -0.25844, -0.25844, -0.25844,
        0.07989, -0.25844, -0.37333,  0.07989])

In [26]:
a = (np.random.normal(size = 100).reshape((50,2))[:,0:2])
a.shape # (50, 2)
a.mean(axis=0)

array([-0.09937194, -0.14904544])

**年金現值**
+ [年金現值](https://wiki.mbalib.com/zh-tw/%E5%B9%B4%E9%87%91%E7%8E%B0%E5%80%BC)

算出年金現值 $PV = A(\frac{1−(1+i)^{−n}}{i})$

+ A 為初始金額
+ i 為利率
+ n 為期數

年繳20000，每年利息1%，共十年 ，求此款項現在的價值

In [27]:
def PV(A,i,n):
    print(A*(1-(1+i)**(-n) )/i)

PV(20000,0.01,10)

189426.09061403348


## list中的函數
+ **python 不像 R，R 的 list 可以放進函數**

```python

[def mean(x): return(np.mean(x)), def var(x): return(np.var(x)), def median(x): return(np.median(x))]

File "<ipython-input-199-73c49522da7e>", line 1
    [def mean(x): return(np.mean(x))
     ^
SyntaxError: invalid syntax

```

+ 如果內容只有一行，則不一定要縮排，可以直接放在 : 後面
+ return 裡可以放不只一個物件

In [28]:
def mean(x): return(np.mean(x))
def var(x): return(np.var(x))
def median(x): return(np.median(x))

In [29]:
[mean(np.arange(9)), var(np.arange(9)), median(np.arange(9))]

[4.0, 6.666666666666667, 4.0]

In [30]:
def median(x): return (np.median(x),x,x+1,x+2)

median(np.arange(9))  # type() = tuple

(4.0,
 array([0, 1, 2, 3, 4, 5, 6, 7, 8]),
 array([1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 2,  3,  4,  5,  6,  7,  8,  9, 10]))

In [31]:
def median(x): return [np.median(x),x,x+1,x+2]

median(np.arange(9))  # type() = list

[4.0,
 array([0, 1, 2, 3, 4, 5, 6, 7, 8]),
 array([1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 2,  3,  4,  5,  6,  7,  8,  9, 10])]

## 機率分配

|語法|說明|
|:---|:---|
|st.分配名.rvs|生成隨機變數|
|st.分配名.ppf|x={x∥p(X≤x)} 輸入的是機率 p(X≤x)|
|st.分配名.pdf|density，p(X=x)|
|st.分配名.cdf|probability，p(X≤x)|

+ 其他套件也有機率分配相關函式，如，np.random.分配名 : 生成隨機變數
	
**normal 隨機變數**

In [32]:
st.norm.rvs(loc=0.0, scale=1.0, size=6, random_state=None)

array([ 0.40888674, -0.32999398,  1.43699518,  1.42630363, -0.04596246,
        0.11264658])

In [33]:
np.random.normal(loc=0.0, scale=1.0, size=6)

array([-0.32087605,  0.50547612, -1.34234176,  0.00310944, -1.26450898,
        0.84573539])

**poisson 隨機變數**

In [34]:
st.poisson.rvs(1.0, size=6, random_state=None)

array([1, 0, 0, 2, 0, 1])

In [35]:
np.random.poisson(lam=1.0, size=6)

array([4, 0, 1, 3, 0, 1])

**從左邊累積過來的 quantile: $x=\{x|p(X≤x)=q\}$**

In [36]:
st.norm.ppf(0.6,loc=0.0, scale=1.0)

0.2533471031357997

**從右邊累積過來的 quantile: $x=\{x|p(X≥x)=q\}$**

In [37]:
st.norm.ppf(1 - 0.6,loc=0.0, scale=1.0)

-0.2533471031357997

In [38]:
st.norm.pdf(0,loc=0.0, scale=1.0)

0.3989422804014327

In [39]:
st.norm.cdf(0,loc=0.0, scale=1.0)

0.5

## 排序函數

|語法	|說明|
|:---|:---|
|.sort()、 sorted() |由小到大,或由大到小|
|np.argsort()、.sort_values()|找出由小到大(或由大到小)的元素順序|
|.rank()	|給相對應的名次|
|[::-1]	|序列整條反過來，切片操作符|

In [40]:
tem = np.random.choice(np.arange(30),30,replace=False)
tem

array([12, 25, 11, 21,  4,  0, 26, 14,  8, 18,  3, 13,  1,  6, 28, 29,  5,
       23, 16, 10, 17, 22, 19,  7, 27, 15, 20, 24,  2,  9])

**sorted(資料, reverse=False)**
+ 預設從小到大(升序)，內建函數

In [41]:
sorted(tem)

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29]

In [42]:
sorted(tem, reverse=True)

[29,
 28,
 27,
 26,
 25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0]

+ **內建函數 .sort()、 sorted() 的差別**

1. sorted 是複製一份進行排序
2. .sort() 是直接在原物件排序(所以沒有回傳)

In [43]:
s = sorted(tem)
print(s,"\n\n",tem)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29] 

 [12 25 11 21  4  0 26 14  8 18  3 13  1  6 28 29  5 23 16 10 17 22 19  7
 27 15 20 24  2  9]


In [44]:
print(tem.sort(),"\n\n",tem)

None 

 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]


重創數據

In [45]:
tem = np.random.choice(np.arange(30),30,replace=False)
tem

array([21, 18, 29, 22,  6,  7, 26, 23,  9,  1, 17,  5, 28,  4, 24, 12,  3,
       11,  8, 20, 19, 16, 25, 13,  0, 27, 14, 15, 10,  2])

**np.argsort()、.sort_values(ascending=True)**
+ 找出由小到大(或由大到小)的元素順序
+ 回傳的是 index 順序

In [46]:
np.argsort(tem)            # 升序

array([24,  9, 29, 16, 13, 11,  4,  5, 18,  8, 28, 17, 15, 23, 26, 27, 21,
       10,  1, 20, 19,  0,  3,  7, 14, 22,  6, 25, 12,  2], dtype=int64)

In [47]:
obj = pd.Series(tem)
obj.sort_values()          # 升序

24     0
9      1
29     2
16     3
13     4
11     5
4      6
5      7
18     8
8      9
28    10
17    11
15    12
23    13
26    14
27    15
21    16
10    17
1     18
20    19
19    20
0     21
3     22
7     23
14    24
22    25
6     26
25    27
12    28
2     29
dtype: int32

In [48]:
np.argsort(tem)[::-1]              # 降序

array([ 2, 12, 25,  6, 22, 14,  7,  3,  0, 19, 20,  1, 10, 21, 27, 26, 23,
       15, 17, 28,  8, 18,  5,  4, 11, 13, 16, 29,  9, 24], dtype=int64)

In [49]:
obj = pd.Series(tem)
obj.sort_values(ascending=False)   # 降序

2     29
12    28
25    27
6     26
22    25
14    24
7     23
3     22
0     21
19    20
20    19
1     18
10    17
21    16
27    15
26    14
23    13
15    12
17    11
28    10
8      9
18     8
5      7
4      6
11     5
13     4
16     3
29     2
9      1
24     0
dtype: int32

**.rank(ascending=True)**
+ 對數據進行排名

In [50]:
obj.rank()

0     22.0
1     19.0
2     30.0
3     23.0
4      7.0
5      8.0
6     27.0
7     24.0
8     10.0
9      2.0
10    18.0
11     6.0
12    29.0
13     5.0
14    25.0
15    13.0
16     4.0
17    12.0
18     9.0
19    21.0
20    20.0
21    17.0
22    26.0
23    14.0
24     1.0
25    28.0
26    15.0
27    16.0
28    11.0
29     3.0
dtype: float64

**切片操作符 : [::-1]**

In [51]:
obj[::-1]

29     2
28    10
27    15
26    14
25    27
24     0
23    13
22    25
21    16
20    19
19    20
18     8
17    11
16     3
15    12
14    24
13     4
12    28
11     5
10    17
9      1
8      9
7     23
6     26
5      7
4      6
3     22
2     29
1     18
0     21
dtype: int32

## 文字轉執行碼
**exec("""print(想執行的文字串)""")**

In [52]:
text = """print(np.mean(np.arange(1,6)))"""
exec(text)

3.0


In [53]:
text_02 = """
print('{}天氣真{}！')""".format('今天', '好')
exec(text_02)

今天天氣真好！


## 讀取變數名對應的資料
dict.get(key)
+ dict.keys() : 全部的 key
+ dict.values() : 全部的 value

在做些統計分析時，會遇到我們需要對我們找到的變數做進一步分析時的狀況或是變數很多時，就可以利用 key，抓取我們要的 value

In [54]:
dic = {'x' : np.arange(5),
       'y' : np.arange(4),
       'z' : np.arange(3)}

dic.get('x')

array([0, 1, 2, 3, 4])

In [55]:
print(dic.keys(),"\n",
      dic.values())

dict_keys(['x', 'y', 'z']) 
 dict_values([array([0, 1, 2, 3, 4]), array([0, 1, 2, 3]), array([0, 1, 2])])


## if ... elif ... else

if ... elif ... else 是所謂的條件執行，<br>

語法 :
```    
    if (資料) :
        print(程式敘述句)
    elif (資料) :
        print(程式敘述句) 
    else :
        print(程式敘述句)
```

1. 假設 if 得到的判斷結果是 False，則 if 內的程式敘述句不會執行

In [56]:
x = 6

if(x>5):
    print(x-5) 

1


In [57]:
x = 1

if(x>5):
    print(x-5)

2. 假如連 False 都要有對應的動作，則後面要在加上 else，或者使用 elif

In [58]:
x = 5

if(x>5):
    print(x-5)
else:
    print(x)

5


+ 多次判斷

In [59]:
x = 10

if(x>5):
    print(x-5)
elif(x<0):
    print(x+5)
else:
    print(x)

5


不支持長度超過 1 的向量，所以常跟 for 搭配

```python
x = np.arange(3)

if(x>5):
    print(x-5)
else:
    print(x)
    
ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()
```

In [60]:
price_lst=[800,699,759,656,801,np.nan,779,569,645,739,860]

In [61]:
for price in price_lst:
    if price%2==0:
        print('偶數:',price)
    elif price%2==1:
        print('奇數:',price)
    else:
        print('NA')

偶數: 800
奇數: 699
奇數: 759
偶數: 656
奇數: 801
NA
奇數: 779
奇數: 569
奇數: 645
奇數: 739
偶數: 860


## Python-3-基礎cmd指令
+ [Python-3-基礎cmd指令](https://dotblogs.com.tw/YiruAtStudio/2020/12/21/203231)

# 變數轉換實務
## 因子變數、重編碼
+ [因子变量与分类重编码](https://cloud.tencent.com/developer/article/1092664)

## 想辦法把資料弄得接近常態分佈
+ [Data Transformations
](https://g0v.gitbook.io/data-design/04-section-cover/ch11-data-transformations)
+ [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

# 函數進階篇

## 環境(environment)
+ [别再纠结使用那个Python环境管理器了](https://www.bilibili.com/read/cv4755237)
+ [虛擬環境與套件](https://docs.python.org/zh-tw/3/tutorial/venv.html)
+ [全域變數、區域變數](https://steam.oxxostudio.tw/category/python/basic/global-variable.html#a11)

## 封閉(closure)

1. 它是一個嵌套函數
2. 它可以訪問外部範圍內的自由變量
3. 將從外部函數返回
4. 是一個函數物件（行為像物件的函數）
5. 能夠記住外部函數（封閉範圍）中存在的值

+ [Python Closure](https://www.scaler.com/topics/python/python-closure/)

In [62]:
def mynorm(y,z):
    def inner_func(x):
        print(np.random.normal(y, z, x))
        
    return inner_func

建立一個函數產生固定參數 $(\mu,\sigma)$ 的常態分配亂數

In [63]:
commendnorm = mynorm(0,1)
commendnorm(2)

[-1.01432275  1.71056345]


同義於

In [64]:
def commendnorm2(x):
    print(np.random.normal(0, 1, x))

commendnorm2(2)

[-1.31844204  0.70396583]


Closure function 的好處
1. 數據隱藏
2. 增加了代碼的可讀性，避免不必要地使用 class
3. 用來避免使用全局範圍

## 全域賦值(global assignment)

在函數中我們是無法改變函數外的任何東西，有個例外我們叫他 global assignment，可以使用「global 全域變數」的方式

most power test

In [65]:
def contral_VA(data):
    mean_data = np.mean(data)
    
    global commendnorm                    # global assignment，聲明下方的 commendnorm 為全域變數
    
    if ((mean_data-1)>= 2*1 ):
        commendnorm = mynorm(2,1)
    else:
        commendnorm = mynorm(1,1)
        
contral_VA(np.random.normal(8, 1, 100))

## with、Context Manager 資源管理器

+ 在 with() 中做的事不會影響外部的結果，行為很像 local()

```
資源的管理在程式設計上是一個很常見的問題，例如管理開啟的檔案、網路 socket 與各種鎖定（locks）等，最主要的問題點就在於我們必須確保這些開啟的資源在使用完之後，有確實被關閉（或釋放），如果忘記關閉這些資源，就會造成程式執行上的效能問題，甚至出現錯誤，而除了關閉之外，有些特殊的資源在使用完畢之後，還必須進行一些後續的清理動作，這些也都是資源管理上需要注意的。

```

+ [[Python] 關於 with 你所不知道的事](https://ithelp.ithome.com.tw/articles/10286552?sc=rss.qu)
+ [Python 的 with 語法使用教學：Context Manager 資源管理器](https://blog.gtwang.org/programming/python-with-context-manager-tutorial/)

## class

```
物件導向程式設計，是一個具有物件(Object)概念的開發方式，能夠提高軟體的重用性、擴充性及維護性，
在開發大型的應用程式時更是被廣為使用，
而要使用物件導向程式設計就必須對類別(Class)及物件(Object)等有一些基本的了解，

包含了：
        1. 類別(Class)
        2. 物件(Object)
        3. 屬性(Attribute)
        4. 建構式(Constructor)
        5. 方法(Method)
```

+ [[Python物件導向]淺談Python類別(Class)](https://www.learncodewithmike.com/2020/01/python-class.html)

In [66]:
# 汽車類別
class Cars:
    # 建構式
    def __init__(self, color, seat):
        self.color = color  # 顏色屬性
        self.seat = seat    # 座位屬性
    # 方法(Method)
    def drive(self):
        print(f"My car is {self.color} and {self.seat} seats.")

**一、類別(Class)**
```
簡單來說，就是物件(Object)的藍圖(blueprint)。
就像要生產一部汽車時，都會有設計圖，藉此可以知道此類汽車會有哪些特性及功能，
類別(Class)就類似設計圖，會定義未來產生物件(Object)時所擁有的屬性(Attribute)及方法(Method)。
```

而定義類別的語法如下：
```python
class classname：
   statement
    
# 範例
class Cars:
```


**二、物件(Object)**
```
透過類別(Class)實際建立的實體，就像實際生產出來的汽車(例如：Mazda)。
類別(Class)與物件(Object)的關係就像汽車設計圖與汽車實體。
```
而建立物件(Object)的語法如下：
```python
object_name = classname()

# 範例
mazda = Cars()
```
+ 範例中的mazda即是Cars類別(Class)的物件(Object)

Python 也提供了一個函式 isinstance() 來判斷類別(Class)與物件(Object)的關係，

語法如下：
```python
isinstance(object_name, class_name)
```

In [67]:
# 汽車類別
class Cars:
    pass

# 摩托車類別
class Motorcycle:
    pass

# 建立Cars類別的物件
mazda = Cars()

print(isinstance(mazda, Cars))        # 執行結果：True
print(isinstance(mazda, Motorcycle))  # 執行結果：False

True
False


+ 由於 mazda 並不是 Motorcycle 的物件(Object)，所以執行結果為 False

**三、屬性(Attribute)**
```
負責存放物件(Object)的資料。
```

設定物件(Object)的屬性值語法如下：
```python
object_name.attribute_name = value

# 範例
mazda = Cars()        # 建立 Cars 類別的物件 
mazda.color = "blue"  # 顏色屬性 
mazda.seat = 4        # 座位屬性

```
+ 建立物件(Object)後，才可進行屬性值(Attribute)的設定
+ 當有很多屬性需進行設定時，建議使用建構式(Constructor)來進行屬性值(Attribute)的設定

存取物件的屬性值則透過以下語法：

```python
object_name.attribute_name

# 範例
print(mazda.color)  # 執行結果：blue
print(mazda.seat)   # 執行結果：4

```

**四、建構式(Constructor)**
```
於建立物件(Object)的同時，會自動執行的方法(Method)。
所以通常我們會在建構式(Constructor)中初始化物件(Object)的屬性值(Attribute)。
至少要有一個self參數，之後利用逗號區隔其他屬性，
```
語法如下：

```python
# 建構式
def __init__(self, color, seat):
　　self.color = color  # 顏色屬性
　　self.seat = seat    # 座位屬性 
```
```
self 代表了實體物件的參考，也就是目前的物件(Object)。
這個 self 就是告訴類別(Class)目前是在設定哪一個物件的屬性(Attribute)。
所以範例中的意思就是此物件的 color 屬性等於傳入的 color 屬性值，
此物件的 seat 屬性等於傳入的 seat 屬性值，而傳入屬性值的方式就是在建立物件的時候。
```
如下範例：
```python
# 汽車類別
class Cars:
    # 建構式
    def __init__(self, color, seat):
        self.color = color  # 顏色屬性
        self.seat = seat    # 座位屬性
        
mazda = Cars("blue", 4)
```
```
範例中於建立 mazda物件(Object) 的同時，生成其屬性並且初始化屬性值(color和seat)。
你一定會想說奇怪，建構式(Constructor)的參數有三個，為什麼我們只有傳入兩個?
因為第一個 self 參數，Python 編譯器會幫我們把目前物件的參考(mazda)傳給建構式(Constructor)，
所以我們就不需要多此一舉傳入物件。
```

**五、方法(Method)**

```
可以想像是物件(Object)的行為。
定義方法(Method)和函式(Function)的語法很像，都是 def 關鍵字開頭，接著自訂名稱，
但是方法(Method)和建構式(Constructor)一樣，至少要有一個 self 參數，
```
語法如下：
```python
def method_name(self):
　　statement
 
# 範例：
# 汽車類別
class Cars:
    # 建構式
    def __init__(self, color, seat):
        self.color = color  # 顏色屬性
        self.seat = seat    # 座位屬性
    # 方法(Method)
    def drive(self):
        print(f"My car is {self.color} and has {self.seat} seats.")
        
mazda = Cars("blue", 4)
mazda.drive()               #執行結果：My car is blue and has 4 seats.
```
```
方法(Method)的 self 參數同樣是代表目前的物件(mazda)，在呼叫時 Python 編譯器會自動幫我們傳入。
方法(Method)中透過 self.color 及 self.seat 的方式來存取目前物件(mazda)的 color 和 seat 屬性值，並且印出結果。
```

In [68]:
# 範例：
# 汽車類別
class Cars:
    # 建構式
    def __init__(self, color, seat):
        self.color = color  # 顏色屬性
        self.seat = seat    # 座位屬性
    # 方法(Method)
    def drive(self):
        print(f"My car is {self.color} and has {self.seat} seats.")

mazda = Cars("blue", 4)
mazda.drive()  

My car is blue and has 4 seats.


## 特殊輸入(\*args、**kwargs)
python 的 \*args、**kwargs 相當於 R 之中的 …，是當不知輸入有多長的時候使用，一般只能放在函數的最後

+ *args : 可變的參數串列(positional arguments)
+ \**kwargs : 可變的字典列表( keyword arguments )

In [69]:
def foo(param1, *args, **kwargs):  # 順序不可對調 !!
     pass

In [70]:
def foo(param1, *param2):
    print(param1)
    print(param2)

def bar(param1, **param2):
    print(param1)
    print(param2)

foo(1,2,3,4,5)
bar(1,a=2,b=3)

1
(2, 3, 4, 5)
1
{'a': 2, 'b': 3}


```
              In function *construction*      In function *call*
=======================================================================
          |  def f(*args):                 |  def f(a, b):
*args     |      for arg in args:          |      return a + b
          |          print(arg)            |  args = (1, 2)
          |  f(1, 2)                       |  f(*args)
----------|--------------------------------|---------------------------
          |  def f(a, b):                  |  def f(a, b):
**kwargs  |      return a + b              |      return a + b
          |  def g(**kwargs):              |  kwargs = dict(a=1, b=2)
          |      return f(**kwargs)        |  f(**kwargs)
          |  g(a=1, b=2)                   |
 
-----------------------------------------------------------------------
```

1. 在 function call 裡面，* 用來將一個 tuple 或是 list 展開成為 positional 或是 keyword 參數，送進給該 function.


2. 在 function call 裡面，** 用來將一個 dictionary 展開成為 positional 或是 keyword 參數，送進給該 function.


3. 在 function construction 上，* 將 positional 參數打包成為 tuple。


4. 在 function construction 上，** 將 keyword 參數打包成為 dictionary.


參考更多 :

+ [What does ** (double star/asterisk) and * (star/asterisk) do for parameters?](https://stackoverflow.com/questions/36901/what-does-double-star-asterisk-and-star-asterisk-do-for-parameters)
+ [[Python] ** 雙星號(double star/asterisk) vs *單星號(star/asterisk) 用法
](https://e8859487.pixnet.net/blog/post/403127384-%5Bpython%5D-%2A%2A-%E9%9B%99%E6%98%9F%E8%99%9F%28double-star-asterisk%29-vs-%2A%E5%96%AE%E6%98%9F%E8%99%9F%28st)

# 實作篇
### KMeans 演算法

```
input  : {x1,…,xn} , k (最後想將資料分類成幾群)
output : the centers for the k clusters,{ c1,…,ck }
initalize : choose initial centers arbitrarily 選擇初始點
```

1. 隨機取 K 點中心


2. 每個 xi 對到(label j)最近的中心(mean j)


3. 計算新的中心
```
    cluster j = all point with label j
    mean j = center of cluster j
```

4. 重複 2、3 直到 label 停止改變


# 參考解答

In [71]:
# return distance of two input np.array, in Euclidean distance

def dist_mtx(X,Y):
    # X:(N1,d) array with rows xi
    # Y:(N2,d) array with rows yi
    X_col = X[:,np.newaxis,:]               # (N1,1,d)
    Y_row = Y[np.newaxis,:,:]               # (1,N2,d) axis=-1,最後一個軸
    diff = X_col - Y_row                    # (N1,N2,d)
    dist = np.linalg.norm(diff,axis = -1)   # 把距離壓在d維上，原距離 (N,d)
    return dist


## Code

In [72]:
### your answer here

# X: an array of shape (N,d)
# k: number of clusters
# init: "random" or an array of shape (k,d), which means the initial cluster centers 

def MyKmeans(X, k, init = "random"):
    N,d = X.shape                                                    # N is the number of points
    y_new = np.array([0 for i in range(N)])                          # defined label，放 x 的 label
    centers = 0                                                      # defined centers，(k,d)
    
    if(init == "random"):
        inds = np.random.choice(np.arange(N), k, replace=False)      # 隨機取 K 個中心的 index
        centers = X[inds, :]                                         # 設為初始中心
    else:
        centers = init                                               # an array of shape (k,d)
    
    # Step 2 : label xi by j
    dist = dist_mtx(X,centers)                                       # (N,k,d)
    y_new = np.argmin(dist,axis=1)                                   # 每個 x(行)對到中心(列)，距離最小的 index 

    # Step 4 : pack step 2、3 by a 'while' loop until the label result is same as before 
    pre_label = np.array([0 for i in range(N)])                      # 隨便設，讓他跑第一次
    
    while( not np.array_equal(y_new, pre_label)):                    # not(y_new, pre_label 不一樣) == TRUE，跑
        
        pre_label = np.copy(y_new)                                   # 複製上一次的 label
        
        # Step 3 : calculate new centers
        for j in range(k):
            mask = (y_new == j)
            centers[j] = X[mask].mean(axis=0)
            
        # Step 2 : label xi by j
        dist = dist_mtx(X,centers)                                   # (N,k,d)
        y_new = np.argmin(dist,axis=1)                               # 每個x(行)對到中心(列)，距離最小的 index 

    return y_new, centers
