# 一行搞定判斷式
一個 if...else 判斷式再簡單，也需要四行程式碼才能完成

```python
def greater_than_five(x):
    if x > 5:
        return True
    else:
        return False
```


# 一行搞定判斷式

```python
x = 6
True if x > 5 else False
# True
```


# 最後我們的函式就可以簡化成...

```python
def greater_than_five(x):
    return True if x > 5 else False
```

# 大量資料的運算

大量的資料是需要做分析和運算

意味著我們要學會如何有效的去處理資料

# 回顧一下串列

之前我們學會了串列（List）

今天若我需要對串列做 Element-wise（逐元）運算

也就是將串列内的**每一筆資料都做一樣的運算或操作**

從 Excel 的邏輯來理解，就是下拉的動作

而用程式語言實作，就必須要用迴圈處理


# 範例

將 `km_list` 内的每一個長度從公里換算成英里：

```python
km_list = [3, 5, 10, 21, 42.195]
mile_list = []

km_to_mile = 0.621371192

for km in km_list:
    mile_list.append(km * km_to_mile)

print(mile_list)
# [1.864113576, 3.10685596, 6.21371192, 13.048795032000001, 26.21875744644]
```


# for 迴圈雖然可以幫我們做逐元運算

但是程式碼還是過渡冗長...

# lambda 匿名函數

我們在寫函式 (Function) 的時候，若是遇上相對簡單的邏輯:

```python
def plus_one(n):
    return n + 1
```

這樣的語法就相對的有些囉嗦，沒必要為如此簡單的邏輯特別娶一個名字


# lambda 匿名函數
這裡就跟各位介紹 lambda 函數

**lambda 參數1, 參數2 : 算式**

```python
# 注意我可以把 lambda 函數賦值給一個變數
plus_one = lambda n : n + 1

# 再把變數當成函數使用
plus_one(10)
# 11
```

# lambda 匿名函數

- 不需要 def、return
- 也不需要為函數取名

---
# 隨堂練習
用 lambda 函數計算營業稅金額

```python
calculate_tax = lambda amount : ___________

calculate_tax(100000)
```



# lambda 匿名函數
如果今天lambda 函數有超過一個參數時...

```python
area_of_rectangle = lambda width, height : width * height
area_of_rectangle(10, 20)
# 200
```

# lambda 匿名函數

背後的原理：λ演算法

[λ演算法 Wiki](https://en.wikipedia.org/wiki/Lambda_calculus)

---
# 用 lambda 函數做逐元運算

# map 函數
若今天我需要針對一個 list 的資料做逐元運算

得出的結果也是一個 list, 實作上就相對麻煩...

```python
items = [1, 2, 3, 4, 5]
squared = []
for i in items:
    squared.append(i**2)
```

# map 函數
除了用迴圈之外，其實還可以使用 map 函數:

map(要使用的函數, 用 list 等資料結構封裝的輸入)

```python
items = [1, 2, 3, 4, 5]

# 把 items 裡面所有數字的二次方算出來
result = map(lambda x: x**2, items)
# 最後別忘了把回傳的 map 物件轉成 list
list(result)
# [1, 4, 9, 16, 25]
```


# lambda + map 函數

這樣寫的特性在於：
- `lambda x: x**2` 可以被看成是一個**用過即丟的函數，無需定義名稱**

- 在進行語法上由於結果是由多個函數拼凑起來的（很像 Excel 的公式）
- 因此這種寫法被稱爲 Functional Programming （函式程式設計）


# Functional Programming 
延申閲讀：

1. [Wikipedia](https://zh.wikipedia.org/wiki/%E5%87%BD%E6%95%B0%E5%BC%8F%E7%BC%96%E7%A8%8B)
2. [ITHome 教學](https://ithelp.ithome.com.tw/articles/10186465)

# lambda vs def 
- 在函數的邏輯比較簡單的狀況下，會讓程式碼簡潔很多
- 在處理大量的資料 (通常都是 list / array) 可以讓程式碼簡潔一些
- 對於習慣 functional programming 的人來説 (像是 R)，語法比較直覺

# 隨堂練習
用 lambda 與 map 函數算出所有在 receivables 裡的營業稅
```python
receivables = [1000, 100, 1000000, 2344550, 543000]
taxes = _________________________
```

# filter 函數

若今天你想把一個集合的資料全部都迭代過一次

以傳入的boolean function作為條件函式

迭代每一個集合的元素，並收集結果為True的元素到一個List

# filter 函數
```python
def greater_than_five(x):
    if x > 5:
        return True
    else:
        return False

data = [1, 2, 3, 4, 5, 6, 7, 8, 9]
result = filter(greater_than_five, data)
list(result)
# [6, 7, 8, 9]
```


# filter 函數

上述的範例也可以改成用 lambda 函數寫：

```python
data = [1, 2, 3, 4, 5, 6, 7, 8, 9]

list(filter(lambda n : n > 5, data))
# [6, 7, 8, 9]
```

# map() vs filter()
- map 是算出每一個集合的值 (通常使用的 function 會回傳數值)
- filter 是判斷一個集合有哪些值會被保留下來 (通常使用的 function 會回傳布林值)


# 匿名函數看似很厲害

但是對初學者來説並不直覺

---
# 串列生成式（List Comprehension）

今天我們知道上述範例最後計算的結果會是一個串列（需要封裝多筆資料）

因此，Python 就提供了串列生成式，允許開發者用簡單的程式碼做出逐元運算

---
# 串列生成式（List Comprehension）

```python
[運算式 for 項目 in 可迭代項目]
```


# 串列生成式（List Comprehension）

```python
km_list = [3, 5, 10, 21, 42.195]
km_to_mile = 0.621371192
# 將 km_list 的每一筆資料逐個放入 km，在 for 左邊的運算式算出結果之後放入 mile_list
mile_list = [km * km_to_mile for km in km_list]
print(mile_list)
# [1.864113576, 3.10685596, 6.21371192, 13.048795032000001, 26.21875744644]
```


# 串列生成式（List Comprehension）

另外，若今天需要做逐元的判斷 / 比較，輸出過濾後的結果：

```python
even_numbers = []

for i in range(1, 11):
    if i % 2 == 0:
        even_numbers.append(i)

print(even_numbers)
# [2, 4, 6, 8, 10]
```

# 串列生成式（List Comprehension）

我們可以在串列生成式加上 `if` 判斷式

```python
even_numbers = [i for i in range(1, 11) if i % 2 == 0]
print(even_numbers)
# [2, 4, 6, 8, 10]
```

# list 的問題
- Python 的 list 無法使用 element-wise（逐元）運算
- 在不引用套件的情況下我們可以使用迴圈來處理

```python
km_list = [3, 5, 10, 21, 42.195]
km_to_mile = 0.621371192
mile_list = []

for km in km_list:
    mile_list.append(km * km_to_mile)

print(mile_list)
```

---
# list 的問題
當然，我們也可以使用 map() 和 lambda 函數來處理

```python
km_list = [3, 5, 10, 21, 42.195]
mile_list = list(map(lambda x: x * 0.621371192, km_list))
print(mile_list)
```

# 但是這樣似乎沒有簡化，反而把程式碼變得更複雜了...

# 這時就跟大家介紹一下 numpy 

[官網](https://docs.scipy.org/doc/numpy/user/quickstart.html)
- 它是 Python 語言在資料科學領域的一個重要模組，主要用於大量資料處理上
- 功能强大，語法簡單易懂
- Numpy 底層以 C 和 Fortran 語言實作，操作多重維度的陣列**效能極佳**

---
# import numpy

```python
import numpy as np
```

# numpy 牛刀小試

```python
km_list = [3, 5, 10, 21, 42.195]
# 將一個串列轉換成一個 numpy array
km_array = np.array(km_list)
print(type(km_array))
# numpy.ndarray
```

# numpy 牛刀小試

```python
km_list = [3, 5, 10, 21, 42.195]
km_array = np.array(km_list)
km_to_mile = 0.621371192
mile_array = km_array * km_to_mile
print(mile_array)
# [ 1.86411358  3.10685596  6.21371192 13.04879503 26.21875745]
```

# numpy.arange() 方法

功能與 `range()` 函數相同，宣告一個數字的範圍

```python
import numpy as np

arr1 = np.arange(10)
print(arr1)
arr2 = np.arange(1, 10)
print(arr2)
arr3 = np.arange(1, 10, 2)
print(arr3)
# [0 1 2 3 4 5 6 7 8 9]
# [1 2 3 4 5 6 7 8 9]
# [1 3 5 7 9]
```


# 提取單筆資料

語法與 Python 串列一樣，透過指定索引值

```python
arr = np.array([1,2,3])
arr[0]
# 1
```

# 切片（Slicing）

```python
arr1 = np.arange(0, 10)
print(arr1)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr1[1:3]
# array([1, 2])
```

# 切片（Slicing）

```python
arr1 = np.arange(0, 10)
print(arr1)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr1[5:]
# array([5, 6, 7, 8, 9])
```

# 切片（Slicing）

```python
arr1 = np.arange(0, 10)
arr1[:5]
# array([0, 1, 2, 3, 4])
```


# numpy 更新資料功能

```python
arr1 = np.arange(0, 10)
arr1[2] = 8
print(arr1)
# array([0, 1, 8, 3, 4, 5, 6, 7, 8, 9])
```


# numpy 刪除資料功能

```python
arr1 = np.arange(0, 10)
print(np.delete(arr1, 1))
# array([0, 2, 3, 4, 5, 6, 7, 8, 9])
```

# numpy 刪除資料功能

```python
arr1 = np.arange(0, 10)
print(np.delete(arr1, slice(0, 5)))
# array([5, 6, 7, 8, 9])
```

# ndArray 與 ndArray 的運算

```python
arr2 = np.arange(5)
# array([0, 1, 2, 3, 4])
arr3 = np.arange(2, 12, 2)
# array([1., 2., 3., 4., 5.])
```

# ndArray 與 ndArray 的運算

```python
arr3 / 2
# array([1., 2., 3., 4., 5.])
```

# ndArray 與 ndArray 的運算

```python
arr2 + arr3
# array([ 2,  5,  8, 11, 14])
```

# ndArray 與 ndArray 的運算

```python
arr2 - arr3
# array([-2, -3, -4, -5, -6])
```

# ndArray 與 ndArray 的運算

```python
arr2 * arr3
# array([ 0,  4, 12, 24, 40])
```

# ndArray 與 ndArray 的運算

```python
arr2 / arr3
# array([0.        , 0.25      , 0.33333333, 0.375     , 0.4       ])
```


# 隨堂練習

- 請用 numpy 練習計算這五個人的 BMI
- 回傳的多筆 bmi 值必須是一個陣列
```python
heights = [173, 168, 171, 189, 179]
weights = [65.4, 59.2, 63.6, 88.4, 68.7]
```

# 多維串列

若今天我們想透過 Python 的資料結構表達一個矩陣（Matrix）

這就有一點麻煩了，因爲矩陣的資料是有序的，但是矩陣多半不會只有一個維度，用 Python 的串列表示，肯定不夠

---
# 多維串列

Python 可以在一個串列内放入一個或多個串列：

```python
matrx = [[1, 2, 3, 4],[5, 6, 7, 8],[9, 10, 11, 12]]
```


# 多維串列

把它展開來看:

```python
matrx = [
            [1, 2, 3, 4],
            [5, 6, 7, 8],
            [9, 10, 11, 12]
        ]
```

就會發現這種巢狀串列很適合用來表達像矩陣的多維資料


# 多維串列

一般我們在表達多維串列大小的方式，與表達矩陣大小的方式是一樣的，下面的範例程式碼就是一個 3 x 4 的多維串列

```python
matrx = [
            [1, 2, 3, 4],
            [5, 6, 7, 8],
            [9, 10, 11, 12]
        ]
```


# 提取多維串列的資料

今天若需要讀取多維串列内的值

```python
matrx[第一維的索引值, 第二維的索引值]
```

# 提取多維串列串列的資料

今天若需要讀取多維串列内的值

```python
matrx[0]
# [1, 2, 3, 4]

matrx[0][3]
# 4
```


# Nested Loop （巢狀迴圈）

若要將多維串列内的每一個元素都遍歷一次，可以用巢狀迴圈，也就是在迴圈内再寫一個迴圈

```python
for i in range(0, 3):
    for j in range(0, 4):
        print(matrx[i][j])
```

# np 對多維串列的支援

```python
arr = np.arange(12)
arr
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
```


# np.reshape()

改變一個 ndArray 的形狀

```python
arr.reshape(4,3)

# array([[ 0,  1,  2],
#        [ 3,  4,  5],
#        [ 6,  7,  8],
#        [ 9, 10, 11]])
```


# Nested Loop （巢狀迴圈）

若要將多維串列内的每一個元素都遍歷一次，可以用巢狀迴圈，也就是在迴圈内再寫一個迴圈

```python
for i in range(0, 3):
    for j in range(0, 4):
        print(matrx[i][j])
```

# np 對多維串列的支援

```python
arr = np.arange(12)
arr
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
```



# np.reshape()

改變一個 ndArray 的形狀

```python
arr.reshape(4,3)

# array([[ 0,  1,  2],
#        [ 3,  4,  5],
#        [ 6,  7,  8],
#        [ 9, 10, 11]])
```

# np.shape

檢查一個 ndArray 的大小

```python
arr1 = arr.reshape(4,3)
arr1.shape
# (4, 3)
```

# 多維 ndArray 的切片

```python
arr1[:2]
# array([[0, 1, 2],
#        [3, 4, 5]])
```


# 多維 ndArray 的切片

```python
arr1[:2]
# array([[0, 1, 2],
#        [3, 4, 5]])
```

# 多維 ndArray 的切片

```python
arr4[2:]
# array([[ 6,  7,  8],
#        [ 9, 10, 11]])
```

# 多維 ndArray 的切片

```python
arr4[2:,1:]
# array([[ 7,  8],
#        [10, 11]])
```

# np.zeros

```python
np.zeros((3,2))
# array([[0., 0.],
#        [0., 0.],
#        [0., 0.]])
```

# np.ones

```python
np.ones((3,4))
# array([[1., 1., 1., 1.],
#        [1., 1., 1., 1.],
#        [1., 1., 1., 1.]])
```

# 補充

有興趣的可以參考到 Numpy 的官方文件做進一步的學習。

官方教學：[https://docs.scipy.org/doc/numpy/user/quickstart.html](https://docs.scipy.org/doc/numpy/user/quickstart.html)

Github 專案：[https://github.com/numpy/numpy](https://github.com/numpy/numpy)



# 資料科學套件


# Pandas

提供靈活直觀的資料結構來處理關聯數據和有標籤的數據

---
# Pandas

| 名稱 | 描述 |
|:--:|:------:|
| Series | 可以建立索引的一維陣列       |
| DataFrame | 有列索引與欄標籤的二維資料集 |
| Panel | 有資料集索引、列索引與欄標籤的三維資料集 |

---
# Pandas
```python
import pandas as pd
```

---

In [None]:
import pandas as pd

# Series
簡單來說，是一個表示單一維度資料的容器

由**標籤(Index)**與**值(Values)**組成


# 建立 Series

建立一個新的，沒有任何資料的 Series 物件

```python
pd.Series()
# Series([], dtype: float64)
```

# 建立 Series
```python
ser1 = pd.Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])
ser1
print(ser1)
```

# 建立 Series
Series 的值都是被存在一個**numpy array**中

```python
ser1.values
# array([1, 2, 3, 4, 5], dtype=int64)
```

# Series
Series 的標籤都是被存在一個**numpy Index**物件中

```python
ser1.index
# Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
```

# Series
Series 的標籤都是被存在一個**numpy Index**物件中

```python
ser1.index
# Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
```

# Series
Sereies 物件看起來像是由兩行數據組成，實則是一維數據結構

---
# 提取 Series 内的資料

可以透過指定標籤
```python
ser1['c']
```

# 提取 Series 内的資料

提取多筆資料可以透過指定多個標籤
```python
ser1[['a', 'c', 'e']]
```

# 提取 Series 内的資料
另外，提取資料也可以透過指定數字的索引值
```python
ser1[2]
```

# 提取 Series 内的資料
提取多筆資料也可以透過指定多筆數字的索引值
```python
ser1[[0, 2, 4]]
```

# Series 更新現有的值
```python
ser1['a'] = 8  
print(ser1)
```

# Series 更新多筆值
```python
ser1.update(pd.Series([9, 10, 11], index=['b', 'c', 'd']))
print(ser1)
```

# 刪除 Series 内的資料

```python
ser1.drop(labels='a')
```

# 刪除多筆 Series 内的資料

```python
ser1.drop(labels=['b', 'c', 'd'])
```


# 透過 dict 宣告 Series

```python
# series 每一個 index 都會對映到一個 value 
data = {
    'a': 1,
    'b': 3,
    'c': 5,
    'd': 7,
    'e': 9
}

pd.Series(data)
```

# 所以...

- Series 可以被看作是一個**有序的字典 (dict)**

---
# 若放入一個陣列...
沒有另外指定 index，Series 會將該陣列當成值

Series 預設的 index 與一般陣列相同

```python
# 僅指定 value
pd.Series([2, 4, 6, 8, 10])
```

# 與 Numpy 的整合

```python
import numpy as np

pd.Series(np.arange(5))
```

# 與 Numpy 的整合

```python
even_num = np.arange(2, 11, 2)

pd.Series(even_num)
```

# 產生亂數 Series

```python
import numpy as np
rand_array = np.random.rand(10)
pd.Series(rand_array)
```
或是
```python
pd.Series(np.random.rand(5))
```

# Series 切片

用法如同 python 原廠的 List，**不包含結束點自己**

```python
ser2 = pd.Series(np.arange(7), index=['a', 'b', 'c', 'd', 'e', 'f', 'g'])

ser2[1:4]
```


# Series 切片

```python
ser2 = pd.Series(np.arange(7), index=['a', 'b', 'c', 'd', 'e', 'f', 'g'])

print(ser2[:3])
print(ser2[3:])
```

# head(), tail(), take()

```python
# 用 head 查詢前五筆資料
ser2.head()

# 用 tail 查詢後三筆資料
ser2.tail(3)

# 用 take 指定查詢索引值為 2, 4, 0 的資料
ser2.take([1, 6, 5])
```


# 另外，我們也可透過標籤來切片

和用索引值切片不一樣的是，**用 key 切片會包含結束點自己** (也就是 key 所對應的值
```python
ser2['a':'c']
```

# 另外，我們也可透過標籤來切片

```python
ser2[:'c']
```

# 另外，我們也可透過標籤來切片

```python
ser2['c':]
```

# Series.isin

檢查輸入的資料是否在 series 裡面
```python
ser2.isin([3, 5])
```

# Series 的逐元運算

```python
ser2 * 2
```

# Series 的逐元運算

```python
ser2 > 3
```

# Series 的逐元運算

```python
ser2[ser2 > 3]
```

# 用 key 擷取資料

```python
s1[['c', 'e', 'a']]
```

# 切片
用法如同 python 原廠的 List，不包含結束點自己

```python
s1[:3]
```

# series 的 element-wise 運算

```python
avengers = {
    "ironman": 46,
    "captainamerica": 99,
    "blackwidow": 37,
    "thor": 430,
    "hulk": 42,
    "spiderman": 15,
    "blackpanther": 39
}

ser_age = pd.Series(avengers, index = avengers.keys())
print(ser_age)
```

# series 的 element-wise 運算

把每一位超級英雄的歲數減 2：

```python
ser_age - 2
```

# DataFrame
- 表格型資料結構 (可以想像成一個虛擬的 Excel 試算表)
- 實際上是由多個 Series 組合起來的資料結構
- 適用於二維的資料

---
# DataFrame

```python
import pandas as pd

avengers = {
    "name": ["ironman","captainamerica","blackwidow","thor","hulk","spiderman", "blackpanther"],
    "age": [48, 100, 33, 430, 48, 15, 39],
    "superpower": [False, True, False, True, True, True, False]
}

df = pd.DataFrame(avengers)
print(type(df))
print(df.info)
```

# describe()
計算 
```python
df.describe()
```


# DataFrame

```python
df = pd.DataFrame(avengers, columns = ["name", "age", "superpower"]) # 指定欄標籤排序
```

# head(), tail()
```python
# 找出最前面的5筆資料
df.head()

# 找出最前面的3筆資料
df.head(3)

# 找出最後面的5筆資料
df.tail()

# 找出最後面的3筆資料
df.tail(3)
```

# 新增一欄資料

```python
# 可以用現有欄的資料算出
df['age_2_yr_ago'] = df['age'] - 2
```

# 新增一欄資料

```python
# 直接用 List 指定
df['weapon'] = ["armor", "shield", "taser", "hammer", "himself", "web", "claws"]
```

# 若要把其中一欄的資料讀取出來

```python
df['age']
```
或是
```python
df.age
```


# 若我想用條件選擇出一些資料
選出年齡低於 50 的復仇者

```python
# 產生出一個由布林值構成的 series
age_filter = df['age'] < 50
print(age_filter)
# 再將該 series 套回到 DataFrame
df[age_filter]
```

# 若我想用條件選擇出一些資料
可以把 code 簡化成:

```python
df[df['age'] > 50]
```

# 選擇資料

```python
age_filter = df['age'] < 50
young_avengers_df = df[age_filter]
super_filter = young_avengers_df['superpower'] == True
young_avengers_df[super_filter]
```

# 另一種寫法...
結合兩者的搜尋結果
```python 
(df['age'] <= 50) & (df['superpower'] == False)
```

把寫法整合一下：
```python
df[(df['age'] <= 50) & (df['superpower'] == False)]
```

# Pandas 實戰專題：判斷漲跌

利用 DataFrame 判斷漲跌：

1. 計算出 S&P 500 歷史資料的報酬率
2. 判斷是否為上漲
3. 最後把當天是上漲的股價資料過濾出來
4. 匯出成 Excel 檔案

---
# 範例 CSV 檔

[範例 CSV 檔](https://www.dropbox.com/s/by2hfjhm07kkhbj/s%26p500.csv?dl=1)

---
# 將工作表的資料提取出來，存入 Dataframe

```python
import pandas as pd

df = pd.read_csv(r“你的 s&p500.csv 檔案路徑”)
df
```

補充：[官網教學](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)


---

# 改變 DataFrame 的 row index

```python
file_path = r"C:\Users\yuyue\OneDrive\桌面\s&p500.csv"
# 以 csv 第一欄的 Date 作爲索引
df = pd.read_csv(r"你的 s&p500.csv 檔案路徑", index_col="Date", parse_dates=True)
df
```

# 繪製走勢圖功能

讀取收盤價

```python
# 讀取 Adj Close 這一欄，回傳一個 Series
df["Adj Close"]
```

# 畫出走勢圖

```python
# 從 Dataframe 截取收盤價，畫出走勢圖 
plt = df["Adj Close"].plot()
plt.set_xlabel("Time")
plt.set_ylabel("Price")
plt.set_title("S&P 500 Closing Prices")
```

# 計算報酬率
**pct_change()** 函數會幫你計算 row 之間數值的差距，並以百分比的形式呈現出來

```python
df["Adj Close"].pct_change(1) * 100
```

補充：[官網教學](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.pct_change.html)

# 將結果寫入 DataFrame

```python
df["daily return"] = df["Adj Close"].pct_change(1) * 100
```


# 找出所有當日上漲的資料

先建立表頭為 "是否上漲" 的一欄

```python
df["是否上漲"] = False
```

# 找出所有當日上漲的資料

```python
df["是否上漲"][df["daily return"] > 0] = True
```


# 過濾出所有當日上漲的資料

```python
df[df["是否上漲"] == True]
```


# 寫入 Excel

```python
result_df = df[df["是否上漲"] == True]

result_df.to_excel("stock_report.xlsx")
```

補充：[官網教學](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)

```python
result_df.to_excel(r"指定儲存 stock_report.xlsx 的路徑", sheet_name="工作表名稱")
```