# 資料科學套件


# Pandas 簡介

提供靈活直觀的資料結構來處理關聯數據和有標籤的數據

---
# Pandas 提供的資料結構

| 名稱 | 描述 |
|:--:|:------:|
| Series | 可以建立索引的一維陣列       |
| DataFrame | 有列索引與欄標籤的二維資料集 |
| Panel | 有資料集索引、列索引與欄標籤的三維資料集 |

---
# 使用 Pandas

首先我們用 `import` 引入 pandas，一般慣例上會將它重新命名成 pd: 

```python
import pandas as pd
```


In [1]:
import pandas as pd

# Series（序列）

簡單來說，是一個封裝多筆、一維資料的容器

建立一個 series：

```python
ser = pd.Series([1,2,3,4,5])
ser
```

In [7]:
[1,2,3,4,5]

[1, 2, 3, 4, 5]

In [8]:
ser = pd.Series( [1,2,3,4,5] )
ser

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [9]:
ser.iloc[2]

3

In [10]:
lst = [1,2,3,4,5]
lst[1:4]

[2, 3, 4]

In [11]:
ser.iloc[1:4]

1    2
2    3
3    4
dtype: int64

跑出結果了！發現有兩列數字（columns）

- 第一條columns顯示0～4，為index
- 第二條就是每個index所對應到的值

到此，Series 看起來和 List 很像，只不過是以縱向的形式呈現，但是我們再來看看不一樣的地方

# 讀取序列内的資料

可以使用 iloc 方法：

```python
ser1.iloc[0]
```


# 切片序列内的資料

如同 List，Series 也支援的切片的功能：

```python
ser.iloc[索引值起點：索引值結束點]
```

與串列的切片方式一樣



請輸入：

```python
ser1.iloc[0:3]
```

到此，Series 看起來和 List 很像，只不過是以縱向的形式呈現在 Jupyter Notebook 上，但是，我們再來看看兩者不一樣的地方

# 指定 index 參數

將一個裝滿字串的 List 指定給 index 參數：

```python
ser1 = pd.Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])
ser1
```

In [16]:
ser1 = pd.Series( [1,2,3,4,5], index=["a", "b", "c", "d", "e"] )
ser1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [17]:
ser1.loc[ ["b", "d", "e"] ]

b    2
d    4
e    5
dtype: int64

In [18]:
ser1.iloc[ [1, 3, 4] ]

b    2
d    4
e    5
dtype: int64

In [38]:
dic = {
    "a": 1,
    "b": 2,
    "c": 3,
    "d": 4
}

dic["b"]

2

接下來我們就發現，Series 的每一筆資料的索引(index)都可以被指定一個獨特的標籤

# Series


其實一個 Series 是由 **標籤 (Index)** 與 **值(Values)** 組成，所以剛才的 series 若從 Excel 的角度來看，可以理解成：

![](https://drive.google.com/uc?export=download&id=1G9waSQfNJ3UMrwzYBIUcfbjc6gA_b_fi)


# 建立 Series
Series 的值都是被存在一個**numpy array**中

```python
ser1.values
# array([1, 2, 3, 4, 5], dtype=int64)
```

In [39]:
ser1.values

array([1, 2, 3, 4, 5], dtype=int64)

# Series
Series 的標籤都是被存在一個**numpy Index**物件中

```python
ser1.index
# Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
```

In [40]:
ser1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

# 另一種讀取序列資料的方式

loc 方法：

```python
ser1.loc["a"]
```

In [41]:
ser1.loc["a"]

1

我們發現，居然可以透過指定標籤來選取 Series 内的資料，這樣我們在用 Pandas 操作資料時就多了一點自由度。

# 另一種切片序列資料的方式

loc 方法：

```python
ser1.loc["a":"c"]
```

In [42]:
ser1.loc["a":"c"]

a    1
b    2
c    3
dtype: int64

# .loc vs .iloc

- .loc 是透過標籤查找

- .iloc 是透過索引值查找

# 提取 Series 内的資料

提取多筆不連續的資料可以透過指定多筆數字的**索引值**

```python
ser1.iloc[[0, 2, 4]]
```

In [44]:
ser1.iloc[[0, 2, 4]]

a    1
c    3
e    5
dtype: int64

# 提取 Series 内的資料

提取多筆**不連續**的資料也可以透過指定多個標籤，並將標籤放入 List 内：
```python
ser1.loc[['a', 'c', 'e']]
```

In [45]:
ser1.sum()

15

In [46]:
ser1.mean()

3.0

In [47]:
ser1.std()

1.5811388300841898

In [48]:
ser.max()

5

In [49]:
ser.min()

1

# Series 一些常用的功能

加總：

```python
ser1.sum()
```
最大：
```python
ser1.max()
```
最小：
```python
ser1.min()
```
平均：
```python
ser1.mean()
```
標準差：

```python
ser1.std()
```

In [50]:
#加總：
ser1.sum()
#最大：
ser1.max()
#最小：
ser1.min()
#平均：
ser1.mean()
#標準差：
ser1.std()

1.5811388300841898

# cumsum() 纍加

名稱是英文 cumulative summation 的縮寫，代表將資料由上而下的纍加：

```python
ser1.cumsum()
```

官方文件：[連結](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.cumsum.html)

In [51]:
ser1.cumsum()

a     1
b     3
c     6
d    10
e    15
dtype: int64

# cumprod() 纍乘

名稱是英文 cumulative product 的縮寫，代表將資料由上而下的纍乘：

```python
ser1.cumprod()
```

In [52]:
ser1.cumprod()

a      1
b      2
c      6
d     24
e    120
dtype: int64

# Series 更新現有的值
```python
ser1.loc['a'] = 8
ser1
```

In [54]:
ser1.iloc[0] = 8
ser1

a     8
b     9
c    10
d    11
e     5
dtype: int64

In [55]:
ser1.loc["a"] = 8
ser1

a     8
b     9
c    10
d    11
e     5
dtype: int64

In [57]:
ser1.loc["b":"d"] = [9, 10, 12]
ser1

a     8
b     9
c    10
d    12
e     5
dtype: int64

# Series 更新多筆值
```python
ser1.loc["b":"d"] = [9, 10, 11]
ser1
```

需要注意的是，和用索引值切片不一樣的是，用 key 切片**會包含結束點自己 (也就是 key 所對應的值)**

In [58]:
ser1.loc["b":"d"] = [9, 10, 11]
ser1

a     8
b     9
c    10
d    11
e     5
dtype: int64

# 刪除 Series 内的資料

```python
ser1.drop(labels='a')
```

In [59]:
ser1.drop(labels=["b", "c", "d"])

a    8
e    5
dtype: int64

# 刪除多筆 Series 内的資料

```python
ser1.drop(labels=['b', 'c', 'd'])
```


In [60]:
ser1 = ser1.drop(labels=['b', 'c', 'd'])
ser1

a    8
e    5
dtype: int64

In [61]:
ser1

a    8
e    5
dtype: int64

# 透過 dict 宣告 Series

```python
# series 每一個 index 都會對映到一個 value 
data = {
    'a': 1,
    'b': 3,
    'c': 5,
    'd': 7,
    'e': 9
}

pd.Series(data)
```

In [62]:
data = {
    'a': 1,
    'b': 3,
    'c': 5,
    'd': 7,
    'e': 9
}

ser2 = pd.Series(data)
ser2

a    1
b    3
c    5
d    7
e    9
dtype: int64

In [63]:
ser2

a    1
b    3
c    5
d    7
e    9
dtype: int64

In [64]:
ser2[ ser2 > 3 ]

c    5
d    7
e    9
dtype: int64

# 小結

- Series 適合處理一維的資料
- Series 的 index 可以被指定**獨特的標籤（這點與 Dictionary 十分類似）**
- Series 可以被看作是一個**有序的字典 (dict)**


# 與 Numpy 的整合

```python
import numpy as np

pd.Series(np.arange(5))
```

In [65]:
import numpy as np

# 與 Numpy 的整合

```python
even_num = np.arange(2, 11, 2)

pd.Series(even_num)
```

In [66]:
even_num = np.arange(2, 11, 2)

pd.Series(even_num)

0     2
1     4
2     6
3     8
4    10
dtype: int32

# 產生亂數 Series

```python
import numpy as np
rand_array = np.random.rand(10)
pd.Series(rand_array)
```
或是
```python
pd.Series(np.random.rand(5))
```

In [67]:
pd.Series(np.random.rand(5))

0    0.590676
1    0.313378
2    0.528439
3    0.898905
4    0.708834
dtype: float64

# head(), tail(), take()

```python
# 用 head 查詢前五筆資料
ser2.head()

# 用 tail 查詢後三筆資料
ser2.tail(3)

# 用 take 指定查詢索引值為 2, 4, 0 的資料
ser2.take([1, 6, 5])
```


In [73]:
# 用 head 查詢前五筆資料
ser2.head()

# 用 tail 查詢後三筆資料
ser2.tail(3)

# 用 take 指定查詢索引值
ser2.take([1, 3, 4])

b    3
d    7
e    9
dtype: int64

# Series.isin

檢查輸入的資料是否在 series 裡面
```python
ser2.isin([3, 5])
```

In [74]:
ser2.isin([3, 5])

a    False
b     True
c     True
d    False
e    False
dtype: bool

# Series 的逐元運算

語法上與 Numpy 的逐元素運算一樣

```python
ser2 * 2
```

In [75]:
ser2 * 2

a     2
b     6
c    10
d    14
e    18
dtype: int64

# Series 的逐元運算

讓每一筆資料都去和 3 做比較

```python
ser2 > 3
```

注意比較式的逐元素運算會產生一個 Boolean 的 Series

In [76]:
ser2 > 3

a    False
b    False
c     True
d     True
e     True
dtype: bool

# Series 的逐元運算

若希望 Series 能夠有類似 filter() 函數的過濾功能，需要將剛才產生的 Boolean Series 套回到原本的 Series

```python
ser2[ser2 > 3]
```

可以想象成把**比較結果為 True 的資料切片出來**的概念

In [77]:
ser2[ser2 > 3]

c    5
d    7
e    9
dtype: int64

# 隨堂練習：

以下是每一位復仇者聯盟成員的名稱與年齡：

```python
avengers = {
    "ironman": 46,
    "captainamerica": 99,
    "blackwidow": 37,
    "thor": 430,
    "hulk": 42,
    "spiderman": 15,
    "blackpanther": 39
}

ser_age = pd.Series(avengers, index = avengers.keys())
```

請計算所有復仇者在五年前的歲數

In [78]:
avengers = {
    "ironman": 46,
    "captainamerica": 99,
    "blackwidow": 37,
    "thor": 430,
    "hulk": 42,
    "spiderman": 15,
    "blackpanther": 39
}

ser3 = pd.Series(avengers)
ser3

blackpanther       39
blackwidow         37
captainamerica     99
hulk               42
ironman            46
spiderman          15
thor              430
dtype: int64

In [79]:
ser3[ ser3 < 50 ]

blackpanther    39
blackwidow      37
hulk            42
ironman         46
spiderman       15
dtype: int64

# DataFrame（資料框架）
- 表格型資料結構 (可以想像成是一個**虛擬的 Excel 試算表**)
- 實際上是由多個 Series 組合起來的資料結構
- 適用於封裝/處理二維的資料

```python
import pandas as pd
```

# 來建立一個 DataFrame

```python
avengers = {
    "name": ["ironman","captainamerica","blackwidow","thor","hulk","spiderman", "blackpanther"],
    "age": [48, 100, 33, 430, 48, 15, 39],
    "superpower": [False, True, False, True, True, True, False]
}

df = pd.DataFrame(avengers)
print(type(df))
print(df.info)
```

In [80]:
avengers = {
    "name": ["ironman","captainamerica","blackwidow","thor","hulk","spiderman", "blackpanther"],
    "age": [48, 100, 33, 430, 48, 15, 39],
    "superpower": [False, True, False, True, True, True, False]
}

df = pd.DataFrame(avengers)
df

Unnamed: 0,age,name,superpower
0,48,ironman,False
1,100,captainamerica,True
2,33,blackwidow,False
3,430,thor,True
4,48,hulk,True
5,15,spiderman,True
6,39,blackpanther,False


# describe()
計算 
```python
df.describe()
```


In [81]:
df.describe()

Unnamed: 0,age
count,7.0
mean,101.857143
std,147.036762
min,15.0
25%,36.0
50%,48.0
75%,74.0
max,430.0


# head(), tail()
```python
# 找出最前面的5筆資料
df.head()

# 找出最前面的3筆資料
df.head(3)

# 找出最後面的5筆資料
df.tail()

# 找出最後面的3筆資料
df.tail(3)
```

In [82]:
df

Unnamed: 0,age,name,superpower
0,48,ironman,False
1,100,captainamerica,True
2,33,blackwidow,False
3,430,thor,True
4,48,hulk,True
5,15,spiderman,True
6,39,blackpanther,False


In [83]:
df["old_age"] = df["age"] - 5
df

Unnamed: 0,age,name,superpower,old_age
0,48,ironman,False,43
1,100,captainamerica,True,95
2,33,blackwidow,False,28
3,430,thor,True,425
4,48,hulk,True,43
5,15,spiderman,True,10
6,39,blackpanther,False,34


# 新增一欄資料

```python
# 可以用現有欄的資料算出
df['age_2_yr_ago'] = df['age'] - 2
```

In [84]:
df['age_2_yr_ago'] = df['age'] - 2

# 新增一欄資料

```python
# 直接用 List 指定
df['weapon'] = ["armor", "shield", "taser", "hammer", "himself", "web", "claws"]
```

In [85]:
df["weapon"] = ["armor", "shield", "taser", "hammer", "himself", "web", "claws"]
df

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
0,48,ironman,False,43,46,armor
1,100,captainamerica,True,95,98,shield
2,33,blackwidow,False,28,31,taser
3,430,thor,True,425,428,hammer
4,48,hulk,True,43,46,himself
5,15,spiderman,True,10,13,web
6,39,blackpanther,False,34,37,claws


In [86]:
df[ df["age"] < 50 ]

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
0,48,ironman,False,43,46,armor
2,33,blackwidow,False,28,31,taser
4,48,hulk,True,43,46,himself
5,15,spiderman,True,10,13,web
6,39,blackpanther,False,34,37,claws


In [87]:
df[ df["superpower"] ]

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
1,100,captainamerica,True,95,98,shield
3,430,thor,True,425,428,hammer
4,48,hulk,True,43,46,himself
5,15,spiderman,True,10,13,web


In [88]:
df[ ~((df["age"] < 50) & df["superpower"]) ]

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
0,48,ironman,False,43,46,armor
1,100,captainamerica,True,95,98,shield
2,33,blackwidow,False,28,31,taser
3,430,thor,True,425,428,hammer
6,39,blackpanther,False,34,37,claws


In [89]:
True and -1

-1

# 若要把其中一欄的資料讀取出來

```python
df['age']
```
或是
```python
df.age
```


# 若我想用條件選擇出一些資料
選出年齡低於 50 的復仇者

```python
# 產生出一個由布林值構成的 series
age_filter = df['age'] < 50
print(age_filter)
# 再將該 series 套回到 DataFrame
df[age_filter]
```

In [90]:
# 產生出一個由布林值構成的 series
age_filter = df['age'] < 50
print(age_filter)
# 再將該 series 套回到 DataFrame
df[age_filter]

0     True
1    False
2     True
3    False
4     True
5     True
6     True
Name: age, dtype: bool


Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
0,48,ironman,False,43,46,armor
2,33,blackwidow,False,28,31,taser
4,48,hulk,True,43,46,himself
5,15,spiderman,True,10,13,web
6,39,blackpanther,False,34,37,claws


# 若我想用條件選擇出一些資料
可以把 code 簡化成:

```python
df[df['age'] > 50]
```

In [91]:
df[df['age'] > 50]

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
1,100,captainamerica,True,95,98,shield
3,430,thor,True,425,428,hammer


# 選擇資料

```python
df2 = df[df['age'] < 50]
df2[df2['superpower'] == True]
```

In [92]:
df2 = df[df['age'] < 50]
df2[df2['superpower'] == True]

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
4,48,hulk,True,43,46,himself
5,15,spiderman,True,10,13,web


# 另一種寫法...

| 邏輯運算 | Pandas 語法 | 
|:--:|:------:|
| and | &     |
| or | |      |
| not | ~     |


所以我們可以用 & 符號結合上面兩者的搜尋結果：
```python 
(df['age'] <= 50) & (df['superpower'] == False)
```

最後就可以搜尋出符合兩個條件的結果了：
```python
df[(df['age'] <= 50) & (df['superpower'] == False)]
```

In [96]:
(df['age'] <= 50) & (df['superpower'] == False)
df[(df['age'] <= 50) & (df['superpower'] == False)]

Unnamed: 0,age,name,superpower,old_age,age_2_yr_ago,weapon
0,48,ironman,False,43,46,armor
2,33,blackwidow,False,28,31,taser
6,39,blackpanther,False,34,37,claws


# Pandas 實戰專題：判斷股價漲跌

利用 DataFrame 判斷漲跌，將結果匯出成 Excel 報表：

1. 計算出 S&P 500 歷史資料的報酬率
2. 畫出走勢圖
3. 判斷是否為上漲
4. 最後把當天是上漲的股價資料過濾出來
5. 匯出成 Excel 檔案

---
# 範例 CSV 檔

[範例 CSV 檔](https://www.dropbox.com/s/by2hfjhm07kkhbj/s%26p500.csv?dl=1)

---
# 將工作表的資料提取出來，存入 Dataframe

```python
import pandas as pd

df = pd.read_csv(r"你的 s&p500.csv 檔案路徑")
df
```

補充：[官網教學](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)


In [97]:
import scipy

In [None]:
import pandas as pd

pd.read_csv("s&p500.csv")

# 改變 DataFrame 的 row index

```python
# 以 csv 第一欄的 Date 作爲索引
df = pd.read_csv(r"你的 s&p500.csv 檔案路徑", index_col="Date")
df
```

# 繪製走勢圖功能

讀取收盤價

```python
# 讀取 Adj Close 這一欄，回傳一個 Series
df["Adj Close"]
```

# 畫出走勢圖

```python
# 從 Dataframe 截取收盤價，畫出走勢圖 
plt = df["Adj Close"].plot()
plt.set_xlabel("Time")
plt.set_ylabel("Price")
plt.set_title("S&P 500 Closing Prices")
```

# 計算報酬率
**pct_change()** 函數會幫你計算每一個 row 之間數值的差距，並以百分比的形式呈現出來：

```python
df["Adj Close"].pct_change(1) * 100
```

補充：[官網教學](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.pct_change.html)

# 將結果寫入 DataFrame

```python
df["daily return"] = df["Adj Close"].pct_change(1) * 100
```


# 找出所有當日上漲的資料

建立表頭為 "是否上漲" 的一欄（沒錯！表頭可以用中文指定）

```python
df["是否上漲"] = df["daily return"] > 0
df
```

# 過濾出所有當日上漲的資料

```python
df[df["是否上漲"] == True]
```


# 寫入 Excel

```python
result_df = df[df["是否上漲"] == True]

result_df.to_excel("stock_report.xlsx")
```

補充：[官網教學](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)

```python
result_df.to_excel(r"指定儲存 stock_report.xlsx 的路徑", sheet_name="工作表名稱")
```

# rolling() 滾動視窗

代表從第三個 row 開始，把每一個 row 以及前兩筆資料選起來做運算：

```python
ser.rolling(3) 
# Rolling [window=3,center=False,axis=0]
```

從 Excel 的角度來理解：

![](https://drive.google.com/uc?export=download&id=1Dy2ikKKZkGfLKUlImVT1npcbXNhWN7zo)

但是，在選起來之後，必須針對選起來的資料做一些運算，因此我們需要一個給予它一個匯總/聚合函數：

```python
ser.rolling(3).sum()
```

代表把每三筆資料給加總起來的意思，從 Excel 的角度來理解：

![](https://drive.google.com/uc?export=download&id=15waPZ_036b4mrkaq1RJuI2pgq037enAN)




# 計算 3 日移動平均

以下可以將選起來的每三筆資料的加總除以 3

```python
df["Adj Close"].rolling(3).sum() / 3
```

另外也可以使用 mean() 方法，直接將選擇到的每三筆資料的平均值算出來

```python
df["Adj Close"].rolling(3).mean()
```

# 將三日移動平均寫入 DataFrame

```python
df["sma3d"] = df["Adj Close"].rolling(3).sum() / 3
df
```

## apply() 應用

將一段運算過程**應用**到每一個 row 的資料

以我們目前的 DataFrame 爲例，我們可以利用 **apply()** 計算出三日移動平均

1. 先思考一下三日移動平均的算法，將運算過程寫成函數：

```python
def sma_3d(prices):
    return sum(prices) / 3
```

2. 接下來將其轉換成 lambda 函數：

```python
lambda prices : sum(prices) / 3
```

3. 接下來我們就可以將其與 apply() 串接起來使用：

```python
df["Adj Close"].rolling(3).apply(lambda prices : sum(prices) / 3)
```

以上代表從第三個 row 開始，把每一個 row 以及前兩筆資料選起來，放入 **apply()** 内的 **lambda** 函數做運算

**apply()** 的好處是在於給予使用者更大的自由度，無論是多複雜的運算，只要能夠被封裝進函數，就能夠透過 **apply()** 做運算，語法上也相對簡潔  

## 作業：計算 5 日加權移動平均

```python
import numpy as np

w5d = np.arange(1, 6)

ser1.rolling(5).apply(lambda _________ : _________ / _________, raw=True)
```