## Function

- 函數：被呼叫 (call) 時，才會運行的程式碼 
  
  `(A function is a code block which only runs when it is called.)`

  
- 我們可以將資料（參數 parameter）傳入函數

- 函數可以回傳資料作為結果


<mark>可以把函數想像成一個 Lab，它獨立於外面世界的環境、有自己的工作空間</mark>
- 外面環境的人可以傳資料進 Lab、請 Lab 運算；Lab 完成運算之後，再把結果回傳給外面的人。
- 如果外面的人沒有叫 Lab 做運算，Lab 就不會運作。


In [None]:
# 創造函數
# a function is defined using "def"

def my_function():
  print("這是我創造的函數，他負責印出這句話")

In [None]:
def func2():
  result = 1 + 2
  print("這是另一個函數，他負責印出 1 + 2 的結果")
  print(result)

In [None]:
# 呼叫函數
def my_function():
  a = 1 + 1
  print("這是我創造的函數，他負責印出這句話")

## 這裡是函數的外面（global scope）
## 呼叫函數的方式是在函數名稱後面加上小括號
my_function()

In [None]:
def my_function():
  print("明天就週五了 耶")

In [None]:
my_function()
my_function()

## Argument

- 資料可以作為參數 (argument) 傳遞到函數中。
  
- 參數是在函數名稱後面的括號內指定。  
  - `def my_function(這裡放參數的名字):`
  
  - 可以根據需要添加任意數量的參數，需用逗號分隔它們。
  
- 下方的函數帶有參數 `name` 
  - 呼叫這個函數時，我們需要傳遞一個名字（餵一個名字給函數）
  
  - 該名字在函數的內部會被作為 `name` 來使用


In [None]:
## 有1個參數的函數

def my_function(name):
  print('名字：', name)

my_function("陳品而")

In [3]:
my_function("陳品且")
my_function("且")

名字： 陳品且
名字： 且


In [None]:
## 有2個參數的函數

def full(lastname, firstname):
  print('全名：')
  print(lastname, firstname)

In [None]:
full("瑪卡", "巴卡")

In [5]:
full("烏西", "蒂西")

全名：
烏西 蒂西


In [None]:
# 可以使用 key = value 語法傳送參數
# 這樣就不需按照順序排列

def my_function(lastname, firstname):
  print('晚安', lastname + firstname)

In [None]:
my_function(firstname = "巴卡", lastname = "瑪卡")

晚安 瑪卡巴卡


In [None]:
my_function(lastname = "瑪卡", firstname = "巴卡")

晚安 瑪卡巴卡


<div><img src="https://pgw.udn.com.tw/gw/photo.php?u=https://uc.udn.com.tw/photo/2023/07/13/0/23183942.jpg&x=0&y=0&sw=0&sh=0&sl=W&fw=800&exp=3600&w=930&nt=1" width="450"></div>

In [6]:
## 有預設參數的函數

def my_function(country = "Taiwan"):
  print("我來自" + country)

In [8]:
my_function()

我來自Taiwan


In [7]:
my_function("Japan")

我來自Japan


<mark>傳送任何資料類型的參數</mark>

以下範例，我們傳送一個 <mark>列表</mark> 給函數

> 在外面環境時，這個列表是 "global variable (全域變數)"

> 當被傳到函數內部時，這個列表是 "local variable (區域變數)"
  
在以下範例中，
   - `food` 是區域變數，只存在於函數內部，不能在函數外面使用 `food`
   - `food` 有點像 `wishlist` 在函數內運作的代號
   - 當函數結束時，`food` 這個代號也跟著消失

In [15]:
def printMyWishlist(food):
  for x in food:
    print(x)

In [17]:
wishlist = ["芋丸", "芋頭酥", "芋泥千層"]

printMyWishlist(wishlist)

芋丸
芋頭酥
芋泥千層


In [None]:
food
# 這裡會出現錯誤，因為 food 是在函數裡面定義的變數

In [None]:
## 這個函數需要傳送一個字典
def try_dictionary(food):
  for key, value in food.items():
    print(key, '有', value, '個')

In [None]:
wish_dict = {'蘋果':1, '香蕉':2,'橘子':3}

try_dictionary(wish_dict)

蘋果 有 1 個
香蕉 有 2 個
橘子 有 3 個


**上週作業也可以這樣寫**

<small>~~雖然沒必要~~</small>

In [18]:
grades = {
    "Richard": [60, 0, 45, -1],
    "Una": [100, 99, 101, 100],
    "Linda": [99, 100, 99, 100],
}

In [19]:
def print_grades(input):
  for name, g in input.items():
    print(name,'的分數：', g)
    print('====')

print_grades(grades)

Richard 的分數： [60, 0, 45, -1]
====
Una 的分數： [100, 99, 101, 100]
====
Linda 的分數： [99, 100, 99, 100]
====


**但當我們有 `很多個grades字典` 時，就有必要了😉**

In [6]:
grades = {
    "Richard": [60, 0, 45, -1],
    "Una": [100, 99, 101, 100],
    "Linda": [99, 100, 99, 100],
}

grades2 = {
    "A": [60, 0, 45, -1],
    "B": [100, 99, 101, 100],
    "C": [99, 100, 99, 100],
}

grades3 = {
    "aaa": [60, 0, 45, -1],
    "bbb": [100, 99, 101, 100],
    "ccc": [99, 100, 99, 100],
}

In [9]:
# 先把 grades, grades2, grades3 放進一個 list
# 再用 for 迴圈，把每一個 list 都傳給之前定義的函數 print_grades() 

for g in [grades, grades2, grades3]:
  print_grades(g)

Richard 的分數： [60, 0, 45, -1]
====
Una 的分數： [100, 99, 101, 100]
====
Linda 的分數： [99, 100, 99, 100]
====
A 的分數： [60, 0, 45, -1]
====
B 的分數： [100, 99, 101, 100]
====
C 的分數： [99, 100, 99, 100]
====
aaa 的分數： [60, 0, 45, -1]
====
bbb 的分數： [100, 99, 101, 100]
====
ccc 的分數： [99, 100, 99, 100]
====


<mark>函數回傳值</mark>

前面提過，可以把函數想像成一個 Lab，它獨立於外面環境、有自己的工作空間：
- 外面的人可以丟資料進 Lab `（傳遞參數）`
- 叫 Lab 運算 `（呼叫函數並運行）`
- Lab 完成運算之後，再把結果回報給外面的人 `（return 回傳值）`


In [11]:
def pingfang(x):
  result =  x ** 2

  return result

In [None]:
pingfang(5)

25

In [12]:
# 把回傳的結果存到一個變數裡面，以便之後使用
first = pingfang(9)  # 81

second = first + 1000

print(second)

1081


### 🌝🌝 睽違兩週的課堂練習 🌝🌝

1. 設計一個函數 `total_price()`，來計算單種水果總價
- 蘋果一斤 100 元，我買了 2 斤
- 橘子一斤 50 元，我買了 3 斤
- <mark>記得改 print() 的內容，印出兩種水果各自的金額</mark>

In [None]:
def total_price(price, quantity):
  result = ???
  ???


print('蘋果總金額是：', ??? )
print('橘子總金額是：', ???)

2. 設計一個函數 `check()`，來檢查特定字串包含的元素

  我們有列表  `mylist = ['aaaa', 'rrr', '123']`，請依序把列表中的字串到函數。

  函數要求：
   - 包含 `a`、`b`、`c` 任一個字母的話，函數要回傳 '此字串包含 abc'
   - 包含 任意數字 的話，函數要回傳 '此字串包含數字'
   - 其他情況，函數要回傳 '此字串不包含 abc 或數字'


In [None]:
import re 
'''這個套件（regular expression）可以幫我們處理文字
re.search() 可以搜尋字串裡面，有沒有我們要找的某個東西'''


## 在這裡定義函數
def check(text):
  if re.seach(r'[abc]', text):
    
  elif re.search(r'[0-9]', text):
   
  else:
    


## 用「迴圈」遍歷 mylist，依序把列表中的三個字串傳給 check() 
mylist = ['aaaa', 'rrr', '123']

for ??? in ???:

## Pandas

先了解 <mark>package</mark> 的概念：

- Python 的套件（package）是一種用於組織和管理程式碼的方式。它是一個包含多個模組（module）的目錄，這些模組的運行通常相關聯。
- package 是為了結構化、將相關功能組在一起，以便維護和管理程式。
- 剛開始學 Python 時，用Python內建 ＆別人寫的 package 就非常足夠了 😉
      <div><img src="https://drive.google.com/uc?id=1B_4HOJhvXtH6ehkimOtgOiXAI1jhN3Q3" width="200"/> </div>

<mark>從來沒有用過的套件/模組，要先安裝</mark>

1. 打開筆電的終端機或cmd

2. 輸入以下命令，然後按Enter鍵執行：

      `pip install pandas`

      <div><img src="./images/pip_install.jpg" width="400"></div>
      

3. pip 會將 pandas 安裝到你的Python環境中，你就可以在程式中使用 pandas
   
4. 可以在終端機輸入以下命令，檢查 pandas 是否安裝：

      `pip show pandas`，如果安裝成功，它應該會輸出pandas的版本編號

      <div><img src="./images/pip_show_pandas.jpg" width="450"></div>


---
<mark>Pandas</mark>

- 一個強大的Python數據處理和分析庫，提供了易使用的數據結構和數據分析工具，廣泛用於機器學習、統計摘要、數據可視化等領域

- Pandas 的兩種主要數據結構
    - Series 是一維數據結構，類似於一維陣列，但每個元素都有一個標籤，稱為索引
  
    - DataFrame 是二維數據結構，類似於表格或試算表，由多個 Series 組成

- 可讀取和寫入 CSV、Excel、SQL 數據庫、JSON 等等檔案格式

- 能進行處理缺失/重複數據、數據篩選、數據轉換等操作


In [20]:
# 也可以只在這個 .ipynb 安裝特定套件

# !pip install pandas

In [None]:
'''
!pip 和!pip3 是在命令列或終端機的指令，用於執行Python套件管理工具 pip 的操作。主要區別是它們使用的Python版本。

     !pip: 這是預設使用的命令，通常與系統預設的 Python 2 版本關聯。 如果你在終端機中使用 !pip install package_name，就是使用 Python 2.x 的 pip 來安裝套件。

     !pip3: 這是針對 Python 3.x 版本的 pip 指令。 如果你在終端機中使用 !pip3 install package_name，就是使用 Python 3.x 的 pip 來安裝套件。

 使用哪個指令取決於你的系統和 Python 環境。
 如果你的系統預設的是 Python 3.x，可能就不需使用 !pip3，你可以直接使用 !pip。但如果你同時安裝了多個 Python 版本，或者你明確希望使用 Python 3.x 版本，那麼最好使用 !pip3 來確保你操作的是正確的 Python 3.x 環境。
'''

**創造一個 Series (s)**

- Pandas中的 Series 就像試算表的一直欄/一橫列
- 是一維數組，可以存任何類型資料

In [22]:
# 通常在程式碼的開頭會先導入"所有"需要的模組
# 這樣才能使用模組裡的函數（後續不用一直import）

import pandas as pd

In [None]:
a = ["KFC", "麥當勞", "頂呱呱"]

myvar = pd.Series(a)

myvar

0    KFC
1    麥當勞
2    頂呱呱
dtype: object


In [None]:
# 如果沒有特別指定，則 Series 中的值會使用索引號當作標籤
# 第一個值的索引為 0，第二個值的索引為 1，依此類推
# 可使用索引標籤來取得 Series 中的值

a = ["KFC", "麥當勞", "頂呱呱"]

myvar = pd.Series(a)

myvar[2]

'頂呱呱'

**創造一個 DataFrame (df)**
- DataFrame是2維的資料結構
- Series 就像一直欄/橫列，DataFrame 就像一整個試算表

In [73]:
import pandas as pd

data = {
  'school': ["台大", "清大", "陽交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

# load data as a DataFrame object
df = pd.DataFrame(data)

In [74]:
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽交大,2021
3,成大,1931


In [77]:
# 看這個 df 的 column
df.columns

Index(['school', 'year'], dtype='object')

In [78]:
# 看這個 df 的 index
df.index

RangeIndex(start=0, stop=4, step=1)

In [75]:
# 用 .loc[] 選取row (橫列)
df.loc[1]

school      清大
year      1925
Name: 1, dtype: object

In [33]:
# 選取多個row (橫列)
df.loc[[0, 2]]

Unnamed: 0,school,year
0,台大,1928
2,陽交大,2021


In [76]:
type( df.loc[[0, 2]] )

pandas.core.frame.DataFrame

In [34]:
# 用 df['欄位名稱'] 選取column (直行)
df['school']

0     台大
1     清大
2    陽交大
3     成大
Name: school, dtype: object

In [36]:
# 選取多個column (直行)
df[['school', 'year']]

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽交大,2021
3,成大,1931


In [37]:
type( df[['school', 'year']] )

pandas.core.frame.DataFrame

### <mark>DataFrame 讀取資料 (csv檔)</mark>

In [79]:
import pandas as pd

# 用pd.read_csv()讀取檔案
data = pd.read_csv('./iris.csv')

In [80]:
# 看 data 有幾列幾行
data.shape

(150, 6)

In [46]:
# 顯示前幾行數據(預設為前5行)
data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [42]:
data.head(8)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
5,6,5.4,3.9,1.7,0.4,Iris-setosa
6,7,4.6,3.4,1.4,0.3,Iris-setosa
7,8,5.0,3.4,1.5,0.2,Iris-setosa


In [43]:
# 顯示後幾行數據(預設為後5行)
data.tail()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


In [48]:
# 獲取資料的統計摘要
data.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,145.0,150.0,150.0,150.0
mean,75.5,5.877931,3.054,3.758667,1.198667
std,43.445368,0.817981,0.433594,1.76442,0.763161
min,1.0,4.4,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


In [47]:
# 顯示資料的一些資訊
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  145 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
'''
info()函數告訴我們每個欄位中有多少 non-null（非空值），
在我們的資料中，一個直欄會有 150 rows。
而 SepalLengthCm 欄只有 145 non-null，表示有 5 個 row 是空值。
'''

### <mark>DataFrame 資料清理：空值</mark>

- 空值會影響我們的分析結果，所以要先處理空值

- 一種方法是直接刪除`包含空值的row`，因為資料可能非常大，刪除一些列不會產生很大影響。
  
  `.dropna()`

In [56]:
import pandas as pd
data = pd.read_csv('./iris.csv')

# 原始資料的長度（row數量）
len(data)

150

In [54]:
# 用 .dropna() 刪除有空值的 row
## .dropna() 會返回一個新的DF，不會更改原來的DF
## 所以要定義一個新的變數(new_df)來存放

new_df = data.dropna()

In [55]:
# 確認row數量是否減少
len(new_df)

145

In [62]:
# 如果要更改原來的DF，可以加上參數 inplace = True
## 這樣就不用定義新的變數來存放
## 但就無法回復原來的DF了（除非重新讀取檔案）
data.dropna(inplace = True)
len(data)

145

- 另一種處理空值的方法是`填入新的值`，例如填入0或平均值，這樣就不必刪除整個row
  
  `fillna()`

In [64]:
import pandas as pd

data = pd.read_csv('./iris.csv')

data.fillna(0, inplace = True) 
len(data)

150

In [65]:
# 本來有空值的欄位，現在都被填上 0 了，也就都有 150 個值了
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
# 上面的範例替換了整個 data 中的所有空白儲存格
# 只想替換某一個特定 column 底下的空白值：
data['SepalLengthCm'].fillna(0, inplace = True)

- 替換空白儲存格的常見方法，是填入 column 的平均值、中位數或眾數，而不是0
- 使用 mean()、median() 和 mode() 來計算

In [None]:
import pandas as pd
df = pd.read_csv('./iris.csv')

# 計算 SepalLengthCm 欄的平均值，並存到變數 x
x = df["SepalLengthCm"].mean()

# 用 x 替換 SepalLengthCm 欄的空白值
df["SepalLengthCm"].fillna(x, inplace = True) 