## Function

- 函數：被呼叫 (call) 時，才會運行的程式碼 
  
  `(A function is a code block which only runs when it is called.)`

  
- 我們可以將資料（參數 parameter）傳入函數

- 函數可以回傳資料作為結果


<mark>可以把函數想像成一個 Lab，它獨立於外面世界的環境、有自己的工作空間</mark>
- 外面環境的人可以傳資料進 Lab、請 Lab 運算；Lab 完成運算之後，再把結果回傳給外面的人。
- 如果外面的人沒有叫 Lab 做運算，Lab 就不會運作。


In [3]:
# 創造函數
# a function is defined using "def"

def my_function():
  print("這是我創造的函數，他負責印出這句話")

In [4]:
def func2():
  result = 1 + 2
  print("這是另一個函數，他負責印出 1 + 2 的結果")
  print(result)

In [6]:
# 呼叫函數
def my_function():
  a = 1 + 1
  print(a)
  print("這是我創造的函數，他負責印出這句話")

## 這裡是函數的外面（global scope）
## 呼叫函數的方式是在函數名稱後面加上小括號
my_function()

2
這是我創造的函數，他負責印出這句話


In [7]:
def my_function():
  print("明天就週五了 耶")

In [8]:
my_function()
my_function()

明天就週五了 耶
明天就週五了 耶


## Argument

- 資料可以作為參數 (argument) 傳遞到函數中。
  
- 參數是在函數名稱後面的括號內指定。  
  - `def my_function(這裡放參數的名字):`
  
  - 可以根據需要添加任意數量的參數，需用逗號分隔它們。
  
- 下方的函數帶有參數 `name` 
  - 呼叫這個函數時，我們需要傳遞一個名字（餵一個名字給函數）
  
  - 該名字在函數的內部會被作為 `name` 來使用


In [9]:
## 有1個參數的函數

def my_function(name):
  print('名字：', name)

my_function("陳品而")

名字： 陳品而


In [3]:
my_function("陳品且")
my_function("且")

名字： 陳品且
名字： 且


In [11]:
## 有2個參數的函數

def full(lastname, firstname):
  print('全名：')
  print(lastname, firstname)

In [12]:
full("瑪卡", "巴卡")

全名：
瑪卡 巴卡


In [13]:
full("烏西", "蒂西")

全名：
烏西 蒂西


In [15]:
# 可以使用 key = value 語法傳送參數
# 這樣就不需按照順序排列

def my_function(lastname, firstname):
  print('晚安', lastname + firstname)

In [17]:
my_function(firstname = "巴卡", lastname = "瑪卡")

晚安 瑪卡巴卡


In [18]:
my_function(lastname = "瑪卡", firstname = "巴卡")

晚安 瑪卡巴卡


<div><img src="https://pgw.udn.com.tw/gw/photo.php?u=https://uc.udn.com.tw/photo/2023/07/13/0/23183942.jpg&x=0&y=0&sw=0&sh=0&sl=W&fw=800&exp=3600&w=930&nt=1" width="450"></div>

In [19]:
## 有預設參數的函數

def my_function(country = "Taiwan"):
  print("我來自" + country)

In [20]:
my_function()

我來自Taiwan


In [21]:
my_function("Japan")

我來自Japan


<mark>傳送任何資料類型的參數</mark>

以下範例，我們傳送一個 <mark>列表</mark> 給函數

> 在外面環境時，這個列表是 "global variable (全域變數)"

> 當被傳到函數內部時，這個列表是 "local variable (區域變數)"
  
在以下範例中，
   - `food` 是區域變數，只存在於函數內部，不能在函數外面使用 `food`
   - `food` 有點像 `wishlist` 在函數內運作的代號
   - 當函數結束時，`food` 這個代號也跟著消失

In [22]:
def printMyWishlist(food):
  for x in food:
    print(x)

In [17]:
wishlist = ["芋丸", "芋頭酥", "芋泥千層"]

printMyWishlist(wishlist)

芋丸
芋頭酥
芋泥千層


In [23]:
food
# 這裡會出現錯誤，因為 food 是在函數裡面定義的變數

NameError: name 'food' is not defined

In [24]:
## 這個函數需要傳送一個字典
def try_dictionary(food):
  for key, value in food.items():
    print(key, '有', value, '個')

In [None]:
wish_dict = {'蘋果':1, '香蕉':2,'橘子':3}

try_dictionary(wish_dict)

蘋果 有 1 個
香蕉 有 2 個
橘子 有 3 個


**上週作業如果有 `很多個grades字典`的話，單用迴圈會寫很多code，所以需要寫個函數**

In [1]:
grades = {
    "Richard": [60, 0, 45, -1],
    "Una": [100, 99, 101, 100],
    "Linda": [99, 100, 99, 100],
}

grades2 = {
    "A": [60, 0, 45, -1],
    "B": [100, 99, 101, 100],
    "C": [99, 100, 99, 100],
}

grades3 = {
    "aaa": [60, 0, 45, -1],
    "bbb": [100, 99, 101, 100],
    "ccc": [99, 100, 99, 100],
}

In [2]:
# 定義一個函數，用來印"單個字典"的內容
def print_grades(grades_input):
  for key, value in grades_input.items():
    print(key, '的成績是', value)
    print("===")


## 把 grades, grades2, grades3 放進一個大list
## 再用 for 迴圈，把每一個 grade字典 都傳入函數 print_grades() 
for g in [grades, grades2, grades3]:
  print_grades(g)


Richard 的成績是 [60, 0, 45, -1]
===
Una 的成績是 [100, 99, 101, 100]
===
Linda 的成績是 [99, 100, 99, 100]
===
A 的成績是 [60, 0, 45, -1]
===
B 的成績是 [100, 99, 101, 100]
===
C 的成績是 [99, 100, 99, 100]
===
aaa 的成績是 [60, 0, 45, -1]
===
bbb 的成績是 [100, 99, 101, 100]
===
ccc 的成績是 [99, 100, 99, 100]
===


<mark>函數回傳值</mark>

前面提過，可以把函數想像成一個 Lab，它獨立於外面環境、有自己的工作空間：
- 外面的人可以丟資料進 Lab `（傳遞參數）`
- 叫 Lab 運算 `（呼叫函數並運行）`
- Lab 完成運算之後，再把結果回報給外面的人 `（return 回傳值）`


In [25]:
def pingfang(x):
  result =  x ** 2

  return result

In [30]:
x = pingfang(5)

In [28]:
x

25

In [31]:
# 把回傳的結果存到一個變數裡面，以便之後使用
first = pingfang(9)  # 81

second = first + 1000

print(second)

1081


### 🌝🌝 睽違兩週的課堂練習 🌝🌝

1. 設計一個函數 `total_price()`，來計算單種水果總價
- 蘋果一斤 100 元，我買了 2 斤
- 橘子一斤 50 元，我買了 3 斤
- <mark>記得改 print() 的內容，印出兩種水果各自的金額</mark>

In [32]:
def total_price(price, quantity):
  result = price * quantity
  return result

print('蘋果總金額是：', total_price(100, 2))
print('橘子總金額是：', total_price(50, 3))

蘋果總金額是： 200
橘子總金額是： 150


2. 設計一個函數 `check()`，來檢查特定字串包含的元素

  我們有列表  `mylist = ['aaaa', 'rrr', '123']`，請依序把列表中的字串到函數。

  函數要求：
   - 包含 `a`、`b`、`c` 任一個字母的話，函數回傳 '包含abc'
   - 包含 任意數字 的話，函數回傳 '包含數字'
   - 其他情況，函數要回傳 '都沒有'

把 3 次回傳的結果存到列表 `result_list` 中，並印出 `result_list`。


In [33]:
!pip install regex



In [34]:
import re
'''這個套件（regular expression）可以幫我們處理文字
re.search() 可以搜尋字串裡面，有沒有我們要找的某個東西'''


## 在這裡定義函數
def check(text):
  if re.search(r'[abc]', text):
    return '包含abc'
  elif re.search(r'[0-9]', text):
    return '包含數字'
  else:
    return '沒有abc，也沒有數字'
    
    


## 用迴圈遍歷 mylist，依序把三個字串傳給 check() 
## 每次的回傳結果要加入 result_list 


mylist = ['aaaa', 'rrr', '123']

result_list = []

for m in mylist:
  result = check(m)
  result_list.append(result)
  

print(result_list)

['包含abc', '沒有abc，也沒有數字', '包含數字']


## Pandas

先了解 <mark>package</mark> 的概念：

- Python 的套件（package）是一種用於組織和管理程式碼的方式。它是一個包含多個模組（module）的目錄，這些模組的運行通常相關聯。
- package 是為了結構化、將相關功能組在一起，以便維護和管理程式。
- 剛開始學 Python 時，用Python內建 ＆別人寫的 package 就非常足夠了 😉
      <div><img src="https://drive.google.com/uc?id=1B_4HOJhvXtH6ehkimOtgOiXAI1jhN3Q3" width="200"/> </div>

<mark>從來沒有用過的套件/模組，要先安裝</mark>

1. 打開筆電的終端機或cmd

2. 輸入以下命令，然後按Enter鍵執行：

      `pip install pandas`

      <div><img src="./images/pip_install.jpg" width="400"></div>
      

3. pip 會將 pandas 安裝到你的Python環境中，你就可以在程式中使用 pandas
   
4. 可以在終端機輸入以下命令，檢查 pandas 是否安裝：

      `pip show pandas`，如果安裝成功，它應該會輸出pandas的版本編號

      <div><img src="./images/pip_show_pandas.jpg" width="450"></div>


---
<mark>Pandas</mark>

- 一個強大的Python數據處理和分析庫，提供了易使用的數據結構和數據分析工具，廣泛用於機器學習、統計摘要、數據可視化等領域

- Pandas 的兩種主要數據結構
    - Series 是一維數據結構，類似於一維陣列，但每個元素都有一個標籤，稱為索引
  
    - DataFrame 是二維數據結構，類似於表格或試算表，由多個 Series 組成

- 可讀取和寫入 CSV、Excel、SQL 數據庫、JSON 等等檔案格式

- 能進行處理缺失/重複數據、數據篩選、數據轉換等操作


In [35]:
# 也可以只在這個 .ipynb 安裝特定套件

!pip install pandas



In [None]:
'''
!pip 和!pip3 是在命令列或終端機的指令，用於執行Python套件管理工具 pip 的操作。主要區別是它們使用的Python版本。

     !pip: 這是預設使用的命令，通常與系統預設的 Python 2 版本關聯。 如果你在終端機中使用 !pip install package_name，就是使用 Python 2.x 的 pip 來安裝套件。

     !pip3: 這是針對 Python 3.x 版本的 pip 指令。 如果你在終端機中使用 !pip3 install package_name，就是使用 Python 3.x 的 pip 來安裝套件。

 使用哪個指令取決於你的系統和 Python 環境。
 如果你的系統預設的是 Python 3.x，可能就不需使用 !pip3，你可以直接使用 !pip。但如果你同時安裝了多個 Python 版本，或者你明確希望使用 Python 3.x 版本，那麼最好使用 !pip3 來確保你操作的是正確的 Python 3.x 環境。
'''

**創造一個 Series (s)**

- Pandas中的 Series 就像試算表的一直欄/一橫列
- 是一維數組，可以存任何類型資料

In [36]:
# 通常在程式碼的開頭會先導入"所有"需要的模組
# 這樣才能使用模組裡的函數（後續不用一直import）

import pandas as pd

In [37]:
a = ["KFC", "麥當勞", "頂呱呱"]

myvar = pd.Series(a)

myvar

0    KFC
1    麥當勞
2    頂呱呱
dtype: object

In [None]:
# 如果沒有特別指定，則 Series 中的值會使用索引號當作標籤
# 第一個值的索引為 0，第二個值的索引為 1，依此類推
# 可使用索引標籤來取得 Series 中的值

a = ["KFC", "麥當勞", "頂呱呱"]

myvar = pd.Series(a)

myvar[2]

'頂呱呱'

### **創造一個 DataFrame (df)**

- DataFrame是2維的資料結構
- Series 就像一直欄/橫列，DataFrame 就像一整個試算表
- <div><img src="https://miro.medium.com/v2/resize:fit:1400/format:webp/1*6p6nF4_5XpHgcrYRrLYVAw.png" width="600"></div>

In [38]:
# 用 list 創造 DF

data = ['a', 'b', 'c', 'd', 'e']

df = pd.DataFrame(data)
df

Unnamed: 0,0
0,a
1,b
2,c
3,d
4,e


In [84]:
# 用 2維的list 創造 DF

data = [['KFC', 5], ['麥當勞', 22], ['頂呱呱', 1]]

df = pd.DataFrame(data)
df

Unnamed: 0,0,1
0,KFC,5
1,麥當勞,22
2,頂呱呱,1


In [39]:
# 用 2維的list 創造 DF，並指定欄位名稱

data = [['KFC', 5], ['麥當勞', 22], ['頂呱呱', 1]]

df = pd.DataFrame(data, 
                  columns = ['名字', '分店數量'])
df

Unnamed: 0,名字,分店數量
0,KFC,5
1,麥當勞,22
2,頂呱呱,1


In [40]:
# 用 dict 創造 DF
## 字典的 key 會變成欄位名稱，value 則是欄位的值

data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


### DF 檢視資料

In [41]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


In [42]:
# 看這個 df 的 columns
df.columns

Index(['school', 'year'], dtype='object')

In [43]:
# 看這個 df 的 indexes
df.index

RangeIndex(start=0, stop=4, step=1)

**取得單一個值**

In [46]:
# .iloc[] 透過整數位置存取值（index是[第幾列][第幾欄]
print(df.iloc[2][1])

# .loc[] 透過標籤存取值
## 這裡我們要取得 標籤為0的橫列 和 標籤為'school'的直欄 的那格value
print(df.loc[0]['school'])

# .iat[] 與 iloc[] 類似，但存取單一值的速度更快
print(df.iat[0,0])

# .at[]` 與 loc[] 類似，但存取單一值的速度更快
print(df.at[0,'school'])

2021
台大
台大
台大


**取得多個值**

In [47]:
# 存取一整個橫列 row 0
df.iloc[0]

school      台大
year      1928
Name: 0, dtype: object

In [121]:
# 存取一整個直欄 column 'school'
df['school']

0      台大
1      清大
2    陽明交大
3      成大
Name: school, dtype: object

In [122]:
# 你也可以這樣取得一整個直欄
df.loc[:,'school']

0      台大
1      清大
2    陽明交大
3      成大
Name: school, dtype: object

 `df['school']` and `df.loc[:,'school']`都可以存取 'school' 這一直欄 (column)，<mark>但他們有微妙的差異。</mark>

`df['school']` 

- 存取 DataFrame 中單個column的簡潔常用方法，會回傳一個 Series 
        
- 想存取單個column、無需特定的條件篩選時，用這個比較簡潔


`df.loc[:,'school']`
        
- .loc 方法，主要用在標籤索引，和`df['school']`一樣回傳一個 Series
        
- `[:,'school']` 會存取 'school' 欄位的所有值，是用冒號（:）選擇該欄位的所有row 
        
- 基於某些條件來存取特定 column 時比較有用


---


<div><img src="https://i.imgur.com/zfxLzEv.png" width="600"></div>

---

### 練習: 以下分別會輸出什麼

In [49]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931],
  'eng': ['ntu', 'nthu', 'nycu', 'ncku']
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year,eng
0,台大,1928,ntu
1,清大,1925,nthu
2,陽明交大,2021,nycu
3,成大,1931,ncku


In [50]:
df.iloc[1, :]

school      清大
year      1925
eng       nthu
Name: 1, dtype: object

In [51]:
df.loc[1, :]

school      清大
year      1925
eng       nthu
Name: 1, dtype: object

In [52]:
df.iloc[:, 1]

0    1928
1    1925
2    2021
3    1931
Name: year, dtype: int64

In [53]:
df.loc[:, 1]

KeyError: 1

拜託一定要看：

- [.loc() 和 .iloc() 的差別](https://chat.openai.com/share/10dd897b-89cc-40a2-8ef7-c41818a18148)

- [.loc .iloc .at .iat .ix](https://chat.openai.com/share/f40d1441-1c8f-4284-be4c-fddd4b9a4e9b)

---

### DF 新增資料

In [60]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


**新增一直欄 column**

In [61]:
# 加入新的一欄['location'] 到 df

mylist = ['台北', '新竹', '新竹', '台南']
df['location'] = mylist
df

Unnamed: 0,school,year,location
0,台大,1928,台北
1,清大,1925,新竹
2,陽明交大,2021,新竹
3,成大,1931,台南


In [None]:
## 當然你也可以直接把 list 寫給 df['location']
## df['location'] = ['台北', '新竹', '新竹', '台南']

In [62]:
# 刪除一欄
del df['location']
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


**新增一橫列**

In [129]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


In [131]:
# loc
df.loc[len(df)] = ['新校', 2023]
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931
4,新校,2023


In [None]:
# concat: 結合兩個 df （我們把新的row 直接變成一個只有一列資料的df)

new_row = pd.DataFrame({'school': ['NTU'], 'year': [1928]})
df = pd.concat([df, new_row], ignore_index=True)

In [132]:
# _append
''' 
In the new version of Pandas, the `append` method is changed to `_append`
The `ignore_index=True` argument ensures that the index of the newly added row is reset to maintain a continuous integer index.
'''

new_row = {'school': '新新校', 'year': 2023}
df = df._append(new_row, ignore_index=True)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931
4,新校,2023
5,新校,2023


---

### <mark>DF 讀取csv檔</mark>

In [None]:
!pip install pandas

In [63]:
import pandas as pd

# 用pd.read_csv()讀取檔案
data = pd.read_csv('./iris.csv')

In [64]:
# 看 data 有幾列幾行
data.shape

(150, 6)

In [46]:
# 顯示前幾行數據(預設為前5row)
data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [65]:
data.head(10)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
5,6,5.4,3.9,1.7,0.4,Iris-setosa
6,7,4.6,3.4,1.4,0.3,Iris-setosa
7,8,5.0,3.4,1.5,0.2,Iris-setosa
8,9,4.4,2.9,1.4,0.2,Iris-setosa
9,10,,3.1,1.5,0.1,Iris-setosa


In [66]:
# 顯示後幾行數據(預設為後5行)
data.tail()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


In [48]:
# 獲取資料的統計摘要
data.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,145.0,150.0,150.0,150.0
mean,75.5,5.877931,3.054,3.758667,1.198667
std,43.445368,0.817981,0.433594,1.76442,0.763161
min,1.0,4.4,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


In [69]:
# 顯示資料的一些資訊
data.info()
print(data)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
      Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm  \
0      1            5.1           3.5            1.4           0.2   
1      2            4.9           3.0            1.4           0.2   
2      3            4.7           3.2            1.3           0.2   
3      4            4.6           3.1            1.5           0.2   
4      5            5.0           3.6            1.4           0.2   
..   ...            ...           ...            ...          

In [None]:
'''
info()函數告訴我們每個欄位中有多少 non-null（非空值），
在我們的資料中，一個直欄會有 150 rows。
而 SepalLengthCm 欄只有 145 non-null，表示有 5 個 row 是空值。
'''

---

### <mark>DF 資料清理：空值</mark>

- 空值會影響我們的分析結果，所以要先處理空值

- 一種方法是直接刪除`包含空值的row`，因為資料可能非常大，刪除一些列不會產生很大影響。
  
  `.dropna()`

In [56]:
import pandas as pd
data = pd.read_csv('./iris.csv')

# 原始資料的長度（row數量）
len(data)

150

In [54]:
# 用 .dropna() 刪除有空值的 row
## .dropna() 會返回一個新的DF，不會更改原來的DF
## 所以要定義一個新的變數(new_df)來存放

new_df = data.dropna()

In [55]:
# 確認row數量是否減少
len(new_df)

145

In [62]:
# 如果要更改原來的DF，可以加上參數 inplace = True
## 這樣就不用定義新的變數來存放
## 但就無法回復原來的DF了（除非重新讀取檔案）
data.dropna(inplace = True)
len(data)

145

- 另一種處理空值的方法是`填入新的值`，例如填入0或平均值，這樣就不必刪除整個row
  
  `fillna()`

In [67]:
import pandas as pd

data = pd.read_csv('./iris.csv')

data.fillna(0, inplace = True) 
len(data)

150

In [68]:
# 本來有空值的欄位，現在都被填上 0 了，也就都有 150 個值了
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
# 上面的範例替換了整個 data 中的所有空白儲存格
# 只想替換某一個特定 column 底下的空白值：
data['SepalLengthCm'].fillna(0, inplace = True)

- 替換空白儲存格的常見方法，是填入 column 的平均值、中位數或眾數，而不是0
- 使用 mean()、median() 和 mode() 來計算

In [None]:
import pandas as pd
df = pd.read_csv('./iris.csv')

# 計算 SepalLengthCm 欄的平均值，並存到變數 x
x = df["SepalLengthCm"].max()

# 用 x 替換 SepalLengthCm 欄的空白值
df["SepalLengthCm"].fillna(x, inplace = True) 