<a href="https://colab.research.google.com/github/AI-FREE-Team/Machine-Learning-Basic/blob/master/Materials/%E8%AA%8D%E8%AD%98_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


![Logo](https://raw.githubusercontent.com/AI-FREE-Team/Machine-Learning-Basic/main/README_imgs/aifreeteam.png) 
<center>Welcome to the course《Python: from business analytics to Artificial Intelligence》by AI . FREE Team.</center>
<center>歡迎大家來到 AI . FREE Team 《Python 從商業分析到人工智慧》的第二堂課 - 機器學習(ML)基礎教學。 </center>
<br/>

<center>作者: Tom Wu (<a href="https://github.com/YenLinWu">Github</a>) &nbsp&nbsp&nbsp 日期: Apr 9, 2021 </center>

# 前言  

本篇文章將介紹 Python 中著名的資料處理與分析套件 - <font color="#00dd00">**Pandas**</font>，此套件提供簡易且高效能的資料分析工具。實際上，當我們在資料分析的過程中，時常藉由 Pandas 所提供的工具進行：   
  * 資料的輸入及輸出，例如 CSV、TXT、JSON、HTML 等；
  * <font color="#00dd00">資料預前處理( Data Preprocessing )</font>，例如：篩選或過濾資料、資料合併及分割、填補缺失值( Missing Value )等。  

讀者們在閱讀本篇文章後，將具備下列基本能力：
  1. Pandas 如何建立 **DataFrame**；  
  2. 如何透過 **DataFrame** 來認識資料集；  
  3. 如何操作 **DataFrame** 進行資料的篩選、刪除、排序、匯入及匯出等；  
  4. 如何操作 **DataFrame** 進行資料欄位的運算。


# 匯入套件   

首先，在我們實際著手進行資料分析時，必定會使用到的兩個基礎套件：NumPy 及 Pandas。

In [None]:
import sys
import numpy as np
import pandas as pd

print( 'Python Version:', sys.version[0:7] ) 
print( 'Numpy Version:', np.__version__ )
print( 'Pandas Version:', pd.__version__ )

Python Version: 3.7.10 
Numpy Version: 1.19.5
Pandas Version: 1.1.5


# Pandas 的資料結構   

Pandas 套件提供兩種資料結構，分別是用來處理一維資料的 <font color="#00dd00">**Series**</font> 及二維資料的 <font color="#00dd00">**DataFrame**</font> 。

## <font color="#00dd00">**Series**</font>  

我們可用 Series 儲存整數、浮點數及字串型態的物件，建立 Series 的資料可以是 Python 的[列表(List)](https://colab.research.google.com/github/AI-FREE-Team/Python-Basics/blob/master/documents/Lesson05%20List.ipynb)、[字典(Dictionary)](https://colab.research.google.com/github/AI-FREE-Team/Python-Basics/blob/master/documents/Lesson09%20Dictionary.ipynb)、 NumPy 的陣列(Array)或純量。我們可使用 Pandas 所提供的 `Series( data, index )` 函數來建立 Series ，其中 data 為 Series 中存放的資料，index 為用來指定 Series 的索引，如果在建立 Series 時無指定索引時，則 Pandas 會自動從 0 開始建立索引：  

In [None]:
# 用 Python 列表(List)建立 Series
S1 = pd.Series( ['Tom',1.1,2020], index=['name','date','year'] )

# 用 Python 字典(Dictionary)建立 Series
S2 = pd.Series( {'dog':0, 'cat':1} )

# 用 NumPy 陣列(Array)建立 Series
S3 = pd.Series( np.arange( 1, 4 ) )

# 用純量建立 Series
S4 = pd.Series( 'Tom', index=['No1'] )

print( f'列表建立 Series: \n{S1}\n' )
print( f'字典建立 Series: \n{S2}\n' )
print( f'陣列建立 Series: \n{S3}\n' )
print( f'純量建立 Series: \n{S4}\n' )

列表建立 Series: 
name     Tom
date     1.1
year    2020
dtype: object

字典建立 Series: 
dog    0
cat    1
dtype: int64

陣列建立 Series: 
0    1
1    2
2    3
dtype: int64

純量建立 Series: 
No1    Tom
dtype: object



我們可透過 `values` 及 `index` 屬性來取得 Series 的資料及索引值：

In [None]:
S1 = pd.Series( [ 'Tom', 1.1, 2020 ], index=['name','date','year'] )

# 取得 Series 的資料
SeriesValue = S1.values

# 取得 Series 的索引值
SeriesIndex = S1.index

print( f'列表建立的 Series：\n{S1}\n'  )
print( f'Serire 的資料：{SeriesValue}' )
print( f'Serire 的索引值：{SeriesIndex}' )

列表建立的 Series：
name     Tom
date     1.1
year    2020
dtype: object

Serire 的資料：['Tom' 1.1 2020]
Serire 的索引值：Index(['name', 'date', 'year'], dtype='object')


## <font color="#00dd00">**DataFrame**</font>  

在資料分析的過程中， DataFrame 是最重要且實用的資料結構，它的功用如同 Excel 試算表或 SQL 資料表，可對它進行篩選、排序、樞紐分析及統計、新增或刪減欄位等。因為 <font color="#dddd00">DataFrame 是表格物件，故它具備列(row)及欄(column)的索引，實際上， DataFrame 是一個擁有索引的 Series 所組成的 Python 字典</font>。我們可以使用 Pandas 所提供的  `pd.DataFrame( data )` 函數來建立 DataFrame ，其中資料來源 data 可以是 Series 、 Python [字典(Dictionary)](https://colab.research.google.com/github/AI-FREE-Team/Python-Basics/blob/master/documents/Lesson09%20Dictionary.ipynb)、二維陣列(Array)或其它的 DataFrame 。

(i) 用 Series 建立 DataFrame

In [None]:
# 年齡及性別資料
age = pd.Series( [27, 25, 16, 33, 36], index=['Ken','Ryan','Amy','Pat','Tom']  )
sex = pd.Series( ['M','M','F','M'], index=['Ken','Ryan','Amy','Tom'] )

# 用 Series 所組成的字典(Dictionary)建立 DataFrame
df = pd.DataFrame( data={'AGE':age, 'SEX':sex} )
df 

Unnamed: 0,AGE,SEX
Amy,16,F
Ken,27,M
Pat,33,
Ryan,25,M
Tom,36,M


(ii) 用 Python List 建立 DataFrame

In [None]:
# 城市及溫度資料
city = ['台北','高雄','台南','台中','桃園']
temperature = [18, 28, 27.5, 25, 20]

# 用 Python List 所組成的字典(Dictionary)建立 DataFrame
df = pd.DataFrame( data={'CITY':city, 'TEMPERATURE':temperature}  )
df 

Unnamed: 0,CITY,TEMPERATURE
0,台北,18.0
1,高雄,28.0
2,台南,27.5
3,台中,25.0
4,桃園,20.0


# DataFrame 的基本操作  

當我們取得資料在進行分析之前，需先瞭解資料集的基本資訊，例如：資料的筆數與欄位數、資料的欄位名稱、每個欄位的資料型態、數值欄位的敘述統計、資料是否有缺失值等，這些資訊皆是我們認識資料集的第一步。本篇文章將舉一個簡單的範例，介紹如何獲取 DataFrame 的相關資訊及其基本操作。

在此，我們先建立一個用來紀錄身高與體重的 DataFrame ：

In [None]:
# 建立紀錄身高與體重的 DataFrame 
df = pd.DataFrame( {'Name':['Tony','Amy','Bob','Alex','Peter','Ken'], 'Height':[183,160,np.nan,175,173,183], 'Weight':[83,46.5,98,np.nan,85,75.4]} )
df 

Unnamed: 0,Name,Height,Weight
0,Tony,183.0,83.0
1,Amy,160.0,46.5
2,Bob,,98.0
3,Alex,175.0,
4,Peter,173.0,85.0
5,Ken,183.0,75.4


## 查詢資料集的維度

透過 `shape` 可告訴我們資料集的列數與欄數：

In [None]:
# 查詢資料集的列數與欄數
S = df.shape

# 只查列數
RowNumber = df.shape[0]
# 只查欄數
ColumnNumber = df.shape[1]

print( f'資料的列數及欄位數 = {S}\n' )
print( f'資料的列數 = {RowNumber} (表示有 {RowNumber} 筆資料)' )
print( f'資料的欄數 = {ColumnNumber}\n' )

資料的列數及欄位數 = (6, 3)

資料的列數 = 6 (表示有 6 筆資料)
資料的欄數 = 3



## 查詢資料集的欄位名稱   

透過 `columns` 可得知資料集的欄位名稱：

In [None]:
df.columns

Index(['Name', 'Height', 'Weight'], dtype='object')

## 查詢資料集的欄位型態及缺失值   

透過 `info()` 可得知資料集中每個欄位的型態及非缺失的資料總數：

In [None]:
df.info( )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    6 non-null      object 
 1   Height  5 non-null      float64
 2   Weight  5 non-null      float64
dtypes: float64(2), object(1)
memory usage: 272.0+ bytes


從上面結果可知，資料集總計有 6 筆資料，其中 Height 及 Weight 欄位中分別有一個缺失值( Missing Value )。

## 顯示頭/尾五筆的資料   

透過 `head()` 可顯示資料集的頭五筆資料，`tail()` 則顯示資料集的最後五筆資料：

In [None]:
df.head( )

Unnamed: 0,Name,Height,Weight
0,Tony,183.0,83.0
1,Amy,160.0,46.5
2,Bob,,98.0
3,Alex,175.0,
4,Peter,173.0,85.0


In [None]:
df.tail( )

Unnamed: 0,Name,Height,Weight
1,Amy,160.0,46.5
2,Bob,,98.0
3,Alex,175.0,
4,Peter,173.0,85.0
5,Ken,183.0,75.4


## 查詢數值欄位的敘述統計   

針對**數值型態**的欄位，我們可使用 [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) 函數獲得數值的分佈狀況：

In [None]:
df.describe( )

Unnamed: 0,Height,Weight
count,5.0,5.0
mean,174.8,77.58
std,9.444575,19.18416
min,160.0,46.5
25%,173.0,75.4
50%,175.0,83.0
75%,183.0,85.0
max,183.0,98.0


`describe( include='all' )` 則回傳資料集全部欄位的摘要統計： 

In [None]:
df.describe( include='all' )

Unnamed: 0,Name,Height,Weight
count,6,5.0,5.0
unique,6,,
top,Ken,,
freq,1,,
mean,,174.8,77.58
std,,9.444575,19.18416
min,,160.0,46.5
25%,,173.0,75.4
50%,,175.0,83.0
75%,,183.0,85.0


## 選取資料   

Pandas 提供我們標籤 `loc` 或位置 `iloc` 的索引器( indexer )，選擇所需要的資料：

 * [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)：透過列/行的標籤(列索引/欄位名稱)取得資料。

In [None]:
# 取得第一筆資料
df_1 = df.loc[ 0 ]

# 取得第一筆資料
df_2 = df.loc[ [0] ]

# 取得前三筆資料
df_3 = df.loc[ 0:2 ]

# 取得前三筆資料的姓名
df_4 = df.loc[ 0:2, 'Name' ]

print( f'第一筆資料( {type(df_1)} )： \n{df_1}\n ' )
print( f'第一筆資料( {type(df_2)} )： \n{df_2}\n ' )
print( f'前三筆資料( {type(df_3)} )： \n{df_3}\n ' )
print( f'前三筆資料的姓名( {type(df_4)} )： \n{df_4}\n ' )

第一筆資料( <class 'pandas.core.series.Series'> )： 
Name      Tony
Height     183
Weight      83
Name: 0, dtype: object
 
第一筆資料( <class 'pandas.core.frame.DataFrame'> )： 
   Name  Height  Weight
0  Tony   183.0    83.0
 
前三筆資料( <class 'pandas.core.frame.DataFrame'> )： 
   Name  Height  Weight
0  Tony   183.0    83.0
1   Amy   160.0    46.5
2   Bob     NaN    98.0
 
前三筆資料的姓名( <class 'pandas.core.series.Series'> )： 
0    Tony
1     Amy
2     Bob
Name: Name, dtype: object
 


 * [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)：透過列/行的索引編號(列索引/欄索引)取得資料。 



In [None]:
# 取得第一筆資料
df_1 = df.iloc[ 0 ]

# 取得第一筆資料
df_2 = df.iloc[ [0] ]

# 取得前三筆資料
df_3 = df.iloc[ 0:3 ]

# 取得前三筆資料的姓名
df_4 = df.iloc[ 0:3, 0 ]

print( f'第一筆資料( {type(df_1)} )： \n{df_1}\n ' )
print( f'第一筆資料( {type(df_2)} )： \n{df_2}\n ' )
print( f'前三筆資料( {type(df_3)} )： \n{df_3}\n ' )
print( f'前三筆資料的姓名( {type(df_4)} )： \n{df_4}\n ' )

第一筆資料( <class 'pandas.core.series.Series'> )： 
Name      Tony
Height     183
Weight      83
Name: 0, dtype: object
 
第一筆資料( <class 'pandas.core.frame.DataFrame'> )： 
   Name  Height  Weight
0  Tony   183.0    83.0
 
前三筆資料( <class 'pandas.core.frame.DataFrame'> )： 
   Name  Height  Weight
0  Tony   183.0    83.0
1   Amy   160.0    46.5
2   Bob     NaN    98.0
 
前三筆資料的姓名( <class 'pandas.core.series.Series'> )： 
0    Tony
1     Amy
2     Bob
Name: Name, dtype: object
 


* 藉由 NumPy 布林索引，我們可以選擇滿足特殊條件的資料：

In [None]:
# 選取身高大於或等於 175 的資料
df_1 = df[ df.Height>=175 ]

# 選取身高大於或等於 175 且體重小於 80 的資料
df_2 = df[ (df.Height>=175) & (df.Weight<80) ]

# 選取身高大於或等於 175 且體重小於 80 的姓名
df_3 = df.loc[ (df.Height>=175) & (df.Weight<80),'Name' ]

print( f'原始資料： \n{df}\n' )
print( f'身高 >= 175 的資料( {type(df_1)} )： \n{df_1}\n ' )
print( f'身高 >= 175 且體重 < 80 的資料( {type(df_2)} )： \n{df_2}\n ' )
print( f'身高 >= 175 且體重 < 80 的姓名( {type(df_3)} )： \n{df_3}\n ' )

原始資料： 
    Name  Height  Weight
0   Tony   183.0    83.0
1    Amy   160.0    46.5
2    Bob     NaN    98.0
3   Alex   175.0     NaN
4  Peter   173.0    85.0
5    Ken   183.0    75.4

身高 >= 175 的資料( <class 'pandas.core.frame.DataFrame'> )： 
   Name  Height  Weight
0  Tony   183.0    83.0
3  Alex   175.0     NaN
5   Ken   183.0    75.4
 
身高 >= 175 且體重 < 80 的資料( <class 'pandas.core.frame.DataFrame'> )： 
  Name  Height  Weight
5  Ken   183.0    75.4
 
身高 >= 175 且體重 < 80 的姓名( <class 'pandas.core.series.Series'> )： 
5    Ken
Name: Name, dtype: object
 


## 刪除資料   

我們可使用 [`drop( axis )`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html) 函數來刪除不必要的資料，其中參數 axis 決定刪除列( axis = 0 )或欄( axis = 1 )的資料，預設值為 0 ：

In [None]:
# 刪除 Height 欄位
df_1 = df.drop( ['Height'], axis=1 )

# 刪除第四筆資料
df_2 = df.drop( 3, axis=0 )

print( f'原始資料： \n{df}\n' )
print( f'刪除 Height 欄位( {type(df_1)} )： \n{df_1}\n' )
print( f'刪除第四筆資料( {type(df_2)} )： \n{df_2}\n' )

原始資料： 
    Name  Height  Weight
0   Tony   183.0    83.0
1    Amy   160.0    46.5
2    Bob     NaN    98.0
3   Alex   175.0     NaN
4  Peter   173.0    85.0
5    Ken   183.0    75.4

刪除 Height 欄位( <class 'pandas.core.frame.DataFrame'> )： 
    Name  Weight
0   Tony    83.0
1    Amy    46.5
2    Bob    98.0
3   Alex     NaN
4  Peter    85.0
5    Ken    75.4

刪除第四筆資料( <class 'pandas.core.frame.DataFrame'> )： 
    Name  Height  Weight
0   Tony   183.0    83.0
1    Amy   160.0    46.5
2    Bob     NaN    98.0
4  Peter   173.0    85.0
5    Ken   183.0    75.4



## 排序資料   

我們可使用 [`sort_values( by, ascending )`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) 函數對指定欄位進行排序，其中參數 by 為指定的欄位名稱，參數 ascending 為排序的方式(預設為 True 由小到大)：

In [None]:
# 針對 Weight 欄位進行排序
df_1 = df.sort_values( 'Height' )

# 針對 Weight 欄位進行排序
df_2 = df.sort_values( by=['Height','Weight'] )

print( f'原始資料： \n{df}\n' )
print( f'對 Height 欄位由小到大排序( {type(df_1)} )： \n{df_1}\n' )
print( f'先對 Height 欄位再對 Weight 欄位由小到大排序( {type(df_2)} )： \n{df_2}\n' )

原始資料： 
    Name  Height  Weight
0   Tony   183.0    83.0
1    Amy   160.0    46.5
2    Bob     NaN    98.0
3   Alex   175.0     NaN
4  Peter   173.0    85.0
5    Ken   183.0    75.4

對 Height 欄位由小到大排序( <class 'pandas.core.frame.DataFrame'> )： 
    Name  Height  Weight
1    Amy   160.0    46.5
4  Peter   173.0    85.0
3   Alex   175.0     NaN
0   Tony   183.0    83.0
5    Ken   183.0    75.4
2    Bob     NaN    98.0

先對 Height 欄位再對 Weight 欄位由小到大排序( <class 'pandas.core.frame.DataFrame'> )： 
    Name  Height  Weight
1    Amy   160.0    46.5
4  Peter   173.0    85.0
3   Alex   175.0     NaN
5    Ken   183.0    75.4
0   Tony   183.0    83.0
2    Bob     NaN    98.0



## 欄位的運算   

[`apply()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html) 及 [`applymap()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html) 函數可用來操作 DataFrame 欄位之間的運算，此兩種方法通常會搭配 [lambda](https://www.w3schools.com/python/python_lambda.asp) 匿名運算式一起使用 :

In [None]:
print( f'原始資料： \n{df}\n' )

# 計算每筆資料的 BMI 值，且將結果儲存在新的欄位中。
df['BMI'] = df.apply( lambda x: x['Weight']/(x['Height']/100)**2, axis=1 )
print( f'新增 BMI 資料： \n{df}\n' )

原始資料： 
    Name  Height  Weight
0   Tony   183.0    83.0
1    Amy   160.0    46.5
2    Bob     NaN    98.0
3   Alex   175.0     NaN
4  Peter   173.0    85.0
5    Ken   183.0    75.4

新增 BMI 資料： 
    Name  Height  Weight        BMI
0   Tony   183.0    83.0  24.784258
1    Amy   160.0    46.5  18.164062
2    Bob     NaN    98.0        NaN
3   Alex   175.0     NaN        NaN
4  Peter   173.0    85.0  28.400548
5    Ken   183.0    75.4  22.514856



In [None]:
# 將上述計算的 BMI 值四捨五入取到小數點以下第一位
df['BMI_2'] = df[['BMI']].applymap( lambda x: '{:.3}'.format(x) if isinstance(x,float) else str(x) )
print( f'BMI 值取四捨五入至小數點第一位： \n{df}\n' )

BMI 值取四捨五入至小數點第一位： 
    Name  Height  Weight        BMI BMI_2
0   Tony   183.0    83.0  24.784258  24.8
1    Amy   160.0    46.5  18.164062  18.2
2    Bob     NaN    98.0        NaN   nan
3   Alex   175.0     NaN        NaN   nan
4  Peter   173.0    85.0  28.400548  28.4
5    Ken   183.0    75.4  22.514856  22.5



# DataFrame 的匯入與匯出   


Pandas 套件支援多種格式的資料匯入至 DataFrame ，或 DataFrame 匯出成其他的檔案格式，常用的相關函數如下：   
  * 匯入  
   * [pd.read_csv( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) : 讀取 .csv 、 .txt 等文字檔資料；  
   * [pd.read_excel( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) : 讀取 Excel 資料，例如： xlsx 、 xls 檔；  
   * [pd.read_html( )](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html) : 讀取 html 表格標籤的檔案，常使用在網路爬蟲後的讀取資料解析；  
  * 匯出
   * [pd.to_csv( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html) : 將 DataFrame 物件寫入文字檔；   
   * [pd.to_excel( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) : 將 DataFrame 物件寫入 Excel 檔。  

# 結語   

本文介紹了 <font color="#00dd00">**Pandas**</font> 套件的功能及基本操作，此時我們已學會如何運用 DataFrame 來儲存、篩選、刪除、排序及匯入匯出資料，甚至透過欄位間的運算產生新的資料。然而， Pandas 套件所提供的工具並不僅於此，後續我們將介紹 [Pandas](https://pandas.pydata.org) 在資料分析中的其他用法。   
在資料分析的過程中， Pandas 套件可說扮演著舉足輕重的角色，它提供了實用的資料容器 DataFrame 及多樣的資料處理工具，且在資料的預前處理( Data Preprocessing )過程中， Pandas 更是一個不可或缺的套件，因此，若我們能靈活運用 Pandas 及前一篇所介紹的 NumPy 兩個套件，將能對資料進行更多元的分析與探勘。   
針對本文的內容，若讀者們有發現任何的錯誤或疑問，非常歡迎您[來信( yenlinwu1112@gmail.com )](mailto:yenlinwu1112@gmail.com )給予建議及討論，讓我們一同來學習成長！

# 返回 [課程大綱](https://github.com/AI-FREE-Team/Machine-Learning-Basic)