## <ins>Pandas 教材與程式範例</ins>

**Pandas套件[(wiki)](https://zh.wikipedia.org/wiki/Pandas)可以說是<font color=#FF00FF>Python程式碼版的Excel試算表工具</font>，用來幫助我們進行資料處理和分析。** 

**Pandas套件是資料處理和分析工具，簡單的說，我們可以將Pandas套件視為是一套Python程式版的Excel試算表工具，透過簡單的Python程式碼，就可以針對表格資料執行Excel試算表的功能。**<br/>
**Pandas套件和貓熊（Panda Bears）並沒有任何關係，這個名稱是源於 "Python and data analysis" and "panel data"字首的縮寫，Pandas是一套使用Python語言開發的Python套件，完整包含 NumPy、Scipy 和 Matplotlab 套件的功能，其主要目的是幫助開發者進行資料處理和分析，事實上，資料科學有80%的工作都是在進行資料處理。**<br/>
**Pandas的重要性：**<br/>
**PyData (http://pydata.org/) 是 Python 重要的相關社群，裡頭統整的Python工具非常多，稱為 PyData Stack 工具群，其中 Pandas 扮演著資料處理、分析的非常核心與重要角色。**
<br/><br/>
**認識Pandas套件 – PyData Stack：**<br></br><br></br>
<div><img src="pic/pydata1.gif" width="600"/></div>
<br></br><br></br>
<div><img src="pic/pydata2.gif" width="800"/></div>
<br></br><br></br>

**列舉Pandas提供的機制與功能：**
1. **輸入資料的功能(CSV, EXCEL, JSON, HTML, RDB/關聯式資料庫, HDF5等)**
2. **以能高速處理的格式來儲存資料**
3. **遺漏資料(Not a Number, NaN)的處理**
4. **資料的取出與結合**
5. **資料的彈性變更與 pivot 樞紐處理**
6. **對資料的統計處理與迴歸分析處理等**
7. **資料的集結與整合運算**
<br></br><br></br>

**Pandas套件提供兩種資料結構，其說明如下所示：**
1. **<font color=#FF0000>Series物件</font>：類似一維陣列的物件，這是一個擁有標籤的一維陣列，更正確的說，我們可以將Series視為是2個陣列的組合，一個是類似索引的標籤，另一個是實際資料。**
2. **<font color=#FF0000>DataFrame物件</font>：類似試算表的表格資料，這是一個有標籤（索引）的二維陣列，一個可以任易更改結構的表格，每一欄允許儲存不同資料型態的資料。**
3. **<font color=#FF0000>Panel物件</font>：類似三維陣列的物件，因DataFrame可儲存多為資料於二維資料區域，因此Panel變得很少使用，新版已移除。**
<br></br><br></br>
<div><img src="pic/pandasds.gif" width="600"/></div>
<br></br><br></br>

**本教材涵蓋以下範圍：**
1. **Pandas套件的基礎**
2. **DataFrame的基本使用**
3. **選擇、過濾與排序資料**
4. **合併與更新DataFrame物件**
5. **群組、樞紐分析與套用函數**
<br></br><br></br>

**重要教學參考網頁：**
1. [Pandas Manual(官網)](https://pandas.pydata.org/)
2. Tutorials: [[1]](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html), [[2]](https://data-flair.training/blogs/pandas-tutorial/), [[3]](https://oranwind.org/python-pandas-ji-chu-jiao-xue/), [[4]](https://leemeng.tw/practical-pandas-tutorial-for-aspiring-data-scientists.html)
3. [SciPy+NumPy Lecture Notes](https://scipy-lectures.org/)
4. [API Reference](https://pandas.pydata.org/pandas-docs/version/0.19/api.html)

In [1]:
import pandas as pd

import numpy as np

#### **Series物件 – 建立Series物件**

In [4]:
s = pd.Series([12, 29, 72, 4, 8, 10])  # 全部資料是整數

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

0    12
1    29
2    72
3     4
4     8
5    10
dtype: int64 
左欄是自動附加的列標籤，右欄是Series的資料


In [5]:
s = pd.Series([12, 29, 72, 4, 8, 10], dtype = np.int32)  # 全部資料是整數

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

0    12
1    29
2    72
3     4
4     8
5    10
dtype: int32 
左欄是自動附加的列標籤，右欄是Series的資料


In [6]:
s = pd.Series([12, 29.0, 72.0, 4, 8, 10.5]) # 部分資料是非整數

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

0    12.0
1    29.0
2    72.0
3     4.0
4     8.0
5    10.5
dtype: float64 
左欄是自動附加的列標籤，右欄是Series的資料


In [7]:
s = pd.Series([1, 'aa', 10+20j, np.nan]) # 資料混合型別

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

0           1
1          aa
2    (10+20j)
3         NaN
dtype: object 
左欄是自動附加的列標籤，右欄是Series的資料


In [8]:
s = pd.Series({'a':1, 'b':2, 'c':3, 'd':4}) # 資料是字典 dict 型別

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

a    1
b    2
c    3
d    4
dtype: int64 
左欄是自動附加的列標籤，右欄是Series的資料


#### **Series物件 – 建立自訂索引(從 1 開始)的Series物件**

In [9]:
s = pd.Series([12, 29, 72, 4, 8, 10])  # 全部資料是整數

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

print('\n原始預設的 s.index = ', s.index)

s.index += 1

print('\n調整重設的 s.index = ', s.index, '\n')

print(s , '\n左欄是自動附加的列標籤，右欄是Series的資料')  

0    12
1    29
2    72
3     4
4     8
5    10
dtype: int64 
左欄是自動附加的列標籤，右欄是Series的資料

原始預設的 s.index =  RangeIndex(start=0, stop=6, step=1)

調整重設的 s.index =  RangeIndex(start=1, stop=7, step=1) 

1    12
2    29
3    72
4     4
5     8
6    10
dtype: int64 
左欄是自動附加的列標籤，右欄是Series的資料


#### **Series物件 – 建立自訂索引的Series物件**

In [10]:
fruits = ["蘋果", "橘子", "梨子", "櫻桃"]

quantities = [15, 33, 45, 55]

s = pd.Series(quantities, index = fruits) 

print(s, '\n')

print(s.index, '\n')

print(s.values)  

蘋果    15
橘子    33
梨子    45
櫻桃    55
dtype: int64 

Index(['蘋果', '橘子', '梨子', '櫻桃'], dtype='object') 

[15 33 45 55]


In [11]:
dir(s)

['T',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__

In [12]:
s?

#### **Series物件 – Series物件加法的聯集運算**

In [14]:
fruits = ["蘋果", "橘子", "梨子", "櫻桃"]

quantities = [15, 33, 45, 55]

s = pd.Series(quantities, index = fruits)

p = pd.Series([11, 16, 21, 32], index = fruits) 

print(s + p, '\n')

print("總計 = ", sum(s + p))

蘋果    26
橘子    49
梨子    66
櫻桃    87
dtype: int64 

總計 =  228


#### **Series物件 – 使用索引取出資料和執行NumPy函數**

In [15]:
fruits = ["蘋果", "橘子", "梨子", "櫻桃"]

s = pd.Series([15, 33, 45, 55], index = fruits)

print("橘子 = ", s["橘子"], '\n')

print(s[["橘子", "梨子", "櫻桃"]], '\n')  # 特別寫法

print((s + 2) * 3, '\n')    # 執行四則運算

print(s.apply(np.sin))  # 使用 apply() 函數來執行 NumPy 數學函數


橘子 =  33 

橘子    33
梨子    45
櫻桃    55
dtype: int64 

蘋果     51
橘子    105
梨子    141
櫻桃    171
dtype: int64 

蘋果    0.650288
橘子    0.999912
梨子    0.850904
櫻桃   -0.999755
dtype: float64


#### **建立DataFrame物件 – 使用Python字典建立DataFrame物件**

In [16]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}

df = pd.DataFrame(dists) 

df.index += 1

print(df)
df


   name  population city
1   中正區      159598  台北市
2   板橋區      551452  新北市
3   桃園區      441287  桃園市
4   北屯區      275207  台中市
5   安南區      192327  台南市
6   三民區      343203  高雄市
7   大安區      309835  台北市
8   永和區      222531  新北市
9   八德區      198473  桃園市
10  前鎮區      189623  高雄市
11  鳳山區      359125  高雄市
12  信義區      225561  台北市
13  新店區      302070  新北市


Unnamed: 0,name,population,city
1,中正區,159598,台北市
2,板橋區,551452,新北市
3,桃園區,441287,桃園市
4,北屯區,275207,台中市
5,安南區,192327,台南市
6,三民區,343203,高雄市
7,大安區,309835,台北市
8,永和區,222531,新北市
9,八德區,198473,桃園市
10,前鎮區,189623,高雄市


In [8]:
help(df.to_html)

Help on method to_html in module pandas.core.frame:

to_html(buf=None, columns=None, col_space=None, header=True, index=True, na_rep='NaN', formatters=None, float_format=None, sparsify=None, index_names=True, justify=None, max_rows=None, max_cols=None, show_dimensions=False, decimal='.', bold_rows=True, classes=None, escape=True, notebook=False, border=None, table_id=None, render_links=False, encoding=None) method of pandas.core.frame.DataFrame instance
    Render a DataFrame as an HTML table.
    
    Parameters
    ----------
    buf : str, Path or StringIO-like, optional, default None
        Buffer to write to. If None, the output is returned as a string.
    columns : sequence, optional, default None
        The subset of columns to write. Writes all columns by default.
    col_space : str or int, list or dict of int or str, optional
        The minimum width of each column in CSS length units.  An int is assumed to be px units.
    
        .. versionadded:: 0.25.0
            Ab

In [None]:
dir(df)

In [9]:
df.to_html("p01.html")  # 存成 html 檔，此法只適用於無中文字的內容呈現

In [6]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}

df = pd.DataFrame(dists) 

print(df)

# 存成 html 檔，並能成功顯示中文
html = df.to_html() 

with open("p01_Chinese.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市


#### **建立DataFrame物件 – 建立自訂索引的DataFrame物件**

In [3]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}

# 自訂索引
ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]         

df = pd.DataFrame(dists, index = ordinals) 

print(df, '\n')  


# 存成 html 檔，並能成功顯示中文
html = df.to_html() 

with open("p01a.html", "w", encoding="utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)
    

df2 = pd.DataFrame(dists)  # 先建立 DataFrame 物件後，再使用 df.index 屬性來更改使用的索引

df2.index = ordinals

print(df2) 

           name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市 

           name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市


#### **建立DataFrame物件 – 重新指定DataFrame物件的欄位順序**

In [4]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
         
ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]         

#
# 方法一
#
df = pd.DataFrame(dists, 
                  columns = ["name", "city", "population"],
                  index = ordinals) 

print(df, '\n')


# 存成 html 檔，並能成功顯示中文
html = df.to_html() 

with open("p01b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)

    
#
# 方法二
#
df2 = pd.DataFrame(dists, index = ordinals)

df2 = df2.reindex(columns = ["name", "city", "population"])  # 此為正確寫法
#df2.columns = ["name", "city", "population"]  # 這個寫的方法有誤
print(df2, '\n') 

#
# 方法三
#
df3 = pd.DataFrame(dists, index = ordinals)

df3 = df3[["name", "population"]]

print(df3)

           name city  population
first       中正區  台北市      159598
second      板橋區  新北市      551452
third       桃園區  桃園市      441287
fourth      北屯區  台中市      275207
fifth       安南區  台南市      192327
sixth       三民區  高雄市      343203
seventh     大安區  台北市      309835
eigth       永和區  新北市      222531
ninth       八德區  桃園市      198473
tenth       前鎮區  高雄市      189623
eleventh    鳳山區  高雄市      359125
twelvth     信義區  台北市      225561
thirteenth  新店區  新北市      302070 

           name city  population
first       中正區  台北市      159598
second      板橋區  新北市      551452
third       桃園區  桃園市      441287
fourth      北屯區  台中市      275207
fifth       安南區  台南市      192327
sixth       三民區  高雄市      343203
seventh     大安區  台北市      309835
eigth       永和區  新北市      222531
ninth       八德區  桃園市      198473
tenth       前鎮區  高雄市      189623
eleventh    鳳山區  高雄市      359125
twelvth     信義區  台北市      225561
thirteenth  新店區  新北市      302070 

           name  population
first       中正區      159598
second      板橋區 

#### **建立DataFrame物件 – 使用存在的欄位作為索引標籤**

In [7]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
         
df = pd.DataFrame(dists, 
                  columns = ["name", "population"],
                  index = dists["city"]) 

print(df, '\n')


# 存成 html 檔，並能成功顯示中文
html = df.to_html() 

with open("p01c.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)

    name  population
台北市  中正區      159598
新北市  板橋區      551452
桃園市  桃園區      441287
台中市  北屯區      275207
台南市  安南區      192327
高雄市  三民區      343203
台北市  大安區      309835
新北市  永和區      222531
桃園市  八德區      198473
高雄市  前鎮區      189623
高雄市  鳳山區      359125
台北市  信義區      225561
新北市  新店區      302070 



#### **建立DataFrame物件 – 轉置DataFrame物件**

In [8]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
         
ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]         

df = pd.DataFrame(dists, 
                  columns = ["name", "population"],
                  index = dists["city"]) 

In [9]:
print(df.T) # .T 為轉置矩陣的方法


# 存成 html 檔，並能成功顯示中文
html = df.T.to_html() 

with open("p01d.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

               台北市     新北市     桃園市     台中市     台南市     高雄市     台北市     新北市  \
name           中正區     板橋區     桃園區     北屯區     安南區     三民區     大安區     永和區   
population  159598  551452  441287  275207  192327  343203  309835  222531   

               桃園市     高雄市     高雄市     台北市     新北市  
name           八德區     前鎮區     鳳山區     信義區     新店區  
population  198473  189623  359125  225561  302070  


#### **匯出DataFrame物件至檔案**

In [12]:
dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}


df = pd.DataFrame(dists) 

df.to_csv("dists.csv", index = False, encoding = "utf8") # 以 unicode 編碼匯出至 csv檔案
                      # index = False 表示不將索引寫入檔案
df.to_json("dists.json") # 匯出至 JSON格式檔案

**JSON線上閱讀器：**[[1]](https://jsoneditoronline.org/#left=local.recigi)

#### **匯入檔案資料至 DataFrame 物件**

In [12]:
# 匯入 CSV 格式的檔案
df = pd.read_csv("dists.csv", encoding = "utf8")

print(df, '\n')    # 印出全部 DataFrame 內的資料

# 存成 html 檔，並能成功顯示中文
html = df.to_html() 

with open("p02a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)


# 匯入 JSON 格式的檔案
df2 = pd.read_json("dists.json")

print(df2, '\n')   # 印出全部 DataFrame 內的資料

# 存成 html 檔，並能成功顯示中文
html = df2.to_html() 

with open("p02b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)

   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市 

   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市 



#### **顯示基本資訊 – 顯示前幾筆記錄**

In [5]:
df = pd.read_csv("dists.csv", encoding = "utf8")

print(df.head(), '\n') # 預計印出前 5 筆

print(df.head(3)) # 印出前 3 筆

# 存成 html 檔，並能成功顯示中文
html = df.head().to_html() 

with open("p03a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)
    
    
# 存成 html 檔，並能成功顯示中文
html = df.head(3).to_html() 

with open("p03b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

  name  population city
0  中正區      159598  台北市
1  板橋區      551452  新北市
2  桃園區      441287  桃園市
3  北屯區      275207  台中市
4  安南區      192327  台南市 

  name  population city
0  中正區      159598  台北市
1  板橋區      551452  新北市
2  桃園區      441287  桃園市


#### **顯示基本資訊 – 顯示前最後幾筆記錄**

In [6]:
df = pd.read_csv("dists.csv", encoding = "utf8")

print(df.tail(), '\n')  # 預計印出最後 5 筆

print(df.tail(3), '\n') # 印出最後 3 筆


# 存成 html 檔，並能成功顯示中文
html = df.tail().to_html() 

with open("p04a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)
    
    
    
# 存成 html 檔，並能成功顯示中文
html = df.tail(3).to_html() 

with open("p04b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

   name  population city
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市 

   name  population city
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市 



#### **顯示基本資訊 – 顯示自訂的欄位標籤**

In [7]:
df = pd.read_csv("dists.csv", encoding = "utf8")

print(df.head(4), '\n')

df.columns = ["區", "人口", "直轄市"]    # 此為正確方法

print(df.head(4)) 


# 存成 html 檔，並能成功顯示中文
html = df.head(4).to_html() 

with open("p05.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

  name  population city
0  中正區      159598  台北市
1  板橋區      551452  新北市
2  桃園區      441287  桃園市
3  北屯區      275207  台中市 

     區      人口  直轄市
0  中正區  159598  台北市
1  板橋區  551452  新北市
2  桃園區  441287  桃園市
3  北屯區  275207  台中市


#### **顯示基本資訊 – 取得DataFrame物件的索引、欄位和資料**

In [10]:
df = pd.read_csv("dists.csv", encoding = "utf8")
df.columns = ["區", "人口", "直轄市"]
#
# 使用 index、columns和 values 屬性取得 DataFrame 物件的索引、欄位標籤和資料
#
print(df.index, '\n')

print(df.columns, '\n')

print(df.values)  
df

RangeIndex(start=0, stop=13, step=1) 

Index(['區', '人口', '直轄市'], dtype='object') 

[['中正區' 159598 '台北市']
 ['板橋區' 551452 '新北市']
 ['桃園區' 441287 '桃園市']
 ['北屯區' 275207 '台中市']
 ['安南區' 192327 '台南市']
 ['三民區' 343203 '高雄市']
 ['大安區' 309835 '台北市']
 ['永和區' 222531 '新北市']
 ['八德區' 198473 '桃園市']
 ['前鎮區' 189623 '高雄市']
 ['鳳山區' 359125 '高雄市']
 ['信義區' 225561 '台北市']
 ['新店區' 302070 '新北市']]


Unnamed: 0,區,人口,直轄市
0,中正區,159598,台北市
1,板橋區,551452,新北市
2,桃園區,441287,桃園市
3,北屯區,275207,台中市
4,安南區,192327,台南市
5,三民區,343203,高雄市
6,大安區,309835,台北市
7,永和區,222531,新北市
8,八德區,198473,桃園市
9,前鎮區,189623,高雄市


#### **顯示基本資訊 – 顯示DataFrame物件的摘要資訊**

In [11]:
df = pd.read_csv("dists.csv", encoding = "utf8")

print("資料數 = ", len(df), '\n')  # len()函數取得 DataFrame 物件的記錄數

print("形狀 = ", df.shape, '\n')  # shape 屬性取得形狀

df.info()  # info()函數取得摘要資訊

資料數 =  13 

形狀 =  (13, 3) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        13 non-null     object
 1   population  13 non-null     int64 
 2   city        13 non-null     object
dtypes: int64(1), object(2)
memory usage: 440.0+ bytes


#### **走訪DataFrame物件**

In [4]:
df = pd.read_csv("dists.csv", encoding = "utf8")

for index, row in df.iterrows():  #使用 iterrows() 函數走訪 DataFrame 物件，一次一個 row
    
    print(index, row["city"], row["name"], row["population"])

0 台北市 中正區 159598
1 新北市 板橋區 551452
2 桃園市 桃園區 441287
3 台中市 北屯區 275207
4 台南市 安南區 192327
5 高雄市 三民區 343203
6 台北市 大安區 309835
7 新北市 永和區 222531
8 桃園市 八德區 198473
9 高雄市 前鎮區 189623
10 高雄市 鳳山區 359125
11 台北市 信義區 225561
12 新北市 新店區 302070


#### **指定DataFrame物件的索引 – 指定DataFrame物件的單一欄位索引**

In [5]:
df = pd.read_csv("dists.csv", encoding = "utf8")

# DataFrame 物件可以指定和重設索引的欄位
df2 = df.set_index("city")

print(df2.head(), '\n')


# 存成 html 檔，並能成功顯示中文
html = df2.head().to_html() 

with open("p06a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
    
# DataFrame物件可以重設回原始的整數索引
df3 = df2.reset_index()

print(df3.head())


# 存成 html 檔，並能成功顯示中文
html = df3.head().to_html() 

with open("p06b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

     name  population
city                 
台北市   中正區      159598
新北市   板橋區      551452
桃園市   桃園區      441287
台中市   北屯區      275207
台南市   安南區      192327 

  city name  population
0  台北市  中正區      159598
1  新北市  板橋區      551452
2  桃園市  桃園區      441287
3  台中市  北屯區      275207
4  台南市  安南區      192327


#### **指定DataFrame物件的索引 – 指定DataFrame物件的多欄位複合索引**

In [13]:
df = pd.read_csv("dists.csv", encoding = "utf8")

df2 = df.set_index(["city", "name"])

print(df2, '\n')

           population
city name            
台北市  中正區       159598
新北市  板橋區       551452
桃園市  桃園區       441287
台中市  北屯區       275207
台南市  安南區       192327
高雄市  三民區       343203
台北市  大安區       309835
新北市  永和區       222531
桃園市  八德區       198473
高雄市  前鎮區       189623
     鳳山區       359125
台北市  信義區       225561
新北市  新店區       302070 



In [14]:
# multi-index level sorting 
df2.sort_index(ascending = False, inplace = True)

print(df2, '\n')


# 存成 html 檔，並能成功顯示中文
html = df2.to_html() 

with open("p07.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

           population
city name            
高雄市  鳳山區       359125
     前鎮區       189623
     三民區       343203
桃園市  桃園區       441287
     八德區       198473
新北市  永和區       222531
     板橋區       551452
     新店區       302070
台南市  安南區       192327
台北市  大安區       309835
     信義區       225561
     中正區       159598
台中市  北屯區       275207 



#### [Unicode 編碼轉換工具](https://www.ifreesite.com/unicode-ascii-ansi.htm)

#### **Sample [補充]指定DataFrame物件的多欄位複合索引(階層型索引)**

In [8]:
#
# 階層型索引 Hierarchical indexing
#
df = pd.DataFrame(
                  np.random.rand(4, 4),
                  
                  index = [['x', 'x', 'y', 'y'],
                           [0, 1, 0, 1]],  # 以巢狀 list 指定二階層的獵標籤
                  
                  columns = ['Time_a', 'Time_b', 'Vel_a', 'Vel_b'] 
                  )

print(df, '\n')

df.to_html("p08.html")  # 內容無中文，所以直接用最簡單的方法來處理

#
# 使用上面的 DataFrame 物件，示範如何抽出列標籤 (axis = 0)的
# 第二個階層 (level = 1) 為 0 的資料
#
a = df.xs(0, level = 1, axis = 0)

print(a, '\n')

#
# 使用上面的 DataFrame 物件，抽出列標籤 (axis = 0)的
# 第二個階層 (level = 1) 為 1 的資料
#
b = df.xs(1, level = 1, axis = 0)

print(b, '\n')

#
# 重要技巧： 如同上面的寫法先將標籤依特定的規則寫好，之後如要
# 轉成階層型索引，可將標籤以 _(底線)進行多階層化的轉換
#
df.columns = pd.MultiIndex.from_tuples([tuple(c.split('_')) for c in df.columns])

print(df)

df.to_html("p08_2.html")  # 內容無中文，所以直接用最簡單的方法來處理

       Time_a    Time_b     Vel_a     Vel_b
x 0  0.276223  0.407990  0.705425  0.577749
  1  0.675585  0.255827  0.532128  0.173459
y 0  0.706030  0.888041  0.805350  0.739027
  1  0.512574  0.536687  0.909853  0.365379 

     Time_a    Time_b     Vel_a     Vel_b
x  0.276223  0.407990  0.705425  0.577749
y  0.706030  0.888041  0.805350  0.739027 

     Time_a    Time_b     Vel_a     Vel_b
x  0.675585  0.255827  0.532128  0.173459
y  0.512574  0.536687  0.909853  0.365379 

         Time                 Vel          
            a         b         a         b
x 0  0.276223  0.407990  0.705425  0.577749
  1  0.675585  0.255827  0.532128  0.173459
y 0  0.706030  0.888041  0.805350  0.739027
  1  0.512574  0.536687  0.909853  0.365379


#### **選擇資料 – 選擇單一欄位Series物件或多個欄位DataFrame物件**

In [15]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df["population"].head(3), '\n')  # 取得 population 單一欄位的前 3 筆

print(df[["city","name"]].head(3), '\n')  # 選擇多欄位

# 存成 html 檔，並能成功顯示中文
html = df[["city","name"]].head(3).to_html() 

with open("p09.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
    
print(df.population.head(3))   # 使用屬性方式

first     159598
second    551452
third     441287
Name: population, dtype: int64 

       city name
first   台北市  中正區
second  新北市  板橋區
third   桃園市  桃園區 

first     159598
second    551452
third     441287
Name: population, dtype: int64


In [None]:
dir(df)

#### **選擇資料 – 選擇特定欄位的多筆資料**

In [10]:
df = pd.read_csv("dists.csv", encoding="utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df[0:3], '\n')                # 不含 3

print(df["sixth":"eleventh"]) # 含 "eleventh" (使用自訂索引的標籤名稱會包含最後一筆)

# 存成 html 檔，並能成功顯示中文
html = df[0:3].to_html() 

with open("p10a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)
    

# 存成 html 檔，並能成功顯示中文
html = df["sixth":"eleventh"].to_html() 

with open("p10b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)

       name  population city
first   中正區      159598  台北市
second  板橋區      551452  新北市
third   桃園區      441287  桃園市 

         name  population city
sixth     三民區      343203  高雄市
seventh   大安區      309835  台北市
eigth     永和區      222531  新北市
ninth     八德區      198473  桃園市
tenth     前鎮區      189623  高雄市
eleventh  鳳山區      359125  高雄市


#### **選擇資料 – 使用標籤選擇資料**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')
#
# 使用 loc 索引器以標籤索引來選擇指定記錄，還可以選擇所需的欄位
#
print(df.loc[ordinals[1]], '\n') # index = second

print(type(df.loc[ordinals[1]]), '\n') 

print(df.loc[:, ["name", "population"]].head(3), '\n')  # [:,] 表示要所有紀錄

# 存成 html 檔，並能成功顯示中文
html = df.loc[:, ["name", "population"]].head(3).to_html() 

with open("p11a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)
    

print(df.loc["third":"fifth", ["name", "population"]], '\n')

print(df.loc["third", ["name", "population"]], '\n')

# 存成 html 檔，並能成功顯示中文
html = df.loc["third":"fifth", ["name", "population"]].to_html() 

with open("p11b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset="UTF-8">\n')
    
    file.write(html)
    

# 取得單一純量值
print(df.loc[ordinals[0], "name"], '\n')

print(type(df.loc[ordinals[0], "name"]), '\n')

print(df.loc["first", "population"], '\n')

print(type(df.loc["first", "population"]))

#### [python pandas 中 loc & iloc 用法區別](https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/462517/)
#### [Pandas實用技巧loc, iloc, ix的區別](https://kknews.cc/zh-tw/code/kb8ajpp.html)
#### [pandas表格矩陣行列取值的快查表](https://gist.github.com/treegi/97b66e8656b7166c23691de30228aeb6)
#### [python pandas dataframe 行列選擇,切片操作方法](https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/358063/)

#### **選擇資料 – 使用位置選擇資料**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth", 
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

#
# DataFrame物件的 loc 索引器是使用標籤索引來選擇資料，
# iloc 索引器是使用位置索引，也可以切割 DataFrame 物件的
# 列或欄，即選擇指定範圍的列和欄
#
print(df.iloc[3], '\n')          # 第 4 筆

print(df.iloc[3:5, 1:3], '\n')   # 切割

print(df.iloc[1:3, :], '\n')     # 切割列

print(df.iloc[:, 1:3], '\n')     # 切割欄

#存成 html 檔，並能成功顯示中文
html = df.iloc[3:5, 1:3].to_html() 

with open("p12a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
#存成 html 檔，並能成功顯示中文
html = df.iloc[1:3, :].to_html() 

with open("p12b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
#存成 html 檔，並能成功顯示中文
html = df.iloc[:, 1:3].to_html() 

with open("p12c.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
print(df.iloc[[1,2,4], [0,2]], '\n')   # 索引清單

#存成 html 檔，並能成功顯示中文
html = df.iloc[[1,2,4], [0,2]].to_html() 

with open("p12d.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

# 使用 iloc 或 iat 來取得單一純量值
print(df.iloc[1, 0], '\n') # 板橋區

print(df.iat[1, 1]) # 板橋區人口

#### **過濾資料 – 使用布林索引和isin()函數過濾資料**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df[df.population > 350000], '\n')

# df[df.population > 350000].to_html("p13a.html")  # 此寫法僅適用無中文內容的資料

#存成 html 檔，並能成功顯示中文
html = df[df.population > 350000].to_html() 

with open("p13a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    

print(df[df["city"].isin(["台北市", "高雄市"])])  # isin()可檢查指定欄位值是否在其清單中

#df[df["city"].isin(["台北市", "高雄市"])].to_html("p13b.html")  # 此寫法僅適用無中文內容的資料

#存成 html 檔，並能成功顯示中文
html = df[df["city"].isin(["台北市", "高雄市"])].to_html() 

with open("p13b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **過濾資料 – 使用多個條件和字串函數過濾資料**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df[(df.population > 350000) & (df.population < 500000)], '\n')

# print(df[350000 < df.population < 500000], '\n') # Python 的這種寫法在 Pandas 中不 OK

#df[(df.population > 350000) & (df.population < 500000)].to_html("p14a.html")  # 此寫法僅適用無中文內容的資料

#存成 html 檔，並能成功顯示中文
html = df[(df.population > 350000) & (df.population < 500000)].to_html() 

with open("p14a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
    
print(df[df["city"].str.startswith("台")], '\n')   # 找出字首是以 '台' 開頭的直轄市

#df[df["city"].str.startswith("台")].to_html("p14b.html")  # 此寫法僅適用無中文內容的資料

#存成 html 檔，並能成功顯示中文
html = df[df["city"].str.startswith("台")].to_html() 

with open("p14b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **排序資料 – 指定索引欄位排序**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

df2 = df.set_index("population")

print(df2, '\n')

print(df2.head(), '\n')

#df2.head().to_html("p15a.html")  # 此寫法僅適用無中文內容的資料

#存成 html 檔，並能成功顯示中文
html = df2.head().to_html() 

with open("p15a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    

df2.sort_index(ascending = False, inplace = True) 
# ascending = False 由大到小排序， inplace = True 直接取代更改 df2 的現有資料內容
                                            
print(df2.head(8))

#df2.head(8).to_html("p15b.html")  # 此寫法僅適用無中文內容的資料

#存成 html 檔，並能成功顯示中文
html = df2.to_html() 

with open("p15b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **排序資料 – 指定欄位值排序**

In [10]:

df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.head(), '\n')

#df.head().to_html("p16a.html")

#存成 html 檔，並能成功顯示中文
html = df.head().to_html() 

with open("p16a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    

df2 = df.sort_values("population", ascending = False)

print(df2.head(), '\n')

#df2.head().to_html("p16b.html")

#存成 html 檔，並能成功顯示中文
html = df2.head().to_html() 

with open("p16b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

    
df.sort_values(["city", "population"], inplace = True)

print(df.head())

#df.head().to_html("p16c.html")

#存成 html 檔，並能成功顯示中文
html = df.head().to_html() 

with open("p16c.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

           name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市 

       name  population city
first   中正區      159598  台北市
second  板橋區      551452  新北市
third   桃園區      441287  桃園市
fourth  北屯區      275207  台中市
fifth   安南區      192327  台南市 

         name  population city
second    板橋區      551452  新北市
third     桃園區      441287  桃園市
eleventh  鳳山區      359125  高雄市
sixth     三民區      343203  高雄市
seventh   大安區      309835  台北市 

        name  population city
fourth   北屯區      275207  台中市
first    中正區      159598  台北市
twelvth  信義區      225561  台北市
seventh  大安區      309835  台北市
fifth    安南區      1923

#### [Unicode 編碼轉換工具](https://www.ifreesite.com/unicode-ascii-ansi.htm)

#### **更新資料 – 更新純量值**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.head(2), '\n')

# 取得與更新單一純量值
print(df.loc[ordinals[0], "population"], end = '\n\n')

df.loc[ordinals[0], "population"] = 160000

print(df.iloc[1, 2], '\n')

df.iloc[1, 1] = 560000

print(df.head(2))

#df.head(2).to_html("p17.html")

#存成 html 檔，並能成功顯示中文
html = df.head(2).to_html() 

with open("p17.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **更新資料 – 更新單筆記錄**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.head(3), '\n')

# 取得與更新單筆記錄
print(df.loc[ordinals[1]], '\n')

s = ["新北市", 416640, "新莊區"] 

df.loc[ordinals[1]] = s

print(df.head(3))

#df.head(3).to_html("p18.html")

#存成 html 檔，並能成功顯示中文
html = df.head(3).to_html() 

with open("p18.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **更新資料 – 更新整個欄位值**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

# 取得與更新整個欄位
print(df.loc[:, "population"], '\n')

# 用 NumPy 產生亂數的人口數以更新取代之用
df.loc[:, "population"] = np.random.randint(34000, 700000, size = len(df))

print(df.head(8))

#df.head(8).to_html("p19.html")

#存成 html 檔，並能成功顯示中文
html = df.head(8).to_html() 

with open("p19.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **更新資料 – 更新整個DataFrame物件**

In [None]:
df = pd.DataFrame(np.random.randint(5, 1500, size = (2,3)))

print(df, '\n')

df.to_html("p20a.html")

# 取得與更新整個 DataFrame
print(df[df > 800], '\n')  #找出所有大於800的資料

df[df > 800].to_html("p20b.html")

df[df > 800] = df - 100

print(df)

df.to_html("p20c.html")

#### **刪除資料 – 刪除純量值**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.head(3), '\n')

# 刪除純量值
print(df.loc[ordinals[0], "population"], '\n')

df.loc[ordinals[0], "population"] = None    # 如同更新純量值，刪除只是指定成 None（或 NumPy套件的 np.nan）

print(df.iloc[1, 2], '\n')

df.iloc[1, 1] = None # 刪除值時指定成 None（或 NumPy套件的 np.nan）

print(df.head(3))

#df.head(3).to_html("p21.html")

#存成 html 檔，並能成功顯示中文
html = df.head(3).to_html() 

with open("p21.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **刪除資料 – 刪除記錄**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.head(), '\n')

# 刪除記錄
df2 = df.drop(["second", "fourth"])    # 2,4 筆

print(df2.head(), '\n')

#df2.head().to_html("p22a.html")

#存成 html 檔，並能成功顯示中文
html = df2.head().to_html() 

with open("p22a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
    
df.drop(df.index[[2, 3]], inplace = True) # 3,4 筆

print(df)

#df.head().to_html("p22b".html")

#存成 html 檔，並能成功顯示中文
html = df.head().to_html() 

with open("p22b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **刪除資料 – 刪除欄位**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.head(3), '\n')

# 刪除欄位，使用 drop()
df2 = df.drop(["population"], axis = 1) # axis = 1 => column(s), axis = 0 => row(s)

print(df2.head())

#df2.head().to_html("p23.html")

#存成 html 檔，並能成功顯示中文
html = df2.head().to_html() 

with open("p23.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **新增資料 – 新增記錄**

In [None]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

print(df.tail(), '\n')

# 新增記錄
df.loc["third-1"] = ["士林區", 288340, "台北市"]

print(df.tail(), '\n')

df.sort_index(axis = 0, inplace = True)
print(df, '\n')

#df.tail(3).to_html("p24a.html")

#存成 html 檔，並能成功顯示中文
html = df2.tail(3).to_html() 

with open("p24a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
    
s = pd.Series({"city":"新北市", "name":"中和區", "population":413291})

df2 = df.append(s, ignore_index = True) # 使用 append() 來新增，ignore_index = True 代表忽略索引

print(df2.tail())

#df2.tail().to_html("p24b.html")

#存成 html 檔，並能成功顯示中文
html = df2.tail().to_html() 

with open("p24b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **新增資料 – 使用新增記錄建立DataFrame物件**

In [None]:
from numpy.random import randint

df = pd.DataFrame(columns = ("qty1", "qty2", "qty3"))

for i in range(5):

    df.loc[i] = [randint(-1, 1) for n in range(3)]

print(df, '\n')

df.to_html("p25a.html")

df2 = pd.DataFrame(columns = ("qty1", "qty2", "qty3"))

for i in range(5):

    s = pd.Series({"qty1":randint(-1, 1), "qty2":randint(-1, 1), "qty3":randint(-1, 1)})
    
    df2 = df2.append(s, ignore_index = True)

print(df2, '\n')

df.to_html("p25b.html")

#### **新增資料 – 新增欄位**

In [None]:
from numpy.random import randint

df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

print(df, '\n')

# 新增欄位 'area'
df["area"] = pd.Series([randint(6000, 9000) for n in range(len(df))]).values 

print(df.head(), '\n')

#df.head().to_html("p26a.html")

#存成 html 檔，並能成功顯示中文
html = df.head().to_html() 

with open("p26a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    

# 新增欄位 'zip'
df.loc[:, "zip"] = randint(100, 120, size = len(df))

print(df.head())

#df.head().to_html("p26b.html")

#存成 html 檔，並能成功顯示中文
html = df.head().to_html() 

with open("p26b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **連接與合併DataFrame物件 – 建立空的和複製DataFrame物件**

In [13]:
df = pd.read_csv("dists.csv", encoding = "utf8")

ordinals = ["first", "second", "third", "fourth", "fifth",
            "sixth", "seventh", "eigth", "ninth", "tenth",
            "eleventh", "twelvth", "thirteenth"]  

df.index = ordinals

columns =["name", "population", "city"]

# 建立空的 DataFrame 物件，但是要注意 "形狀要與 df 相同"
df_copy = pd.DataFrame((np.nan), index = ordinals, columns = columns)

print(df_copy, '\n')

# 複製 DataFrame 物件
df_copy = df.copy()

print(df_copy)


            name  population  city
first        NaN         NaN   NaN
second       NaN         NaN   NaN
third        NaN         NaN   NaN
fourth       NaN         NaN   NaN
fifth        NaN         NaN   NaN
sixth        NaN         NaN   NaN
seventh      NaN         NaN   NaN
eigth        NaN         NaN   NaN
ninth        NaN         NaN   NaN
tenth        NaN         NaN   NaN
eleventh     NaN         NaN   NaN
twelvth      NaN         NaN   NaN
thirteenth   NaN         NaN   NaN 

           name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市


#### **連接與合併DataFrame物件 – 連接多個DataFrame物件**

In [None]:
from numpy.random import randint

df1 = pd.DataFrame(randint(5, 10, size = (3, 4)), columns = ["a", "b", "c", "d"]) 

df2 = pd.DataFrame(randint(5, 10, size = (2, 3)), columns = ["b", "d", "a"])  

print(df1, '\n')

print(df2, '\n')

#
# DataFrame物件可以使用 concat() 函數連接多個 DataFrame 物件，
# 首先使用亂數建立測試的2個 DataFrame 物件 df1 和 df2
#
df1.to_html("p27a.html")

df2.to_html("p27b.html")

df3 = pd.concat([df1, df2], sort = False)  # sort = False 關閉警告訊息

print(df3, '\n')

df3.to_html("p27c.html")

df4 = pd.concat([df1, df2], ignore_index = True, sort = False)  
# sort = False 關閉警告訊息；ignore_index = True 可以忽略合併時舊的 index 欄位，改採用自動產生的 index！

print(df4) 

df4.to_html("p27d.html")

####  請參考 [Pandas 讀寫檔合併 concat merge 圖表](http://violin-tao.blogspot.com/2017/06/pandas-2-concat-merge.html#more)

#### 請參考 [Pandas 數據合併與重塑（join/merge篇）](https://blog.csdn.net/weixin_37226516/article/details/64137043)

#### **連接與合併DataFrame物件 – 合併2個DataFrame物件**

In [None]:
#
# DataFrame物件的 merge() 函數可以左右合併2個 DataFrame 物件
# （類似SQL合併查詢），首先建立測試的2個 DataFrame 物件 df1 和 df2
#
df1 = pd.DataFrame({"key":["a", "b", "b"], "data1":range(3)})  

df2 = pd.DataFrame({"key":["a", "b", "c"], "data2":range(3)})  

print(df1, '\n')

print(df2, '\n')

df1.to_html("p28a.html")

df2.to_html("p28b.html")

df3 = pd.merge(df1, df2) # 注意：因 df1 的 key 中沒有欄位值 'c'，
                         # 所以合併後沒有此欄位值
print(df3, '\n')

df3.to_html("p28c.html")

df4 = pd.merge(df2, df1) # 注意：因 df1 的 key 中沒有欄位值 'c'，
                         # 所以合併後沒有此欄位值
print(df4, '\n')

df4.to_html("p28d.html")

#
# 基本上，合併 DataFrame 物件有很多種方式，
# 在 merge() 函數可以加上 how 參數來指定是
# 使用內部合併 inner、左外部合併 left、
# 右外部合併 right 和全外部合併 outer
#
df5 = pd.merge(df2, df1, how = 'left') 

print(df5, '\n')

df5.to_html("p29e.html")

df6 = pd.merge(df2, df1, how = 'right') 

print(df6, '\n')

df6.to_html("p29f.html")

df7 = pd.merge(df2, df1, how = 'inner') 

print(df7, '\n')

df7.to_html("p29g.html")

df8 = pd.merge(df2, df1, how = 'outer') 

print(df8)

df8.to_html("p29h.html")

#### **群組**

In [9]:
df = pd.DataFrame({"名稱" : ["客戶A", "客戶B", "客戶A", "客戶B",
                             "客戶A", "客戶B", "客戶A", "客戶A"],
                   
                   "編號" : ["訂單1", "訂單1", "訂單2", "訂單3",
                             "訂單2", "訂單2", "訂單1", "訂單3"],
                   
                   "數量" : np.random.randint(1, 5, size = 8),
                   
                   "售價" : np.random.randint(150, 500, size = 8)})

print(df, '\n')

#df.to_html("p30a.html")

#存成 html 檔，並能成功顯示中文
html = df.to_html() 

with open("p30a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    

# 可以分別使用這些欄位來群組記錄後，呼叫sum()函數計算欄位值的總和
print(df.groupby("名稱").sum(), '\n')

#df.groupby("名稱").sum().to_html("p30b.html")

#存成 html 檔，並能成功顯示中文
html = df.groupby("名稱").sum().to_html() 

with open("p30b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)
    
    
# 可以分別使用這些欄位來群組記錄後，呼叫sum()函數計算欄位值的總和
print(df.groupby(["名稱", "編號"]).sum())

#df.groupby(["名稱", "編號"]).sum().to_html("p30c.html")

#存成 html 檔，並能成功顯示中文
html = df.groupby(["名稱", "編號"]).sum().to_html() 

with open("p30c.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

    名稱   編號  數量   售價
0  客戶A  訂單1   4  261
1  客戶B  訂單1   1  415
2  客戶A  訂單2   4  312
3  客戶B  訂單3   1  224
4  客戶A  訂單2   3  348
5  客戶B  訂單2   2  168
6  客戶A  訂單1   4  469
7  客戶A  訂單3   3  234 

     數量    售價
名稱           
客戶A  18  1624
客戶B   4   807 

         數量   售價
名稱  編號          
客戶A 訂單1   8  730
    訂單2   7  660
    訂單3   3  234
客戶B 訂單1   1  415
    訂單2   2  168
    訂單3   1  224


#### **樞紐分析表**

樞紐分析表是資料科學裡一個非常好用的功能，它提供了比較、顯示圖形和關聯，並進一步的分析趨勢。
善用樞紐分析表的功能，藉由它能顯示不同的資料檢視，來進行比較、顯示且分析資料，然後，幫助我們
將許多資料轉變成有意義的資訊。還可以依照不同的目的來量身訂作。只要你確定了問題，使用樞紐分析
功能就可以輕鬆的幫你取得答案。我們需要進階的學習樞紐分析表的各項功能，才有能力安排不同的樞紐
分析表來回答不同的問題。 
樞紐分析表，可以將資料分成群組、以不同的方式來檢視、增加資料欄位、設定不同的樞紐表格式、或是
從欄位設定中去更改資料的顯示方式等，或許你還是不明白，這些功能有什麼特別之處，所以我們先舉個
例來說，當公司有上百位業務員，你建立樞紐分析表，可以知道他們個別的銷售狀況及銷售總額，但是樞
紐分析表的強大功能不止於此，所以，其實你還可以更進一步的知道他們在每一季或每月的銷售狀況及總
額，或是增加資料欄位同時顯示出訂單的單數及總額，也可以藉由不同的資料顯示來進行分析比較，如此
一來，根據這些細部的分析，得到的資訊將更精準、更有用。

In [None]:
products = pd.DataFrame({
        "分類": ["居家", "居家", "娛樂", "娛樂", "科技", "科技"],
    
        "商店": ["家樂福", "頂好", "家樂福", "全聯", "頂好","家樂福"],
    
        "價格":[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
        
        "測試分數": [4, 3, 5, 7, 5, 8]})

print(products, '\n')

#products.to_html("p31a.html")

#存成 html 檔，並能成功顯示中文
html = products.to_html() 

with open("p31a.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

    
# DataFrame 物件是呼叫 pivot_table()函數來產生樞紐分析表, 呼叫 pivot_table() 方法
pivot_products = products.pivot_table(index = '分類', columns = '商店', values = '價格')

print(pivot_products)

#pivot_products.to_html("p31b.html")

#存成 html 檔，並能成功顯示中文
html = pivot_products.to_html() 

with open("p31b.html", "w", encoding = "utf8") as file: 
    
    file.writelines('<meta charset = "UTF-8">\n')
    
    file.write(html)

#### **套用函數**

In [None]:
# DataFrame物件可以使用 apply()函數在資料套用 NumPy 函數或 
# Lambda 運算式，以下是使用 NumPy 亂數產生測試資料的 DataFrame 物件
df = pd.DataFrame(np.random.rand(6, 4), columns = list("ABCD"))

print(df, '\n')

df.to_html("p32a.html")

# 使用 DataFrame 物件的 apply() 函數套用 NumPy 函數，
# 例如使用 NumPy 中的 cumsum()函數的累加計算
df2 = df.apply(np.cumsum)

print(df2, '\n')

df2.to_html("p32b.html")

# DataFrame物件的 apply()函數也可以套用 Lambda 運算式
# 例如計算最大和最小值的差
df3 = df.apply(lambda x: x.max() - x.min())

print(df3)

**補充教學參考資料**
1. [NumPy & Pandas 視頻教學](https://www.youtube.com/watch?v=To3YL92HZyc&list=PLXO45tsB95cKKyC45gatc8wEc3Ue7BlI4) 
2. [[Python] Pandas 基礎教學](https://oranwind.org/python-pandas-ji-chu-jiao-xue/)
3. [Pandas Tutorial: DataFrames in Python](https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python)
4. [從 pandas 開始 Python 與資料科學之旅](https://medium.com/datainpoint/%E5%BE%9E-pandas-%E9%96%8B%E5%A7%8B-python-%E8%88%87%E8%B3%87%E6%96%99%E7%A7%91%E5%AD%B8%E4%B9%8B%E6%97%85-8dee36796d4a)
5. Pandas(Python中的Excel) [Day1](https://ithelp.ithome.com.tw/articles/10191291) [Day2](https://ithelp.ithome.com.tw/articles/10191588)  [Day3](https://ithelp.ithome.com.tw/articles/10191616)  [Day4](https://ithelp.ithome.com.tw/articles/10191774) 
6. Pandas 用法 [1](http://violin-tao.blogspot.com/2017/06/pandas-1-indexing.html)  [2](http://violin-tao.blogspot.com/2017/06/pandas-2-concat-merge.html)