<h1 align="center">Unit 04 - Python 4</h1>
<h3 align="center">各種資料檔案處理：資料檔的格式與讀寫</h3>

<hr>
<h3 style="color:orange">重點提示與簡要介紹</h3>

<hr>
<h3>檔案的使用原理</h3>
<pre>
流程
    開啟檔案
    讀寫檔案
    關閉檔案

資料寫入檔案中
    s = 'Hello World!'
    f = open('hello.txt', 'w')
    f.write(s)
    f.close()

讀取檔案中資料
    f = open('hello.txt', 'r')
    t = f.read()
    print(t)
    f.close()

慣用寫法</pre>
<pre style="color:red">
    with open( 檔名字串, 讀寫字串, 其它屬性... ) as 檔案物件:
        讀寫動作
    檔案物件.close()
</pre>

In [None]:
# 檔案的使用原理

# 寫入資料
s = 'Hello World!'
with open('hello.txt', 'w') as fp:
    fp.write(s)
fp.close()

# 讀取資料
with open('hello.txt', 'r') as fp:
    txt = fp.read()
fp.close()
print(txt)


<hr>
<h3>純文字文件資料</h3>
<pre>
注意檔案文字編碼方式（中文、多國語言混用的編碼問題）
編碼參數
<span style="color:red">encoding='utf-8'</span>
資料檔
<a href="hello_cht.zip">hello_cht.zip</a>
</pre>

In [None]:
# 純文字文件資料

with open('hello_cht.txt', 'r', encoding='utf-8') as fp:
    txt = fp.read()
fp.close()

print(txt)


<hr>
<h3>純文字文件逐行讀取進入串列（List）中</h3>
<pre>
提示
中文 utf-8 編碼
資料檔
<a href="3kingdom_001.zip">3kingdom_001.zip</a>
</pre>

In [None]:
# 純文字文件逐行讀取進入串列（List）中

# 逐列讀取至 List
with open('3kingdom_001.txt', 'r', encoding='utf-8') as fp:
    lines = fp.readlines()
fp.close()

# 顯示部分
print(lines[0:10])

# 逐列全部顯示
for x in lines:
    print(x)


<hr>
<h3>純文字數據資料</h3>
<pre>
使用 numpy 工具模組（數據計算功能）
資料檔
<a href="data1.zip">data1.zip</a>
</pre>

In [None]:
# 純文字數據資料

# 載入 numpy 工具模組，簡稱為 np
import numpy as np

# 載入資料檔，成為 numpy 的資料陣列
data1 = np.loadtxt('data1.txt')

# 顯示資料型態與內容
print(type(data1))
print(data1)

# 數據寫入資料檔中

# 串列資料
lst = [ [ 3.0, 2.0, 1.0 ], [ 1.0, 0.0, 1.0 ], [ 1.0, 2.0, 3.0 ] ]

# 轉換為 numpy 資料陣列
data2 = np.array(lst)

# 寫入成為文字資料檔
np.savetxt('data2.txt', data2)


<hr>
<h3>二進位數據快速讀寫</h3>
<pre>
使用 pickle 工具模組
</pre>

In [None]:
# 二進位數據快速讀寫

# 載入工具模組
import numpy as np
import pickle

# 產生隨機數字（20 至 29）共 100x100 個（100x100 陣列）
data3 = np.random.randint(20, 30, size=(100,100))

# 顯示
print(type(data3))
print(data3)

# 快速寫入 data3.pkl 二進位檔案
with open('data3.pkl', 'wb') as fp:
    pickle.dump(data3, fp)
fp.close()

# 快速讀出 data3.pkl 二進位檔案，成為 data4 陣列（numpy 陣列）
with open('data3.pkl', 'rb') as fp:
    data4 = pickle.load(fp)
fp.close()

# 顯示讀回的資料型態與內容
print(type(data4))
print(data4)


<hr>
<h3>JSON（JavaScript Object Notation）檔案的使用</h3>
<pre>
Python 字典 vs. JSON
python 字典
    d = { '1':'a', '2':'bb', '3':'ccc' }
JSON
    {"1": "a", "2": "bb", "3": "ccc"}
JSON on wiki
    <a href="https://zh.wikipedia.org/wiki/JSON">https://zh.wikipedia.org/wiki/JSON</a>
</pre>

In [None]:
# JSON（JavaScript Object Notation）檔案的使用

# 載入 JSON 工具模組
import json

# 生成一個字典
d = { '1':'a', '2':'bb', '3':'ccc' }

# 顯示
print(d)

# 寫入 JSON 格式檔案 d.json
with open('d.json', 'w') as fp:
    json.dump(d, fp)
fp.close()

# 讀取 JSON 格式檔案 d.json
with open('d.json', 'r') as fp:
    d_new = json.load(fp)
fp.close()

# 顯示讀回的資料型態與內容
print(type(d_new))
print(d_new)


<hr>
<h3>補充：網路資源經常運用 JSON 資料格式</h3>
<pre>
新版台北市 Open Data 服務平台（台北市資料大平台）
<a href="https://data.taipei/">https://data.taipei/</a>
    YouBike2.0臺北市公共自行車即時資訊
    <a href="https://tcgbusfs.blob.core.windows.net/dotapp/youbike/v2/youbike_immediate.json">https://tcgbusfs.blob.core.windows.net/dotapp/youbike/v2/youbike_immediate.json</a>
    預載資料檔（2021-10-16）
    <a href="youbike.zip">youbike.zip</a>
FireFox 瀏覽器預設具有美化顯示 JSON 格式資料的功能
</pre>

In [None]:
# YouBike2.0臺北市公共自行車即時資訊

# 載入 JSON 工具模組
import json

# 載入 JSON 資料檔 youbike.json
with open('youbike.json', 'r', encoding='utf-8') as fp:
    ubike = json.load(fp)
fp.close()

# 顯示讀回資料
print(ubike)


<hr>
<h3>pandas 工具模組的安裝</h3>
<pre>
使用 pandas 工具模組，pandas 有許多資料處理的小功能，包含 EXCEL 檔案的處理
在 windows 環境中，目前 pandas 的安裝版本，可能需要額外自行安裝 openpyxl
安裝
<span style="color:orange">conda install openpyxl</span>
（必須是系統管理員身份才能安裝）
</pre>

<hr>
<h3>讀取已經存在的 EXCEL 資料檔</h3>
<pre>
注意 EXCEL 檔案的附屬檔名是 xls 或 xlsx
大部分使用時機是讀取已經存在的手工整理 EXCEL 資料表
資料檔
<a href="ccomb_spring.xlsx">ccomb_spring.xlsx</a>
</pre>

In [None]:
# 讀取已經存在的 EXCEL 資料檔

# 載入 pandas 工具模組，簡稱為 pd
import pandas as pd

# 讀取 EXCEL 資料檔內容
data = pd.read_excel('ccomb_spring.xlsx')

# 顯示讀回結果
print(type(data))
print(data)


<hr>
<h3>儲存資料成為 EXCEL 資料檔</h3>

In [None]:
# 儲存資料成為 EXCEL 資料檔

# 載入 pandas 工具模組，簡稱為 pd
import pandas as pd

# 字典資料，欄位 F1, F2, F3 與資料內容
dic = { \
'F1': ['aa', 'bb', 'ccc', 'ddd', 'eee', 'fff'], \
'F2': [10, 20, 30, 40, 50, 60], \
'F3': [99, 88, 77, 66, 55, 44] \
}

# Create a Pandas dataframe from some data.
df = pd.DataFrame(dic)

# Create a Pandas Excel writer using XlsxWriter as the engine.
writer = pd.ExcelWriter('data.xlsx', engine='xlsxwriter')

# Convert the dataframe to an XlsxWriter Excel object.
df.to_excel(writer, sheet_name='DATA')

# Close the Pandas Excel writer and output the Excel file.
writer.save()


<hr>
<h3>CSV 資料檔的使用</h3>
<pre>
以純文字資料的方式處理
CSV 其實是以逗號間隔資料的簡單純文字檔案，換行代表一筆資料結束
範例
f1,f2,f3,f4
1,aa,100,2
2,bb,200,2
3,cc,300,6
4,dd,400,6
EXCEL 預設可以直接讀取使用 CSV 資料檔
</pre>

In [None]:
# CSV 資料檔的使用

# 儲存資料成為 csv 格式
with open('data.csv', 'w') as fp:
    fp.write('f1,f2,f3,f4\n')
    fp.write('1,aa,100,2\n')
    fp.write('2,bb,200,2\n')
    fp.write('3,cc,300,6\n')
    fp.write('4,dd,400,6\n')
fp.close()

# 以文字編輯器開啟 data.csv 觀察
# 以 EXCEL 開啟 data.csv 觀察

# 讀取 csv 格式資料檔
with open('data.csv', 'r') as fp:
    lines = fp.readlines()
fp.close()


# 顯示
for row in lines:
    lst = row.strip().split(',') # 每一列先刪除尾部的換行符號 \n，再以逗號 , 作為分隔符號，切成數個資料單元，形成串列
    x0, x1, x2, x3 = lst[0], lst[1], lst[2], lst[3]
    print(x0, x1, x2, x3)


<hr>
<h3>補充：網路資源也經常運用 CSV 資料格式（簡單）</h3>
<pre>
新版台北市 Open Data 服務平台（台北市資料大平台）
<a href="https://data.taipei/">https://data.taipei/</a>
    臺北市政府電視新聞統計週報
    <a href="https://data.taipei/#/dataset/detail?id=4b58645a-d1db-4d4d-87a3-c13baaee96bc">https://data.taipei/#/dataset/detail?id=4b58645a-d1db-4d4d-87a3-c13baaee96bc</a>
    預載資料檔（2021-10-16）
    <a href="臺北市政府專案_2021.09.27～2021.10.03新聞統計週報.zip">臺北市政府專案_2021.09.27～2021.10.03新聞統計週報.zip</a>
注意
第一列被視為欄位名稱，不算是資料
採用 csv 工具模組時，使用結束後才可以關閉檔案
</pre>

In [None]:
# 不使用特定的 csv 工具模組

# 讀取 csv 格式資料檔
with open('臺北市政府專案_2021.09.27～2021.10.03新聞統計週報.csv', 'r') as fp:
    lines = fp.readlines()
fp.close()

# 顯示
for row in lines:
    lst = row.strip().split(',') # 每一列先刪除尾部的換行符號 \n，再以逗號 , 作為分隔符號，切成數個資料單元，形成串列
    x0, x1, x2, x3 = lst[0], lst[1], lst[2], lst[3]
    print(x0, x1, x2, x3)


In [None]:
# 臺北市政府電視新聞統計週報（使用特定的 csv 工具模組）

# 載入 csv 工具模組
import csv

# 讀取 CSV 資料檔內容
with open('臺北市政府專案_2021.09.27～2021.10.03新聞統計週報.csv') as fp:
    data = csv.DictReader(fp)
    # 顯示
    for row in data:
        t = '排名：%2s，新聞標題：%s（則數：%s）' % (row['排名'], row['新聞標題'], row['則數'])
        print(t)

# 關閉檔案
fp.close()


<hr>
<h3>儲存資料成為 CSV 資料檔</h3>
<pre>
使用 csv 工具模組
一筆資料（一列）即為一個字典
避免多餘的換行符號 newline=''
</pre>

In [None]:
# 儲存資料成為 CSV 資料檔

# 載入 csv 工具模組
import csv

# 寫入 CSV 資料檔內容
with open('data.csv', 'w', newline='') as fp:
    names = ['f1', 'f2', 'f3', 'f4']
    writer = csv.DictWriter(fp, fieldnames=names)
    writer.writeheader()
    writer.writerow({ 'f1':1, 'f2':'aa', 'f3':100, 'f4':2 })
    writer.writerow({ 'f1':2, 'f2':'bb', 'f3':200, 'f4':2 })
    writer.writerow({ 'f1':3, 'f2':'cc', 'f3':300, 'f4':6 })
    writer.writerow({ 'f1':4, 'f2':'dd', 'f3':400, 'f4':6 })

# 關閉檔案
fp.close()

# 以文字編輯器開啟 data.csv 觀察
# 以 EXCEL 開啟 data.csv 觀察

# 讀取 CSV 資料檔內容
with open('data.csv') as fp:
    data = csv.DictReader(fp)
    # 顯示
    for row in data:
        x0, x1, x2, x3 = row['f1'], row['f2'], row['f3'], row['f4']
        print(x0, x1, x2, x3)

# 關閉檔案
fp.close()


<hr>
<h3 style="color:orange">隨堂範例</h3>

<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取『Twinkle Twinkle Little Star』的英文純文字檔，顯示所有文字內容。</h3>
<pre>
資料檔
<a href="twinkle.zip">twinkle.zip</a>
</pre>

In [None]:
with open('twinkle.txt', 'r') as fp:
    txt = fp.read()
fp.close()
print(txt)

<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取『心經』的純文字檔，顯示所有文字內容。</h3>
<pre>
提示
中文字的編碼
encoding='utf-8'
資料檔
<a href="心經.zip">心經.zip</a>
</pre>

In [None]:
with open('心經.txt', 'r', encoding='utf-8') as fp:
    txt = fp.read()
fp.close()
print(txt)

<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取『三字經』的純文字檔，計算總共的句數，並逐句顯示所有內容。</h3>
<pre>
提示
strip 除去換行符號 '\n'
split 依據 ' ' 分隔文字成串列
資料檔
<a href="三字經.zip">三字經.zip</a>
</pre>

In [None]:
with open('三字經.txt', 'r', encoding='utf-8') as fp:
    lines = fp.readlines()
fp.close()

n = len(lines)
print('n = ', n)

num = 0
for line in lines:
    row = line.strip().split(' ')
    for x in row:
        print(x, end=' ')
        num = num + 1
    print()

print('三字經一共有 %d 句' % (num))


<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取『台北市大學推廣教育』的 JSON 檔，顯示機構名稱與地址。</h3>
<pre>
提示
觀察 JSON 檔案中資料的格式，特別是 key 的名稱，找出如何取出所需資料的方法
依照觀察，這項資料，應該是串列（List）
串列中的項目是字典（Dictionary）
字典中項目的 Key 是 'o_tlc_agency_name'、'o_tlc_agency_category'、、、
台北市大學推廣教育 Open Data（JSON 格式）
    資料檔（此檔為歷史資料，目前這筆資料位置不明）
    <a href="eduagency.zip">eduagency.zip</a>
新版台北市 Open Data 服務平台（台北市資料大平台）
    <a href="https://data.taipei/">https://data.taipei/</a>
</pre>

In [None]:
import json

with open('eduagency.json', 'r', encoding='utf-8') as fp:
    data = json.load(fp)
fp.close()

for x in data:
    print(x['o_tlc_agency_name'], x['o_tlc_agency_address'])


<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取『行政院環境保護署細懸浮微粒資料（PM2.5）』的 JSON 檔，顯示台北市各測站的偵測數據結果。</h3>
<pre>
提示
觀察 JSON 檔案中資料的格式，特別是 key 的名稱，找出如何取出所需資料的方法
依照觀察，這項資料，應該是串列（List）
串列中的項目是字典（Dictionary）
字典中項目的 Key 是 'Site'、'county'、'PM25'、、、
留意觀察台北市的表示方式是『臺』北市
行政院環境保護署細懸浮微粒資料（PM2.5）Open Data（JSON 格式，其實還有提供其它種類格式）
    <a href="https://data.gov.tw/dataset/34827">https://data.gov.tw/dataset/34827</a>
    預載資料檔（2021-10-16）
    <a href="aqx_p_02.zip">aqx_p_02.zip</a>
</pre>

In [None]:
import json

with open('aqx_p_02.json', 'r', encoding='utf-8') as fp:
    data = json.load(fp)
fp.close()

print(type(data))
print(type(data['records']))

for x in data['records']:
    pm25 = int(x['PM25'])
    if (pm25 > 20):
        print(x['Site'], x['county'], x['PM25'])


<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取學生成績的 Excel 檔，顯示所有學生 A、B、C 各科的成績。</h3>
<pre>
提示
使用 pandas 工具模組方便讀取 Excel 檔案
資料檔
<a href="course.zip">course.zip</a>
</pre>

In [None]:
import pandas as pd

df = pd.read_excel('course.xlsx')

n = len(df)

for i in range(n):
    t = '%8s %3d %3d %3d' % (df['SID'][i], df['A'][i], df['B'][i], df['C'][i])
    print(t)


<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取學生成績的 Excel 檔，顯示 A、B、C 各科成績平均值。</h3>
<pre>
提示
pandas 讀入的資料型態為 DataFrame
顯示資料筆數，print(len(df))
顯示 A 欄位的所有筆資料，print(df['A'])
顯示第一筆資料的各欄位內容，print(df['SID'][0], df['A'][0], df['B'][0], df['C'][0])
資料檔
<a href="course.zip">course.zip</a>
</pre>

In [None]:
import pandas as pd

df = pd.read_excel('course.xlsx')

n = len(df)

# s = 0
# for i in range(n):
#     s = s + df['A'][i]
# a = s / n
# print('A 科的平均分數：', a)

# s = 0
# for i in range(n):
#     s = s + df['B'][i]
# a = s / n
# print('B 科的平均分數：', a)

# s = 0
# for i in range(n):
#     s = s + df['C'][i]
# a = s / n
# print('C 科的平均分數：', a)

lst = list(df['A'])
a = sum(lst) / n
print('A 科的平均分數：', a)

lst = list(df['B'])
a = sum(lst) / n
print('B 科的平均分數：', a)

lst = list(df['C'])
a = sum(lst) / n
print('C 科的平均分數：', a)


<hr>
<h3 style="color:blue">設計一個 Python 程式，讀取學生成績的 Excel 檔，顯示 A、B、C 各科成績最高分同學的學號（SID）與他的分數。</h3>

In [None]:
import pandas as pd

df = pd.read_excel('course.xlsx')

n = len(df)

# i_max = 0
# x_max = df['SID'][i_max]
# s_max = df['A'][i_max]
# for i in range(1, n):
#     if (df['A'][i] > s_max):
#         i_max = i
#         x_max = df['SID'][i]
#         s_max = df['A'][i]
# print('A 科目最高分是：', s_max, '，學號是：', x_max)

# i_max = 0
# x_max = df['SID'][i_max]
# s_max = df['B'][i_max]
# for i in range(1, n):
#     if (df['B'][i] > s_max):
#         i_max = i
#         x_max = df['SID'][i]
#         s_max = df['B'][i]
# print('B 科目最高分是：', s_max, '，學號是：', x_max)

# i_max = 0
# x_max = df['SID'][i_max]
# s_max = df['C'][i_max]
# for i in range(1, n):
#     if (df['C'][i] > s_max):
#         i_max = i
#         x_max = df['SID'][i]
#         s_max = df['C'][i]
# print('C 科目最高分是：', s_max, '，學號是：', x_max)

lst = list(df['A'])
s_max = max(lst)
i_max = lst.index(s_max)
x_max = df['SID'][i_max]
print('A 科目最高分是：', s_max, '，學號是：', x_max)

lst = list(df['B'])
s_max = max(lst)
i_max = lst.index(s_max)
x_max = df['SID'][i_max]
print('B 科目最高分是：', s_max, '，學號是：', x_max)

lst = list(df['C'])
s_max = max(lst)
i_max = lst.index(s_max)
x_max = df['SID'][i_max]
print('C 科目最高分是：', s_max, '，學號是：', x_max)


<hr>
<h3 style="color:blue">設計一個 Python 程式，產生一個 CSV 資料檔，隨機產生 100 個 0 至 2*PI 的數值 x 與其相對應的 sin(x) 與 cos(x) 函數值，並在 EXCEL 中使用這些資料繪製函數圖形。</h3>
<pre>
提示
利用 math 工具模組中的 math.pi 取得圓周率 PI
利用 random 工具模組
random.uniform(0, 2*math.pi) 產生 0 至 2*PI 之間的隨機亂數字
兩個需要的數學函數
math.sin(x) 
math.cos(x)
</pre>

In [None]:
import math
import random

with open('sine_cosine.csv', 'w') as fp:
    fp.write('x,sine,cosine\n')
    for i in range(100):
        x = random.uniform(0,2*math.pi)
        s = math.sin(x)
        c = math.cos(x)
        t = '%f,%f,%f\n' % (x, s, c)
        # print(t)
        fp.write(t)
fp.close()


<hr>
<h3 style="color:orange">隨堂練習</h3>

<hr>
<h3 style="color:green">設計一個 Python 程式，讀取『唐詩三百首』的純文字檔，並逐首顯示所有詩文。</h3>
<pre>
資料檔
<a href="唐詩三百首全文.zip">唐詩三百首全文.zip</a>
</pre>

<hr>
<h3 style="color:green">設計一個 Python 程式，讀取『臺北市公園景點介紹』的 JSON 檔，顯示大安森林公園中有紀錄的景點介紹。</h3>
<pre>
提示
臺北市公園景點介紹 Open Data（JSON 格式）
    資料檔（此檔為歷史資料，目前這筆資料位置不明）
    <a href="park.zip">park.zip</a>
新版台北市 Open Data 服務平台（台北市資料大平台）
    <a href="https://data.taipei/">https://data.taipei/</a>
</pre>

<h3 style="color:green">設計一個 Python 程式，讀取學生成績的 Excel 檔，顯示 A、B、C 各科成績不及格同學的學號（SID）與他的分數。</h3>