# 資料來源與檔案存取

* 資料來源與取得
* 開放資料
* 資料儲存格式
* Python 存取檔案

## 作業目標

* 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？
* 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數


### 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？

####    *檔案：由網站主動提供檔案供大眾使用，缺點是需要下載使用。
####    *API：由網站主動提供檔案網址，供大眾串接使用。
####    *爬蟲：大眾被動式讀取網路上的資料

### 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數


## 利用Python下載資料

In [1]:
# 根據需求引入正確的 Library

from urllib.request import urlretrieve
import os

In [2]:
# 下載檔案到 Data 資料夾，存成檔名 Homework.txt
# 以os.makedirs建立Data資料夾
# 以urlretrieve直接將遠端資料下載到本地 (Data資料夾)

try:
    os.makedirs( './Data', exist_ok=True )
    urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./Data/Homework.txt")
    urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./Data/Homeworka.txt")
    
except:
    print('發生錯誤！')

In [3]:
# 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案

# 要檢查的檔案路徑 (Data資料夾)
# 或者也可以用絕對路徑 mypath = "D:\Statistics\WCmarathon\HW\Data"
mypath ='./Data'

# 取得所有檔案與子目錄名稱
# 只用os.listdir()則列出當前檔案的所有檔案
files = os.listdir(mypath)

# 檢查檔案是否存在
if 'Homework.txt' in files:
    print('[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')
else:
    print('[X] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')

[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案


In [4]:
# 將「Hello World」字串覆寫到 Homework.txt 檔案, 'w','r'模式

f = ''

# w, 寫入檔案（會覆蓋原本的內容)
with open("./Data/Homework.txt", "w") as fh:
    f = fh.write("Hello World")
    print(f)

# r, 讀取檔案
try:
    with open("./Data/Homework.txt", "r") as fh:
        f = fh.read()
    print(f)
    
    
except EnvironmentError: # parent of IOError, OSError *and* WindowsError where available
    pass    
    

11
Hello World


In [5]:
# 將「Hello World」字串覆寫到 Homework.txt 檔案, 'a','r'模式

g = ''

# a, 寫入檔案（會對已存在的的部分增加內容）
with open("./Data/Homeworka.txt", "a") as fh:
    g = fh.write("To write or not to write\nHello World\n")
    print(f)

# r, 讀取檔案
try:
    with open("./Data/Homeworka.txt", "r") as fh:
        g = fh.read()
    print(g)
    
    
except EnvironmentError: # parent of IOError, OSError *and* WindowsError where available
    pass    
    

Hello World
The following are the graphical (non-control) characters defined by
ISO 8859-1 (1987).  Descriptions in words aren't all that helpful,
but they're the best we can do in text.  A graphics file illustrating
the character set should be available from the same archive as this
file.

Hex Description                 Hex Description

20  SPACE
21  EXCLAMATION MARK            A1  INVERTED EXCLAMATION MARK
22  QUOTATION MARK              A2  CENT SIGN
23  NUMBER SIGN                 A3  POUND SIGN
24  DOLLAR SIGN                 A4  CURRENCY SIGN
25  PERCENT SIGN                A5  YEN SIGN
26  AMPERSAND                   A6  BROKEN BAR
27  APOSTROPHE                  A7  SECTION SIGN
28  LEFT PARENTHESIS            A8  DIAERESIS
29  RIGHT PARENTHESIS           A9  COPYRIGHT SIGN
2A  ASTERISK                    AA  FEMININE ORDINAL INDICATOR
2B  PLUS SIGN                   AB  LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
2C  COMMA                       AC  NOT SIGN
2D  HYPHEN-MINUS    

In [6]:
# 檢查 Homework.txt 檔案字數是否符合 Hello World 字數

if len('Hello World') == len(f):
    print('[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')
else:
    print('[X] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')

[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數
