# 資料來源與檔案存取

* 資料來源與取得
* 開放資料
* 資料儲存格式
* Python 存取檔案

## 作業目標

* 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？
* 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數


### 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？

#### 檔案
    * 最直接的資料取得方式
    * 可能含有最詳細的資訊，但通常這些資訊都未經過處理，需要花費時間消化
    * 占用大小較大，可能存取一個大檔卻只能獲得稀疏的資訊
    
#### API
    * 由目標對象直接提供程式接口，讓使用者能夠透過一定的機制存取
    * 大部分組織對使用者提供資料的方式都使用API，如各大資料開放平台
    * 取得的資料通常都有經過一定的結構化處理，易讀性較高
    
#### 爬蟲
    * 屬於被動式取得資料，基本上是最後才考慮的選項
    * 可能會有應用上的疑慮(智財權)
    * 可以自由取得幾乎所有的可見資料

### 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數

## 根據需求引入正確的 Library

In [1]:
from urllib.request import urlretrieve
import os

In [2]:
target_url = 'https://www.w3.org/TR/PNG/iso_8859-1.txt'
data_path = './Data'
file_path = os.path.join(data_path, 'Homework.txt')

## 下載檔案到 Data 資料夾，存成檔名 Homework.txt

In [3]:
try:
    # Create a download directory for download data.
    os.makedirs(data_path, exist_ok=True)
    
    # Download from target_url and save the file to file_path
    urlretrieve (target_url, file_path)
    
except:
    print('發生錯誤！')

## 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案

In [4]:
# List files under data_path
files = os.listdir(data_path)

if 'Homework.txt' in files:
    print('[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')
else:
    print('[X] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')

[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案


In [5]:
# 將「Hello World」字串覆寫到 Homework.txt 檔案

# Open the file and write string 'Hello World'.
with open(file_path, "w") as fh:
    f = fh.write('Hello World')

try:
    # Open the file and read the content of it.
    with open(file_path, "r") as fh:
        f = fh.read()
        print(f)
        
except EnvironmentError: # parent of IOError, OSError *and* WindowsError where available
    pass
    


Hello World


In [6]:
# 檢查 Homework.txt 檔案字數是否符合 Hello World 字數

if len('Hello World') == len(f):
    print('[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')
else:
    print('[X] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')

[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數
