# 資料來源與檔案存取

* 資料來源與取得
* 開放資料
* 資料儲存格式
* Python 存取檔案

In [1]:
from urllib.request import urlretrieve

urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./1.txt")
urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./data/2.txt")

('./data/2.txt', <http.client.HTTPMessage at 0x10a6c6b00>)

In [2]:
import os, sys

# 打開文件（預設位置會是跟 .ipynb 程式相同的目錄）
dirs = os.listdir( './' )

# 顯示所有文件
for file in dirs:
    print(file)

.DS_Store
.ipynb_checkpoints
1.txt
Data
Day001_HW.ipynb
example-with.txt
example.txt


## 利用 Python 存取檔案

In [3]:
fh = open("example.txt", "w")
f = fh.write("To write or not to write\nthat is the question!\n")
fh.close()

print(f)

47


In [4]:
fh = open("example.txt", "r")
f = fh.read()
fh.close()

print(f)

To write or not to write
that is the question!



In [5]:
with open("example-with.txt", "w") as fh:
    f = fh.write("To write or not to write\nthat is the question!\n")
    print(f)
    
with open("example-with.txt", "r") as fh:
    f = fh.read()
    print(f)

47
To write or not to write
that is the question!



In [6]:
import os, sys

# 打開文件
dirs = os.listdir( './' )

# 顯示所有文件
for file in dirs:
    print(file)

.DS_Store
.ipynb_checkpoints
1.txt
Data
Day001_HW.ipynb
example-with.txt
example.txt


## 編碼判讀

In [7]:
import chardet
 
f = open('example-with.txt', 'rb')
data = f.read()
print(chardet.detect(data))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


## 作業目標

* 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？
* 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數


## 利用 Python 下載檔案

### 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？
    * 前兩者通常由擁有者主動釋出，第三者則由擁有者被動公開

### 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數


In [8]:
# 根據需求引入正確的 Library

from urllib.request import urlretrieve
import os

In [9]:
# 在原本資料夾下，再建立一個Data資料夾

try:
    os.makedirs( './Data', exist_ok=True )
except:
    print('發生錯誤！')

In [10]:
dirs = os.listdir( './' )

# 顯示所有文件
for file in dirs:
    print(file)

.DS_Store
.ipynb_checkpoints
1.txt
Data
Day001_HW.ipynb
example-with.txt
example.txt


In [11]:
# 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案

files = []


if 'Homework.txt' in files:
    print('[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')
else:
    print('[X] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')

[X] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案


In [14]:
# 將「Hello World」字串覆寫到 Homework.txt 檔案
# Python提出with語法，檔案存取後能自動關閉，而不用浪費資料 
    
try:
    with open("./Data/Homework.txt", "w") as fh:
        f = fh.write("Hello World")
        print(f)
    
    with open("./Data/Homework.txt", "r") as fh:
        f = fh.read()
        print(f)

except EnvironmentError:  #parent of IOError, OSError *and* WindowsError where available
    pass

11
Hello World


In [15]:
# 檢查 Homework.txt 檔案字數是否符合 Hello World 字數

if len('Hello World') == len(f):
    print('[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')
else:
    print('[X] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')

[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數
