# 資料來源與檔案存取

* 資料來源與取得
* 開放資料
* 資料儲存格式
* Python 存取檔案

## 利用 Python 下載檔案

In [2]:
from urllib.request import urlretrieve

urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./1.txt")
urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./data/2.txt")


('./data/2.txt', <http.client.HTTPMessage at 0x10df262e8>)

In [3]:
import os, sys

# 打開文件（預設位置會是跟 .ipynb 程式相同的目錄）
dirs = os.listdir( './' )

# 顯示所有文件
for file in dirs:
    print(file)

example1.txt
sample.ipynb
example2.csv
1.txt
homework.solution.ipynb
.ipynb_checkpoints
homework.ipynb
data


## 利用 Python 存取檔案

In [4]:
fh = open("example.txt", "w")
f = fh.write("To write or not to write\nthat is the question!\n")
fh.close()

print(f)

47


In [5]:
fh = open("example.txt", "r")
f = fh.read()
fh.close()

print(f)

To write or not to write
that is the question!



In [6]:
with open("example-with.txt", "w") as fh:
    f = fh.write("To write or not to write\nthat is the question!\n")
    print(f)
    
with open("example-with.txt", "r") as fh:
    f = fh.read()
    print(f)

47
To write or not to write
that is the question!



In [7]:
import os, sys

# 打開文件
dirs = os.listdir( './' )

# 顯示所有文件
for file in dirs:
    print(file)

example-with.txt
example1.txt
sample.ipynb
example2.csv
example.txt
1.txt
homework.solution.ipynb
.ipynb_checkpoints
homework.ipynb
data


## 編碼判讀

In [8]:
import chardet
 
f = open('example1.txt', 'rb')
data = f.read()
print(chardet.detect(data))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


In [9]:
import chardet
 
f = open('example2.csv', 'rb')
data = f.read()
print(chardet.detect(data))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


# 作業目標

* 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？
* 2.（實作）完成一個程式，需滿足下列需求：
    * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
    * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
    * 將「Hello World」字串覆寫到 Homework.txt 檔案
    * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數
    
### 1.（簡答題）檔案、API、爬蟲三種取得資料方式有什麼不同？
    (1)檔案: 檔案資料會包成檔案提供下載，格式可能包含常用的標準格式，例如「CSV」、「JSON」等等通用的格式。
    (2)API: 開放接口（API）提供程式化的連接的接口，讓工程師/分析師可以選擇資料中要讀取的特定部分，而不需要把整批資料事先完整下載回來。
    (3)爬蟲 : 資料沒有以檔案或 API 提供，但出現在網⾴頁上。可以利利⽤用爬蟲程式，將網頁的資料解析所需的部分。
### 2.（實作）完成一個程式，需滿足下列需求：
     * 下載指定檔案到 Data 資料夾，存成檔名 Homework.txt
     * 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案
     * 將「Hello World」字串覆寫到 Homework.txt 檔案
     * 檢查 Homework.txt 檔案字數是否符合 Hello World 字數

In [1]:
# 根據需求引入正確的 Library

from urllib.request import urlretrieve 
import os

In [2]:
# 下載檔案到 Data 資料夾，存成檔名 Homework.txt

try:
    os.makedirs( './Data', exist_ok=True )
    urlretrieve ("https://www.w3.org/TR/PNG/iso_8859-1.txt", "./data/Homework.txt")
except:
    print('發生錯誤！')

In [3]:
# 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案

path="./Data"
files = os.listdir(path)

if 'Homework.txt' in files:
    print('[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')
else:
    print('[X] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案')

[O] 檢查 Data 資料夾是否有 Homework.txt 檔名之檔案


In [4]:
# 將「Hello World」字串覆寫到 Homework.txt 檔案

f = ''

with open("./Data/Homework.txt", "w") as fh:
    fh.write("Hello World")

try:
    with open("./Data/Homework.txt", "r") as fh:
        f = fh.read() 
        print(f)
except EnvironmentError: # parent of IOError, OSError *and* WindowsError where available
    pass

Hello World


In [5]:
# 檢查 Homework.txt 檔案字數是否符合 Hello World 字數

if len('Hello World') == len(f):
    print('[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')
else:
    print('[X] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數')

[O] 檢查 Homework.txt 檔案字數是否符合 Hello World 字數
