# 4-1. ファイル入出力の基本
ファイル入出力の基本について説明します。

参考

- https://docs.python.org/ja/3/tutorial/inputoutput.html#reading-and-writing-files

## ファイルのオープン
**ファイル**から文字列を読み込んだり、ファイルに書き込んだりするには、
まず、**`open()`** という関数によってファイルを**オープン**する（開く）必要があります。

In [1]:
!wget https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/sample.txt

--2020-03-06 06:20:14--  https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/sample.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 446 [text/plain]
Saving to: ‘sample.txt’


2020-03-06 06:20:14 (117 MB/s) - ‘sample.txt’ saved [446/446]



In [0]:
f = open('sample.txt', 'r')

変数 `f` には、ファイルを読み書きするためのデータが入ります。
これを**ファイルオブジェクト**と呼びます。

`'sample.txt'` はファイル名で、そのファイルの絶対パス名か、このノートブックからの相対パス名を指定します。

ここでは、`sample.txt` という名前のファイルがこのノートブックと同じディレクトリにあることを想定しています。

たとえば、`novel.txt` というファイルが、ノートブックの一段上のディレクトリ（このディレクトリが入っているディレクトリ）にあるならば、`'../novel.txt'` と指定します。
ノートブックの一段上のディレクトリに置かれている `data` というディレクトリにあるならば、`'../data/novel.txt'` となります
(4-3にもう少し詳しい解説があります）。

`'r'` はファイルをどのモードで開くかを指しており、`'r'`は**読み込みモード**を意味します。
このモードで開いたファイルに書き込みすることはできません。

モードには次のような種類があります。

記号| モード
---|:---
r | 読み込み
w | 書き込み
a | 追記
+ | 読み書き両方を指定したい場合に使用

書き込みについては後でも説明します。

## ファイルのクローズ

ファイルオブジェクトを使い終わったら、原則として、**`close()`**メソッドを呼び出して、**クローズ**する（閉じる）必要があります。

In [0]:
f.close()

`close()`を呼び出さずに放置すると、そのファイルがまだ使用中だと認識されてしまいます。
これは、同じファイルを利用しようとする他のプログラムの働きを阻害します。（個室のトイレをイメージしてください。）

`close()`の呼出しは重要ですが、忘れがちなものでもあります。
後述するwith文を使うのが安全です。

## ファイル全体の読み込み

ファイル全体を一括で読み込んで、1つの文字列を取得したいときには、**`read()`**メソッドを利用します。

In [4]:
f = open('sample.txt', 'r')
f.read()

'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.\nDuis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.\nExcepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n'

In [0]:
f.close()

## 練習

文字列 `name` をファイル名とするファイルをオープンして、
`read()` のメソッドによってファイル全体を文字列として読み込み、
その文字数を返す関数 `number_of_characters(name)` を作成してください。

注意：`return` する前にファイルをクローズすることを忘れないようにしてください。

In [0]:
def  number_of_characters(name):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [0]:
print(number_of_characters('sample.txt') == 446)

## 行の読み込み
ファイルオブジェクトには、**`readline()`** というメソッドを適用することができます。
ファイルから新たに一行を読んで文字列として返します。
文字列の最後に改行文字が含まれます。

ファイルの終わりに来たとき、`readline()` は `''` という空文字列を返します。

以下のようにして `readline()` を使ってファイルを行単位で読んでみましょう。

ファイルを読み終わると空文字列が返ることを確認してください。

In [0]:
f = open('sample.txt', 'r')

In [7]:
f.readline()

'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.\n'

In [8]:
f.readline()

'Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.\n'

In [9]:
f.readline()

'Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n'

In [10]:
f.readline()

''

In [0]:
f.close()

## 練習
文字列 `name` をファイル名とするファイルの最後の行を文字列として返す関数 `last_line(name)` を定義してください。

In [0]:
def last_line(name):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [0]:
print(last_line('sample.txt')=="Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n")

## ファイルに対するwith文

ファイルのオブジェクトは、with文に指定することができます。

---
```Python
with ファイルオブジェクト as 変数:
    ...

```
---

**`with`** の次には、`open` によってファイルをオープンする式を書きます。

また、**`as`** の次には、ファイルのオブジェクトが格納される変数を書きます。

with文は処理後にファイルのクローズを自動的にやってくれますので、
ファイルに対して `close()` を呼び出す必要がありません。

In [18]:
with open('sample.txt', 'r') as f:
    print(f.read())

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.
Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.



## ファイルへの書き込み

ファイルへの書き込みは、`print`関数を使って行えます。
`file`引数に書き込み先のファイルオブジェクトを指定します。
`file`引数は 3.3 で説明されているキーワード引数ですので、
以下のように `file=...` という形で指定します。

In [0]:
with open('print-test.txt', 'w') as f:
    print('hello\nworld', file=f)

In [32]:
!cat print-test.txt

hello
world


文字列の中の `\n` は改行文字を表します。`\n` は**エスケープシーケンス**（2-1に説明があります）の一種です。
エスケープシーケンスには、この他に、復帰文字を表す `\r` やタブを表す `\t` などがあります。

ファイルの読み書きのモードとしては、**書き込みモード**を意味する `'w'` を指定しています。既に同じ名前のファイルが存在する場合は上書きされます（以前の内容はなくなります）。ファイルがない場合は、新たに作成されます。

`'a'` を指定すると、ファイルが存在する場合、既存の内容の後に追記されます。ファイルがない場合は、新たに作成されます。

`print`関数は、デフォルトで、与えられた文字列の末尾に改行文字を加えて印字します。
末尾に加える文字は、`end`引数で指定できます。

In [0]:
with open('print-test.txt', 'a') as f:
    print('hello', 'world\n', end='', file=f) # 改行文字を加えない

In [34]:
!cat print-test.txt

hello
world
hello world


また、複数の印字対象を渡すと、デフォルトで、空白文字で区切って印字します。
この区切り文字は、`sep`引数で指定できます。

In [0]:
with open('print-test.txt', 'a') as f:
    print('hello', 'world', sep=', ', file=f) # 'hello, world'が印字される

In [37]:
!cat print-test.txt

hello
world
hello world
hello, world


この他にも、ファイルオブジェクトには、低水準の書き込み用メソッドが用意されています。
**`write()`**メソッドは、与えられた1つの文字列を単に書き込みます。
次に示すように、`write()`メソッドと`read()`メソッドは、対で使うことが良くあります。

In [0]:
with open('sample.txt') as src, open('sample.txt.bak', 'w') as dst:
    dst.write(src.read())

このコードは、`sample.txt`を`sample.txt.bak`にコピーします。

In [40]:
!ls

print-test.txt	sample_data  sample.txt  sample.txt.bak  test.txt


## 練習

二つのファイル名 `infile`, `outfile` を引数として、`infile` の半角英文字をすべて大文字にした結果を `outfile` に書き込む `file_upper(infile, outfile)` という関数を作成してください。   

なお、半角英文字の小文字を大文字に変換するには`.upper()`というメソッドが使えます。
たとえば`line`という名前の変数に半角文字列が入っている場合、`line.upper()`とすれば小文字に変換した文字列を返します。

In [0]:
def file_upper(infile,outfile):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [0]:
with open('print-test.txt', 'w') as f:
    print('hello', 'world', file=f)
file_upper('print-test.txt', 'print-test-upper.txt')
with open('print-test-upper.txt', 'r') as f:
    print(f.read() == 'HELLO WORLD\n')

## ファイルの読み書きにおける文字コード指定

`open`でファイルを開くと、通常そのファイルをテキストモードで開きます（テキストモード以外にバイナリモードもあります）。

テキストモードでファイルを開くときは、さらに特定の**文字コード**によってそのファイルを開こうとします。
文字コードを指定しないと、デフォルトの文字コードでそのファイルを開こうとしますが、
この文字コードがファイルを書き込む際に指定したものと異なる場合、エラーが出たり文字化けしてしまいます。

デフォルトの文字コードは、WindowsはShift-JIS、MacOSやLinuxはUTF-8になっていることが多いです。
UTF-8で文字を記録されたファイルをWindowsで、ただ``open('utf-8.txt', 'w')``のように文字コードを指定せずに開くとエラーが出ます。
同じく、Shift-JISで文字を記録されたファイルをMacOSで``open('shift-jis.txt', 'w')``として開くとエラーが出ます。   

なお、この教材の冒頭で`open('sample.txt', 'r')`と、文字コードを指定せずにファイルを開きましたがエラーは出ませんでしたね。
これは、`sample.txt`では半角英数字しか使われておらず、半角英数字に関しては、シフトJISもUTF-8も共通のルールでエンコードされているためです。


In [42]:
!wget https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/shift-jis.txt
!wget https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/utf-8.txt

--2020-03-06 06:33:44--  https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/shift-jis.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10 [text/plain]
Saving to: ‘shift-jis.txt’


2020-03-06 06:33:44 (2.06 MB/s) - ‘shift-jis.txt’ saved [10/10]

--2020-03-06 06:33:45--  https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/utf-8.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 15 [text/plain]
Saving to: ‘utf-8.txt’


2020-03-06 06:33:45 (4.21 MB/s) - ‘utf-8.txt’ saved [15/15]



In [43]:
# MacOSならこちらでエラー
with open('shift-jis.txt', 'r') as f:
    print(f.read())

# Windowsならこちらでエラー
with open('utf-8.txt', 'r') as f:
    print(f.read())

UnicodeDecodeError: ignored

特に半角英数以外の文字を記録する際は文字コードを指定すること、またそのようなファイルを開くときは、記録するときに指定した文字コードでファイルを開いてください。

文字コードは、`open` のキーワード引数として
`encoding='utf-8'`（文字コードにUTF-8を指定する場合）のように指定することができます。 

なお、日本語の文字コードには `UTF-8`, `Shift-JIS`, `EUC-JP` などがありますが、PythonではOSの種類に限らず、UTF-8という文字コードがよくつかわれます。本授業でもUTF-8を推奨します。

In [44]:
# 文字コードを指定しないとMacOSならこちらでエラー
with open('shift-jis.txt', 'r', encoding='shift-jis') as f:
    print(f.read())

# 文字コードを指定しないとWindowsならこちらでエラー
with open('utf-8.txt', 'r', encoding='utf-8') as f:
    print(f.read())

# 文字コードを指定してファイルに書き込む場合
with open('text.txt', 'w', encoding='utf-8') as f:
    f.write('かきくけこ')
with open('text.txt', 'r', encoding='utf-8') as f:
    print(f.read())
    

あいうえお
あいうえお
かきくけこ


## 改行文字の削除

ファイルをテキストモードで開いて `read()` や `readline()` を呼び出すと、
`str` 型の文字列として読み込まれます。

`str` 型の文字列の末尾にある改行文字が不要な場合は、
文字列に対して **`rstrip`** というメソッドを
`rstrip('\n')` のようにして呼び出すことにより削除することができます。
ここで、カッコ `()` の中にはそのテキストファイルで使われている改行文字を指定します。
一般的に、Windowsでは`\r\n`、MacOSやLinuxでは`\n`です。
また、昔のMacOSで作られたテキストファイルは`\r`となっているものもあります。

In [46]:
!wget https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/text/novel.txt

--2020-03-06 06:36:26--  https://raw.githubusercontent.com/UTokyo-IPP/utpython/master/4/text/novel.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 696 [text/plain]
Saving to: ‘novel.txt’


2020-03-06 06:36:26 (183 MB/s) - ‘novel.txt’ saved [696/696]



In [47]:
with open('novel.txt', 'r', encoding='utf-8') as f:
    while True:
        line = f.readline()
        if line == '':
            break
        print(line)

print('------ 末尾の改行文字を削除すると以下のようになります-------')
with open('novel.txt', 'r', encoding='utf-8') as f:
    while True:
        line = f.readline()
        if line == '':
            break
        print(line.rstrip('\n'))

二人の若い紳士が、すつかりイギリスの兵隊のかたちをして、ぴか／＼する鉄砲をかついで、白熊のやうな犬を二疋つれて、だいぶ山奥の、木の葉のかさ／＼したとこを、こんなことを云ひながら、あるいてをりました。

「ぜんたい、こゝらの山は怪しからんね。鳥も獣も一疋も居やがらん。なんでも構はないから、早くタンタアーンと、やつて見たいもんだなあ。」

「鹿の黄いろな横つ腹なんぞに、二三発お見舞まうしたら、ずゐぶん痛快だらうねえ。くる／＼まはつて、それからどたつと倒れるだらうねえ。」

------ 末尾の改行文字を削除すると以下のようになります-------
二人の若い紳士が、すつかりイギリスの兵隊のかたちをして、ぴか／＼する鉄砲をかついで、白熊のやうな犬を二疋つれて、だいぶ山奥の、木の葉のかさ／＼したとこを、こんなことを云ひながら、あるいてをりました。
「ぜんたい、こゝらの山は怪しからんね。鳥も獣も一疋も居やがらん。なんでも構はないから、早くタンタアーンと、やつて見たいもんだなあ。」
「鹿の黄いろな横つ腹なんぞに、二三発お見舞まうしたら、ずゐぶん痛快だらうねえ。くる／＼まはつて、それからどたつと倒れるだらうねえ。」


## 練習の解答

In [0]:
def  number_of_characters(name):
    f = open(name, 'r')
    s = f.read()
    f.close()
    return len(s)

In [0]:
def last_line(name):
    last = ''
    with open(name, 'r') as f:
        while True:
            line = f.readline()
            if line == '':
                return last
            last = line

In [0]:
def file_upper(infile,outfile):
    with open(infile, 'r') as f:
        with open(outfile, 'w') as g:
            g.write(f.read().upper())

以下のように一つのwith文に複数の `open` を書くこともできます。

In [0]:
def file_upper(infile,outfile):
    with open(infile, 'r') as f, open(outfile, 'w') as g:
        g.write(f.read().upper())