# Pythonプログラミング入門 第4回
ファイル入出力の基本について説明します

参考

- https://docs.python.org/ja/3/tutorial/inputoutput.html#reading-and-writing-files

# ファイル入出力の基本

## ファイルのオープン
**ファイル**から文字列を読み込んだり、ファイルに書き込んだりするには、
まず、**`open`** という関数によってファイルを**オープン**する（開く）必要があります。

In [1]:
f = open('small.csv', 'r')

変数 `f` には、ファイルを読み書きするためのデータ（オブジェクト）が入ります。

`'small.csv'` はファイル名で、そのファイルの絶対パス名か、このノートブックからの相対パス名を指定します。

ここでは、`small.csv` という名前のファイルがこのノートブックと同じディレクトリにあることを想定しています。

たとえば、`big.csv` というファイルが、ノートブックの一段上のディレクトリにあるならば、`'../big.csv'` と指定します。
ノートブックの一段上のディレクトリに置かれている `data` というディレクトリにあるならば、`'../data/big.csv'` となります。

`'r'` はファイルをどのモードで開くかを指しており、`'r'`は**読み込みモード**を意味します。<br>
このモードで開いたファイルに書き込みすることはできません。

モードには次のような種類があります。

記号| モード
---|:---
r | 読み込み
w | 書き込み
a | 追記
+ | 読み書き両方を指定したい場合に使用

書き込みについては後でも説明します。

## オブジェクト
Pythonプログラムでは、全ての種類のデータは、オブジェクト指向言語における**オブジェクト**として実現されます。
個々のオブジェクトは、それぞれの**参照値**によって一意に識別されます。

また、個々のオブジェクトはそれぞれに不変な **型** を持ちます。

オブジェクトの型は **`type`** という関数によって求めることができます。

たとえば、`3` というデータ（オブジェクト）の型は `int` です。

In [2]:
type(3)

int

Pythonにおいて、変数には、オブジェクトの参照値が入ります。
では、変数 `f` に入っているオブジェクトの型はどうなっているでしょうか。

In [3]:
type(f)

_io.TextIOWrapper

`_io.TextIOWrapper`は、io (in/outの略で、様々な入出力を扱うモジュール）の中の、TextのIO（In/Out)を扱う[ラッパー](http://e-words.jp/w/%E3%83%A9%E3%83%83%E3%83%91%E3%83%BC.html)型です。

`f` のオブジェクトそのものを表示させると以下のようになります。

In [4]:
f

<_io.TextIOWrapper name='small.csv' mode='r' encoding='cp932'>

`_io.TextIOWrapper`型であるこのオブジェクトは、name (ファイル名）属性が`small.csv`、mode (モード)属性が`r`であることを意味しています。<br>
encoding(文字コード）はこのプログラムを動かしているOSによって違うでしょう。<br>
もしWindowsなら`cp932`（Shift-JISのこと）、Macなら`euc_jp`となっているのが一般的です。

### 属性
個々のオブジェクトは、さまざまな**属性**を持ちます。これらの属性は、以下のようにして確認できます。

---
```Python
オブジェクト.属性名
```
---

たとえば、以下のように `f` に入っているオブジェクトに対して色々な情報を問い合わせることができます。

In [5]:
f.name

'small.csv'

In [6]:
f.mode

'r'

オブジェクトがどのような属性を持つかは、**`dir`** という関数を使って調べることができます。

In [7]:
dir(f)

['_CHUNK_SIZE',
 '__class__',
 '__del__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_checkClosed',
 '_checkReadable',
 '_checkSeekable',
 '_checkWritable',
 '_finalizing',
 'buffer',
 'close',
 'closed',
 'detach',
 'encoding',
 'errors',
 'fileno',
 'flush',
 'isatty',
 'line_buffering',
 'mode',
 'name',
 'newlines',
 'read',
 'readable',
 'readline',
 'readlines',
 'reconfigure',
 'seek',
 'seekable',
 'tell',
 'truncate',
 'writable',
 'write',
 'write_through',
 'writelines']

`dir` の結果は文字列の配列です。
それぞれの文字列は属性の名前です。
この中に、`name` や `mode` も含まれています。

属性には、そのオブジェクトを操作するために関数として呼び出すことのできるものがあり、**メソッド**と呼ばれます。

たとえば、**`read`** という属性の値を `()` を付けないで表示させると以下のようです。

In [8]:
f.read

<function TextIOWrapper.read(size=-1, /)>

この関数が、`()` を付けることによって呼び出されます。このとき、`read()`は、そのファイルを全て読み込むという働きをします。

In [9]:
f.read()

'11,12,13,14,15\n21,22,23,24,25\n31,32,33,34,35\n'

ファイル全体の内容が一続きの文字列として返されました。<br>
文字列が複数行にわたる場合は、それを一続きの文字列として表すために、改行する場所が`\n` という記号（改行文字）で置き換えられます。<br>
（同様に、ファイルに書き込みする際に、文字列中に改行を加えたい場合は、そこに`\n`を挿入します。）

これでファイルの読み込みが終わりましたので、**`close()`** というメソッドによってファイルを**クローズ**して（閉じて）おきましょう。

In [10]:
f.close()

繰り返しますが、属性のうち、そのオブジェクトを操作するための関数として呼び出すことのできる
ものをメソッドと呼びます。<br>
メソッドは、オブジェクト指向言語で一般的に使われる用語です。

メソッドは、以下のようにして呼び出すことができます。

---
```Python
オブジェクト.属性名(式, ...)
```
---

この構文により、属性の値である関数が呼び出されます。
その実行は、当然ながら、属性を持つオブジェクトに依存したものになります。

## 練習

文字列 `name` をファイル名とするファイルをオープンして、
`read()` のメソッドによってファイル全体を文字列として読み込み、
その文字数を返す関数 `number_of_characters(name)` を作成してください。

注意：`return` する前にファイルをクローズすることを忘れないようにしてください。

In [15]:
def  number_of_characters(name):
    f = open(name, 'r')
    s = f.read()
    f.close()
    return len(s)

In [16]:
print(number_of_characters('small.csv') == 45)

True


## ファイルに対する for 文
ファイルのオブジェクトは、**イテレータ**と呼ばれるオブジェクトの一種です。<br>
iterateは繰り返すという意味ですよね。<br>
iteratorは、その要素を一つずつ取り出す処理が可能なオブジェクトで、
**`next`** という関数でその処理を1回分行うことができます。

変数 `f` にファイルのオブジェクトが入っているとすると、
`next(f)` は、ファイルから新たに一行を読んで文字列として返します。

In [17]:
f = open('small.csv', 'r')
print(next(f))
print(next(f))
f.close()

11,12,13,14,15

21,22,23,24,25



さらに、イテレータは、for文の `in` の後に指定することができます。

したがって、以下のように `f` をfor文の `in` の後に指定することができます。

---
```Python
for line in f:
    ...
```
---

繰り返しの各ステップで、`next(f)` が呼び出されて、
変数 `line` にその値が設定され、for文の中身が実行されます。

以下の例を見てください。

In [18]:
f = open('small.csv', 'r')
for line in f:
    print(line)
f.close()

11,12,13,14,15

21,22,23,24,25

31,32,33,34,35



ファイルのオブジェクトに対して、一度for文で処理をすると、
繰り返し処理がファイルの終わりまで達しているので、
もう一度同じファイルオブジェクトをfor文に与えても何も実行されません。

（リストに対するfor文とは状況が異なりますので注意してください。
リストはイテラブルオブジェクトですがイテレータではないからです。
ファイルのオブジェクトは既にイテレータになっています。）

In [19]:
f = open('small.csv', 'r')
print('最初')
for line in f:
    print(line)
print('もう一度')
for line in f:
    print(line)
f.close()

最初
11,12,13,14,15

21,22,23,24,25

31,32,33,34,35

もう一度


ファイルをfor文によって二度読みたい場合は、ファイルのオブジェクトをクローズしてから、
もう一度ファイルをオープンして、ファイルのオブジェクトを新たに生成してください。

## 練習
文字列 `name` をファイル名とするファイルの最後の行を文字列として返す関数 `lastline(name)` を定義してください。

In [20]:
def lastline(name):
    f = open(name, 'r')
    for line in f:
        pass
    f.close
    return line

以下のセルによってテストしてください。

In [21]:
print(lastline("small.csv") == '31,32,33,34,35\n')

True


## 行の読み込み
ファイルのオブジェクトには、**`readline()`** というメソッドを適用することもできます。

`f` をファイルのオブジェクトとしたとき、
`f.readline()` と `next(f)` は、ほぼ同じで、
ファイルから新たに一行を読んで文字列として返します。<br>
文字列の最後に改行文字が含まれます。

`f.readline()` と `next(f)` では、ファイルの終わりに来たときの挙動が異なります。<br>
`f.readline()` は `''` という空文字列を返すのですが、
`next(f)` は `StopIteration` というエラーを発します。<br>
（for文はこのエラーを検知しています。つまり、`next(f)`が`StopIteration`を返したらforループから抜け出します。）

以下のようにして `readline` を使ってファイルを読んでみましょう。

ファイルを読み終わると空文字列が返ることを確認してください。

In [22]:
f = open('small.csv', 'r')

In [23]:
f.readline()

'11,12,13,14,15\n'

In [24]:
f.readline()

'21,22,23,24,25\n'

In [25]:
f.readline()

'31,32,33,34,35\n'

In [26]:
f.readline()

''

In [27]:
f.close()

## ファイルに対する with 文

ファイルのオブジェクトは、with文に指定することができます。

---
```Python
with ファイル as 変数:
    ...

```
---

**`with`** の次には、`open` によってファイルをオープンする式を書きます。

また、**`as`** の次には、ファイルのオブジェクトが格納される変数を書きます。

with文は処理後にファイルのクローズを自動的にやってくれますので、
ファイルに対して `close()` を呼び出す必要がありません。

In [28]:
with open('small.csv', 'r') as f:
    for line in f:
        print(line)

11,12,13,14,15

21,22,23,24,25

31,32,33,34,35



## ファイルへの書き込み
ファイルへの書き込みは以下のように **`write`** というメソッドを用いて行います。

In [29]:
with open("write-test.txt", "w") as f:
    f.write("hello\nworld\n")

ファイルの読み書きのモードとしては、**書き込みモード**を意味する `'w'` を指定しています。既に同じ名前のファイルが存在する場合は上書きされます（以前の内容はなくなります）。ファイルがない場合は、新たに作成されます。

`'a'` を指定すると、ファイルが存在する場合、既存の内容の後に追記されます。ファイルがない場合は、新たに作成されます。

In [30]:
with open("write-test.txt", "w") as f:
    f.writelines(["hello\n", "world\n"])

`write` には文字列を指定します。**`writelines`** には文字列のリストを指定します。

どちらも、改行するためには、文字列の中に `\n `を入れる必要があります。

## 練習

二つのファイル名 `infile`, `outfile` を引数として、`infile` の英文字をすべて大文字にした結果を `outfile` に書き込む `fileupper(infile,outfile)` という関数を作成してください。

In [33]:
def fileupper(infile,outfile):
    with open(infile,'r') as f:
        with open(outfile, 'w') as g:
            g.write(f.read().upper())

以下のセルによってテストしてください。

In [34]:
with open("write-test.txt", "w") as f:
    f.writelines(["hello\n", "world\n"])
fileupper("write-test.txt", "write-test-upper.txt")
with open("write-test-upper.txt", "r") as f:
    print(f.read() == "HELLO\nWORLD\n")

True


## 練習の解答

In [None]:
def  number_of_characters(name):
    f = open(name, "r")
    s = f.read()
    f.close()
    return len(s)

In [None]:
def lastline(name):
    f = open(name, "r")
    for line in f:
        pass
    f.close()
    return line

In [None]:
def fileupper(infile,outfile):
    with open(infile, "r") as f:
        with open(outfile, "w") as g:
            g.write(f.read().upper())

以下のように一つのwith文に複数の `open` を書くことができます。

In [None]:
def fileupper(infile,outfile):
    with open(infile, "r") as f, open(outfile, "w") as g:
        g.write(f.read().upper())