# Pythonプログラミング入門 第5回
ファイル入出力の基本について説明します

# ファイルのオープン
ファイルから文字列を読み込んだり、ファイルに書き込んだりするには、
まず、ファイルをオープンする（開く）必要があります。

In [1]:
f = open('small.csv', 'r')

変数 f には、ファイルを読み書きするためのデータ（オブジェクト）が入ります。

'small.csv' はファイル名の文字列で、一般にはファイルの絶対パス名か、そのノートブックからの相対パス名を指定します。

ここでは、small.csv という名前のファイルがノートブックと同じディレクトリにあることを想定しています。

たとえば、big.csv というファイルが、ノートブックの上のディレクトリにあるならば、'../big.csv' と指定します。
ノートブックの上のディレクトリの下にある data というディレクトリにあるならば、'../data/big.csv' となります。

'r' はファイルの読み書きのモードの一種で、「読み込み」を意味します。

書き込みについては後で説明します。

# オブジェクト
Pythonプログラムでは、全ての種類のデータは、オブジェクト指向言語における “オブジェクト” として実現されます。
個々のオブジェクトは、それぞれの “参照値” によって一意に識別されます。

また、個々のオブジェクトはそれぞれに不変な型を持ちます。
オブジェクトの型は type という関数によって求めることができます。

たとえば、3 というデータ（オブジェクト）の型は int です。

In [2]:
type(3)

int

Pythonにおいて、変数には、オブジェクトの参照値が入ります。
では、変数 f に入っているオブジェクトの型はどうなっているでしょうか。

In [3]:
type(f)

_io.TextIOWrapper

f のオブジェクトそのものを表示させると以下のようになります。

In [4]:
f

<_io.TextIOWrapper name='small.csv' mode='r' encoding='UTF-8'>

# 属性
個々のオブジェクトは、さまざまな属性を持ちます。これらの属性は、以下のように確認できます。

---
```Python
オブジェクト.属性名
```
---

たとえば、以下のように f に入っているオブジェクトに対して色々な情報を問い合わせることができます。

In [5]:
f.name

'small.csv'

In [6]:
f.mode

'r'

オブジェクトがどのような属性を持つかは、dir という関数を使って調べることができます。

In [7]:
dir(f)

['_CHUNK_SIZE',
 '__class__',
 '__del__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_checkClosed',
 '_checkReadable',
 '_checkSeekable',
 '_checkWritable',
 '_finalizing',
 'buffer',
 'close',
 'closed',
 'detach',
 'encoding',
 'errors',
 'fileno',
 'flush',
 'isatty',
 'line_buffering',
 'mode',
 'name',
 'newlines',
 'read',
 'readable',
 'readline',
 'readlines',
 'seek',
 'seekable',
 'tell',
 'truncate',
 'writable',
 'write',
 'writelines']

dir の結果は文字列の配列です。
それぞれの文字列は属性の名前です。
この中に、name や mode も含まれています。

属性には、そのオブジェクトを操作するために関数として呼び出すことのできるものがあり、メソッドと呼ばれます。

たとえば、read という属性の値を () を付けないで表示させると以下のようです。

In [8]:
f.read

<function TextIOWrapper.read>

この関数が、() を付けることによって呼び出されます。

In [9]:
f.read()

'11,12,13,14,15\n21,22,23,24,25\n31,32,33,34,35\n'

ファイル全体の内容が文字列として返されました。
\\n は改行文字です。

これでファイルの読み込みが終わりましたので、ファイルをクローズして（閉じて）おきましょう。

In [None]:
f.close()

繰り返しますが、属性の値が関数であるとき、その属性をメソッドと呼びます。
メソッドは、オブジェクト指向言語で一般的に使われる用語です。

メソッドは、以下のようにして呼び出すことができます。

---
```Python
オブジェクト.属性名(式, ...)
```
---

この構文により、属性の値である関数が呼び出されます。
その実行は、当然ながら、属性を持つオブジェクトに依存したものになります。

# ファイルに対する for 文
ファイルのオブジェクトは、イテレータの一種です。
変数 f にファイルのオブジェクトが入っているとすると、
next(f) は、ファイルから新たに一行を読んで文字列として返します。

以下のように f をfor文の in の後に指定することができます。

---
```Python
for line in f:
    ...
```
---

繰り返しの各ステップで、next(f) が呼び出されて、
変数 line にその値が設定され、for 文の中身が実行されます。

以下の例を見てください。

In [None]:
f = open('small.csv', 'r')
for line in f:
    print(line)
f.close()

# 行の読み込み
ファイルのオブジェクトには、readline() というメソッドを適用することもできます。

f をファイルのオブジェクトとしたとき、
f.readline() と next(f) は、ほぼ同じで、
ファイルから新たに一行を読んで文字列として返します。
文字列の最後に改行文字が含まれます。

f.readline() と next(f) では、ファイルの終わりに来たときの挙動が異なります。
f.readline() は '' という空文字列を返すのですが、
next(f) は StopIteration というエラーを発します。

以下のようにして readline を使ってファイルを読んでみましょう。

ファイルを読み終わると空文字列が返ることを確認してください。

In [10]:
f = open('small.csv', 'r')

In [11]:
f.readline()

'11,12,13,14,15\n'

In [12]:
f.readline()

'21,22,23,24,25\n'

In [13]:
f.readline()

'31,32,33,34,35\n'

In [14]:
f.readline()

''

In [15]:
f.close()

# ファイルに対する with 文

ファイルのオブジェクトは、with文に指定することができます。

---
```Python
with ファイル as 変数:
    ...

```
---

with の次には、open によってファイルをオープンする式を書きます。

with文は処理後にファイルのクローズを自動的にやってくれますので、
ファイルに対して close() を呼び出す必要がありません。

In [16]:
with open('small.csv', 'r') as f:
    for line in f:
        print(line)
        
print(f)

11,12,13,14,15

21,22,23,24,25

31,32,33,34,35

<_io.TextIOWrapper name='small.csv' mode='r' encoding='UTF-8'>


# ファイルへの書き込み
ファイルへの書き込みは以下のようにして行います。

In [17]:
with open("write-test.txt", "w") as f:
    f.write("hello\nworld\n")

ファイルの読み書きのモードとしては、「書き込み」を意味する 'w' を指定しています。既にファイルが存在する場合、古い内容はなくなります。ファイルがない場合は、新たに作成されます。

'a' を指定すると、ファイルが存在する場合、既存の内容の後に追記されます。ファイルがない場合は、新たに作成されます。

In [18]:
with open("write-test.txt", "w") as f:
    f.writelines(["hello\n", "world\n"])

write には文字列を指定します。writelines には文字列のリストを指定します。

どちらも、改行するためには、文字列の中に \\n を入れる必要があります。

# 練習

1. 上のセルを実行して、write-test.txt というファイルを確認してください。

# ファイルと文字列
ファイルと文字列が関係する典型的な課題として、
英語の文書をファイルから読み込み、出現する単語のリストを求めてみましょう。

In [19]:
import re
a = []
with open('text-sample.txt', 'r') as f:
    for line in f:
        words = re.split('[^a-zA-Z]+', line)
        for word in words:
            if word != '':
                a.append(word.lower())

re は正規表現のモジュールで、

---
```Python
re.split('[^a-zA-Z]+', line)

```
---

という関数は、[^a-zA-Z]+ という正規表現にマッチする文字列をデリミタ（単語と単語の間に入るべき文字列）として、
line の文字列を単語に区切って、単語（文字列）のリストを返します。

正規表現とは、文字列のパターンを表現する式です。
[^a-zA-Z]+ という正規表現は、英文字以外の文字が1回以上繰り返されている、というパターンを表します。

word.lower は、単語（文字列）word の中の大文字を小文字に変換します。

In [20]:
a

['we',
 'the',
 'japanese',
 'people',
 'acting',
 'through',
 'our',
 'duly',
 'elected',
 'representatives',
 'in',
 'the',
 'national',
 'diet',
 'determined',
 'that',
 'we',
 'shall',
 'secure',
 'for',
 'ourselves',
 'and',
 'our',
 'posterity',
 'the',
 'fruits',
 'of',
 'peaceful',
 'cooperation',
 'with',
 'all',
 'nations',
 'and',
 'the',
 'blessings',
 'of',
 'liberty',
 'throughout',
 'this',
 'land',
 'and',
 'resolved',
 'that',
 'never',
 'again',
 'shall',
 'we',
 'be',
 'visited',
 'with',
 'the',
 'horrors',
 'of',
 'war',
 'through',
 'the',
 'action',
 'of',
 'government',
 'do',
 'proclaim',
 'the',
 'sovereignty',
 'of',
 'the',
 'people',
 's',
 'will',
 'and',
 'do',
 'ordain',
 'and',
 'establish',
 'this',
 'constitution',
 'founded',
 'upon',
 'the',
 'universal',
 'principle',
 'that',
 'government',
 'is',
 'a',
 'sacred',
 'trust',
 'the',
 'authority',
 'for',
 'which',
 'is',
 'derived',
 'from',
 'the',
 'people',
 'the',
 'powers',
 'of',
 'which',
 '

# 練習

1. text-sample.txt に出現する単語のリストを、単語の重複のないように求めてください。

2. 求めたリストをソートしてください。

# 予習課題

1. ファイル名をもらって、そのファイルの行数を返す関数 number_of_lines(name) を定義してください。

In [21]:
def number_of_lines(name):
    i = 0
    with open(name, 'r') as f:
        for line in f:
            i = i + 1
    return i

In [22]:
number_of_lines("text-sample.txt")

6