# ファイル操作とモジュール

本節では、Pythonでファイルを読み書きする方法と、
Pythonファイルの分割と再利用のためモジュールについて説明する。

## 1. ファイルへの書き込み

まずはPythonでファイルに書き込んでみる。

Pythonでファイルを開くには ``open()`` 関数を使う。
書き込み用にファイルを開く場合には、以下のように引数を指定してファイルを **書き込みモード** で開き、ファイルオブジェクトを得る。

* 第1引数 ファイルのパス
* 第2引数 ファイルのモード(この場合は ``w`` で書き込みモード)
* encoding引数 ファイルの文字コード(この場合は ``utf-8``)

得られたファイルオブジェクトに `.write()`メソッドで書き込みを行う。

書き込み完了後にファイルオブジェクトを `.close()` メソッドでクローズする。

In [2]:
f = open('pycamp.txt', 'w', encoding='utf-8')
f.write('Hello')
f.write(' Python\n')
f.write('こんにちはPython\n')
f.close()

## 2.  ファイルの読み込み

ファイルの中身を読み込むには、ファイルを読み込みモード(``r``)で開き、その後ファイルオブジェクトの ``.read()`` メソッドでファイルの中身を読み込む。

In [3]:
f = open('pycamp.txt', 'r', encoding='utf-8')
txt = f.read()
f.close()
print(txt)


Hello Python
こんにちはPython



In [4]:
# openの第2引数のデフォルトは読み込みモードなので省略可能
f = open('pycamp.txt', encoding='utf-8')
print(f.read())
f.close()

Hello Python
こんにちはPython



#### with文によるファイルのopenとclose

ファイルを扱う際には、 [with文](https://docs.python.org/ja/3/reference/compound_stmts.html#with) を使うと便利。

``with`` 文を使うことで、ファイルのクローズを自動で行えます。処理中に例外が発生しても必ずファイルを閉じることができる

In [5]:
with open('pycamp.txt', encoding='utf-8') as f: # withブロックを抜けるとファイルオブジェクトfはcloseされる
     txt = f.read()
print(txt)

Hello Python
こんにちはPython



## 3. モジュール

ここまでの処理はJupyter Nodebook上に記述して実行してきたが、1つのファイルに記述していると、プログラムが長くなるとどこに何を書いているのかがわからなくなってくる。

処理が長く、複雑になると、複数のファイルに処理を分割する必要がある。役割ごとにファイルを分割することで、それぞれどういった処理をするものかを明確にできる。

Pythonでは他のPythonファイルや関数をインポート（import）して再利用できる。処理を複数のファイルに分割し、必要な処理をインポートして使う。

実行環境直下に ``calc.py`` というファイルがあるので、インポートして使用する。


In [7]:
import calc # calcモジュールをimporta

In [8]:
calc.add(1, 2)   #calcモジュール内のadd関数を利用

3

In [9]:
calc.sub(10, 2)   #calcモジュール内のsub関数を利用

8

### calcモジュール内の関数をインポート

モジュール内の関数をimportするには、fromでモジュールを指定する。


In [11]:
from calc import add

In [12]:
add(2, 3)

5

### インポートして別名をつける

as を使うことでインポート時に別名をつけることができる。長い関数名、クラス名を簡略化するために使用したり、インポートした名前が別のモジュールと競合する場合に別名を使用することができる。


In [13]:
import calc as c
c.add(10, 20)

30

### 複数の対象をインポート

``calc`` モジュールから ``add()`` 、 ``sub()`` 関数を一度にインポートするには、
``import`` 文でカンマ区切りでインポート対象を指定する。

In [14]:
from calc import add, sub

## 4. 標準ライブラリの利用

Python自体も標準でモジュールを提供している。これら標準で提供されているモジュールをまとめて標準ライブラリと呼ぶ。

必要な処理をすべて自分で実装するのでなく、積極的に標準ライブラリを利用すること。

標準ライブラリを利用すると重複する実装が減り、コードの記述量を大幅に削減できる。

参考： Python公式ドキュメント

* [Pythonチュートリアル 10. 標準ライブラリミニツアー](https://docs.python.jp/3/tutorial/stdlib.html)
* [ライブラリーリファレンス](https://docs.python.jp/3/library/index.html)

### 日付を扱うモジュール

標準ライブラリの1つ ``datetime`` モジュールを取り上げる。
``datetime`` は日付や時刻を簡単に取り扱うことができるモジュールである。
ここでは例として日付の計算を行う。

``datetime``モジュールには、いつくかのオブジェクトが定義されている。

* ``datetime.date`` 日付オブジェクト
* ``datetime.datetime`` 日付時刻オブジェクト(モジュール名と同じでややこしいが、datetimeモジュール内のdatetimeオブジェクト)
* ``datetime.timedelta`` 経過時間・時間差オブジェクト
* etc...

``datetime.date()`` コンストラクタを使って日付を意味するオブジェクトを生成できる。

In [15]:
import datetime
d = datetime.date(2016, 12, 23)
print(d)
print(d.year, d.month, d.day)

2016-12-23
2016 12 23


また、 ``datetime.date.today()`` メソッドを使うと今日の日付を取得することができる。

In [16]:
today = datetime.date.today()
print(today)  # 実行する日によって結果が異なる

2019-01-19


ここで、自分が生まれてから今日までに何日経過したのかを計算してみる。
自分で実装しようとすると、月ごとに日数が違う、うるう年の計算など面倒な計算が必要となるが、
``datetime.date`` を使うと面倒な部分をモジュールが肩代わりしてくれる。


In [18]:
birthday = datetime.date(2008, 12, 3)  # Python 3.0のリリース日
today = datetime.date.today()
delta = today - birthday  # 日付や時刻の差を表すdatetime.timedeltaオブジェクト
print(delta.days)  # 実行する日によって結果が異なる

3699


### 正規表現モジュール

次に標準ライブラリの1つ ``re`` モジュールを扱う。
``re`` モジュールはPythonで正規表現を扱うためのモジュールである。

``re.search()`` 関数を使って、文字列が正規表現にマッチするか調べられる。第1引数に正規表現、第2引数に対象の文字列を渡す。

In [19]:
import re
m = re.search(r'My name is (.+) (.+)\.', 'My name is Taro Yamada.')
m

<_sre.SRE_Match object; span=(0, 23), match='My name is Taro Yamada.'>

正規表現にマッチした場合、 ``re.search()`` は結果を表すマッチオブジェクトを返す。
マッチオブジェクトから値を取り出すには、 ``.group()`` メソッドを呼び出す。

正規表現がグループを含む場合、グループの番号を引数に渡して取り出せる。
引数を指定しないか、0を指定すると、正規表現全体のマッチが返される。

In [20]:
print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))

My name is Taro Yamada.
My name is Taro Yamada.
Taro
Yamada


#### コラム: 正規表現の文字列

正規表現の文字列にはPythonのraw文字列を使うのが一般的である。

``r`` プレフィックスをつけてraw文字列を定義します。
raw文字列ではバックスラッシュを特別扱いしないので、
正規表現中にバックスラッシュを使う際に ``'\\'`` と書く必要がなくなる。

上記の例では、raw文字列を使用しない場合には、

``'My name is (.+) (.+)\\.'               # r'My name is (.+) (.+)\.'と等価``

と書かなければならない。最後の`.`はそのまま使用すると正規表現のワイルドカード文字になるが、ここではピリオド文字として指定したい。

したがって正規表現のエスケープとしてのバックスラッシュと文字列のエスケープのためのバックスラッシュの2つが必要になる。

raw文字列を使用すると、文字列のエスケープが無効になるため正規表現のエスケープのみで良くなる。
