# ファイル入出力の基礎

## Pythonにおけるファイル入出力処理
*  よく行う処理:
>*  処理をした結果をファイルに書き込んで保存する
>*  ファイルからデータを読み込んで処理（集計や表示など）する
>*  例: 10万人分のテストの成績が書かれたファイルを読み込み，平均や偏差値を計算し，その計算結果を別のファイルに書き込んで保存する
*  基本的な処理手順
>*  ファイルを開く
>*  ファイルに書き込む／ファイルから読み込む
>*  ファイルを閉じる
*   Pythonでは，`open`関数を使って，こういった処理を行う

<img src="./fig/08_fileIO.png" width="500">

## `open`関数とファイルオブジェクト
*  `open`関数の基本的な書式：`open('ファイル名', 'モード', encoding='文字コード')`
*  モードはファイルの操作方法を指定するための文字
*  モードの種類（代表的なもの）
>*  `r`: 読み込み
>*  `w`: 書き込み（新規）
>*  `a`: 既に存在するファイルに追加で書き込み
*  正しい文字コードを指定しないと，読み込み／書き込みにおいて文字化けなどの問題が生じる
*  `open`関数は戻り値として，ファイルオブジェクトを返す
*  ファイルオブジェクトの生成が「ファイルを開く」ことに対応する
*  ファイルオブジェクトは，ファイルとのやり取り（読み込みや書き込みなど）を行うための機能を提供する
*  このオブジェクトのメソッド等を使って，ファイルの入出力処理を行う
 
<img src="./fig/08_file_object.png" width="400">

## ファイルオブジェクトに対する主なメソッド

|メソッド名|意味|
|:--|:--|
`read` | ファイルの内容を読み込む． |
`readline` | ファイルから1行ずつ読み込むメソッド．改行文字（`\n`）も含まれる． |
`readlines` | ファイル全体を行単位でリストとして読み込む． |
`write` | 指定された文字列やデータをファイルに書き込む． |
`writelines` | リストやイテラブルなオブジェクトの要素を一度にファイルに書き込む． |
`close` | ファイルを閉じる．ファイル操作が終わった後は，必ずこのメソッドを呼び出す． |      

## ファイルの書き込み
以下のコードはファイルを新たに作成し，書き込みを行っている．
*  1行目: ファイル名が「file1.txt」，モードが「w（書き込み）」，文字コードが「UTF-8」のファイルオブジェクト`x`を生成
*  このとき，ファイル「file1.txt」は存在しないので，新規にファイルが作成されることになる
*  2行目: `write`メソッドで，「Hello World!」をファイルに書き込む
*  3行目: `close`メソッドで，ファイルを閉じる 

In [7]:
x = open('file1.txt', 'w', encoding='utf-8')
x.write('Hello World!')
x.close()

## ファイルの読み込み
以下のコードは，上のコードで作成したファイル「file1.txt」に対する読み込みを行っている．
*  1行目: ファイル名が「file1.txt」，モードが「r（読み込み）」，文字コードが「UTF-8」のファイルオブジェクト`f`を生成
*  このとき，ファイル「file1.txt」が存在しなければ，エラーになる
*  2行目: `read`メソッドで，ファイルの内容を取り出し，変数txtに代入
*  `txt`は`str`のオブジェクトとなる
*  3行目: `txt`を表示
*  4行目: `close`メソッドで，ファイルを閉じる

In [None]:
f = open('file1.txt', 'r', encoding='utf-8')
txt = f.read()
print(f'file1.txtの内容:\n{txt}')
f.close()

## ファイルの上書き
既にあるファイルに対して，モード`'w'`で書き込むと上書きされる．  

In [None]:
#ファイルの書き込み（上書き）
x = open('file1.txt', 'w', encoding='utf-8')
x.write('This is the first line of the file.\n')
x.close()
#ファイルの読み込み
f = open('file1.txt', 'r', encoding='utf-8')
txt = f.read()
print(f'file1.txtの内容:\n{txt}')
f.close()

## ファイルに書き足す
既にあるファイルに対して，モード`'a'`で書き込むと書き足すことができる．

In [None]:
#ファイルの書き込み（書き足し）
x = open('file1.txt', 'a', encoding='utf-8')
x.write('Second line of the file.\n')
x.close()
#ファイルの読み込み
f = open('file1.txt', 'r', encoding='utf-8')
txt = f.read()
print(f'file1.txtの内容:\n{txt}')
f.close()

# `with`文を使ったファイル入出力
`with`文を使うと `close()`メソッドの記述を省略できる．  

`with`文の書式:
```
with ファイルオブジェクト as 変数:
    ファイルを操作する処理
```

*  一般に，ファイルオブジェクトは，`open`関数を使って生成する
*  ファイルオブジェクトは変数に代入される
*  ファイルを操作する処理は`with`ブロックとして記述する（ブロックの範囲をインデントで設定する）
*  `with`ブロックが終了すると，自動的にファイルを閉じる処理（`close`メソッド）が行われる

In [None]:
#ファイルの書き込み
with open('file2.txt', 'w', encoding='utf-8') as x:
    x.write('This is the first line of the file.\n')
#ファイルの読み込み
with open('file2.txt', 'r', encoding='utf-8') as f:
    txt = f.read()
    print(f'file2.txtの内容:\n{txt}')

In [None]:
#ファイルの書き足し
with open('file2.txt', 'a', encoding='utf-8') as x:
    x.write('Second line of the file.\n')
#ファイルの読み込み
with open('file2.txt', 'r', encoding='utf-8') as f:
    txt = f.read()
    print(f'file2.txtの内容:\n{txt}')

以下のコードは，入力した内容をファイルに書き込み，簡単なメモを記録する機能を持っている．

In [None]:
#ファイルの書き込み（書き足し）
with open('memo.txt', 'a', encoding='utf-8') as x:
    while True:
        flag = input('何か入力しますか？(y/n) >> ')
        if flag == 'n':
            break
        #任意のテキスト（メモ）を入力
        memo = input('テキスト入力 >> ')
        x.write(f'{memo}\n')

#ファイルの読み込み
with open('memo.txt', 'r', encoding='utf-8') as f:
    txt = f.read()
    print(f'メモの内容:\n{txt}')


## ファイルを閉じる必要性
*  プログラム（アプリなどの情報システム）は，通常，利用者とシステムとの間で，キーボードや画面などを通じてデータのやり取りをする
*  このようなデータの流れをストリームと呼ぶ
*  さらに，外部のシステムやデータベースの間にもストリームが生じることもある
*  ファイルを開き続けていると，外部のシステム等にアクセスできない，メモリの容量が不足する等の問題が生じる
*  よって，ファイルは開いたら必ず閉じるべき


## ファイル操作の例

### 準備: ファイルのダウンロード
*  ファイル操作のコード例を実行する前に，必ず以下のコード（正確にはコマンド）を実行する
*  このコマンドを実行すると，以降のコードで使用するファイルをダウンロードできる
*  このコマンドを実行しないと，これ以降のコードが実行できないので，必ず実行する
*  この操作は，ノートブックを開くたび，毎回行う
*  コマンドの内容を理解する必要はない

In [None]:
!curl -L -o exam.txt https://bit.ly/4dW2GIJ
!curl -L -o meros.txt https://bit.ly/3ZgHtof

### ダウンロードしたファイルの確認
*  ダウンロードした2ファイルは，それぞれ「exam.txt」「meros.txt」という名前で，ノートブック上に保存される
*  ファイルは画面右側のサイドバーから確認できる（下図）
*  ノートブックをしばらく操作しないと，接続切れとなりファイルは自動的に削除される

<img src="./fig/08_download.png" width="600">

### 「meros.txt」の操作

#### 「meros.txt」の内容表示

In [None]:
with open('meros.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    print(text)

#### 文字列（str）に対するメソッドの利用
文字列(`str`)に対するメソッド `count()` を使って「メロス」が何回登場したかをカウントする．

In [None]:
with open('meros.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    cnt = text.count('メロス')
    print(f'「メロス」の登場回数：{cnt}')

文字列(`str`)に対するメソッド `replace()` を使って「メロス」と「Python」を置き換える．

In [None]:
with open('meros.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    text = text.replace('メロス', 'Python')
    print(text)

先ほどと同様にして，「Python」が何回登場したかをカウントする．

In [None]:
with open('meros.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    text = text.replace('メロス', 'Python')
    cnt = text.count('Python')
    print(f'「Python」の登場回数：{cnt}')

### 「exam.txt」の操作

#### 「exam.txt」の内容表示

In [None]:
with open('exam.txt', 'r', encoding='utf-8') as f:
    results = f.read()
    print(results)

#### ファイルの内容をリストとして読み込む
*  ファイルオブジェクトは，イテラブルなオブジェクトなので，`for`文の`in`の後に指定することができる
*  ファイルの各行が順番に取り出される
*  取り出される要素は文字列型（str）となる
*  この性質を利用して，ファイル全体を行単位でリストとして読み込む

In [None]:
with open('exam.txt', 'r', encoding='utf-8') as f:
    results = [int(line) for line in f] # リスト内包表記
    print(results)

#### ファイルの内容を計算処理する
上記のコードを応用して，「exam.txt」の各行の値を100で割り，その値を「list.txt」に書き込む．

In [None]:
with open('exam.txt', 'r', encoding='utf-8') as f:
    results = [int(line) / 100 for line in f] # リスト内包表記
    
with open('list.txt', 'w', encoding='utf-8') as g:
    for x in results:
        g.write(f'{x}\n')

with open('list.txt', 'r', encoding='utf-8') as h:
    lists = h.read()
    print(lists)

# モジュールの利用
*  これまでに使ってきた`print`や`input`などの組み込み関数は，Pythonの中に内蔵されていて，いつでも使えるように組み込まれている関数であった
*  一方，限られた用途で使う定型の処理は，モジュールから読み込むことで使うことができる
*  モジュールとは，変数，関数，クラスを必要なときに読み込んで使える仕組みのこと

<img src="./fig/08_image_module.png" width="500">

## モジュール／ライブラリ／パッケージ
*  モジュールに関連する用語に「ライブラリ」と「パッケージ」がある
*  モジュール
>*  Pythonで記述された拡張子が「.py」のファイル
>*  他のファイルやノートブックから読み込むことで利用できる
*  ライブラリ
>* 複数のモジュールがまとまったもので，2種類（標準ライブラリと外部ライブラリ）のライブラリがある
>*  標準ライブラリ：最初からPythonに付属しているライブラリ
>*  外部ライブラリ：外部の組織や個人（サードパーティ）が用意したライブラリ
*  パッケージ
>*  実体はフォルダ
>*  複数のモジュールをフォルダに入れてひとまとめにしたもの
>*  フォルダには「__init__.py」という名前のファイルが含まれ，そのパッケージを読み込んだ際に実行される


## 標準ライブラリに含まれる主なモジュール

|モジュール名|用途|
|:--|:--|
mathモジュール | 数学計算（三角関数など）に関する処理 |
randomモジュール | 乱数に関する処理 |
datetimeモジュール | 日付と時間に関する処理 |
emailモジュール | 電子メールに関する処理 |
csvモジュール | CSVファイルに関する処理 |
jsonモジュール | JSONファイルに関する処理 |
osモジュール | OS操作に関する処理 |



## 代表的な外部ライブラリ
*  Pythonでは，外部の組織や個人（サードパーティ）が作成した数多くのモジュールが外部ライブラリとして公開されている
*  外部ライブラリを使う場合は，事前にインストールしておく必要がある
*  多くの外部ライブラリはパッケージとして提供されている

|ライブラリ名|主な用途|
|:--|:--|
Matplotlib | データの可視化（グラフ作成等） |
Pandas | データ分析 |
NumPy | ベクトル・行列計算 |
SciPy | 高度な科学技術計算（統計モジュールなど） |
scikit-learn | 機械学習・データサイエンス |


## モジュールのインポート
*  モジュールを使いたい場合は，モジュールを読み込む必要がある
*  モジュールを読み込むことをインポート（import）と呼ぶ
*  モジュールのインポートは，`import`文で記述できる
*  基本的な`import`文の書式: `import モジュール名`
*  `import`の直後にモジュール名を書くことで指定したモジュールを読み込む（インポートする）ことができる
*  モジュールをインポートすることで，モジュールの中にある各種機能（変数，関数，クラス）が利用できるようになる
*  一般的に，`import`文はコードの先頭に記述する

<img src="./fig/08_import_module.png" width="500">

*  上記の書式でインポートしたモジュールの機能を利用する場合は，モジュール名を必ず記述する
*  モジュール名の直後にドット「`.`」を付け，続けて変数名や関数名を記述する
*  モジュール内の変数の参照: `モジュール名.変数名`
*  モジュール内の関数の呼び出し: `モジュール名.関数名(引数, …)`
*  モジュール内のクラスからオブジェクトを生成: `モジュール名.クラス名(引数, …)`

In [None]:
import math

print(f'2の平方根は{math.sqrt(2)}です') # sqrt は平方根を計算する関数
print(f'円周率は{math.pi}です') # pi は円周率の値
print(f'小数点以下を切り捨てれば{math.floor(math.pi)}です') # floor は切り捨てする関数
print(f'小数点以下を切り上げれば{math.ceil(math.pi)}です') # ceil は切り上げする関数

### 別名をつけたモジュールのインポート
*  モジュール名が長すぎると，上のコードのように一般的な書式でモジュールを読み込んだ場合，コードが読み難くなったり，打ち込む作業が面倒になったりする
*  特に，コードの中で何度も同じ機能を使用する場合には，その影響が大きくなる
*  このような場合には，`as`を使ってモジュール名に短い別名を付ける方法がある
*  `as`を使った書式: `import モジュール名 as 別名`
*  モジュール内の変数の参照: `別名.変数名`
*  モジュール内の関数の呼び出し: `別名.関数名(引数, …)`
*  モジュール内のクラスからオブジェクトを生成: `別名.クラス名(引数, …)`


In [None]:
import math as m

print(f'2の平方根は{m.sqrt(2)}です') # sqrt は平方根を計算する関数
print(f'円周率は{m.pi}です') # pi は円周率の値
print(f'小数点以下を切り捨てれば{m.floor(m.pi)}です') # floor は切り捨てする関数
print(f'小数点以下を切り上げれば{m.ceil(m.pi)}です') # ceil は切り上げする関数

### 特定の機能だけをインポート
*  `from`を使うと，モジュール全体ではなく，モジュールから特定の機能だけを読み込むこともできる
*  この方法でインポートした機能は，「`モジュール名.`」を付けずにそのままの名前で使用することができる
*  `from`を使った書式: 
*  モジュール内の変数の参照: `変数名`
*  モジュール内の関数の呼び出し: `関数名(引数, …)`
*  モジュール内のクラスからオブジェクトを生成: `クラス名(引数, …)`

In [None]:
from math import sqrt
from math import pi
from math import floor
from math import ceil

print(f'2の平方根は{sqrt(2)}です') # sqrt は平方根を計算する関数
print(f'円周率は{pi}です') # pi は円周率の値
print(f'小数点以下を切り捨てれば{floor(pi)}です') # floor は切り捨てする関数
print(f'小数点以下を切り上げれば{ceil(pi)}です') # ceil は切り上げする関数

### 機能ごとに別名を付ける
*  `as`と`from`を組み合わせることで，個々の機能ごとに別名を付けることもできる
*  `as`と`from`を使った書式: `from モジュール名 import 変数名または関数名またはクラス名 as 別名`

In [None]:
import math
print(math.factorial(5)) # 階乗を求める関数factorialで5の階乗を計算
from math import factorial as fact # fact という別でmath.factorialを使用
print(fact(5))

### ワイルドカードインポート
*  `from`を使った書式において，importの後にワイルドカード「`*`」を使うと，まとめてインポートできる（正確にはアンダースコア「`_`」で始まるものを除くすべての機能）
*  これをワイルドカードインポートと呼ぶ
*  ワイルドカードインポートの書式: `from モジュール名 import *`


In [None]:
from math import *

print(f'2の平方根は{sqrt(2)}です') # sqrt は平方根を計算する関数
print(f'円周率は{pi}です') # pi は円周率の値
print(f'小数点以下を切り捨てれば{floor(pi)}です') # floor は切り捨てする関数
print(f'小数点以下を切り上げれば{ceil(pi)}です') # ceil は切り上げする関数

*  ただし，ワイルドカードインポートは推奨しない
*  理由は読み込んだモジュール内の機能名とコードで定義した変数や関数等の名前が重複する可能性があるため
*  実際に名前の重複が起きると先に定義した名前が，後に定義した名前に上書きされてしまう

In [None]:
from math import *
print(f'円周率は{pi}です') # pi は円周率の値

pi = 'パイ' # piという変数に文字列「パイ」を代入する
print(f'円周率は{pi}です') # 名前の重複による上書き

## 自作モジュールのインポート

### 準備: ファイルのダウンロード
*  これ以降のコード例を実行する前に，必ず以下のコード（正確にはコマンド）を実行する
*  このコマンドを実行すると，以降のコードで使用するファイル「fibonacci.py」がダウンロードできる
*  このコマンドを実行しないと，これ以降のコードが実行できないので，必ず実行する
*  この操作は，ノートブックを開くたび，毎回行う
*  コマンドの内容を理解する必要はない

In [None]:
!curl -L -o fibonacci.py https://bit.ly/4dX8Ok0

In [None]:
import fibonacci
n = 6
print(f'フィボナッチ数列の第{n}項: {fibonacci.fib(6)}')

In [None]:
from fibonacci import fib
n = 6
print(f'フィボナッチ数列の第{n}項: {fib(6)}')

# 参考資料
*  東京大学, [4-1. ファイル入出力の基本](https://colab.research.google.com/github/utokyo-ipp/utokyo-ipp.github.io/blob/master/colab/4/4-1.ipynb), 「プログラミング入門」講義資料
*  東京大学, [5-1. モジュールの使い方](https://colab.research.google.com/github/utokyo-ipp/utokyo-ipp.github.io/blob/master/colab/5/5-1.ipynb), 「プログラミング入門」講義資料
