# ファイルの扱い

テキストファイルやバイナリファイルの扱い方を学習します。

## ファイルを開く

OS上にあるファイルを開き、Pythonのオブジェクトとして扱う方法を確認します。

ファイルとは、OS(WindowsやmacOS) で読み書きできるものです。
テキストファイルやCSVファイル、MS-Wordなどのアプリケーションが扱うファイルなどをいいます。
Pythonでそれらのファイルを読み書き可能です。


### open関数の使い方

ファイルの扱いは、組み込み関数 open を使います。
open関数の引数にファイル名を与え、変数に代入し、代入された変数が、ファイルのオブジェクトとなります。


In [1]:
f = open("sample.txt")  # カレントディレクトリに `sample.txt` が必要

In [2]:
f

<_io.TextIOWrapper name='sample.txt' mode='r' encoding='UTF-8'>

In [3]:
f.seek(0)  # 念の為、カーソル位置を先頭にしている

0

In [4]:
f.read()[:100]   # 100文字出力

'Hitotsubashi at a Glance\nHitotsubashi University was founded in 1875 as the first business school in'

Pythonからファイルを開いたら、close処理を行う必要があります。
OSとの約束事として、必ずclose処理を行うことになっています。
closeすると、内容を読み込んだりできなくなります。

In [5]:
f.close()

In [6]:
f.read()

ValueError: I/O operation on closed file.

### with構文

close処理を自動的に行ってくれる、 `with` 構文というものがあります。Pythonにおいては、一般的にwith構文を使ってコーディングします。

In [7]:
with open("sample.txt") as f:
    print(f.read()[:100])

Hitotsubashi at a Glance
Hitotsubashi University was founded in 1875 as the first business school in


In [8]:
f.read()

ValueError: I/O operation on closed file.

### ファイルを扱うモード

open関数でファイルを呼び出す際にモードを指定する必要がある。

読み込みたい時、書き込みたい時、追記したい時。その他にはバイナリで使いたい場合など

- 書き込む : w
- 読み込み (デフォルト) : r
- 追記 : a
- 書き込む、ただしファイルが存在しない場合 : x


- テキスト (デフォルト) : t
- バイナリ : b

先程の例では、これらのモードを指定していませんでした。指定しない場合は、 `"rt"` が指定されたことになります。

更に、テキストモードで扱う際には文字エンコーディングを指定することもできます。文字エンコーディングは、 `utf-8` や `Shift-JIS` などです。

In [9]:
with open("sample.txt", "rt", encoding="utf-8") as f:
    text = f.read()
print(text[:100])

Hitotsubashi at a Glance
Hitotsubashi University was founded in 1875 as the first business school in


### 書き込みモード

ここでは、テキストファイルに書き込むことを行います。

In [10]:
with open("sample2.txt", "w", encoding="utf-8") as f:
    f.write("私の名前は、寺田学です。")

ファイルの中身を確認してみましょう。

続いて、同じファイルに別の内容を書き込んでみます。

In [11]:
with open("sample2.txt", "w", encoding="utf-8") as f:
    f.write("私の職業は、プログラマーです。")

再度ファイルを確認してみましょう。今書いたものだけがのこてていると思います。 `"w"` モードでは内容が消されて上書きされてしまいます。注意が必要です。

複数行書き込む方法を見ていきましょう。

In [12]:
with open("sample3.txt", "w", encoding="utf-8") as f:
    f.write("私の名前は、寺田学です。\n")
    f.write("私の職業は、プログラマーです。")

### 読み込みモード

すでに、読み込みは行いましたが再度確認していきましょう。

In [13]:
with open("sample3.txt", "r", encoding="utf-8") as f:
    print(f.read())

私の名前は、寺田学です。
私の職業は、プログラマーです。


1行ごとに処理をすることも可能です。

In [14]:
with open("sample3.txt", "r", encoding="utf-8") as f:
    for line in f:
        print(line)

私の名前は、寺田学です。

私の職業は、プログラマーです。


ここでは、2行のファイルを処理しました。最初にサンプルとして提示した `sample.txt` で実行してみましょう。

### その他のモード

追記モード。ログを出力する際などに用いられる

In [15]:
with open("sample3.txt", "a", encoding="utf-8") as f:
    f.write("\n私の年齢は35歳です。")

ファイルを確認してみましょう。

バイナリモードでテキストファイルを開く例

In [16]:
with open("sample3.txt", "rb") as f:
    print(f.read())

b'\xe7\xa7\x81\xe3\x81\xae\xe5\x90\x8d\xe5\x89\x8d\xe3\x81\xaf\xe3\x80\x81\xe5\xaf\xba\xe7\x94\xb0\xe5\xad\xa6\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82\n\xe7\xa7\x81\xe3\x81\xae\xe8\x81\xb7\xe6\xa5\xad\xe3\x81\xaf\xe3\x80\x81\xe3\x83\x97\xe3\x83\xad\xe3\x82\xb0\xe3\x83\xa9\xe3\x83\x9e\xe3\x83\xbc\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82\n\xe7\xa7\x81\xe3\x81\xae\xe5\xb9\xb4\xe9\xbd\xa2\xe3\x81\xaf35\xe6\xad\xb3\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82'


bytes型で出力される。

JPEGファイルやPDFファイルなどの、テキストで扱われていないファイルを用いる時に利用される。

## サンプルデータを扱う

`sample.txt` を使って以下のことを行います。

- 単語数を調べる
- 5文字以上の単語を抽出する
- 最頻出（多く登場する単語）のTop5を取得する
- 調べる文字列から、決められた単語を取り除き、最頻出のTop5を取得し直す


In [17]:
with open("sample.txt", "r", encoding="utf-8") as f:
    text = f.read()
    splited_text = text.split(" ")
print(len(splited_text))

606


In [18]:
counter = 0
out = []
for word in splited_text:
    if len(word) > 9:
       counter += 1
       out.append(word)

print(f"8文字以上の単語数: {counter}")
print(out)

8文字以上の単語数: 111
['Hitotsubashi', 'Glance\nHitotsubashi', 'University', 'modernization', 'development.', 'well-deserved', 'reputation', 'universities', 'accredited', 'outstanding', 'Designated', 'Universities', 'specializing', 'sciences.\n\nEstablished\n1875\n\nFaculty\nAbout', 'members\n\nStudents\nUndergraduate', 'students\tAbout', '4,400\nGraduate', 'professional', 'students\tAbout', '1,900\nTotal\tAbout', 'international', 'students\tAbout', 'Faculties,', 'Institute\nHitotsubashi', 'University', 'faculties,', 'institute.\n\nCommerce', 'Management', '(Faculty)\nBusiness', 'Administration', 'School)\nEconomics', 'School)\nLaw', 'School)\nSocial', 'School)\nLanguage', 'School)\nInternational', '(School)\nInstitute', 'Research\nCampuses\nOur', 'activities', '(International)', 'international', 'facilities.', 'birthplace', 'Hitotsubashi,', 'Kanda-Hitotsubashi', 'Administration', 'Law.\n\nHitotsubashi', 'University', 'President\nProfessor', 'Satoshi\n\nMessage', 'President\nUniversity', 'bil

In [19]:
from collections import Counter

In [20]:
c = Counter(splited_text)

In [21]:
c.most_common(5)

[('the', 51), ('and', 27), ('of', 24), ('in', 20), ('University', 12)]

In [22]:
STOP_WORDS = ["the", "and", "of", "in", "University"]

In [23]:
removed_stop_words_list = []
with open("sample.txt", "r", encoding="utf-8") as f:
    text = f.read()
    for word in text.replace("\n", " ").replace("(", " ").replace(")", " ").split(" "):
        if word not in STOP_WORDS:
            if word:
                removed_stop_words_list.append(word)

print(len(removed_stop_words_list))

510


In [24]:
c2 = Counter(removed_stop_words_list)
c2.most_common(5)

[('Hitotsubashi', 11), ('School', 10), ('The', 10), ('a', 9), ('to', 9)]