# Pythonプログラミング入門 第6回
オブジェクト指向プログラミングについて説明します

参考
- https://docs.python.org/ja/3/tutorial/classes.html
- https://docs.python.org/ja/3/reference/datamodel.html
- https://docs.python.org/ja/3/library/collections.html#collections.namedtuple

# オブジェクト指向プログラミング

これまでなんとなく用いてきた、オブジェクト指向プログラミングの諸概念を改めて説明し、クラスの簡単な使い方を説明します。

## オブジェクト指向の考え方
オブジェクト指向とは何かを考えるために、まずは簡単なプログラミングの例と状況を導入します。

例えば、セミナーなどの参加者名簿を管理したいとします。
学生データは、名前とID番号のペアで表現されるとします。

In [1]:
taro = ('東大太郎', 1234567890)
jiro = ('東大二郎', 2345678901)

教員データは、名前と役職とID番号の3つ組で表現されるとします。

In [2]:
hagiya = ('萩谷昌己', '教授', 9876543210)

これらをまとめたリストで名簿を管理するとします。

さて、参加者に名前入りのバッジを配ることになりました。
バッジには、学生の場合は名前だけ、教員の場合は名前の後に役職を付けるとします。
参加者リストをもらって、バッジ（に記入する文字列）のリストを返す関数`badgelist()`を定義することを考えます。
例えば、次のように定義すれば、上に示した例については用が足ります。

In [3]:
def badgelist(participants):
    ls = []
    for x in participants:
        if len(x) == 2: # 学生(?)
            ls.append(x[0])
        if len(x) == 3: # 教員(?)
            ls.append(x[0] + ' ' + x[1])
    return ls

badgelist([taro, jiro, hagiya])

['東大太郎', '東大二郎', '萩谷昌己 教授']

しかし、この`badgelist()`の定義は、主に次の2点で問題があります。

 - サイズ（`len()`）が2ないし3だというだけで、学生ないし教員だと決め打っている。
 - 全ての参加者のバッジの作り方を知っていないと定義できない。
 
どちらの問題も、参加者の種類を拡張しようとしたときに困ったことが起きます。
2つ組や3つ組で表現される別の種類のデータを、参加者として加えるとき、このままでは条件判定に失敗します。
仮に問題が起きないように条件判定を変えるとしても、参加者の種類が増えるたびに`badgelist()`の定義を変更する必要が生じます。
したがって、`badgelist()`と参加者の種類を別々に管理することができません。

このような状況を、**保守性** （**maintainability**）が低いとか、**モジュール性** （**modularity**）が低いと言います。

これを解決する方法として、高階関数を利用するという手があります。
バッジを作る関数を受け取る関数として、`badgelist()`を定義すればよいのです。
ただし、学生と教員のバッチの作り方が違うことを考慮して、要素毎にバッジの作り方を与えるようにします。
つまり、`badgelist()`が受け取るリストは、参加者データとバッジを作る関数の組のリストとします。

In [4]:
def badgelist(participants):
    return [badge(x) for x, badge in participants]

def studentbadge(x):
    return x[0]
def facultybadge(x):
    return x[0] + ' ' + x[1]

badgelist([(taro, studentbadge), (jiro, studentbadge), (hagiya, facultybadge)])

['東大太郎', '東大二郎', '萩谷昌己 教授']

ここでは、学生データからバッジを作る関数`studentbadge()`と、教員データからバッジを作る関数`facultybadge()`を定義しています。

`badgelist()`の定義が単純化し、分かりやすくなったことが一目瞭然でしょう。実は、それだけではありません。

例えば、参加者に企業人という種類を加えることを考えます。
企業人データは、名前と所属と役職の3つ組で表現され、バッジには所属と役職を名前に前置することとします。
このとき、次のように、企業人データからバッジを作る関数`industrialbadge()`を追加で定義するだけで済みます。

In [5]:
iwata = ('岩田聡', 'HAL研究所', '代表取締役社長')

def industrialbadge(x):
    return x[1] + ' ' + x[2] + ' ' + x[0]

badgelist([(taro, studentbadge), (jiro, studentbadge), (hagiya, facultybadge), (iwata, industrialbadge)])

['東大太郎', '東大二郎', '萩谷昌己 教授', 'HAL研究所 代表取締役社長 岩田聡']

`badgelist()`を一切変更することなく、参加者の種類を増やすことができました。
また、各種バッジの作り方は、独立した関数の形になっているので、意味の区切りが明快で、独立に修正できます。

このような状況を、保守性が高いとか、モジュール性が高いと言います。

勘が良い人は気付いたでしょうが、`studentbadge()`・`facultybadge()`・`industrialbadge()`が、これまで**メソッド**と呼んできたものの実体です。

**オブジェクト指向プログラミング** （**object-oriented programming**, **OOP**）とは、データとそれを操作する関数（すなわちメソッド）を結びつけるプログラミングスタイルです。
オブジェクトに対する操作を、そのオブジェクトのメソッドに任せることで、オブジェクトの実体（実装）に強く依存しない記述が可能になります。
その結果として、保守性やモジュール性が高められます。

## クラス定義
前述の例では、タプルとしてデータと関数を直接結びつけていました。
その結果、それを受け取る高階関数の側は、与えられたオブジェクトの内部構造（どれが操作対象のデータで、どれが望んだ操作を与える関数か）を知る必要がありました。
これは、保守性やモジュール性の観点で望ましくありません。
この問題を解消するのが、クラスです。

**クラス**とは、メソッドという形で、データの種類に対して名前付きで関数を結びつける言語機能です。

Pythonプログラミングにおいてクラスは重要ですが、クラスを一から定義するというのは、結構大変です。 
有用なクラスを正しく定義するには、雑多なPythonの専門知識が沢山必要になります。
正直に言って、妥当なクラス設計は、平均的なプログラマには手に余るものです。

そういうわけで、日常的なプログラミングでは、既存のクラスを自分の目的に叶うように拡張する形を取ることが多いです。
具体例として、前述のタプルによって表現されていた学生・教員・企業人を、`tuple`を拡張した`Student`・`Faculty`・`Industrial`クラスとして定義して、利用する例を示します。

In [6]:
class Student(tuple):
    def badge(self):
        return self[0]
    
class Faculty(tuple):
    def badge(self):
        return self[0] + ' ' + self[1]
    
class Industrial(tuple):
    def badge(self):
        return self[0] + ' ' + self[1] + ' ' + self[2]

def badgelist(participants):
    return [x.badge() for x in participants]

badgelist([Student(taro), Student(jiro), Faculty(hagiya), Industrial(iwata)])

['東大太郎', '東大二郎', '萩谷昌己 教授', '岩田聡 HAL研究所 代表取締役社長']

各クラス定義の内側に、`badge`という名前で、前述の`studentbadge()`・`facultybadge()`・`industrialbadge()`の定義が移動しました。
データと関数を組にする式（例えば`(taro, studentbadge)`）は、データを引数としてクラスを関数形式で呼び出す式（例えば`Student(taro)`）に置き換わりました。
`Student(taro)`は、タプル`taro`に対応する`Student`型のデータを構築します。
これは、`list(taro)`で、タプル`taro`に対応するリスト（`list`型データ）を構築することと同様です。

上の例からわかるように、メソッドは単なる関数ですが、引数の渡し方が異なります。
`x.badge()`というメソッド呼出しは、暗黙にメソッド`badge()`の第1引数として`x`が渡されます。
メソッドの操作対象であるドットの左側のオブジェクトのことを、**レシーバ**と呼びます。
つまり、メソッドとは、レシーバを常に第1引数として取る関数でしかありません。

レシーバが渡される第1引数には、Pythonの慣習として、`self`という変数名が選ばれます。
しかし、`self`という変数名が必要ではなく、実はメソッド定義に`def`構文を使う必要もありません。
既存の関数を、クラス属性（クラス内の変数）として定義すれば、メソッドとして機能します。
例えば、次のようにクラス定義は、上の例と同等です。

In [7]:
class Student(tuple):
    badge = studentbadge

class Faculty(tuple):
    badge = facultybadge

class Industrial(tuple):
    badge = industrialbadge

badgelist([Student(taro), Student(jiro), Faculty(hagiya), Industrial(iwata)])

['東大太郎', '東大二郎', '萩谷昌己 教授', 'HAL研究所 代表取締役社長 岩田聡']

以上のように、既存のクラスを拡張して新しいクラスを定義することを、**継承** （**inheritance**）と呼びます。
上の例では、`tuple`を**親クラス**と呼び、`Student`・`Faculty`・`Industrial`を**子クラス**と呼びます。
子クラスは、親クラスの全てのメソッドを、共有する形で引き継ぎます。

`badge()`メソッドの例は、一見すると人工的な例のように見えますが、身近で実用的なものです。
実は、Pythonにおける全てオブジェクトは`__str__()`というメソッドを持っており、それはオブジェクトを`str()`で文字列に変換するときに呼び出されます。
この文字列変換は、例えば`print()`が引数を印字するときに利用されます。
つまり、任意のオブジェクトを単にprintするだけで、読みやすく印字されるのは、`badge()`の例と同じく、クラスの恩恵だったのです。

### 練習
`Student`・`Faculty`・`Industrial`の`badge()`メソッドを、`__str__()`メソッドに名前替えする前と後で、各参加者をprintせよ。

## オーバーライド
先の練習の結果からわかる通り、子クラスのメソッド定義は、親クラスで既に定義されているメソッドを上書きします。
これをメソッドの**オーバーライド（override）**と呼びます。
これによって、継承によってメソッド実装の大部分を親クラスと共通化しつつ、一部のメソッドだけ子クラスで変更して振舞いを変えるという拡張が可能になります。

上書きと言っても、メソッド呼出しで子クラスのメソッド定義が優先されるというだけで、親クラス自体が変更される訳ではありません。
組込み関数`super()`の返すオブジェクト越しに、親のメソッド定義も呼び出すことができます。
これを利用することで、親クラスのメソッドに処理を追加するような形で、子クラスのメソッドを定義できます。
次に示す`Counter`クラスは、与えられたキーが存在しないときに`0`を返すように辞書を拡張したクラスです。

In [8]:
class Counter(dict):
    def __getitem__(self, k):
        if k in self: # キーkに対応する値が存在するとき
            return super().__getitem__(k) # kに対応する値を返す
        else:
            return 0

c = Counter()
c['A'] = c['A'] + 1 # 右辺の c['A'] では 0 が返る
c['A'] += 1         # 上の代入文と同等
c['B'] += 1
c

{'A': 2, 'B': 1}

In [9]:
c['C']

0

`__getitem__()`は特殊メソッドであり、`x[k]`という式は、`x.__getitem__(k)`というメソッド呼出しとして解釈されます。
`super().メソッド名()`という記法で、親クラスのメソッドを呼び出せます。
注意すべきは、`super()`が返すオブジェクト自体は`Counter`でも`dict`でもないので、`super()[k]`で`dict`クラスの`__getitem__()`は呼び出されないことです。もし、`self[k]`とすると、`__getitem__()`の再帰呼出しにより無限ループに陥ります。

実は、`dict`クラスの`__getitem__()`メソッドでは、与えられたキーが存在しないときに、特殊メソッド`__missing__()`が呼び出されるように定義されています。
したがって、次の`Counter`の定義は、上に示した定義と同等です。

In [10]:
class Counter(dict):
    def __missing__(self, k):
        return 0

c = Counter()
c['A'] += 1
c['B'] += 1
c

{'A': 1, 'B': 1}

このように、単にオーバーライド（もしくは特定のメソッドを実装）するだけで、既存のメソッドの振舞いをカスタマイズできるように設計されているクラスは、少なくありません。
これが、クラスに基くオブジェクト指向設計の恩恵です。

尚、この`Counter`クラスは、単純な拡張ではありますが、実用的な例です。
ヒストグラムや確率分布など、キーに対する統計量を保持する場合には、キーが存在しないときには0が返るのが自然だからです。
そして、この`Counter`を少し機能拡張したものが、`collections`モジュール内の`Counter`クラスとして提供されています。
実用上は、そちらを利用するのが良いでしょう。

### 練習
上に示した`Counter`クラスでは、キー`k`に対応する値が`0`になっても、項目は削除されない。

In [11]:
c = Counter()
c['A'] += 1
c['B'] += 1
c['A'] -= 1
c

{'A': 0, 'B': 1}

さて、特殊メソッド`__setitem__()`は、`x[k] = v`という代入文に対応して、`x.__setitem__(k, v)`と呼び出される。
`Counter`に対して、`__setitem__()`を適切に定義することで、キーに対応する値が`0`になった項目が、自動的に削除されるようにせよ。
例えば、上の例では、最終的な`c`の値は`{B: 1}`になる。

## オブジェクトとクラス

これまで、「オブジェクト」という用語をカジュアルに使ってきましたが、ここでは改めてその意味を定義します。
Pythonでは、《プログラム中で値として操作可能な全てのもの》を**オブジェクト**と呼びます。

《値として操作可能》という部分が重要です。
「全てがオブジェクト」と言われることがありますが、それは正確ではありません。
例えば、if文は、値として操作可能ではないので、オブジェクトではありません。
また、式は値として操作可能ではないのでオブジェクトではないですが、式の評価結果は値なのでオブジェクトです。
同様に、関数定義（`def f(): ...`）は値として操作可能ではないのでオブジェクトではないですが、それから得られる関数（`f`）はオブジェクトです。

《値として操作可能》というやや仰々しい定義を憶えなくても、卑近な判別法があります。
前述のように、全てのオブジェクトは`__str__()`メソッドを持つので、print可能なものがオブジェクトと考えれば十分です。

これまで「データ型」とか「型」と述べていたものは、Pythonでは全てクラスで表現されています。
Pythonに限らず、プログラミング言語において型というと、値の種類を意味します。
クラスという言語機能は、データの種類に関数を結びつけるものですが、結果として生じる個々のクラスは、関数が結びつけられたデータの種類を意味します。したがって、Pythonでは、型とクラスは同義と見做して差し支えないです。

任意のオブジェクトの型は、組込み関数`type()`で取得できます。

In [12]:
type('hello')

str

In [13]:
type(0)

int

In [14]:
type((1,))

tuple

オブジェクト指向プログラミング一般の文脈では、クラスはオブジェクトを生成する機能も含意します。
実際、`tuple`クラスは、それを関数のように呼び出すことで、タプルを構成できます。

In [15]:
tuple([1,'a'])

(1, 'a')

このとき、クラスは、それが表現する型に含まれる具体例を生成していると考えることができます。
したがって、あるクラスAが生成したオブジェクトのことを、Aの**インスタンス**と呼ぶこともあります。
この言葉遣いに慣れない人は、「クラスAのインスタンス」を「A型の値」と読み替えても差し支えありません。
Pythonでは、オブジェクトがあるクラスのインスタンスかどうかを判定する組込み関数`isinstance()`が提供されています。

In [16]:
(isinstance(1,int), 
 isinstance(1,tuple), 
 isinstance([1,'a'],list), 
 isinstance([1,'a'],tuple))

(True, False, True, False)

クラスがインスタンスを構築する際に、インスタンスの初期化のために呼ばれる特殊なメソッドのことを、**コンストラクタ**と呼びます。
`str`・`int`・`list`・`tuple`・`Student`等は、クラスですが、それを関数形式で呼び出したときには、実際にはそのクラスのコンストラクタが呼び出されます。

コンストラクタは単なるメソッドなので、親クラスから引き継がれます。
例えば、`Student`のコンストラクタは、`tuple`のコンストラクタです。
なので、`Student(taro)`で構築されるオブジェクトは、タプルの`taro`と同様に初期化されます。
しかし、`Student`は、`tuple`のメソッドに加えて、`badge()`メソッド（実体は`studentbadge()`）も持ちます。
結果として、`Student(taro)`は、`taro`に`badge()`メソッドを加えたオブジェクトを構築することになり、`(taro,studentbadge)`に相当する計算になっていました。

さて、ここ思い出してほしいのは、print可能なものは全てオブジェクトだということです。
先ほど、`type()`を使って取得したクラスは、印字されました。
つまり、クラスもまたオブジェクトです。

型（クラス）が値（オブジェクト）であるというのは、プログラミング言語としてのPythonの大きな特徴です。


## ▲名前付きタプル
タプルとは、変更不可なデータ列であり、その要素は、位置（インデックス）でしか区別されませんでした。
しかし、辞書のように、それぞれの要素に名前がついていると便利なことがあります。
それを実現するのが、**名前付きタプル**です。
`collections`モジュール内の関数`namedtuple()`は、引数に応じた名前付きタプルのクラスオブジェクトを生成します。

例として、学生を表す名前付きタプルを定義します。

In [17]:
from collections import namedtuple #名前付きタプル型を生成する関数
Student = namedtuple('Student', ('name', 'id')) #name, idという名前付き要素（属性）をもつStudentクラス
taro = Student('東大太郎', 1234567890)
taro

Student(name='東大太郎', id=1234567890)

In [18]:
Student(id=1234567890, name='東大太郎') # キーワード引数でも構築できる

Student(name='東大太郎', id=1234567890)

In [19]:
taro.name # 名前によるアクセス（属性アクセス）

'東大太郎'

In [20]:
taro[0] # インデックスアクセス

'東大太郎'

単に文字列と整数のタプルよりも、名前付きタプルで構成することで、要素の意味がハッキリと分かります。
そして、属性アクセスを使えば、データの中で何に着目しているのかが、明示されます。
少し大袈裟に言えば、プログラムコードが、ドキュメントのように読めるようになります。




### 名前付きタプルの用途
さて、名前付きタプルが、単に名前でアクセスできるだけならば、初めから辞書を使えばよいのではと思うことでしょう。
しかし、名前付きタプルの嬉しさは、それがタプルとして使えるということにあります。

In [21]:
x, y = taro
print(x, y)

東大太郎 1234567890


In [22]:
list(taro)

['東大太郎', 1234567890]

変更不可能オブジェクトなので、辞書のキーにできます。

In [23]:
d = {}
d[taro] = 0
d 

{Student(name='東大太郎', id=1234567890): 0}

属性の再定義はできませんが、

In [24]:
taro.name = '京大太郎'

AttributeError: can't set attribute

`_replace()`メソッドによって、属性値を入れ替えた新しい名前付きタプルを生成できます。

In [25]:
taro._replace(name='京大太郎')

Student(name='京大太郎', id=1234567890)

`namedtuple()`が返すオブジェクトは、単なるクラスなので、継承によって拡張することができます。

In [26]:
class Student(namedtuple('Student', ('name', 'id'))):
    def badge(self):
        return self.name

taro = Student('東大太郎', 1234567890)
taro

Student(name='東大太郎', id=1234567890)

In [27]:
taro.badge()

'東大太郎'

`namedtuple()`が返した`Student`クラスを、同名の`Student`クラスが継承しています。
これは、クラスにおけるデータ部分を、名前付きタプルで表現するイディオムです。
先に示した`tuple`を拡張した場合に比べて、メソッド定義も、印字される文字列も、自己説明的で分かりやすいです。

更新不可能な名前付きタプルは、更新可能な辞書よりも、一見すると不便に思えるかもしれません。
しかし、更新不可能であるからこそ、データの意味が明快になり、プログラムの理解を助けます。
更新を想定しないデータは、名前付きタプルで表現するのが賢明です。

## 練習の解答

In [None]:
taro = ('東大太郎', 1234567890)
jiro = ('東大二郎', 2345678901)
hagiya = ('萩谷昌己', '教授', 9876543210)
iwata = ('岩田聡', 'HAL研究所', '代表取締役社長')

class Student(tuple):
    badge = studentbadge
class Faculty(tuple):
    badge = facultybadge
class Industrial(tuple):
    badge = industrialbadge

for p in [Student(taro), Student(jiro), Faculty(hagiya), Industrial(iwata)]:
    print(p)

class Student(tuple):
    __str__ = studentbadge
class Faculty(tuple):
    __str__ = facultybadge
class Industrial(tuple):
    __str__ = industrialbadge

for p in [Student(taro), Student(jiro), Faculty(hagiya), Industrial(iwata)]:
    print(p)

In [None]:
class Counter(dict):
    def __missing__(self, k):
        return 0
    def __setitem__(self, k, v):
        super().__setitem__(k, v)
        if self[k] == 0:
            del self[k]

c = Counter()
c['A'] += 1
c['B'] += 1
c['A'] -= 1
c