# Class를 관리하는법
1. 딕셔너리 튜플보다는 헬퍼 클래스를 관리하자
2. 인터페이스가 간단하면 클래스 대신 함수를 활용하자(후크함수)
3. 객체를 범용으로 이용하려면 @classmethod 다형성을 이용하자
4. super로 부모 클래스를 초기화하자
5. 공개 속성과 비공개 속성
6. 커스텀 컨테이너 타입은 collections.abc를 활용하자

## 1. 딕셔너리 튜플보다는 헬퍼 클래스를 관리하자



In [1]:
class SimpleGradebook(object):
    def __init__(self):
        self._grades = {}
        
    def add_student(self, name):
        self._grades[name] = []
    
    def report_grade(self, name, score):
        self._grades[name].append(score)
    
    def average_grade(self, name):
        grades = self._grades[name]
        return sum(grades)/ len(grades)

In [2]:
book = SimpleGradebook()
book.add_student('Isaac Newton')
book.report_grade('Isaac Newton', 90)
print(book.average_grade('Isaac Newton'))

90.0


In [3]:
class BySubjectGradebook(object):
    def __init__(self):
        self._grades = {}
        
    def add_student(self, name):
        self._grades[name] = {}
        
    def report_grade(self, name, subject, grade):
        by_subject = self._grades[name]
        grades_list= by_subject.setdefault(subject, [])
        grades_list.append(grade)
    
    def average_grade(self, name):
        by_subject = self._grades[name]
        total, count= 0, 0
        for grades in by_subject.values():
            total += sum(grades)
            count += len(grades)
        return total / count

In [4]:
book = BySubjectGradebook()
book.add_student('Isaac Newton')
book.report_grade('Isaac Newton','Math', 90)
book.report_grade('Isaac Newton','Math', 80)
book.report_grade('Isaac Newton','Gym', 70)
book.report_grade('Isaac Newton','Gym', 60)
print(book.average_grade('Isaac Newton'))

75.0


```
class WeightedGradebook(object):
    def __init__(self):
        self._grades = {}
        
    def add_student(self, name):
        self._grades[name] = {}
        
    def report_grade(self, name, subject, score, weight):
        by_subject = self._grades[name]
        grades_list= by_subject.setdefault(subject, [])
        grades_list.append((score, weight))
    
    def average_grade(self, name):
        by_subject = self._grades[name]
        score_sum, score_count= 0, 0
        for subject, scores in by_subject.items():
            subject_avg, total_weight = 0, 0
            for score, weight in scores:
                
                score_sum += sum(score)
                score_count += len(weight)
        return total / count
```

이정도가 되면 딕셔너리와 튜플 대신 클래스의 계층구조를 사용할 때가 된 것이다.

### 클래스 리팩토링

관리하기 복잡하다고 느끼는 즉시 클래스로 옮겨야한다. 그러면 데이터를 더 잘 캡슐화한 잘 정의된 인터페이스를 제공할 수 있다.  
의존 관계에서 __가장 아래에 있는 성적__ 부터 클래스를 옮겨보자. 이렇게 간단한 정보를 담기에 클래스는 너무 무거워 보인다.  
성적은 변하지 않으니 튜플을 사용하는 게 더 적절해보인다. 다음 코드에서는 리스트안에 성적을 기록하려고 __(score, weight)__ 튜플을 사용한다.

In [5]:
grades=[]
grades.append((95, 0.45))

total = sum(score*weight for score, weight in grades)
total_weight = sum(weight for _,weight in grades)
average_grade = total / total_weight
print(average_grade)

95.0


튜플에 이름까지 추가하면, 다음과 같은 코드로 나타낼 수 있다.  
이 때 튜플을 점점 더 길게 확장하는 패턴은 딕셔너리의 계층을 깊게 두는 방식과 비슷하다.

In [6]:
grades=[]
grades.append((95, 0.45, 'Great job'))
total = sum(score*weight for score, weight, _ in grades)
total_weight = sum(weight for _, weight, _ in grades)
average_grade = total / total_weight
print(average_grade)

95.0


이 때 이 방식은 `collections.namedtuple` 를 활용하면 더욱 손쉽게 다룰 수 있다.  
namedtuple이 여러상황에서 유용하긴 하지만 장점보다 단점을 만들어낼 수 있는 상황도 이해해야한다.  
namedtuple의 제약은 다음과 같다.  
- namedtuple로 만든 클래스에 기본 인수 값을 설정할 수 없다. 그래서 데이터에 선택적인 속성이 많으면 다루기 힘들어진다.
- 여전히 인덱스와 순회방법으로 접근 가능하나, 나중에 실제 클래스로 바꾸기가 어려운 경우가 다수 발생한다.

In [7]:
import collections
Grade = collections.namedtuple('Grade',('score', 'weight'))

이러한 상황들을 조합하여, 성적입력에 적합한 클래스를 만들어보면 다음과 같이 세 개의 클래스를 통해 진행할 수 있다.  
특히 마지막의 Gradebook 클래스의 경우 두 가지 클래스를 합쳐서 보관하는 역할을 한다.

In [8]:
class Subject(object):
    def __init__(self):
        self._grades = []
        
    def report_grade(self, score, weight):
        self._grades.append(Grade(score, weight))
        
    def average_grade(self):
        total, total_weight = 0, 0
        for grade in self._grades:
            total += grade.score * grade.weight
            total_weight += grade.weight
        return total / total_weight

In [9]:
class Student(object):
    def __init__(self):
        self._subjects = {}
        
    def subject(self, name):
        if name not in  self._subjects:
            self._subjects[name] = Subject()
        return self._subjects[name]
    
    def average_grade(self):
        total, count = 0, 0
        for subject in self._subjects.values():
            total += subject.average_grade()
            count += 1
        return total / count
    

In [10]:
class Gradebook(object):
    def __init__(self):
        self._students = {}
        
    def student(self, name):
        if name not in self._students:
            self._students[name] = Student()
        return self._students[name]

In [11]:
book = Gradebook()
albert = book.student('Albert Einstein')
math = albert.subject('Math')
math.report_grade(80, 0.10)

print(albert.average_grade())

80.0


## 2. 인터페이스가 간단하면 클래스 대신 함수를 활용하자(후크함수)

아래의 예시는 String의 길이 순으로 정렬하는 key를 입력하여 사용자화하였다.  

이는 파이썬에서 함수가 일급객체이기 때문에 가능하다.  



In [12]:
names = ['Scorates', 'Archimedes', 'Plato', 'Aristotle']
print(names)
names.sort(key=lambda x : len(x)) #String의 길이 순으로 정렬하는 key를 입력하여 사용자화하였다.
print(names)

['Scorates', 'Archimedes', 'Plato', 'Aristotle']
['Plato', 'Scorates', 'Aristotle', 'Archimedes']


In [13]:
def log_missing():
    print('Key added')
    return 0

In [14]:
from collections import defaultdict

current = {'greeen': 12, 'blue': 3}
increments = [('red', 5), ('blue', 17), ('orange', 9)]

result = defaultdict(log_missing, current)
print('Before:', dict(result))
for key, amount in increments:
    result[key] +=amount
    
print('After:', dict(result))

Before: {'greeen': 12, 'blue': 3}
Key added
Key added
After: {'greeen': 12, 'blue': 20, 'red': 5, 'orange': 9}


예를 들어 여기서 찾을 수 없는 key의 개수를 센다고 가정해보자.  

이를 위한 헬퍼함수는 다음과 같이 구축할 수 있다.

In [15]:
def increment_with_report(current, increments):
    added_count = 0
    
    def missing():
        nonlocal added_count
        added_count += 1
        return 0
    
    result = defaultdict(missing, current)
    for key, amount in increments:
        result[key] +=amount
    
    return result, added_count

In [16]:
#case1. 헬퍼함수를 제작함으로써 원하는 정보를 정리
result, count = increment_with_report(current, increments)
assert count == 2

또다른 방법중 하나는 보존할 상태를 캡슐화 하는 작은 클래스를 정의하는 것이다.

In [17]:
class CountMissing(object):
    def __init__(self):
        self.added = 0
    
    def missing(self):
        self.added += 1
        return 0
    

In [18]:
#case2. 작은 클래스를 제작함으로써 원하는 정보를 정리
counter = CountMissing()
result = defaultdict(counter.missing, current)

for key, amount in increments:
    result[key] += amount

#출력된 결과의 확인
assert counter.added == 2

### __call__

이 때 decorator 함수 `__call__`은 클래스를 함수처럼 부를 수 있게 하는 함수이다.  

이번 예제에서는 CountMissing

In [19]:
class BetterCountMissing(object):
    def __init__(self):
        self.added = 0
    
    def __call__(self):
        self.added += 1
        return 0
    

In [20]:
#case2-2. 클래스에 callable 함수를 제작함으로써 원하는 정보를 정리
counter = BetterCountMissing()
result = defaultdict(counter, current)

for key, amount in increments:
    result[key] += amount

#출력된 결과의 확인
assert counter.added == 2

## 3. 객체를 범용으로 이용하려면 @classmethod 다형성을 이용하자

In [21]:
class InputData(object):
    def read(self):
        raise NotImplementedError

In [22]:
class PathInputData(InputData):
    def __init__(self, path):
        super.__init__()
        self.path = path
    
    def read(self):
        return open(self.path).read()

In [23]:
class Worker(object):
    def __init__(self, input_data):
        self.input_data = input_data
        self.result = None
        
    def map(self):
        raise NotImplementedError
    
    def reduce(self, other):
        raise NotImplementedError

In [24]:
class LineCounterWorker(Worker):
    def map(self):
        data = self.input_data.read()
        self.result = data.count('\n')
        
    def reduce(self, other):
        self.result += other.result

만약 이렇게 함수와 클래스들을 생성했다면, 이들을 어떻게 연결하여 사용할까?
1. 헬퍼함수로 직접연결하는 방법
2. @classmethod 의 다형성을 이용하여 연결하는 방법

In [25]:
#case1. 헬퍼함수를 만들어 직접연결하는 방법
#먼저 디렉토리를 나열하고, 각각 dir을 만들어 데이터 리스트 객체를 생성한다.
def generate_inputs(data_dir):
    for name in os.listdir(data_dir):
        yield PathInputData(os.path.join(data_dir, name))

In [26]:
#만들어진 데이터 리스트 객체로 부터 worker 인스턴스를 만든다.
def create_workers(input_list):
    workers = []
    for input_data in input_list:
        workers.append(LineCounterWorker(input_data))
    return workers

In [39]:
from threading import Thread

def execute(workers):
    threads = [Thread(target = w.map) for w in workers]
    for thread in threads : thread.start()
    for thread in threads : thread.join()

    first, rest = workers[0], workers[1:]
    for worker in rest:
        first.reduce(worker)
    return first.result

In [28]:
def mapreduce(data_dir):
    inputs = generate_inputs(data_dir)
    workers = create_workers(inputs)
    return excute(workers)

이렇게 만들어진 mapreduce의 가장 큰 단점은 범용성이 없다는 것이다.  

이 문제를 풀기 위해서는, 일반적으로 다른언어에서는 생성자의 다형성을 이용하여 해결하지만, 파이썬의 경우 `__init__` 함수만 생성이 가능하다는 것을 염두해두고 진행하여야 한다.  

즉 파이썬에서는 @classmethod의 다형성을 이용하여 이 문제를 해결한다.

In [29]:
class GenericInputData(object):
    def read(self):
        raise NotImplementedError
    
    @classmethod
    def generate_inputs(cls, config):
        raise NotImplementedError


In [30]:
class PathInputData(GenericInputData):
    def __init__(self, path):
        super().__init__()
        self.path = path
    
    def read(self):
        return open(self.path).read()
    
    @classmethod
    def generate_inputs(cls, config):
        data_dir = config['data_dir']
        for name in os.listdir(data_dir):
            yield cls(os.path.join(data_dir, name))

In [31]:
class GenericWorker(object):
    def __init__(self, input_data):
        self.input_data = input_data
        self.result = None
        
    def map(self):
        raise NotImplementedError
    
    def reduce(self, other):
        NotImplementedError
        
    @classmethod
    def create_workers(cls, input_class, config):
        workers = []
        for input_data in input_class.generate_inputs(config):
            workers.append(cls(input_data))
        return workers

In [32]:
class LineCountWorker(GenericWorker):
    def map(self):
        data = self.input_data.read()
        self.result = data.count('\n')

    def reduce(self, other):
        self.result += other.result

In [37]:
def mapreduce(worker_class, input_class, config):
    workers = worker_class.create_workers(input_class, config)
    return execute(workers)

In [34]:
import os

def write_test_files(tmpdir):
    for i in range(100):
        with open(os.path.join(tmpdir, str(i)), 'w') as f:
            f.write('\n' * random.randint(0, 100))

In [40]:
from tempfile import TemporaryDirectory
import random

with TemporaryDirectory() as tmpdir:
    write_test_files(tmpdir)
    config = {'data_dir' : tmpdir}
    result = mapreduce(LineCountWorker, PathInputData, config)

## 4. super로 부모클래스를 초기화하자

기존에는 자식 클래스에서 부모클래스의 `__init__` 함수를 호출함으로써 부모클래스를 초기화하였다.  

이 방법은 간단한 계층구조에는 잘 작동하지만, 그렇지 않은 경우도 다수 발생한다.


특히 아래와 같이 다중상속을 진행하는 경우, 

1. `init` 함수의 위치에 따라 값이 다르게 발생하는 문제가 발생하고,  
2. 클래스를 잘못정의하게 되면, 자식 클래스가 부모 클래스 보다 상위 클래스 처럼 작동하는 다이아몬드 상속 문제가 발생한다.

In [6]:
class MyBaseClass(object):
    def __init__(self, value):
        self.value = value

In [7]:
class Timestwo(object):
    def __init__(self):
        self.value *= 2

In [8]:
class PlusFive(object):
    def __init__(self):
        self.value += 5

In [9]:
class OneWay(MyBaseClass, Timestwo, PlusFive):
    def __init__(self, value):
        MyBaseClass.__init__(self, value)
        Timestwo.__init__(self)
        PlusFive.__init__(self)

In [10]:
foo = OneWay(5)
print('First ordering is (5*2) + 5 = ', foo.value)

First ordering is (5*2) + 5 =  15


#### 다이아몬드 상속 문제
서브클래스가 계층 구조에서 같은 슈퍼클래스를 둔 서로 다른 두 클래스에서 상속받을 때 발생한다.  

이 다이아몬드 상속은 의도한 것과 전혀 예상하지 못한 결과를 초래하곤 한다.

In [16]:
class TimesFive(MyBaseClass):
    def __init__(self, value):
        MyBaseClass.__init__(self, value)
        self.value *= 5

In [17]:
class PlusTwo(MyBaseClass):
    def __init__(self, value):
        MyBaseClass.__init__(self, value)
        self.value += 2

In [18]:
class Thisway(TimesFive, PlusTwo):
    def __init__(self, value):
        TimesFive.__init__(self, value)
        PlusTwo.__init__(self, value)

In [19]:
foo = Thisway(5)
print('Should be (5*5) +2 = 27, but is', foo.value)

Should be (5*5) +2 = 27, but is 7


이 문제를 해결하기 위해서는 super로 부모클래스를 초기화 해야한다.  
super라는 내장 함수에는 어떤 슈퍼클래스부터 초기화하는지를 정하는 파트가 들어가 있기 때문에 이 문제를 해결해준다.  

In [21]:
class TimesFiveCorrect(MyBaseClass):
    def __init__(self, value):
        super(TimesFiveCorrect, self).__init__(value)
        self.value *= 5

In [22]:
class PlusTwoCorrect(MyBaseClass):
    def __init__(self, value):
        super(PlusTwoCorrect, self).__init__(value)
        self.value += 2

In [24]:
class Goodway(TimesFiveCorrect, PlusTwoCorrect):
    def __init__(self, value):
        super(Goodway, self).__init__(value)

In [33]:
#이 때 클래스의 순서는 위에서 부터 실행되어 plus가 먼저 time가 후에 실행된다.
foo = Goodway(5)
print('Should be 5*(5+2) = 35, result is', foo.value)

Should be 5*(5+2) = 35, result is 27


### python3 스타일로 구현한 경우
이 때는 클래스 순서에 맞게 진행됨을 알 수 있다.

In [28]:
class TimesFiveCorrect(MyBaseClass):
    def __init__(self, value):
        super(__class__, self).__init__(value * 5)

In [29]:
class PlusTwoCorrect(MyBaseClass):
    def __init__(self, value):
        super(__class__, self).__init__(value + 2)

In [30]:
class Goodway(TimesFiveCorrect, PlusTwoCorrect):
    def __init__(self, value):
        super(__class__, self).__init__(value)

In [32]:
#이 때 클래스의 순서는 위에서 부터 실행되어 plus가 먼저 time가 후에 실행된다.
foo = Goodway(5)
print('Should be (5*5)+2 = 27, result is', foo.value)

Should be (5*5)+2 = 27, result is 27


## 5. 공개 속성과 비공개 속성

파이썬은 공개/비공개 두가지 가시성만을 제공한다. 또한 비공개 속성에 대해서도 접근여부를 엄격하게 강요하지 않는다.  

서브클래스가 내부API와 속성에 접근하지 못하게 막기보다는 처음부터 내부 API와 속성으로 더 많은 일을 할 수 있게 설계하는 것을 목표로 하기 때문이다.  

비공개 속성에 대한 접근을 강제로 제어하기 보다 __보호필드를 문서화__ 해서 서브클래스에 필요한 지침을 제공한다.  

일반적으로는 \*직접제어할 수 없는 서브클래스와 이름이 충돌하지 않게 할 때만 비공개 속성을 사용\* 한다

In [48]:
class Myobject(object):
    def __init__(self):
        self.public_field = 5
        self.__private_field = 10
    
    def get_private_field(self):
        return self.__private_field

In [49]:
#case1. 메서드를 이용한 접근
foo = Myobject()
print(foo.public_field)
print(foo.get_private_field())

5
10


In [50]:
#private이기 때문에 에러가 뜨는 것이 당연하다
print(foo.__private_field)

AttributeError: 'Myobject' object has no attribute '__private_field'

In [51]:
#case2. classmethod 를 이용하여 인스턴스의 private field에 접근
class MyotherObject(object):
    def __init__(self):
        self.__private_field = 71
        
    @classmethod
    def get_private_field_of_instance(cls, instance):
        return instance.__private_field

In [52]:
bar = MyotherObject()
print(MyotherObject.get_private_field_of_instance(bar))

71


비공개 필드라는 것에서 알 수 있듯이 __자식클래스에서 부모클래스의 privite field에 대한 접근도 불가능__ 하다.  

In [53]:
class MyparentObject(object):
    def __init__(self):
        self.__private_field = 71
        

In [54]:
class MychildObject(MyparentObject):
    def get_private_field(self):
        return self.__private_field

In [55]:
baz = MychildObject()
print(baz.get_private_field())

AttributeError: 'MychildObject' object has no attribute '_MychildObject__private_field'

이 때 에러를 잘 보면 `'_MychildObject__private_field'` 라고 정의되어 있는 것을 본다면 이를 활용하여 부모클래스의 private_field에 쉽게 접근할 수도 있다.

In [61]:
print(baz._MyparentObject__private_field)
print(baz.__dict__)

71
{'_MyparentObject__private_field': 71}


## 6. 커스텀 컨테이너 타입은 collections.abc를 활용하자

파이썬 프로그래밍의 대부분은 데이터를 담은 클래스를 정의하고, 이 객체들이 연계되는 방법을 명시하는 일이다.  

모든 파이썬 클래스는 일종의 컨테이너로 속성과 기능을 함께 캡슐화한다.  

대표적으로 파이썬은 데이터 관리용 내장 컨테이너 타입(리스트, 튜플, 딕셔너리, 세트)을 제공하고 있다.

이에 간단한 메서드를 추가하여 커스컴 컨테이너를 만든다고 가정하자. 예를 들어 멤버의 빈도를 세는 메서드를 추가로 갖춘 커스텀 리스트 타입을 생성한다고 해보자.  

In [62]:
class FrequencyList(list):
    def __init__(self, members):
        super().__init__(members)
        
    def frequency(self):
        counts = {}
        for item in self:
            counts.setdefault(item, 0)
            counts[item] += 1
        return counts

In [63]:
foo = FrequencyList(['a','b','a','c','b','a','d'])

print('Length is ', len(foo))
print('Frequency is ', foo.frequency())
foo.pop()
print('After pop, Length is ', len(foo))
print('After pop, Frequency is ', foo.frequency())


Length is  7
Frequency is  {'a': 3, 'b': 2, 'c': 1, 'd': 1}
After pop, Length is  6
After pop, Frequency is  {'a': 3, 'b': 2, 'c': 1}


이번에는 tree를 구현한다고 생각해보자.

In [74]:
class BinaryNode(object):
    def __init__(self, value, left=None, right = None):
        self.value = value
        self.left = left
        self.right = right

In [75]:
class IndexableNode(BinaryNode):
    def _search(self, count, index):
        found = None
        if self.left:
            found, count = self.left._search(count, index)
        if not found and count == index:
            found = self
        else:
            count += 1
        if not found and self.right:
            found, count = self.right._search(count, index)
        return found, count
        
    
    def __getitem__(self, index):
        found, _ = self._search(0, index)
        if not found:
            raise IndexError('Index out of range')
        return found.value

In [76]:
tree = IndexableNode(
    10, 
    left = IndexableNode(
        5,
        left = IndexableNode(2),
        right = IndexableNode(
            6,
            right = IndexableNode(7))),
    right = IndexableNode(
    15,
    left = IndexableNode(11))
)

In [77]:
print('LRR is ', tree.left.right.right.value)
print('Index 0 is', tree[0])
print('Index 1 is', tree[1])

print('11 in the tree is ', 11 in tree )
print('17 in the tree is ', 17 in tree )
print('tree is ', list(tree))

LRR is  7
Index 0 is 2
Index 1 is 5
11 in the tree is  True
17 in the tree is  False
tree is  [2, 5, 6, 7, 10, 11, 15]


파이썬은 이러한 커스텀컨테이너를 구현할 때, 중요한 부분을 빠트리지 않기 위해 `collections.abc` 모듈을 활용한다.  

`collections.abc` 모듈에는 각 컨테이너 타입에 일반적으로 필요한 메서드를 제공하는 추상 기반 클래스들을 정의한다.  

이 추상 기반 클래스들에서 상속받아 서브클래스를 만들다가 필수 메서드를 구현하지 않으면, 에러를 알려준다.  

In [79]:
class SequenceNode(IndexableNode):
    def __len__(self):
        _, count = self._search(0, None)
        return count

In [80]:
from collections.abc import Sequence

class BetterNode(SequenceNode, Sequence):
    pass


In [81]:
tree = BetterNode(
    10, 
    left = BetterNode(
        5,
        left = BetterNode(2),
        right = BetterNode(
            6,
            right = BetterNode(7))),
    right = BetterNode(
    15,
    left = BetterNode(11))
)

In [82]:
print('Index of 7 is', tree.index(7))
print('Index of 10 is', tree.index(10))

Index of 7 is 3
Index of 10 is 4
