이 장에서 살펴볼 것들은 이 책에 전반적으로 적용되는 근본적인 내용이다. 왜냐하면 파이썬 개발의 궁극적인 목적은 보다 우수하고 유지보수성이 뛰어난 소프트웨어를 작성하는 것이기 때문이다. 

단위 테스트(또는 모든 형태의 자동 테스트)는 소프트웨어 유지보수에 있어서 결정적인 역할을 하기 때문에 어떤한 품질 프로젝트에서도 빠질 수 없는 부분이다. 때문에 이 장에서는 핵심 개발 전략으로서의 자동화 테스트, 안전한 코드 수정, 점진적 기능 향상에 대한 것들에 대해 논의 한다.

이 장을 학습한 이후에는 다음 낸용에 대해 더 깊이 알게 될 것이다.

* 애자일 소프트웨어 개발 방법론에서 자동화된 테스트가 중요한 이유
* 단위 테스트가 코드 품질에 대한 거울이 되는 이유
* 자동화된 테스트와 품질 게이트를 설정하기 위한 프레임워크와 도구
* 단위 데스크가 문서화와 도메인 문제의 깊은 이해에 도움을 주는 이유
* 테스트 주도 개발(TDD - test driven development)의 개념


## 디자인 원칙과 단위 테스트

단위 테스트는 다른 코드의 일부분이 유효한지를 검사는 코드이다. 일반적으로 단위 테스트를 애플리케이션의 "핵심"을 검증하는 것이라고 생각하지만 그것은 이 책에서 정의하는 방식과 달리 단위 테스트를 보조 수단으로서만 생각하는 것이다. 단위 테스트는 소프트웨어의 핵심이 되는 필수적인 기능으로서 일반 비즈니스 로직과 동일한 수준으로 다루어져야 한다.

단위 테스트는 비즈니스 로직이 특정 조건을 보장하는지를 확인하기 위해 여러 시나리오를 검증하는 코드이다. 단위 테스트는 다음과 같은 특징이 있다.

* 격리 : 단위 테스트는 다른 외부 에이전트와 완전히 독립적이어야 하며 비즈니스 로직에만 집중해야 한다 때문에 데이터베이스에 연결하지 않아야 고 HTTP 요청도 하지 않아야 한다. 격리는 또한 테스트 자체가 독립적이라는 것을 의미한다. 테스트는 이전 상태에 관계없이 임의의 순서로 실행될 수 있어야 한다.

* 성능 : 단위 테스트는 신속하게 실행되어야 한다. 반복적으로 여러 번 실행될 수 있도록 설계해야 한다.

* 자체 검증 : 단위 테스트의 실행만으로 결과를 결정할 수 있어야 한다. 단위 테스트를 처리하기 위한 추가 단계가 없어야 한다.

단위 테스트를 좀 더 구체적으로 살펴보면 단위 테스트를 작성한 .py 파일을 만들고 이 파일을 도구에서 호출하는 것이다. 이 파일에는 비즈니스 로직에서 필요한 것을 가져오기 위한 import 구문과 비즈니스 로직을 테스트하기 위한 프로그램이 있다. 이제 도구를 사용해 단위 테스트를 하고 결과를 수집하면 된다.

여기서 마지막 부분은 자체 검증을 의미한다. 테스트 도구에서 파일의 내용을 호출하면 테스트가 실행된다. 테스트에 실패하면 프로세스는 오류 코드와 함께 종료된다. 일반적으로 테스트에서 성공하면 점(.)을 찍고 실패하면 F를 예외가 있으면 E를 출력한다.

### 자동화된 테스트의 다른 형태

단위 테스트는 함수 또는 메서드와 같은 매우 작은 단위를 확인하기 위한 것이다. 단위 테스트는 최대한 자세하게 코드를 검사하는 것이 목적이다. 클래스를 테스트하려면 단위 테스트가 아니라 단위 테스트의 집합인 테스트 스위트를 사용한다. 테스트 스위트를 구성하는 테스트들은 메서드처럼 보다 작은 것을 테스트한다.

단위 테스트는 여러 방법으로 할 수 있으며 모든 오류를 잡을 수 있는 것도 아니다. 이 책의 범위를 벗어나는 인수 테스트나 통합 테스트 같은 것도 있다.

통합 테스트에서는 한 번에 여러 컴포넌트를 테스트한다. 종합적으로 예상대로 잘 동작하는지 검증한다. 이 경우에는 부작용이나 격리를 고려하지 않은 채로, 즉 HTTP 요청을 하거나 데이터베이스에 연결하는 등의 작업을 수행하는 것이 가능하고 때로는 그렇게 하는 것이 바람직하다.

인수 테스트는 유스케이스(use case)를 활용하여 사용자의 관점에서 시스템의 유효성을 검사하는 자동화된 테스트이다. 

이 두개의 테스트를 하면 단위 테스트와 관련된 중요한 특성을 잃게 된다. 바로 속도이다. 이러한 테스트를 실행하는데 더 많은 시간이 걸리기 때문에 보다 덜 자주 실행하게 된다. 

좋은 개발 환경을 구축했다면 개발자는 전체 테스트 스위트를 만들고 코드에 수정이 생길 때마다 반복적으로 단위 테스트와 리팩토링을 할 수 있어야 한다. 코드를 수정하고 풀 요청(PULL REQUEST)이 생기면 CI(Continuouse Intergration) 서비스가 실행되어 해당 브랜치에 빌드를 실행한다. 통합 테스트나 인수 테스트가 있는 경우는 빌드 중에 단위 테스트도 함께 수행한다. 물론 병합 전에 빌드에 성공해야 한다. 하지만 중요한 것은 테스트의 차이이다. 일반적으로 단위 테스트는 항상 수행되길 원하지만 통합 테스트나 인수 테스트는 그보다 덜 자주 수행되길 바란다. 이렇게 하는 이유는 전략적으로 단위 테스트에서 작은 기능을 많이 테스트하고, 단위 테스트에서 확인할 수 없는 부분을 다른 자동화된 테스트에서 커버하려고 하기 때문이다.

마지막으로 이 책은 실용성을 추구한다는 점을 기억하자. 앞에서도 언급한 것처럼 프로젝트의 상황에 알맞게 단위 테스트를 활용해야 한다. 아무도 내가 담당하는 시스템을 나보다 잘 알수는 없다. 때문에 도커 컨테이너를 사용하여 데이터베이스를 테스트하는 단위 테스트가 있을 수도 있다. 실용성이 이상보다 우선이다.

### 단위 테스트와 애자일 소프트웨어 개발

최근의 소프트웨어 개발은 가능한 신속하고도 지속적으로 가치를 제공하려고 한다. 이렇게 하는 이유는 더 빠르게 피드백을 받을수록 더 쉽게 코드를 수정할 수 있다는 생각이 있기 때문이다. 이러한 생각은 전혀 새로운 것은 아니다. 일부는 이미 수십 년 전의 제조 원칙과 비슷한 내용이고, 어떤 부분은 성당과 시장과 같은 에세이에서 언급했던 것들로 이해 관계자에게 빠른 피드백을 받아서 수정하는 것을 반복하자는 내용이다.

따라서 변화에 효과적으로 대응할 수 있는 소프트웨어를 개발하고자 한다면 이전 장에서 언습한 것처럼 유연하며 확장 가능해야 한다.

디자인과 상관없이 코드 자체만으로는 변경에 충분히 유연하다는 보장을 할 수 없다. 솔리드 원칙을 준수하고 개방/패쇄 원칙에 따르는 컴포넌트를 만들었다고 해보자. 게다가 쉽게 리팩토링이 가능하도록 짜여서 변화에 쉽게 대응할 수 있는 상태라고 해보자. 이 상태에서 변경 작업이 아무런 버그를 만들지 않게 하려면 어떻게 해야 할까? 기존 기능이 보존되었다는 것을 어떻게 알 수 있을까? 사용자에게 배포를 해도 문제가 없다는 것을 어떻게 확실할 수 있을까? 새 버전은 예상대로 작동한다고 믿을 수 있을까?

이 모든 질문에 대한 공식적인 증거가 없다면 확신 있게 답변할 수 없을 것이다. 단위 테스트가 바로 프로그램이 명세에 따라 정확하게 동작한다는 공식적인 증거가 될 수 있다.

따라서 단위 테스트는 우리의 코드가 기대한 것처럼 동작한다는 확신을 줄 수 잇는 안전망이 될 수 있다. 이러한 도구로 무장한 코드가 있으면 보다 효율적으로 개발이 진행될 것이므로 궁극적으로 팀의 개발 속도를 향상시킬 수 있다. 좋은  테스트를 가질수록 버그에 의해 프로젝트를 중단하지 않고 신속하게 가치를 제공할 가능성이 높아진다.

### 단위 테스트와 소프트웨어 디자인

단위 테스트와 메인 코드는 동전의 양면과 같은 것이다. 이전 섹션에서 살펴본 실용적인 이유 외에도 좋은 소프트웨어는 테스트 가능한 소프트웨어라는 사실을 기억할 필요가 있다. 테스트의 용이성(소프트웨어를 얼마나 쉽게 테스트 할 수 있는지를 결정하는 품질 속성)은 단순히 있으면 좋은 것이 아니라 클린 코드의 핵심 가치이다. 

단위 테스트는 기본 코드를 보완하기 위한 것이 아니라 실제 코드의 작성 방식에 직접적인 영향을 미치는 것이다. 단위 테스트는 특정 코드에 단위 테스트를 해야겠다고 발견하는 단계에서부터 더 나은 코드를 작성하는 단계 그리고 궁극적으로 모든 코드가 테스트에 의해 작성되는 TDD(test-driven design) 단계까지 여러 단계가 있다. TDD는 이 장의 끝에서 다시 살펴본다.

간단한 예제를 통해 테스트가 어떻게 고드의 개선으로 이어질 수 있는지 살펴보자.

다음 예제는 특정 작업에서 얻은 지표를 외부 시스템에 보내는 프로세스이다. Process 객체는 도메인 문제에 대한 일부 작업을 나타내며, MetricsClient는 외부 엔터티에 실제 지표를 전송하기 위한 객체이다.

In [8]:
class MetricsClient:
    """타사 지표 전송 클라이언트"""
    def send(self, metric_name, metric_value):
        if not isinstance(metric_name, str):
            raise TypeError("metric_name으로 문자열 타입을 사용해야 함")
        
        if not isinstance(metric_value, str):
            raise TypeError("metric_value로 문자열 타입을 사용해야 함")
        
        log_info = "%s 전송 값 = %s" %(metric_nam, metric_value)
        logger.info(log_info)
        print(log_info)

class Process:
    def __init__(self):
        self.client = MetricsClient() # 타사 지표 전송 클라이언트
    
    def process_iterations(self, n_iterations):
        for i in range(n_iterations):
            result = self.run_process()
            self.client.send("iteraton." .format(i), result)

타사 지표 전송 클라이언트는 파라미터가 문자열 타입이어야 한다는 요구사항이 있다. 따라서 run_process 메서드에서 반환한 result가 문자열이 아닌 경우 전송에 실패하게 된다.


타사에서 제공하는 라이브러리는 직접 제어할 수 없으므로 반드시 실행 전에 정확한 타입을 제공해야만 한다. 이러한 버그를 발견했으므로 이제는 단위 테스트를 통해 이러한 문제가 발생하지 않는다는 것을 확실히 하고자 한다. 단위 테스트가 있으면 리팩토링을 여러 번 하더라도 이후에 재현되는 않든다는 것을 증명할 수 있다.

Process 객체의 client를 모의하여 데스트할 수도 있다. 그러나 그렇게 하려면 더 많은 코드가 필요하다. 그러나 다행히도 메서드가 상대적으로 작다. 만약 메서드가 크다면 모의 과정에서 불필요한 것들을 더 많이 실행해야하기 때문이다. 메서드가 작다는 것은 테스트 가능성과 관련해 좋은 디자인이라고 할 수 있다.

마지막으로 필요한 부분만 테스트하기 위해 main 메서드에서 client를 직접 다루지 않고 래퍼(wrapper) 메서드에 위임할 것이다. 새로운 클래스는 다음과 같다.

In [9]:
class WrappedClient:
    def __init__(self):
        self.client = MetricsClient()
    
    def send(self, metric_name, metric_value):
        return self.client.send(str(metric_name), str(metric_value))
    
class Process:
    def __init__(self):
        self.client = WrappedClient()
    def process_iterations(self, n_iterations):
        for i in range(n_iterations):
            result = self.run_process()
            self.client.send("iteraton." .format(i), result)

여기서는 타사 라이브러리를 직접 사용하는 대신 자체적으로 만든 클래스를 지표 전송 client로 사용했다. 래퍼 클래스는 동일한 인터페이스를 가지고 있다.

이러한 컴포지션 방식은 어댑터 디자인 패턴과 유사하다. 이것은 새로운 객체이므로 새로운 단위 테스트를 가질 수 있다. 이 객체는 일관된 인터페이스를 제공할 것이므로 테스트가 더 간단해질 것이다. 하지만 더 중요한 것은 이러한 방식이 애초에 작성하려던 방식이라는 것이다. 메인 코드에 대해 직접 단위 테스트를 작성하면 가장 중요한 속성 중 하나인 추상화를 하지 못하게 된다!

이제 메서드를 분리했으므로 실제 단위 테스트를 작성한다. 이 예제에서 사용된 unittest 모듈에 대한 세부사항은 테스트 도구와 라이브러리를 탐색하는 장에서 더 자세히 살펴볼 것이다. 지금은 대략적인 흐름만 살펴보면 된다.

In [11]:
import unittest
from unittest.mock import Mock

class TestWrappedClient(unittest.TestCase):
    def test_send_converts_types(self):
        wrapped_client = WrappedClient()
        wrapped_client.client = Mock()
        wrapped_client.send('value', 1)
        wrapped_client.client.send.assert_called_with("value", 1)

Mock은 unittest.mock 모듈에서 사용할 수 있는 타입으로 어떤 종류의 타입에도 사용할 수 있는 편리한 객체이다. 예를 들어 타사 라이브러리 대신 Mock 객체를 사용하면 예상대로 호출되는지 확인할 수 있다. send 메서드에서는 Process 객체에서 호출하는 것처럼 숫자 1을 입력했지만 send.assert_called_with에서는 문자열 "1"을 기대하는 것에 유의하자.

* Mock은 무엇을 흉내 낸다는 뜻으로 그대로 의존성 객체를 대신하여 시뮬레이션 하는 역할을 한다. 어떻게 시뮬레이션 할지는 런타임 중에 함수, 메서드, 속성을 직접 정의해주면 된다. 이렇게 런타임에 기능을 변경하는 것을 몽키 패치라고 한다. 이 예제에서는 wrapped_client.client로 MetricsClient를 직접 사용하지 않고 Mock 객체를 사용해 시뮬레이션 할 것이다. 그런데 wrapped_client.client에는 어떤 메서드가 있는지 어떻게 정의할까? 바로 시뮬레이션 하려는 형태 그대로 한 번 호출해주면 된다. 이 예제에서는 wrapped_client.send('value', 1)를 호출하여 WrappedClient 클래스의 send 메서드를 호출했는데 그 안에서 self.client.send는 두 개의 문자열을 받는 함수라고 정의(몽키 패치)하고 있다. 그렇기 때문에 send.assert_called_with('value', 1)를 호출하면 올바른 파라미터를 사용한 호출이므로 어설트에 성공하게 된다.

### 테스트 경계 정하기

테스트에는 노력이 필요하다. 무엇을 테스트할지 주의하지 않으면 끝없이 테스트를 해야 하고 뚜렷한 결실도 없이 시간만 낭비하게 된다.

테스트의 범위는 우리가 작성한 코드의 범위로 한정해야 한다. 외부 의존성에 대해서는 올바른 파라미터를 사용해 호출하면 정상적으로 살행된다는 것만 확인해도 충분하다. 

신중하게 지다인을 하여 시스템의 기준을 명확히 했다면 단위 테스틑 작성할 때 이러한 인터페이스를 모의하는 것이 훨씬 쉬워진다.

## 테스트를 위한 프레임워크와 도구

단위 테스트를 작성하기 위한 많은 도구가 있는데 모두 장단점이 있고 다른 용도로 사용될 수 있다. 그러나 거의 모든 시나리오를 다룰 수 있는 두 가지가 있으며 이 두 가지로 제한하여 논의한다.

테스트 프레임워크나 라이브러리와 함께 코드 커버리지를 설정하여 같이 사용하는 것이 일반적이다. 커버리지 지표를 잘못 해석할 여지가 있으므로 우선 단위 테스트를 만드는 방법을 살펴본 후 커버리지가 가벼운 주제가 아닌지 살펴볼 것이다.

### 단위 테스트 프레임워크와 라이브러리

이 섹션에서는 단위 테스트를 작성하고 실행하기 위한 두 가지 플임워크에 대해 설명한다. 첫 번째 unittest는 파이썬의 표준 라이브러리이고 두 번째 pytest는 pip를 통해 설치해야 하는 라이브러리이다.

* unittest
* pytest

테스트 시나리오를 다루는 것은 unittest 만으로도 충분할 것이다. 왜냐하면 다양한 헬퍼 기능을 제공하기 때문이다. 그러나 외부 시스템에 연결하는 등의 읜존성이 많은 경우 테스트 케이스를 파라미터화할 수 있는 픽스처(fixture)라는 패치 객체가 필요하다. 이렇게 보다 복잡한 옵션이 필요한 경우는 pytest가 적합하다. 

이 둘을 보다 쉽게 비교할 수 있도록 간단한 예제를 만들어 두 가지 옵션으로 테스트를해보자.

이 예제는 머지 리퀘스트(Merge Request = MR)에 대해 코드 리뷰를 도와주는 간단한 버전 제어 도구로 다음과 같은 몇 가지 전제를 가지고 있다.

* 한 명 이상의 사용자가 변경 내용에 동의하지 않은 경우 머지 리퀘스트가 거절된다.
* 아무도 반대하지 않은 상태에서 두 명 이상의 개발자가 동의하면 해당 머지 리퀘스트는 승인(approved)된다.
* 이외의 상태는 보류(pending) 상태이다.

코드는 다음과 같다.

In [13]:
from enum import Enum

class MergeRequestStatus(Enum):
    APPROVED = "approved"
    REJECTED = "rejected"
    PENDING = "pending"
    
class MergeRequest:
    def __init__(self):
        self._context = {
            "upvotes" : set(),
            "downvotes" : set()
        }
                    
    @property
    def status(self):
        if self._context["downvotes"]:
            return MergeRequestStatus.REJECTED
        elif len(self._context["upvotes"]) >= 2:
            return MergeRequestStatus.APPROVED
            return MergeRequestStatus.PENDING
        
    def upvote(self, by_user):
        self._context["downvotes"].discard(by_user)
        self._context["upvotes"].add(by_user)
    
    def downvote(self, by_user):
        self._context["upvotes"].discard(by_user)
        self._context["downvotes"].add(by_user)

### unittest

unittest 모듈은 모든 종류의 테스트를 작성할 수 있는 풍부한 API를 제공하므로 단위 테스트를 시작하기에 훌륭한 선택이다. 그리고 표준 라이브러리에 포함되어 있으므로 다방면에 편리하게 사용할 수 있다.

unittest 모듈은 자바의 JUnit을 기반으로 한다. JUnit은 Smalltalk의 아이디어를 기반으로 만들어졌으므로 객체 지향적이다. 이러한 이유로 테스트는 객체를 사용해 작성되며 클래스의 시나리오별로 테스트를 그룹화하는 것이 일반적이다.

단위 테스트를 만들려면 unittest.TestCase를 상속하여 테스트 클래스를 만들고 메서드에 테스트할 조건을 정의하된 된다. 이러한 메서드는 test_로 시작해야하며 본문엣는 unittest, TestCase에서 상속받은 메서드를 사용하여 체크하려는 조건이 참인지 확인하면 된다.

다음은 이번에 체크하려는 조건의 몇 가지 예이다.

In [14]:
class TestMergeRequestStatus(unittest.TestCase):
    
    def test_simple_rejected(self):
        merge_request = MergeRequest()
        merge_request.downvote("maintainer")
        self.assertEqual(merge_request.status, MergeRequestStatus.REJECTED)
    
    def test_just_created_is_pending(self):
        self.assertEqual(MergeRequest().status, MergeRequestStatus.PENDING)
        
    def test_pending_awaiting_review(self):
        merge_request = MergeRequest()
        merge_request.upvote("core-dev")
        self.assertEqual(merge_request.status, MergeRequestStatus.PENDING)
    
    def test_approved(self):
        merge_request = MergeRequest()
        merge_request.upvote("dev1")
        merge_request.upvote("dev2")
        self.assertEqual(merge_request.status, MergeRequestStatus.APPROVED)

단위 테스트 API는 비교를 위한 다양한 메서드를 제공하는데, 가장 일반적인 메서드는 실제 실행 값과 예상 값을 비교하는 asserEqual(actual, expected[, messege])이다. 이 메서드에는 에러가 발생한 경우를 대비해 메세지를 지정할 수도 있다.

또 다른 유용한 메서드를 사용하면 특정 예외가 발생했는지 여부를 확인할 수 있다. 예외적인 상황이 발생하면 잘못된 가정 아래 실행을 계속 하는 것보다는 예외를 발생시키고 호출자에게 바로 알려주는 것이 좋다. 이것이 해당 메서드가 확인하려는 것이다.

이제 기존 기능을 좀 더 확장하여 사용자가 머지 리퀘스트를 종료할 수 있도록 해보자. 병합을 종료하면 더 이상 투표할 수 없다. 이것을 확인하기 위해 코드를 약간 수정하고 누군가가 종료도니 머지 리퀘스트에 투표를 시도하면 예외를 발생시키도록 해보자.

두 개의 새로운 상태(OPEN과 CLOSED)와 한 개의 새로운 메서드 close()를 추가한 후, 투표 메서드에 조건을 추가하자.

In [16]:
class MergeRequest:
    def __init__(self):
        self._contest = {
            "upvotes": set(),
            "downvotes": set()
        }
        self._status = MergeRequestStatus.OPEN

    def close(self):
        self._status = MergeRequestStatus.CLOSED
    
    def _cannot_vote_if_closed(self):
        if self._status == MergeRequestStatus.CLOSED:
            raise MergeRequestException("종료된 머지 리퀘스트에 투표할 수  없음")
    
    def upvote(self, by_user):
        self._cannot_vote_if_closed()
    
        self._context["downvotes"].discard(by_user)
        self._context["upvotes"].add(by_user)
        
    def downvote(self, by_user):
        self._cannot_vote_if_closed()
        
        self._context["upvotes"].discard(by_user)
        self._context["downvotes"].add(by_user)

이제 이 유효성 검사가 실제로 작동하는지 확인해보자. 이를 위해 assertRaises와 assertRaisesRegex 메서드를 사용한다.

In [17]:
def test_cannot_upvote_on_closed_merge_request(self):
    self.merge_request.close()
    self.assertRaises(
        MergeRequestException, self.merge_request.upvote, "dev1"
    )

def test_cannot_downvote_on_closed_merge_request(self):
    self.merge_request.close()
    self.assertRaisesRegex(
        "종료된 머지 리퀘스트에 투표할 수 없음",
        self.merge_request.downvote,
        "dev1",
    )

전자는 제공한 예외가 실제로 발생하는지를 확인하는 것이다. 두 번째 파라미터로 호출 가능한 객체를 전다라고 나머지 파라미터에 호출에 필요한 파라미터를(*args와 **kwargs) 전달하면 된다. 후자는 동일한 방식으로 처리하지만 발생된 예외의 메세지가 제공된 정규식과 일치하는지 확인한다. 예외가 발생했지만 정규 표현식과 일치하지 않는 다른 메세지가 있는 경우에도 테스트에 실패한다. 

* 에외가 발생하는지 뿐만 아니라 오류 메세지도 확인하자. 발생한 예외가 정확히 우리가 원했던 예외인지 확인하기 위함이다. 우연히 같은 타입의 예외가 발생했으나 실제로는 다른 원인에 의한 경우를 제외하기 위한 것이다.

### 테스트 파라미터화 

이제 데이터에 따라 머지 리퀘스트가 정상적으로 동작하는지를 확인하기 위해 임계값을 변경하며 테스트해보자. status 프로퍼티에서 종료 여부를 확인한 뒤 코드를 테스트하고자 하는 것이다. 

이렇게 하는 가장 좋은 방법은 해당 컴포넌트를 다른 클래스로 분리하고 컴포지션을 사용하여 다시 가져오는 것이다. 분리된 클래스에 대해서는 자체 테스트 스위트를 가진 새로운 추상화 객체를 만들고 이것에 대해 테스트를 한다.

In [19]:
class AcceptanceThreshold:
    def __init__(self, merge_request_context: dict) -> None:
        self._context = merge_request_context
    
    def status(self):
        if self._context["downvotes"]:
            return MergeRequestStatus.REJECTED
        elif len(self._context["upvotes"]) >= 2:
            return MergeRequestStatus.APPROVED
        return MergeRequestStatus.PENDING

class MergeRequest:
    @property
    def status(self):
        if self._status == MergeRequestStatus.CLOSED:
            return self._status
        
        return AcceptanceThreshold(self._context).status()

이렇게 수정하고 다시 테스트를 실행하면 테스트에 통과한다. 즉, 조금 전의 작은 리팩토링이 현재 기능을 전혀 손상시키지 않은 것이다(단위 테스트는 회귀(regression)를 보장한다). 이를 통해 새로운 클래스에 특정한 테스트를 작성하려는 목표를 달성할 수 있다.

In [21]:
class TestAcceptanceThreshold(unittest.TestCase):
    def setup(self):
        self.fixture_data = (
            (
                {"downvotes": set(), "upvotes": set()}, 
                MergeRequestStatus.PENDING
            ),
            (
                {"downvotes": set(), "upvotes": {"dev1"}}, 
                MergeRequestStatus.PENDING
            
            ),
            (
                {"downvotes": "dev1", "upvotes": {"dev1"}}, 
                MergeRequestStatus.REJECTED
            
            ),
            (
                {"downvotes": set(), "upvotes": {"dev1", "dev2"}}, 
                MergeRequestStatus.APPROVED
            
            ),            
        )
    
    def test_status_resolution(self):
        for context, expected in self.fixture_data:
            with self.subTest(context=context):
                status = AcceptanceThreshold(context).status()
                self.assertEqual(status, expected)

setUp() 메서드에서는 테스트 전반에 걸쳐 사용될 데이터 픽스처를 정의한다. 사실 지금은 직접 메서드에 값을 전달하면 되기 때문에 꼭 필요하지는 않지만 모든 테스트 실행 전에 준비 작업이 필요하다면 이 메서드에 작성하면 된다.

테스트 코드를 이렇게 수정함으로써 코드의 파라미터를 쉽고 간결하게 전달할 수 있게 되었으며 각각의 결과도 쉽게 확인할 수 있게 되었다.

모든 경우에 대해 테스트하려면 모든 데이터를 반복하며 각 인스턴스에 대해 테스트를 해야 한다. 한 가지 재미있는 것은 subTest 헬퍼를 사용하는 것이다. subTest는 호출되는 테스트 조건을 표시하는데 사용된다. 이러한 반복 중 하나가 실패하면 unittest는 subTest에 전달된 변수의 값을 보고한다(여기서는 context라는 이름을 사용했지만 다른 키워드 인자도 모두 동일하게 동작한다).

### pytest

Pytest는 훌륭한 테스트 프레임워크로 pip install pytest 명령어를 통해 설치할 수 있다. 차이점은 unittest처럼 테스트 시나리오를 클래스로 만들고 객체 지향 모델을 생성하는 것이 가능하지만 필수 사항이 아니며, 단순히 assert 구문을 사용해 조건을 검사하는 것이 가능하기 때문에 보다 자유롭게 코드를 작성할 수 있다는 점이다.

기본적으로 pytest에서는 assert 비교만으로 단위 테스트를 식별하고 결과를 보고하는 것이 가능하다. 앞의 섹션에서 보았던 고급 기능도 사용할 수 있지만 패키지에서 제공하는 특정 기능을 사용해야 한다.

멋진 기능의 하나는 pytest 명령어를 통해 탐색 가능한 모든 테스트를 한 번에 실행한다는 점이다. 심지어 unittest로 작성한 테스트도 실행한다. 이러한 호환성 때문에 unittest에서 pyest로 점진적으로 전환하는 것도 가능하다.

### 기초적인 pytest 사용 예

이전 섹션의 테스트는 pytest를 사용해 다음과 같이 다시 작성할 수 있다.

다음은 간단한 어설션을 사용한 예이다.

In [26]:
def test_simple_rejected():
    merge_request = MergeRequest()
    merge_request.downvote("maintainer")
    assert merge_request.status == MergeRequestStatus.REJECTED
    
def test_just_created_is_pending():
    assert MergeRequest().status == MergeRequestStatus.PENDING

def test_pending_awaiting_review():
    merge_request = MergeRequest()
    merge_request.upvote("core-dev")
    assert merge_reqeust.status == MergeRequestStatus.PENDING

간단히 결과가 참인지를 비교하는 것은 assert 구문만 사용하면 되지만, 예외의 발생 유무 검사와 같은 검사는 일부 함수를 사용해야 한다.

In [27]:
def test_invalid_types():
    merge_reqeust = MergeRequest()
    pytest.raises(TypeError, merge_request.upvote, {'invalid-object'})

def test_cannot_vote_on_closed_merge_request():
    merge_reqeust = MergeRequest()
    merge_reqeust.close()
    pytest.raises(MergeRequestException, merge_reqeust.upvote, "dev1")
    with pytest.raises(
        MergeRequestException,
        match="종료된 머지 리퀘스트에 투표할 수 없음",  
    ):
        merge_reqeust.downvote("dev1")

이 경우 pytest.raises는 unittest.TestCase.assertRaises와 동일하며 메서드 형태 또는 컨텍스트 관리자 형태로 호출될 수 있다. 예외의 메세지를 검사하고 싶으면 assertRaisesRegex 같은 다른 메서드를 사용하는 대신에 같은 함수를 사용하되 match 파라미터에 확인하려는 표현식을 전달하면 된다.

pytest는 .value 같은 속성을 통해 추가 검사를 할 수 있도록 원래의 예외를 래핑하지만, 지금 사용한 함수를 사용해도 대부분의 경우에 대해서 확인할 수 있다.

### 테스트 파라미터화

pytest로 파라미터화 된 테스트를 하는 것은 이전보다 훌륭하게 할 수 있다. 단순히 더 깔끔한 API를 제공해서가 아니라 테스트 조합마다 새로운 테스트 케이스를 생성하기 때문이다. 

이렇게 하려면 pytest.mark.parametrize 데코레이터를 사용해야 한다. 테코레이터의 첫 번째 파라미터는 테스트 함수에 전달할 파라미터의 이름을 나타내는 문자열이고, 두 번째 파라미터는 해당 파라미터에 대한 각각의 값으로 반복 가능해야 한다.

테스트 함수의 본문에서 내부 for 루프와 중첩된 컨텍스트 관리자가 제거되고 한 줄로 변경된 것에 주목하자. 각 테스트 케이스의 데이터는 함수 본문에서 올바르게 분리되어 이제 확장과 유지보수에 유리한 구조가 되었다.

In [29]:
import pytest

@pytest.mark.parametrize("context,expected_status", (
    (
        {"downvotes": set(), "upvotes": set()},
        MergeRequestStatus.PENDING
    ),
    (
        {"downvotes": "dev1", "upvotes": set()},
        MergeRequestStatus.REJECTED
    ),
    (
        {"downvotes": set(), "upvotes": {"dev1", "dev2"}},
        MergeRequestStatus.APPROVED
    ),
    
))

def test_acceptance_threshold_status_resolution(context, expected_status):
    assert AcceptanceThreshold(context).status() == expected_status

@pytest.mark.parametrize를 사용하여 반복을 없애고 테스트 본문을 응집력 있게 유지한다. 테스트에 전달할 입력 값과 시나리오는 명시적으로 파라미터를 만들어 제공한다.

### 픽스처(Fixture)*

pytest의 가장 큰 장점 중 하나는 재사용 가능한 기능을 쉽게 만들 수 있다는 점이다. 이렇게 생성한 데이터나 객체를 재사용해 보다 효율적으로 테스트할 수 있다.

예를 들어 특정 상태를 가진 MergeRequest 객체를 만들고 여러 테스트에서 이 객체를 재사용할 수 있다. 픽스처를 정의하려면 먼저 함수를 만들고 @pytest.fixture 데코레이터를 적용한다. 이 픽스처를 사용하길 원하는 테스트에는 파라미터로 픽스처의 이름을 전달하면 pytest가 그것을 활용한다.

In [31]:
@pytest.fixture
def rejected_mr():
    merge_request = MergeRequest()
    
    merge_request.downvote("dev1")
    merge_request.upvote("dev2")
    
    merge_request.upvote("dev3")
    merge_request.downvote("dev4")
    
    return merge_request

def test_simple_rejected(rejected_mr):
    assert rejected_mr.status == MergeRequestStatus.REJECTED
    
def test_rejected_with_approvals(rejected_mr):
    rejected_mr.upvote("dev2")
    rejected_mr.upvote("dev3")
    
    assert rejected_mr.status == MergeRequestStatus.REJECTED
    
def test_rejected_to_pending(rejected_mr):
    rejected_mr.upvote("dev1")
    assert rejected_mr.status == MergeRequestStatus.PENDING
    
def test_rejected_to_approved(rejected_mr):
    rejected_mr.upvote("dev1")
    rejected_mr.upvote("dev2")
    assert rejected_mr.status == MergeRequestStatus.APPROVED
    

테스트는 메인 코드에도 영향을 미치므로 클린 코드의 원칙이 테스트에도 적용된다는 것을 기억해야 한다. 이번 예제에는 이전 장에서 살펴본 DRY(Do not Repeat Yourself) 원칙을 적용할 수 있으며 pytest의 픽스처를 활용하여 해당 원칙을 준술할 수 있었다.

픽스처는 테스트 스위트 전반에 걸쳐 사용될 여러 객체를 생성하거나 데이터를 노출하는 것 이외에도, 직접 호출되지 않는 함수를 수정하거나 사용될 객체를 미리 설정하는 등의 사전조건 설정에 사용될 수도 있다.

### 코드 커버리지

테스트 러너는 pip를 통해 설치 가능한 커버리지 플러그인을 제공한다. 이 플러그인은 테스트 도중 코드의 어떤 부분이 실행되었는지 알려준다. 이 정보는 테스트에서 어떤 부분을 다뤄야 할지, 어떤 부분이 개선되었는지를 알 수 있게 해준다. 가장 널리 사용되는 것은  coverage 라이브러리이다.

이것은 훌륭한 도구로 CI에서 테스트를 실행할 때 같이 설정하기를 추천하지만 특히 파이썬에서는 가끔 잘못 분석하는 경우도 있다. 따라서 커버리지 보고서를 주의해서 살펴봐야 한다.

### 코드 커버리지 도구 설정

pytest의 경우 pytest-cov 패키지를 설치한다. 설치 후에 테스트를 실행할 때 pytest 러너에게 pytest-cov가 실행될 것이라는 것과 어떤 패키지를 사용할지 알려줘야 한다.

이 패키지는 다양한 출력 옵션과 같은 여러 설정을 지원하며 모든 CI 도구와 쉽게 통합할 수 있다. 그러나 여러 기능 중에서 가장 권장되는 것은 테스트되지 않은 행을 알려주는 기능이다. 커버되지 않은 코드를 확인하면 추가로 테스트를 작성할 수 있기 때문이다.

다음 명령을 사용하여 실행 결과를 확인할 수 있다.

pytest \
    --cov-report term-missing \ 
    --cov=coverage_1 \ 
    test_coverage_1.py

출력 결과에 단위 테스트를 하지 않은 라인이 있다는 것이 표시된다. 이것을 보고 단위 테스트를 어떻게 작성할지 살펴볼 수 있다. 이렇게 단위 테스트에서 커버하지 못한 부분을 발견하고 작은 메서드를 만들어서 리팩토링 하는 것이 일반적인 시나리오다. 결과적으로 이 장의 첫부분에서 살펴본 것처럼 보다 나은 코드를 만들 수 있다.

문제는 반대의 경우이다. 높은 커버리지를 있는 그대로 신뢰할 수 있을까? 높은 커버리지를 가진 코드는 올바르게 작성된 코드를 의미할까? 불행히도 높은 테스트 커버리지를 갖는 것은 좋은 것이지만 클린 코드를 위한 조건으로는 부족하다. 코드의 특정 부부능 테스트하지 않는 것은 나쁘다. 모든 부분을 테스트하는 것은 매우 좋다. 실제로 해당 코드에 대해 품질을 보증할 수 있다. 그러나 이것만으로 충분한 클린 코드의 조건을 가졌다고는 말할 수 없다. 높은 커버리지에도 불구하고 보다 많은 테스트가 필요할 수 있다.

이것이 테스트 커버리지의 맹점이며 다음 섹션에서 이에 대한 내용을 논의할 것이다.

### 코드 커버리지 사용 시 주의사항

파이썬은 인터프리트 방식의 언어이다. 커버리지 도구는 테스트가 실행되는 동안 고수준에서 인터프리트되는 라인을 식별하여 커버리지를 측정한다. 그리고 정보를 취합하여 보고서를 만든다. 라인이 인터프리트 되었다고 해서 적절히 테스트되었다는 것을 의미하지는 않는다. 이것이 최종 커버리지 보고서를 해석할 때 주의해야 하는 이유이다.

* 코드의 사각지대를 찾기 위해 커버리지 도구를 사용하지만, 커버리지 자체가 궁극적인 목표는 아니다.

### 모의(Mock) 객체

테스트를 하는 과정 중에는 우리가 작성한 코드만 실행되는 것이 아니다. 어떤 시스템이 실제로 서비스되기 위해서는 외부 서비스(데이터베이스, 스토리지 서비스, 외부 API, 클라우드 서비스 등)와 연결을 하게 된다. 이런 외부 서비스에는 필연적으로 부작용이 존재한다. 부작용을 최소화하기 위해 외부 요소를 분리하고 인터페이스를 사용해 최대한 추상화하겠지만 이러한 부분 역시 테스트에 포함되어야 하며 효과적으로 처리할 수 있어야 한다.

모의 객체는 원하지 않는 부작용으로부터 테스트 코드를 보호하는 가장 좋은 방법 중 하나이다. 코드에서 HTTP 요청을 수행하거나 알림 이메일을 보내야 할 수도 있지만, 단위 테스트에서 확인할 내용은 아니다. 게다가 단위 테스트는 빠르게 실행되어야 하기 때문에 이러한 대기 시간을 감당할 수 없다. 따라서 단위 테스트에서는 이러한 외부 서비스를 호출하지는 않는다.

즉, 디비에 연결하지 않고 HTTP 요청을 하지 않으며 기본적으로 상용 코드를 시뮬레이션하는 것 외에는 아무것도 수행하지 않는다.

단위 테스트에서는 이것들이 호출되는지만 확인하면 된다. 통합 테스트는 거의 실제 사용자의 행동을 모방하여 더 넓은 관점에서 기능을 테스트한다. 때문에 시간은 오래 걸린다. 외부 시스템과 서비스에 실제 연결하기 때문에 실행 시간이 오래 걸리고 비용이 많이 든다. 일반적으로 단위 테스트는 많이 실행하고 항상 실행하며, 통합 테스트는 덜 자주 실행하도록 한다. 예를 들어 새로운 머지 리퀘스트가 있을 경우에만 통합 테스트를 할 수 있다.

모의 객체는 유용하지만 남용하여 코드의 나쁜 냄새 또는 안티패턴을 만들지 않도록 유의해야 한다. 

### 패치와 모의에 대한 주의사항

단위 테스트가 보다 나은 코드를 작성하는데 도움이 된다고 말한 적이 있다. 왜냐하면 특정 코드를 테스트하려면 테스트가 가능하도록 짜야 하는데, 이는 코드가 응집력이 뛰어나고, 세분화되어 있으며, 작다는 것을 의미한다. 이것들은 소프트웨어 컴포넌트에 있어서도 모두 좋은 특징들이다.

또 다른 흥미로운 점은 테스트를 통해 문제가 없다고 생각하던 부분에서 코드의 나쁜 냄새를 맡을 수 있다는 점이다. 간단한 테스트 케이스를 작성하기 위해 다양한 몽키 패치(또는 모의)를 해야 한다면 코드에서 나쁜 냄새가 난다는 신호이다.

unittest 모듈은 uniitest.mock.patch에서 객체를 패치하기 위한 도구를 제공한다. 패치란 임포트 중에 경로를 지정했던 원본 코드를 모의 객체 같은 다른 것으로 대체하는 것을 마란다. 이렇게 하면 런타임 중에 코드가 바뀌고 처음에 있던 원래 코드와의 연결이 끊어져 테스트가 조금 더 어려워지는 단점이 있다. 런타임 시 인터프리터에서 객체를 수정하는 오버헤드도 있으므로 성능상의 이슈도 있다.

몽키 패치 또는 모의를 사용하는 것 자체가 문제가 되지는 않는다. 그러나 몽키 패치를 남용하게 된다면 무언가 원본 코드를 개선할 여지가 있다는 신호이다.

* 몽키 패치는 런타임 중에 코드를 수정하는 것을 말하는데, 원래 정해진 규칙 없이 메모리에서 코드를 수정한다 하여 게릴라 패치라고 불리게 되었다. 그러다가 동음이의어인 고릴라 패치를 거쳐 공격적인 느낌을 순화하기 위해 몽키 패치로 순화하였다는 설이 있다.

### Mock 객체 사용하기

단위 테스트에서 말하는 테스트 더블의 카테고리에 속하는 타입에는 여러 객체가 있다. 테브스 더블은 여러 가지 이유로 테스트 스위트에서 실제 코드를 대신해 실제인 것처럼 동작하는 코드를 말한다. 실제 상용 코드는 필요하지 않다거나 특정 서비스에 접근해야 하는데 권한이 없다거나, 부작용이 있어서 단우 ㅣ테스트에서 실행하고 싶지 안은 경우 등이다.

테스트 더블에는 더미(dummy), 스텁(stub), 스파이(spy), 모의(Mock)와 같은 다양한 타입의 객체가 있다. 모의 객체는 가장 일반적인 유형의 객체이며 매우 융통성있고 다양한 기능을 가지고 있기 때문에 나머지 객체에 대해 자세히 설명할 필요 없이 모든 경우에 적합하다. 이러한 이유로 표준 라이브러리에서도 모의 객체를 포함하고 있으며 많은 파이썬 프로그램에서도 쉽게 찾아보 수 있다. 이번에 살펴볼 파이썬 객체는 uniitest.mock.Mock이다. 

모의는 스펙을 따르는 객체 타입으로 응답 값을 수정할 수 있다. 즉, 모의 객체 호출 시 응답해야 하는 값이나 행동을 특정할 수 있다. Mock 객체는 내부에 호출 방법을 기록하고 나중에 이 정보를 사용하여 애플리케이션의 동작을 검증한다.

파이썬 표준 라이브에서 제공하는 Mock 객체는 호출 회수, 사용된 파라미터 등 모든 종류의 검증을 할 수 있는 멋진 API를 제공한다.

### Mock 객체의 종류

파이썬 표준 라이브러리는 uniitest.mock 모듈에서 Mock과 MagicMock 객체를 제공한다. 전자는 모든 값을 반환하도록 설정할 수 있는 테스트 더블이며 모든 호출을 추적한다 후자 역시 똑같지만 매직 메서드를 지원한다. 즉 매직 메서드를 사용한 경우는 Mock 객체 대신에 MagicMock 객체를 사용해야 한다.

만약 Mock 객체에서 매직 메서드를 사용하려고 하면 에러가 발생한다. 예제를 보자.

In [53]:
from typing import Dict, List

class GitBranch:
    def __init__(self,commits: List[Dict]):
        self._commits = {c["id"]: c for c in commits}
    
    def __getitem__(self, commit_id):
        return self._commits[commit_id]
    
    def __len__(self):
        return len(self._commits)
    
def author_by_id(commit_id, branch):
    return branch[commit_id]["author"]

이제 author_by_id 함수를 테스트 해보자. 다른 함수에서도 author_by_id를 호출하면 된다. 함수의 기능을 확인하려는 것은 아니므로 아무 값이나 사용해도 된다.

In [54]:
def test_find_commit():
    branch = GitBranch([{'id': '123', 'author':'dev1'}])
    assert author_by_id("123", branch) == "dev1"

def test_find_any():
    author = author_by_id('123', Mock()) is not None

In [55]:
test_find_any()

TypeError: 'Mock' object is not subscriptable

매직 메서드를 사용했기 때문에 예상한 것 처럼 제대로 동작하지 않는다.

이런 경우는 MagicMock을 사용하면 된다. 이제 테스트에 필요한 값을 반환하도록 매직 메서드를 직접 수정할 수 있다.

In [56]:
from unittest.mock import MagicMock

def test_find_any():
    mbranch = MagicMock()
    mbranch.__getitem__.return_value = {'author':'test'}
    assert author_by_id('123', mbranch) == 'test'

In [57]:
test_find_any()
test_find_commit()

### 테스트 더블의 사용 예

모의 객체의 사용 예로 애플리케이션에 머지 리퀘스트의 빌드 상태를 알리는 컴포넌트를 추가해보자. 빌드가 끝나면 머지 리퀘스트 아이디와 빌드 상태를 파라미터로 하여 객체를 호출한다. 그러면 특정 엔드포인트에 POST 요청을 보내 최종 머지 리퀘스트의 상태를 업데이트한다.

In [3]:
from datetime import datetime

import requests
# from constants import STATUS_ENDPOINT
STATUS_ENDPOINT = "http://localhost:8080/mrstatus"

class BuildStatus:
    """Continuous Intergration 도구에서의 머지 리퀘스트 상태"""
    
    @staticmethod
    def build_date() -> str:
        return datetime.utcnow().isoformat()
    
    @classmethod
    def notify(cls, merge_request_id, status):
        build_status = {
            "id" : merge_request_id,
            "status" : status,
            "build_at" : cls.build_date(),
        }
        response = requests.post(STATUS_ENDPOINT, json=build_status)
        response.raise_for_status() # 200이 아닐 경우 예외 발생
        return response

이 클래스는 많은 부작용을 가지고 있지만 그 중 하나는 외부 ㅁ듈에 의존성이 너무 크다는 것이다. 아무것도 수정하지 않고 위의 코드를 그대로 실행하면 HTTP 연결 시도 중에 바로 실패할 것이다.

지금 테스트하려는 것은 적절하게 정보가 구성되어 API에 잘 전달되었는지 여부이다. 따라서 실제로 API를 호출할 필요는 없고 단지 잘 호출되는지만 확인하면 된다. 

또 다른 문제는 API에 전달하는 값 중에 시간 값이 있는데 만약 빌드 시간을 비교하는 조건이 있다면 이 시간 값이 고정되어야 하는데, 실시간으로 변하는 값이므로 정확히 예측을 할 수가 없다는 점이다. datetime 모듈 자체는 C로 작성되었으므로 datetime을 직접 패치할 수는 없다. 이런 경우를 위해 datetime 모듈을 override하여 사용자가 지정한 시간으로 반환해주는 freezegun 같은 외부 라이브러리도 있지만 성능상의 불이익이 따르고 이 예제에서는 과도한 기능이다. 따라서 여기서는 직접 패치할 수 있는 buld_date 정적 메서드를 래핑할 것이다.

In [7]:
from unittest import mock
from mock_2 import BuildStatus

@mock.patch("mock_2.requests")
def test_build_notification_sent(mock_requests):
    build_date = "2019-01-01T00:00:01"
    with mock.patch("mock_2.BuildStatus.build_date", return_value=build_date):
        BuildStatus.notify(123, "OK")
    
    expected_payload = {"id": 123, "status": "OK", "build_at": build_date}
    mock_requests.post.assest_called_with(STATUS_ENDPOINT, json=expected_payload)

먼저 @mock.patch를 데코레이터를 사용하여 테스트 안*에서 mock_2.request을 호출하면 mock_requests라는 mock 객체가 대신할 것이라고 알려준다. 그리고 mock.patch 함수를 컨텍스트 매니저로 사용하여 build_date() 메서드 호출 시 어설션에 사용할 build_date ㅏㄹ짜를 반환하도록 패치한다.

이제 BuildStatus.notify @classmethod를 호출을 통해 mock 객체의 post 메서드에 특정 날짜를 포함한 파라미터가 전달될 경우 HTTP 상태가 200이 될 것이라는 지젖ㅇ을 한 셈이다. 따라서 mock.requset.post에 동일한 파라미터를 사용해 호출하면 assert_called_with는 성공하게 된다.

이것이 mock의 장점이다. 이번처럼 알림을 보내는 외부 HTTP 요청을 하지 않아도 될 뿐만 아니라, API 호출 성공 여부와 파라미터의 유효성까지도 확인할 수 있다.

테스트에서 사용하는 각각의 외부 컴포넌트를 mock 객체로 패치하여 테스트를 할 수 있었지만 코드의 상당부분을 수정해야 했던 것도 사실이다. 테스트의 몇 퍼센트까지만 모의 실험을 해야 하는지는 정해진 바가 없다. 그러나 상식적으로 특정 부분을 반복적으로 패치해야 한다면 분명 추상화가 잘못된 것이고 뭔가 코드의 나쁜 냄새를 맡을 수 있다.

### 리팩토링

리팩토링은 소프트웨어 유지 관리에서 중요한 활동이지만 단위 테스트가 없다면 정확성을 보장받기 어려울 것이다. 언제든 새로운 시능을 의도한 바대로 지원할 수 있어야 한다. 이러한 요구사항을 수용할 수 있는 유일한 방법은 먼저 코드를 리팩토링하여 보다 일반적인 형태로 만들어야 한다. 

일반적으로 코드를 리팩토링할 때는 구조를 개선하여 보다 나은 코드로 만들려는 경우가 있고 때로는 좀 더 일반적인 코들 수정하여 가독성을 높이려는 경우가 있다. 중요한 점은 이러한 수정 작업 이전과 이후가 완전히 동일한 기능을 유지해야 한다는 것이다. 즉, 리팩토링을 한 컴포넌트의 고객 관점에서는 아무 일도 일어나지 않은 것처럼 느껴져야 한다.

이전과 같은 기능을 지원할 때에만 다른 코드를 사용할 수 있다는 것은 수정된 코드에 대해 회귀 테스트를 실행해야 함을 의미한다. 회귀 테스트를 실행하는 유일한 효율적인 방법은 테스트를 자동화하는 것이다. 자동 테스트의 가장 효율적인 버전이 단위 테스트이다.

### 코드의 진화

코드를 리팩토링하면 보다 나은 방법으로 이를 처리할 수 있다. 메서드들을 더 작은 메서드로 나누자. 그리고 가장 중요한 것은 의존성을 주입하는 것이다. 의존성 역전 원칙을 적용하여 requests 모듈이 제공하는 것과 같은 인터페이스를 지원하도록 하자.

In [9]:
from datetime import datetime

# from constants import STATUS_ENDPOINT

class BuildStatus:
    endpoint = STATUS_ENDPOINT
    
    def __init__(self, transport):
        self.transport = transport
        
    @staticmethod
    def build_date() -> str:
        return datetime.utcnow.isoformat()
    
    def compose_payload(self, merge_request_id, status) -> dict:
        return {
            "id": merge_request_id,
            "status": status,
            "build_at": self.build_date(),
        }
    
    def deliver(self, payload):
        response = self.transport.post(self.endpoint, json=payload)
        response.raise_for_status()
        return response
    
    def notify(self, merge_request_id, status):
        return self.deliver(self.compose_payload(merge_request_id, status))

이제 notify를 분리하여 compose와 deliver로 나누고, compose_payload()라는 새로운 메서드를 만들고, transport라는 의존성을 주입할 것이다. 이제 transport는 주입되는 것이므로 테스트 더블의 형태를 변경하는 것이 훨씬 쉬워졌다.

필요하다면 교체된 테스트 더블을 사용한 객체의 픽스처를 노출하는 것도 가능하다.

In [12]:
import pytest

@pytest.fixture
def build_status():
    bstatus = BuildStatus(Mock())
    bstatus.build_date = Mock(return_value="2018-01-01T00:00:01")
    return bstatus

def test_build_notification_sent(build_status):
    build_status.notify(1234, 'OK')
    
    expected_payload = {
        'id': 1234,
        'status': "OK",
        "build_at": build_status.build_date(),
    }
    
    build_status.transport.post.assert_called_with(
        build_status.endpoint, json=expected_payload
    )

### 상용 코드만 진화하는 것이 아니다.

지금까지 단위 테스트가 상용 코드만큼 중요하다고 계속 말해왔다. 만약 상요 코드에 대해서 최대한 추상화 작업을 해야 하는 것이라면, 단위 테스트에도 그렇게 해야 하는 것이 아닐까?

이렇게 코드의 유연성을 높이기 위해 많은 관심을 기울이는 이유는 시간이 지남에 따라 요구사항이 변화하고 진화한다는 것을 알고 있기 때문이다. 

문제를 정확히 이해하면 더 나은 추상화를 할 수 있다. 

## 단위 테스트에 대한 추가 논의

단위 테스트를 통해 코드에 대한 확신을 얻을 수 있다고 했는데 그것으로 충분한지는 어떻게 알 수 있을까? 테스트 시나리오를 충분히 검증했으며 누락된 것이 없다는 것은 어떻게 확신할 수 있을까? 누가 이 테스트가 정확하다고 판단할 수 있을까? 즉, 누가 테스트를 해야하는가? 

첫 번째 질문은 작성한 테스트의 완벽성에 대한 것인데 속성 기반의 테스트를 통해 해답을 얻을 수 있다.

두 번째 질문은 돌연변이 변형 테스트를 해볼 것이다. 이러한 의미에서 단위 테스트는 상요 코드를 검사할 뿐만 아니라 또 다른 단위 테스트를 제어하는 역할을 할 수도 있다.

### 속성 기반 테스트

속성 기반 테스트는 이전 단위 테스트에서 다루지 않았던 것으로 테스트를 실패하게 만드는 데이터를 찾는 것이다. 이를 위해 hypothesis 라이브러리를 사용할 것이다. 이 라이브러리는 코드를 실패하게 만드는 데이터를 찾는데 도움을 준다.

이 라이브러리를 통해 성공하지 못하는 반대 사례를 찾을 수 있다. 상용 코드에 대해 단위 테스트를 하여 정확하다는 것을 입증하려 할 것이다. 이제 이 라이브러리에 코드에 유효한 가설을 정의하면 hypothesis 라이브러리가 에러를 유발하는 사례를 찾아줄 것이다.

단위 테스트의 가장 좋은 점은 상용 코드에 대해 더 많이 생각하게 해준다는 것이다. hypothesis 라이브러리의 가장 좋은 점은 단위 테스트에 대해 더 많이 생각하게 해준다는 것이다.

### 변형 테스트

테스트는 작성한 코드가 정확하다는 것을 입증해줄 공식적인 확인 방법이다. 그런데 테스트가 정확한지 확인하는 방법은 무엇일까? 바로 상용 코드이다. 메인 코드를 테스트 코드의 반대 개념으로 생각할 수 있다.

단위 테스트를 작성하는 이유는 버그로부터 코드를 보호하고 서비스 중에 정말 발생해서는 안되는 실패에 대해 미리 검증하기 위한 것이다. 검사는 통괗는 것이 좋지만, 테스트를 잘못하여 통과한 것이라면 더 위험할 수 있다. 즉, 자동화된 회귀 도구로 단위 테스트를 사용하는 중에 누군가 버그를 추가했다면 나중에 적어도 하나 이상의 테스트에서 이를 포차하여 테스트에 실패해야 한다. 만약 이런 일이 발생하지 않았다면 테스트에 누락된 부분이 있다거나 올바른 체크를 하지 않았다는 뜻이다.

이것이 변형 테스트를 하는 이유이다. 변형 테스트 도구를 사용하면 원래 코드를 변경한 새로운 버전으로 코드가 수정된다. 좋은 테스트 스위트는 이러한 돌여변이를 죽여야 하는데, 이런 경우 테스트에 의지할 수 있음을 의미한다. 일부 돌연변이가 실험에서 생존하면 대게 나쁜 징후이다. 

어떻게 동작하는지 감을 잡기 위해 승인과 거절 횟수에 따라 머지 리퀘스트의 상태가 결정되도록 수정해보자. 이번에는 단순히 횟수에 따라 결과가 반환되도록 수정한다. 상태를 나타내는 열거형을 별도의 모듈로 분리하여 코드가 보다 간소화되었다.

In [14]:
from mrstatus import MergeRequestStatus as Status

def evaluate_merge_request(upvote_count, downvote_count):
    if downvote_count > 0:
        return Status.REJECTED
    if upvote_count >= 2:
        return Status.APPROVED
    return Status.PENDING

이제 간단한 단위 테스트를 추가하여 특정 조건에서의 결과를 확인한다.

In [16]:
import unittest

from mrstatus import MergeRequestStatus as Status
from mutation_testing_1 import evaluate_merge_request

class TestMergeRequestEvaluation(unittest.TestCase):
    def test_approved(self):
        result = evaluate_merge_request(3, 0)
        self.assertEqual(result, Status.APPROVED)

먼저 파이썬의 변형 테스트 도구인 mutpy를 설치한다. 명령창에서 pip install mutpy를 입력하면 된다. 그리고 다음과 같이 변형 테스트를 실행한다.

변경 테스트는 단위 테스트의 품질을 보장하는 좋은 방법이지만 분석에 약간의 노력과 주의가 필요하다. 이 도구를 복잡한 환경에서 사용하면 각 시나리오를 분석하는데 시간이 걸릴 것이다. 또란 여러 버전의 코드를 여러 번 실행해야하기 때문에 테스트를 실행하는데 비용이 많이드는 것도 사실이다. 너무 많은 리소스를 차지하고 완료까지 오래 걸릴 수 있다. 그러나 이러한 확인 작업을 수동으로 한다면 훨씬 더 비싸며 훨씬 더 많은 노력이 필요할 것이다. 이런 종류의 확인을 전혀 하지 않는다는 것은 테스트의 품질을 떨어뜨리는 것이므로 상황을 더 안좋게 할 수 있다.

## 테스트 주도 개발 간략 소개

TDD(Test-Driven Development)는 별도의 책에서 다룰만큼 큰 주제여서 이 책에서 모든 내뇬을 자세히 다루기는 어렵다. 

TDD의 요점은 기능의 결함으로 실패하게 될 테스트를 상용화 전에 미리 작성해야 한다는 것이다.

테스트를 먼저 작성한 다음 코도를 작성해야 하는 이유는 여러 가지가 있다. 실용적인 관점에서 보면 코드를 아주 정밀하게 다룰 수 있게 된다. 단위 테스트를 먼저 작성한 다음에 코드를 작성했기 때문에 기본적인 기능 테스트를 누락할 가능성이 매우 낮아진다. 물론 이것이 100%의 커버리지를 의미하는 것은 아니지만 최소한 주요 함수와 메서드, 컴포넌트는 자신만의 테스트를 가지게 된다.

이러한 작업은 크게 3단계로 구성된다. 먼저 구현 내용을 기술하는 단위 테스트를 작성한다. 여기서 테스트를 실행하면 기능이 앚기 구현되지 않았기 때문에 실패할 것이다. 그런 다음 해당 조건을 충족시키는 최소한의 필수 코드를 구현하고 테스트를 다시 실행한다. 이번에는 테스트에 통과해야 한다. 이제 리팩토링을 통해 코드를 개선할 수 있다. 

이러한 사이클이 바로 유명한 red-green-refactor이다. 즉, 처음에는 테스트가 실패였다가 통과되고 콛를 리팩토링하는 과정을 반복하는 것이다.