### Chapter 8

파이썬에서 모든 변수가 참조로 취급된다는 건 꽤 유명한 사실이다. 파이썬을 좀 해본 사람이라면 다음과 같은 코드를 본 적이 있을 것이다.

In [None]:
a=[1,2,3]
b=a
print("b is",b)
a.append(4)
print("a is",a)
print("b is",b)

b is [1, 2, 3]
a is [1, 2, 3, 4]
b is [1, 2, 3, 4]


우리는 분명 a를 변경했는데, b까지 바뀌어 버렸다. 이는 변수에 객체가 저장되어 있는 게 아니라 변수가 그저 객체를 가리키고 있기 때문이다.
위 코드를 뜯어 보면, a가 한 리스트 객체를 참조하도록 했다. 그리고 b도 같은 객체를 참조 하도록 했다. 이때 a가 참조하고 있는 객체를 append 함수를 통해 변경하자, b도 같은 객체를 참조하고 있으므로 a와 b가 모두 바뀐 것이다. 참고로 C언어와 같은 언어는 이런 경우가 없다.

이를 해결하는 방법은 물론 새로 할당하면 된다. 이를테면 다음과 같은 방법이 있다.

In [None]:
a=[1,2,3]
b=[1,2,3]
print("b is",b)
a.append(4)
print("a is",a)
print("b is",b)

b is [1, 2, 3]
a is [1, 2, 3, 4]
b is [1, 2, 3]


a와 b는 같은 내용의 객체를 참조하고 있지만 `b=a` 를 사용하지 않았다. 그 대신, 같은 내용을 가진 새로운 객체를 새로 만들어서 그것을 참조하도록 해 주었다. 그렇게 하자 a를 변경해도 b가 변경되지 않도록 할 수 있었다. 흔히 객체를 변수에 저장하는 것처럼 생각되지만 적어도 파이썬에서는, 변수는 객체를 참조할 뿐이다. 둘은 별개이며, 객체는 변수에 할당되기 전에도 이미 생성되어 있다!

In [1]:
class Man:
  def __init__(self):
    print("I am a Man")

Kim=Man()
Park=Man()*5

I am a Man
I am a Man


TypeError: ignored

위의 코드는 당연히 에러이다. Man 클래스에는 정수와의 곱하기 연산이 정의되어 있지 않기 때문이다. 하지만 코드를 실행시켜 보면, 클래스의 생성자는 호출되는 것을 알 수 있다. 아직 변수에 할당되지도 않았는데 객체는 이미 생성되어 있는 것이다! 그리고 생성된 객체에 변수를 할당하는 것이다. 변수는 객체를 담는 상자라기보다, 객체에 붙이는 참조 라벨이다.

이는 변수간의 비교에도 적용되는데, 변수가 '같은 내용'의 객체를 가리키고 있는 것과 '같은 객체'를 가리키고 있는 것은 분명 다르다. 같은 객체를 가리키고 있는지를 비교하는 연산자는 is이고 같은 '내용'의 객체를 가리키고 있는지를 비교하는 연산자는 ==(동치 연산자)이다. 아래 코드를 보면 a와 b는 완벽하게 같은 객체를 가리키고 있으므로 a is b는 참이 되지만 c에는 내용만 같은 새로운 객체를 생성해서 할당해 줬으므로 a==c 이지만 a is c는 아니다. 따라서 a가 가리키고 있는 객체의 내용을 변경하면 b는 바뀌지만 c는 바뀌지 않는다.

In [None]:
a=[1,2,3]
b=a
c=[1,2,3]
print(a==b, a==c)
print(a is b, a is c)

True True
True False


같은 객체를 가리키고 있는지를 비교하는 것보다는 가리키는 객체의 '내용'이 같은지를 비교하는 경우가 많으므로(예를 들어 a와 b가 가리키는 것이 같은 객체인 3인지는 상관이 없다. 중요한 건 둘 다 3인지의 여부다) is보다는 ==가 많이 쓰이게 된다. 하지만 변수를 싱글턴(단 하나의 인스턴스만 생성해서 사용하는 디자인 패턴)과 비교할 때는 is를 사용해야 한다. 어차피 클래스 인스턴스가 하나뿐이기 때문이다.

또 is는 가리키고 있는 객체가 같은지만 비교하면 되므로(객체의 ID를 비교한다) ==보다 빠르다. 물론 object객체의 `__eq__` 메서드는 is와 동일한 기능을 하지만, 대부분의 내장 자료형에서는 `__eq__`를 오버라이드해서 객체의 값을 비교하는 연산자로 바꿔놓기 때문이다.


+ 튜플의 상대적 불변성

튜플은 흔히 불변형 자료형이라고 불린다. 하지만 이는 튜플이 담고 있는 객체 참조에 대한 이야기이지 튜플이 담고 있는 참조가 가리키는 객체까지 불변이라는 것이 아니다. 예를 들어 다음과 같은 코드를 보자.

In [2]:
t1=(1,2,3,[1,2,3])
print(t1)
print(id(t1[-1]))
t1[3].append(4)

print(t1)
print(id(t1[-1]))

(1, 2, 3, [1, 2, 3])
140189935427336
(1, 2, 3, [1, 2, 3, 4])
140189935427336


분명 튜플은 불변형인데 t1변수의 내용이 변경되었다. 하지만 id는 여전히 같다. 바로 위에서 설명한 일이다. 튜플이 담고 있는 참조들이 불변이라는 것이지 그 참조가 가리키는 객체가 불변인 게 아니다.

가리키는 객체가 같은 것과, 같은 내용의 다른 객체를 가리키는 것은 객체를 복사할 때 더 큰 영향을 미친다. 얕은 복사와 깊은 복사를, 프로그래밍 해본 사람이라면 누구나 한번쯤 들어 봤을 것이다.

+ 파이썬에서의 객체 복사 - 얕은 복사, 깊은 복사

파이썬에서 리스트 등의 내장 가변 자료형을 복사하는 쉬운 방법은 생성자를 호출하거나 (`l2=list(l1)`) 아니면 전체를 슬라이싱하는 것이다 (`l2=l1[:]`). 그러나 이는 얕은 복사이다. 최상위 컨테이너는 복제하지만 그 안에 들어 있는 참조들은 동일한 객체를 가리키고 있는 것이다. 만약 그 참조들이 모두 불변형 객체를 가리키고 있다면 괜찮다. 그러나 리스트 안의 리스트처럼, 최상위 컨테이너 안에 가변 객체가 들어 있는 경우 문제가 생길 수 있다.

In [None]:
l1=[1,[10,20,30],2,3]
l2=l1[:]
print(l1)
print(l2)
print(l1 is l2)
#얕은 복사를 시행했음
l1[1].append(40)
print(l1)
print(l2)
l2[1]+=[13,14]
print(l1)
print(l2)

[1, [10, 20, 30], 2, 3]
[1, [10, 20, 30], 2, 3]
False
[1, [10, 20, 30, 40], 2, 3]
[1, [10, 20, 30, 40], 2, 3]
[1, [10, 20, 30, 40, 13, 14], 2, 3]
[1, [10, 20, 30, 40, 13, 14], 2, 3]


위의 코드를 보면 분명 l1과 l2는 다른 변수이고, 슬라이싱을 이용한 복사를 잘 했다. 하지만 l2의 내부 객체를 바꾸자 l1의 내부 객체도 바뀌었다! 이는 최상위 컨테이너만 복사되고 나머지 객체들의 참조는 똑같다는 걸 보여준다. 또한 += 복합 연산자를 가변 자료형에 사용할 경우 변수가 새로운 객체를 참조하게 되는 것이 아니라 변수가 참조하고 있는 객체를 변경한다는 것을 보여주기도 한다. (불변 자료형일 경우 아예 새로운 객체를 만들어서 할당함)

물론 복합 연산자(`+=, -=` 등)를 사용하지 않고 새로운 객체를 할당할 경우 이런 상황은 발생하지 않는다.

+ 깊은 복사

이런 얕은 복사가 아니라 아예 모든 것이 새로운 사본을 만드는 깊은 복사를 하고 싶다면 파이썬에서는 copy 모듈의 deepcopy 함수를 지원한다. 객체 안에 순환 참조가 있으면 무한 루프에 빠질 수 있는 등 일반적으로 깊은 복사는 쉬운 일이 아닌데, 이를 사용할 수 있도록 파이썬에서 라이브러리를 지원하고 있는 것이다.

물론 깊은 복사도 문제가 있다. 객체를 너무 깊이 복사할 경우 복사하면 안 되는 외부 리소스나, 인스턴스가 한 개뿐이어야 하는 싱글턴을 복사하게 되는 경우가 발생할 수 있다. 이럴 경우 `__copy__`와 `__deepcopy__` 메서드를 구현하여 복사의 동작을 직접 제어할 수 있다.

+ 참조로서의 함수 매개변수

파이썬에서 함수에 매개변수를 전달하는 방식은 공유로 호출(call by sharing)뿐이다. 이는 함수의 각 매개변수가, 인수로 전달받은 참조의 사본을 받는다는 의미다. 즉 함수 안의 매개변수는 실제 인수의 별명이 된다. 따라서, 함수는 인수로 전달받은 가변 객체(대표적으로 리스트)는 변경할 수 있다! 하지만 동시에, 가변 객체를 함수의 인수로 줄 때는 함수 내에서 그 객체가 변경되어야 하는지에 대해서 주의를 기울여야 한다.

아래 코드를 보면 복합 대입 연산자 +=는 정수, 리스트, 튜플에 대해 모두 구현되어 있으므로 함수는 잘 작동하지만, 함수 실행 후에 리스트(가변형)는 내용이 변경된 것을 알 수 있다.

하지만 튜플과 정수의 경우에서 알 수 있듯이, 함수는 매개변수가 참조하고 있는 객체를 새로 할당해 줄 수는 없다. 그저 기존에 참조하고 있는 객체의 내용을 변경해 줄 수 있을 뿐이다.

In [3]:
def f(a,b):
  a+=b
  return a

x,y=1,2
print("정수의 경우\n", f(x,y))
print(x,y)

x,y=[1,2],[3,4]
print("리스트의 경우\n", f(x,y))
print(x,y)

t1,t2=(10,20),(30,40)
print("튜플의 경우\n", f(t1,t2))
print(t1,t2)

정수의 경우
 3
1 2
리스트의 경우
 [1, 2, 3, 4]
[1, 2, 3, 4] [3, 4]
튜플의 경우
 (10, 20, 30, 40)
(10, 20) (30, 40)


+ 매개변수 기본값 사용하기 - 가변형 객체에 대한 주의

함수 매개변수로 가변형을 이용할 경우 함수 내에서 객체가 변경될 수 있다. 이를 주의해야 하는 경우 중 하나는 함수 매개변수에 기본값을 주는 것이다. 다음과 같은 경우를 보자. 함수 매개변수에 기본값을 할당한 예시이다. b에는 굳이 값을 주지 않아도 알아서 기본값이 할당되고, b에 특정한 값을 주고 싶다면 줄 수 있다.

In [None]:
def f(a,b=999999):
  print(a,b)

f(10)
f(10,30)

10 999999
10 30


그런데 이런 매개변수 기본값으로 가변 객체를 사용하는 것은 좋은 생각이 아니다. 다음과 같은 코드를 보자.

In [4]:
class StrangeBus:

  def __init__(self,passengers=[]):
    self.passengers=passengers

  def pick(self,name):
    self.passengers.append(name)

  def drop(self,name):
    self.passengers.remove(name)


bus1=StrangeBus()
bus1.pick('Kim')
bus1.pick('Park')
print(bus1.passengers)

bus2=StrangeBus()
print(bus2.passengers)

print(bus1.passengers is bus2.passengers)

['Kim', 'Park']
['Kim', 'Park']
True


위 코드를 보면. bus2에는 아무것도 해주지 않았는데 이미 passengers의 원소가 생겨 있는 것을 알 수 있다. 기본값은 빈 리스트여야 하는데 말이다. 이는 self.passengers가 passengers 매개변수 기본값의 별명이 되기 때문이며, 파이썬은 아무 오류도 뿜지 않고 이를 정상적인 코드로 처리한다.

문제는 각 기본값이 함수가 정의될 때 평가되고, 기본값은 함수 객체의 속성이 된다는 것이다. 따라서 함수의 매개변수 기본값이 가변 객체라면 함수의 속성부터가 변할 수 있는 것이고 이는 생성자를 포함해서, 함수가 또 호출될 때 영향을 미친다. 즉 위의 코드 같은 경우 self.passengers가 변경됨으로써 passengers가 가리키고 있는 객체도 변경되었고 따라서 StrangeBus 클래스의 생성자 함수의 속성(passengers 매개변수의 기본값)이 변경된 것이다. 이는 곧, StrangeBus 인스턴스를 생성할 때 호출되는 생성자 함수의 기본값-함수의 속성-이 변경되어 버린 것을 의미한다!



In [None]:
print(StrangeBus.__init__.__defaults__)

(['Cono', 'GiDong'],)


위의 코드를 보면 확실히 확인할 수 있다. StrangeBus 클래스 생성자의 기본값은 더 이상 빈 리스트가 아니다.

이런 문제 때문에, 가변 값을 받는 매개변수의 기본값으로는 None을 주로 사용한다. 다음과 같은 코드를 짜는 것이다.

In [6]:
class StrangeBus2:
  def __init__(self,passengers=None):
      if passengers is None:
        self.passengers=[]
      else:
        self.passengers=passengers

  def pick(self,name):
    self.passengers.append(name)

  def drop(self,name):
    self.passengers.remove(name)

생성자 기본값으로 None을 주고, 만약 생성자에 주어지는 특별한 매개변수가 없다면 빈 리스트를 할당해 주는 것이다. 언뜻 보기에 상당히 괜찮아 보이는 방법이다. 하지만 이 방법도 문제가 있다.

In [7]:
CompanyBus=['Naver', 'KaKao', 'Line', 'Samsung']
print(CompanyBus)
bus=StrangeBus2(CompanyBus)
bus.drop('Line')
print(CompanyBus)

['Naver', 'KaKao', 'Line', 'Samsung']
['Naver', 'KaKao', 'Samsung']


문제가 있다! 우리는 회사들을 버스에 태웠는데, 라인을 버스에서 내리게 했다고 해서 회사 멤버가 아니게 되는 것은 아니다. 물론 라인을 아예 회사에서 제외하는 것도 불가능한 일은 아니지만, 적어도 버스 클래스에서 그렇게 동작하도록 만들고 싶은 것은 아니다. 우리는 버스의 인스턴스마다 고유의 승객 리스트를 갖도록 만들어야 하는 것이다. 이는 클래스를 초기화할 때, 인수의 사본으로 클래스를 초기화하는 것으로 해결할 수 있다.

In [8]:
class Bus:
  def __init__(self,passengers=None):
      if passengers is None:
        self.passengers=[]
      else:
        self.passengers=list(passengers)

  def pick(self,name):
    self.passengers.append(name)

  def drop(self,name):
    self.passengers.remove(name)

CompanyBus=['Naver', 'KaKao', 'Line', 'Samsung']
print(CompanyBus)

bus=Bus(CompanyBus)
print(bus.passengers)
bus.drop('Line')
print(bus.passengers)
print(CompanyBus)


['Naver', 'KaKao', 'Line', 'Samsung']
['Naver', 'KaKao', 'Line', 'Samsung']
['Naver', 'KaKao', 'Samsung']
['Naver', 'KaKao', 'Line', 'Samsung']


위와 같은 코드에서는, 버스에서 라인이 사라져도 회사 멤버는 그대로다. 버스 객체 안에서 passengers 리스트를 변경해도, 인스턴스 생성을 위해 전달했던 리스트 원본에는 아무런 영향을 미치지 않는 것이다. 또한 위와 같이 코드를 짤 경우 list 생성자가 모든 반복 가능한 객체(문자열, 튜플 등)를 받으므로 코드의 융통성도 향상된다.

물론 튜플이나 문자열 등은 remove나 append함수를 지원하지 않지만, 인스턴스가 생성될 때 passengers 변수가 무조건 리스트로 변환되어 버리므로 이런 문제는 상관없다.


>메서드가 인수로 받은 객체를 변경할 거라는 의도가 명백하지 않은 한, 클래스 안에서 인수를 변수에 할당하는 것에 주의하라. 그런 의도가 불명확할 경우 인수로 받은 객체의 사본을 만들어라. 그 편이 훨씬 안전하다.

+ 파이썬의 del과 가비지 컬렉션

파이썬에는 특정한 요소를 제거하는 del 명령어가 있다. 그런데 이는 객체 자체를 제거하는 것이 아니다. 그저 이름을 제거할 뿐이다. 객체의 제거라고 할 수 있는 가비지 컬렉트는 del때문이 아니라, 더 이상 객체에 도달할 일이 없을 때 실행된다. 즉 이 코드에서 그 객체가 다시는 쓰일 일이 없을 때 가비지 컬렉트되는 것이다.

이러한 가비지 컬렉터는 보통 참조 카운트에 기반한다. 각 객체는 자신을 가리키는 참조의 개수를 세고 있고, 그 카운트가 0이 되자마자 가비지 컬렉트를 실행하는 것이다. 물론 순환 참조 등의 문제가 있고, 참조 카운트에 기반하지 않는 더 정교한 가비지 컬렉터도 있으므로 구현마다 차이가 있다.

그런데 참조 카운트에는 계산되지 않지만 객체를 참조해야 할 때가 있을 수 있다. 이를테면 캐시가 대표적인 경우다. 불필요하게 객체를 유지시키지는 않아도, 객체가 존재하는 이상 참조할 수 있는 그런 것이다.

+ 암묵적인 할당에 대한 주의

이때 파이썬에서 객체에 새로운 참조를 생성하는 암묵적인 할당이 일어날 때가 있는데 실제 코드에서 메모리를 섬세하게 제어할 때는 이런 부분을 주의해야 한다. 예를 들어 파이썬 콘솔에서는 None이 아닌 표현식의 결과에 `_`변수를 자동으로 할당하므로, 명시적으로 객체에 할당한 모든 변수가 다 사라졌다고 해도, `_`변수가 남아 있다면 참조 카운트는 0이 되지 않는다.

이런 약한 참조를 이용할 수 있게 해주는 몇 가지 클래스를 구현한 weakref 라이브러리도 있다. 이 라이브러리는 WeakKeyDictionary 등이 구현되어 있고 약한 참조를 값으로 가지는 자료형들을 갖는다. 그 자료형에 들어 있는 값들은 가비지 컬렉트될 경우 그냥 사라져 버린다. 약한 참조는 참조 카운트에 계산되지 않기 때문이다.

이때 내장 자료형 list와 dict 객체는 약한 참조 대상이 될 수 없고 이는 Cython 구현 방식에 따라 생기는 문제이다. 이는 기본 자료형 클래스를 상속해서 새로운 클래스를 만드는 것으로 간단히 해결할 수 있다.

In [None]:
t1=(1,2,3)
t2=t1[:]
print(t2 is t1)

True


+ 파이썬의 불변형 처리

튜플은 불변형이라 객체를 변경해 줄 수 없기 때문인지, 슬라이싱이나 생성자를 이용한 복사를 해도 얕은 복사가 이루어지지 않는다. 그저 같은 객체를 참조하게 된다. 아마 `불변형`이라, 변수를 다른 내용의 객체에 할당하기 위해서는 새로운 객체를 만드는 방법밖에 없기 때문에 사용자 입장에서는 얕은 복사를 하나 안 하나 똑같고, 그래서 단순한 대입의 경우 새로운 객체를 만들지 않는 것으로 보인다.
(만약 파이썬에 불변 객체뿐이라면 모든 객체 변경은 새로운 할당이므로, 이 장은 필요하지 않았을 것이다)

또한 구현에 따라 바뀔 수 있으므로 객체간의 비교에 is를 쓰면 안 되지만, 최적화를 위해 같은 객체는 하나만 만들도록 하는 경우도 있다. 이 경우 같은 내용의 객체를 새로 만들어서 할당해 줘도 id가 같은 객체를 가리키게 되는데, 이를 interning 이라고 한다. 단 이는 내부 구현 특성일 뿐이기 때문에 코드에서 이용하려고 하는 것은 위험하다.