## Chapter 02 내장 시퀀스 타입

### 파이썬 내장 시퀀스 데이터 타입은 다음과 같은 속성을 가짐
* 멤버십(membership) 연산: in 키워드 사용
* 크기(size) 함수: len(seq)
* 슬라이싱(slicing) 속성: seq[:-1]
* 반복성(iterability): 반복문에 있는 데이터를 순회할 수 있음

In [1]:
## 파이썬에는 문자열, 튜플, 리스트, 바이트 배열, 바이트 등 총 5개의 내장 시퀀스 타입 존재
l = []
type(l)

list

In [2]:
s = ""
type(s)

str

In [3]:
t = ()
type(t)

tuple

In [4]:
ba = bytearray(b"")
type(ba)

bytearray

In [5]:
b = bytes([])
type(b)

bytes

## 2.1 깊은 복사와 슬라이싱 연산

### 2.1.1 가변성
* 튜플, 문자열, 바이트는 불변(immutable) 객체 타입
* 반면 리스트, 셋, 딕셔너리는 가변(mutable) 객체 타입
* 일반적으로 불변 객체 타입은 가변 객체 타입보다 효율적

In [1]:
# 깊은 복사(deep copy)의 개념: 요소는 같으나 주소값(id)이 달라 아예 다른 객체가 됨
myList = [1, 2, 3, 4]
newList = myList[:]
newList2 = list(myList)

In [2]:
id(newList) == id(myList)

False

In [3]:
id(newList2) == id(myList)

False

In [4]:
# set의 깊은 복사: 주소값이 다름
people = {"버피", "에인절", "자일스"}
slayers = people.copy()
slayers.discard("자일스")
slayers.remove("에인절")
slayers

{'버피'}

In [5]:
people

{'버피', '에인절', '자일스'}

In [6]:
id(people) == id(slayers)

False

In [7]:
# dict의 깊은 복사: 주소값이 다름
myDict = {"안녕": "세상"}
newDict = myDict.copy()

In [8]:
id(myDict) == id(newDict)

False

### 1. 단순 객체 복제

In [9]:
a = [1, 2, 3, 4]
b = a     # copy가 아닌 a를 참조하는 b 변수를 만든 것

In [10]:
id(a) == id(b)  # 단순 참조이기 때문에 주소값 동일

True

In [11]:
b[2] = 100   # b의 item 변경
print(b)    # [1, 2, 100, 4]
print(a)    # [1, 2, 100, 4], a의 item도 수정됨!!

[1, 2, 100, 4]
[1, 2, 100, 4]


In [12]:
id(a) == id(b)

True

### 복사된 참조 변수를 수정했을때, 처음에 할당한 참조 변수의 값 역시 똑같이 수정되는 것은 리스트와 같은 변경가능(mutable) 객체일 때만 해당한다는 것입니다. 숫자나 문자열과 같은 불변의(immutable) 객체일때는 위의 경우가 해당되지 않습니다.

In [13]:
a = 10
b = a    # immutable 객체를 참조

In [14]:
id(a) == id(b)    # 주소값은 같으나...

True

In [15]:
b = "abc"   # b는 a로부터의 할당을 끊고 새로운 객체를 할당 받음
print(b)
print(a)

abc
10


In [16]:
id(a) == id(b)

False

### 2. 얕은 복사(shallow copy)

In [17]:
import copy

a = [1, [1, 2, 3]]
b = copy.copy(a)    # shallow copy

In [18]:
id(a) == id(b)   # shallow copy는 주소값이 처음부터 다름

False

In [23]:
id(a[1]) == id(b[1])    # 내부 요소 중 mutable 요소(list, set, dict)는 특이하게 주소가 같음

True

In [24]:
b[0] = 100
print(a)
print(b)
# immutable 요소가 바뀌어도 원래 변수의 요소는 바뀌지 않음

[1, [1, 2, 3, 4]]
[100, [1, 2, 3, 4]]


In [25]:
c = copy.copy(a)
c[1].append(4)
print(a)
print(c)
# 반면 mutable 요소가 바뀌면 원래 변수도 따라 바뀜(주소값이 같으므로)

[1, [1, 2, 3, 4, 4]]
[1, [1, 2, 3, 4, 4]]


In [26]:
id(a) == id(c)

False

In [27]:
id(a[1]) == id(c[1])

True

### 3. 깊은 복사
* mutable한 내부객체(내부리스트)의 문제를 해결하기 위해 사용
* 얕은 복사는 복합객체(리스트)만 복사되고 그 안의 내용은 동일한 객체 참조
* 깊은 복사는 복합객체를 새롭게 생성하고 그 안의 내용까지 새롭게 생성

In [28]:
import copy

a = [1, [1, 2, 3]]
b = copy.deepcopy(a)    # deep copy

In [29]:
id(a) == id(b)

False

In [30]:
id(a[1]) == id(b[1])    # 내부리스트도 새롭게 생성된 것 확인

False

In [31]:
b[0] = 100
b[1].append(4)
print(a)
print(b)

[1, [1, 2, 3]]
[100, [1, 2, 3, 4]]


## 2.1.2 슬라이싱 연산자
* seq[시작]
* seq[시작:끝]
* seq[시작:끝:스텝]

In [32]:
word = "뱀파이어를 조심해!"
word[-1]

'!'

In [33]:
word[-2]

'해'

In [34]:
word[-2:]

'해!'

In [35]:
word[:-2]

'뱀파이어를 조심'

In [36]:
word[-0]

'뱀'

## 2.2 문자열

### 2.2.1 유니코드 문자열

In [37]:
u'잘가\u0020세상!'
# escape sequence는 서수 값이 0x0020인 유니코드 문자를 나타냄
# 일반적인 ASCII code의 표현은 7비트(아스키 코드를 확장한 ANSI 코드는 8비트)

'잘가 세상!'

### 2.2.2 문자열 메서드

In [38]:
# A.join(B)
slayer = ['버피', '앤', '아스틴']
" ".join(slayer)

'버피 앤 아스틴'

In [39]:
"-<>-".join(slayer)

'버피-<>-앤-<>-아스틴'

In [40]:
"".join(slayer)

'버피앤아스틴'

In [41]:
"".join(reversed(slayer))

'아스틴앤버피'

In [42]:
# ljust(), rjust()
# A.ljust(width, fillchar)는 문자열 A "맨 처음"부터 문자열을 포함한 길이 width만큼 문자 fillchar를 채움
name = "스칼렛"
name.ljust(50, '-')

'스칼렛-----------------------------------------------'

In [43]:
name.rjust(50, '-')

'-----------------------------------------------스칼렛'

In [44]:
# A.format(): 문자열 A에 변수를 추가하거나 형식화하는 데 사용
"{0} {1}".format("안녕,", "파이썬!")

'안녕, 파이썬!'

In [45]:
"이름: {who}, 나이: {age}".format(who="제임스", age=17)

'이름: 제임스, 나이: 17'

In [46]:
"이름: {who}, 나이: {0}".format(12, who="에이미")

'이름: 에이미, 나이: 12'

In [47]:
"{} {} {}".format("파이썬", "자료구조", "알고리즘")

'파이썬 자료구조 알고리즘'

In [48]:
# s는 str, r은 repr, a는 ASCII
import decimal

"{0} {0!s} {0!r} {0!a}".format(decimal.Decimal("99.9"))

"99.9 99.9 Decimal('99.9') Decimal('99.9')"

In [51]:
# 문자열 언패킹
# 문자열 매핑 언패킹(mapping unpacking) 연산자는 **
# 함수로 전달하기에 적합한 키=값 딕셔너리가 생성
# locals() 메서드는 현재 스코프에 있는 지역변수를 딕셔너리로 반환
hero = "버피"
number = 999
"{number}: {hero}".format(**locals())

'999: 버피'

In [52]:
# A.splitlines(): 문자열 A에 대해 줄바꿈 문자를 기준으로 분리한 결과를 문자열 리스트로 반환
slayers = "로미오\n줄리엣"
slayers.splitlines()

['로미오', '줄리엣']

In [54]:
# A.split(t, n): 문자열 A에서 문자열 t를 기준으로 정수 n번만큼 분리한 문자열 리스트를 반환
slayers = "버피*크리스-메리*16"
fields = slayers.split("*")
fields

['버피', '크리스-메리', '16']

In [56]:
job = fields[1].split("-")
job

['크리스', '메리']

In [57]:
# split() 활용
def erase_space_from_string(string):
    s1 = string.split(" ")
    s2 = "".join(s1)
    return s2

str1 = "띄 어 쓰기"
erase_space_from_string(str1)

'띄어쓰기'

In [58]:
start = "안녕*세상*!"
start.split("*", 1)

['안녕', '세상*!']

In [59]:
start.rsplit("*", 1)

['안녕*세상', '!']

In [60]:
# strip()
# A.strip(B): 문자열 A 앞뒤의 문자열 B를 제거
# 인수 B가 없으면 공백 문자를 제거
slayers = "로미오 & 줄리엣999"
slayers.strip("999")

'로미오 & 줄리엣'

In [64]:
# strip() 메서드로 한 파일에서 사용된 모든 단어를 알파벳순으로 출력
# 각 단어가 등장한 횟수도 함께 출력
import string
import sys

def count_unique_word():
    words = {}
    strip = string.whitespace + string.punctuation + string.digits
    for filename in sys.argv[1:]:
        with open(filename) as file:
            for line in file:
                for word in line.lower().split():
                    word = word.strip(strip)
                    if len(word) > 2:
                        words[word] = words.get(word, 0) + 1
                        
    for word in sorted(words):
        print("{0}: {1}번".format(word, words[word]))
        
if __name__ == "__main__":
    count_unique_word()

FileNotFoundError: [Errno 2] No such file or directory: '-f'

In [65]:
# swapcase() 메서드
# A.swapcase()는 대소문자 반전
slayers = "Buffy and Faith"
slayers.swapcase()

'bUFFY AND fAITH'

In [66]:
# caplitalize()는 문자열 첫글자를 대문자
# lower(), upper()
slayers.capitalize()

'Buffy and faith'

In [67]:
slayers.lower()

'buffy and faith'

In [68]:
# A.index(sub, start, end): 문자열 A에서 부분 문자열 sub의 인덱스 위치 반환, 실패시 ValueError 발생
# A.find(sub, start, end): 문자열 A에서 부분 문자열 인덱스 위치 반환, 실패하면 -1 반환
slayers = "Buffy and Faith"
slayers.find("y")

4

In [69]:
slayers.find("k")

-1

In [70]:
slayers.index("k")

ValueError: substring not found

In [71]:
# A.count(sub, start, end): 문자열 A에서 인덱스 start, end 범위 내의 부분 문자열 sub가 나온 횟수 반환
slayer = "Buffy is Buffy is Buffy"
slayer.count("Buffy", 0, -1)

2

In [72]:
slayer.count("Buffy")

3

In [73]:
# A.replace(old, new, maxreplace): 문자열 A에서 문자열 old를 new로 maxreplace만큼 변경한 문자열의 복사본을 반환
slayer = "Buffy is Buffy is Buffy"
slayer.replace("Buffy", "who", 2)

'who is who is Buffy'

In [74]:
# f-strings
name = "프레드"
f"그의 이름은 {name!r}입니다."

"그의 이름은 '프레드'입니다."

In [75]:
f"그의 이름은 {repr(name)}입니다."    # repr()은 !r과 같다.

"그의 이름은 '프레드'입니다."

In [76]:
import decimal
width = 10
precision = 4
value = decimal.Decimal("12.34567")
f"결과: {value:{width}.{precision}}"  # 중첩필드 사용

'결과:      12.35'

In [77]:
from datetime import datetime
today = datetime(year=2020, month=4, day=25)
f"{today:%B %d, %Y}"   # 날짜 포멧 지정 지정자(specifier) 사용

'April 25, 2020'

In [78]:
number = 1024
f"{number:#0x}"   # 16진수 표현

'0x400'