## 02 내장 시퀀스 타입 

sequence type 속성
- 멤버십 연산: in 키워드 사용
- 크기 함수: len(seq)
- 슬라이싱 속성: seq[:-1]
- 반복성 iterability: 반복문에 있는 데이터를 순회할 수 있음

5개의 내장 시퀀스 타입
- 문자열
- 튜플
- 리스트
- 바이트 배열
- 바이트
- (collections 모듈의 named tuple)

In [1]:
l = []
type(l)

list

In [2]:
s = ""
type(s)

str

In [3]:
t = ()
type(t)

tuple

In [4]:
ba = bytearray(b"")
type(ba)

bytearray

In [5]:
b = bytes([])
type(b)

bytes

### 깊은 복사 & 슬라이싱 연산

불변 객체 타입
- 튜플
- 문자열
- 바이트
- 일반적으로 가변 객체 타입보다 효율적

가변 객체 타입
- 리스트
- 바이트

일부 컬렉션 데이터 타입(셋, 딕셔너리)은 불변 데이터 타입으로 인덱싱 가능

파이썬의 모든 변수는 객체 참조 => 가변 객체 복사시 주의

a = b : a는 b가 참조하는 곳을 가리킴

> [깊은 복사(deep copy)](https://blueshw.github.io/2016/01/20/shallow-copy-deep-copy/#%EC%A0%95%EB%A6%AC%ED%95%B4%EB%B3%B4%EB%A9%B4)

In [2]:
# List 깊은 복사
myList = [1,2,3,4]
newList = myList[:]
newList2 = list(myList)

In [3]:
# Set 깊은 복사
people = {"버피", "에인절", "자일스"}
slayers = people.copy()
slayers.discard("자일스")
slayers.remove("에인절")
slayers

{'버피'}

In [4]:
people

{'버피', '에인절', '자일스'}

In [5]:
# Dictionary 깊은 복사
myDict = {"안녕": "세상"}
newDict = myDict.copy()

In [6]:
# 기타 객체: copy모듈 사용
import copy

myObj = "다른 어떤 객체"
newObj = copy.copy(myObj) # 얕은 복사 shallow copy
newObj2 = copy.deepcopy(myObj) # 깊은 복사 deep copy

슬라이싱 연산자

- seq[ 시작 ]
- seq[ 시작:끝 ]
- [seq[ 시작:끝:스텝 ]](https://twpower.github.io/119-python-list-slicing-examples)

In [12]:
word = "뱀파이어를 조심해!"
word[-1]

'!'

In [13]:
word[-2]

'해'

In [14]:
word[-2:]

'해!'

In [15]:
word[:-2]

'뱀파이어를 조심'

In [16]:
word[-0]

'뱀'

In [19]:
word[2::2]

'이를조해'

### 문자열

[객체 출력 형식](https://stackoverflow.com/questions/38418070/what-does-r-do-in-str-and-repr)
- 문자열 형식 (string)
- 표현 형식 (representational)

유니코드: 문자열 앞에 u를붙임

In [21]:
u'잘가\u0020세상!'

'잘가 세상!'

join(): A.join(B) 리스트 B에 있는 모든 문자열을 하나의 단일 문자열 A로 결합. + 보다 효율적

In [22]:
slayer = ["버피", "앤", "아스틴"]
" ".join(slayer)

'버피 앤 아스틴'

In [24]:
"".join(slayer)

'버피앤아스틴'

In [25]:
# reversed() 같이 사용 가능
"".join(reversed(slayer))

'아스틴앤버피'

ljust(), rjust()

A.ljust(width, fillchar) 문자열 A **맨 처음**부터 문자열을 포함한 길이 width만큼 문자 fillchar를 채움

A.rjust(width, fillchar) 문자열 A **맨 끝**부터 문자열을 포함한 길이 width만큼 문자 fillchar를 채움

In [26]:
name = "스칼렛"
name.ljust(50, '-')

'스칼렛-----------------------------------------------'

In [27]:
name.rjust(50, '-')

'-----------------------------------------------스칼렛'

format(): A.format() 문자열 A에 변수를 추가하거나 형식화

In [28]:
"{0} {1}".format("안녕", "파이썬")

'안녕 파이썬'

In [29]:
"이름: {who}, 나이: {age}".format(who="제임스", age=17)

'이름: 제임스, 나이: 17'

In [30]:
"이름: {who}, 나이: {0}".format(12, who="에이미")

'이름: 에이미, 나이: 12'

In [31]:
"{} {} {}".format("파이썬", "자료구조", "알고리즘") # 필드 이름이나 인덱스 생략 가능

'파이썬 자료구조 알고리즘'

In [33]:
import decimal

"{0} {0!s} {0!r} {0!a}".format(decimal.Decimal("99.9")) # 지정자 3가지 - s: 문자열 형식, r: 표현 형식, a: 아스키코드 형식

"99.9 99.9 Decimal('99.9') Decimal('99.9')"

문자열 언패킹 mapping unpacking 연산자 ** : 함수로 전달하기에 적합한 키-값 딕셔너리 생성

locals(): 현재 scope에 있는 지역 변수를 딕셔너리로 반환

In [34]:
hero = "버피"
number = 999
"{number}: {hero}".format(**locals())

'999: 버피'

splitlines(): A.splitliness() 문자열 A에 대해 줄 바꿈 문자를 기준으로 분리한 결과를 문자열 리스트로 반환

In [35]:
slayers = "로미오\n줄리엣" # \s, \t 등은 적용x
slayers.splitlines()

['로미오', '줄리엣']

split(): A.split(t, n) 문자열 A에서 문자열 t를 기준으로 n번만큼 분리한 문자열 리스트를 반환. n 미지정 시 최대한 분리, t 미지정 시 whitespace로 구분

In [40]:
slayers = "버피*크리스-메리*16"
fields = slayers.split("*")
fields

['버피', '크리스-메리', '16']

In [41]:
job = fields[1].split("-")
job

['크리스', '메리']

In [42]:
# 공백 제거 함수
def erase_space_from_string(string):
    s1 = string.split(" ")
    s2 = "".join(s1)
    return s2

In [45]:
start = "안녕*세상*!"
start.split("*", 1

['안녕', '세상*!']

In [46]:
# rsplit()
start.rsplit("*", 1)

['안녕*세상', '!']

strip(): A.strip(B) 문자열 A 앞뒤의 문자열 B를 제거. B 미입력 시 공백 문자 제거

lstrip(),rstrip()

In [47]:
slayers = "로미오 & 줄리엣999"
slayers.strip("999") # 숫자도 문자열로 입력

'로미오 & 줄리엣'

In [None]:
# 모든 단어와 각 단어가 등장한 횟수 알파벳순으로 출력

import string
import sys


def count_unique_word():
    words = {}
    strip = string.whitespace + string.punctuation + string.digits + "\"'"
    for filename in sys.argv[1:]:
        with open(filename) as file:
            for line in file:
                for word in line.lower().split():
                    word = word.strip(strip)
                    if len(word) > 2:
                        words[word] = words.get(word, 0) + 1

    for word in sorted(words):
        print("'{0}': {1}번".format(word, words[word]))


if __name__ == "__main__":
    count_unique_word()

swapcase(): A.swapcase() 문자열 A에서 대소문자를 반전한 복사본을 반환

capitalize(), lower(), upper()

In [50]:
slayers = "Buffy and Faith"
slayers.swapcase()

'bUFFY AND fAITH'

index(): A.index(sub, start, end) 문자열 A에서 부분 문자열 sub의 인덱스 위치를 반환

find(): A.find(sub, start, end) 문자열 A에서 부분 문자열 sub의 인덱스 위치를 반환. 실패 시 -1 반환

start,end 생략 시 전체 범위

In [51]:
slayers = "Buffy and Faith"
slayers.find("y")

4

In [52]:
slayers.find("k")

-1

In [53]:
slayers.index("k")

ValueError: substring not found

In [54]:
slayers.index("y")

4

In [58]:
slayers.index("f")

2

In [59]:
# rindex()
slayers.rindex("f")

3

In [62]:
# rfind()
slayers.rfind("f")

3

count(): A.count(sub, start, end) 문자열 A에서 인덱스 start, end 범위 내의 부분 문자열 sub이 나온 횟수 반환

In [65]:
slayer = "Buffy is Buffy is Buffy"
slayer.count("Buffy", 0, -1)

2

In [66]:
slayer.count("Buffy")

3

replace(): A.replace(old, new, maxreplace) 문자열 A에서 문자열 old를 대체 문자열 new로 maxreplace만큼 변경한 문자열의 복사본 반환. maxreplace 미입력 시 모든 old를 new로 변경

In [67]:
slayer = "Buffy is Buffy is Buffy"
slayer.replace("Buffy", "who", 2)

'who is who is Buffy'

f-strings: 문자열 앞에 f를 붙여 사용. % 나 .format 보다 효율적

[PEP 498](https://www.python.org/dev/peps/pep-0498/)

[Formatted string literals](https://docs.python.org/3/reference/lexical_analysis.html#f-strings)

In [68]:
name = "프레드"
f"그의 이름은 {name!r}입니다."

"그의 이름은 '프레드'입니다."

In [69]:
f"그의 이름은 {repr(name)}입니다." # !r과 repr() 같음

"그의 이름은 '프레드'입니다."

In [70]:
import decimal

width = 10
precision = 4
value = decimal.Decimal("12.34567")
f"결과: {value:{width}.{precision}}" # 중첩 필드

'결과:      12.35'

In [71]:
from datetime import datetime

today = datetime(year=2017, month=1, day=27)
f"{today:%B %d %Y}" # 날짜 형식 지정자

'January 27 2017'

In [74]:
number = 1024
f"{number:#0x}" # 정수 형식 지정자(16진수)

'0x400'

### 튜플

쉼표로 구분된 값으로 이루어지는 시퀀스

In [76]:
t1= 1234, '안녕!'
t1

(1234, '안녕!')

In [77]:
t2 = t1, (1,2,3,4,5) # nested
t2

((1234, '안녕!'), (1, 2, 3, 4, 5))

In [78]:
empty = ()
t1 = '안녕',
t1

('안녕',)

In [79]:
len(t1)

1

In [80]:
t2 = ('안녕')
t2 # 쉼표가 없으면 튜플이 생성되지 않음

'안녕'

- A.count(x)
- A.index(x)

튜플 언패킹
- 파이썬에서 모든 iterable 객체는 sequence unpacking operator * 를 사용해 언패킹 가능
- 변수 할당 시 왼쪽에 두 개 이상의 변수를 사용하고, 한 변수 앞에 * 를 붙이면 해당 변수에는 오른쪽 값들 중 할당되고 남은 값이 할당됨

In [84]:
x, *y = (1,2,3,4)
x, y

(1, [2, 3, 4])

In [85]:
*x, y = (1,2,3,4)
x, y

([1, 2, 3], 4)

네임드 튜플 (collections 모듈)

collections.namedtuple()

- 인수1: 사용자 정의 튜플 데이터 타입 이름 (보통 할당하는 변수의 이름과 똑같이 사용)
- 인수2: 사용자 정의 튜플의 각 항목을 지정하는 '공백으로 구분된 문자열'/리스트/튜플

In [86]:
import collections

Person = collections.namedtuple('Person', 'name age gender')
p = Person('아스틴', 30, '남자')
p

Person(name='아스틴', age=30, gender='남자')

In [87]:
p.name

'아스틴'

In [89]:
p.age = 20 # 일반 튜플과 마찬가지로 불변형이므로 error

AttributeError: can't set attribute

### 리스트

배열/연결리스트 차이 <- 파이썬의 리스트는 **배열**과 유사

- append(), pop(): 시간복잡도 O(1)
- remove(), index(), insert(), 멤버십테스트 in: 시간복잡도 O(n)

검색/멤버십 테스트에서 셋, 딕셔너리 같은 컬렉션 타입이 더 적합할 수 있음

리스트에서 항목을 정렬하여 보관하면 빠른 검색 가능

- A.append(x) <=> A[len(A):] = [x]
- A.extend(c) <=> A[len(A):] = c <=> A += c (c는 반복 가능한 모든 항목)
- A.insert(i, x)
- A.remove(x)
- A.pop(x)
- del cf) garbage collector
- A.index(x)
- A.count(x)
- A.sort(key, reverse): in place 적용, default는 오름차순
- A.reverse() <=> list[::-1]

리스트 언패킹 (* 연산자)

In [90]:
first, *rest = [1,2,3,4,5]
first, rest

(1, [2, 3, 4, 5])

In [91]:
def example_args(a, b, c):
    return a * b * c

L = [2,3,4]

example_args(*L)

24

List comprehension

- [ 항목 for 항목 in 반복 가능한 객체 ]
- [ 표현식 for 항목 in 반복 가능한 객체 ]
- [ 표현식 for 항목 in 반복 가능한 객체 if 조건문 ]

[단순한 경우에만 사용하는 것이 좋음. 가독성을 위해 여러 줄로 표현하는 것이 나을 수도 있다.](https://google.github.io/styleguide/pyguide.html)

리스트 메서드 성능 측정
- timeit 모듈의 Timer 객체
    - 1st parameter: 측정하고자 하는 코드
    - 2nd parameter: 테스트를 위한 설정문
    - 명령문을 정해진 횟수만큼 실행하는 데 걸리는 시간을 측정 후 ms 단위로 반환 (기본값 number = 1000000)
    - 임시로 garbage collection 기능 중지 cf) gc.enable()

In [93]:
def test1():
    l = []
    for i in range(1000):
        l = l + [i]


def test2():
    l = []
    for i in range(1000):
        l.append(i)


def test3():
    l = [i for i in range(1000)]


def test4():
    l = list(range(1000))


if __name__ == "__main__":
    import timeit
    t1 = timeit.Timer("test1()", "from __main__ import test1")
    print("concat ", t1.timeit(number=1000), "milliseconds")
    t2 = timeit.Timer("test2()", "from __main__ import test2")
    print("append ", t2.timeit(number=1000), "milliseconds")
    t3 = timeit.Timer("test3()", "from __main__ import test3")
    print("comprehension ", t3.timeit(number=1000), "milliseconds")
    t4 = timeit.Timer("test4()", "from __main__ import test4")
    print("list range ", t4.timeit(number=1000), "milliseconds")

concat  1.1290437000025122 milliseconds
append  0.059868799999094335 milliseconds
comprehension  0.028998500001762295 milliseconds
list range  0.01235159999851021 milliseconds


In [95]:
%%html
<style>
table {float:left}
</style>

n: 리스트 총 항목 수

k: 연산 항목 수

|연산|시간복잡도|
|----|----------|
|인덱스 [] 접근|O(1)|
|인덱스 할당|O(1)|
|append()|O(1)|
|pop()|O(1)|
|pop(i)|O(n)|
|insert(i,항목)|O(n)|
|del|O(n)|
|삽입|O(n)|
|멤버십 테스트 in|O(n)|
|슬라이스 [x:y] 조회|O(k)|
|슬라이스 삭제|O(n)|
|슬라이스 할당|O(n+k)|
|reverse()|O(n)|
|연결 concatenate|O(k)|
|sort()|O(n log n)|
|곱하기|O(nk)|

바이트와 바이트 배열
- byte: 불변 타입, 문자열과 유사
- bytearray: 가변 타입, 리스트와 유사
- 0~255 범위의 부호 없는 8bit 정수 시퀀스

In [96]:
blist = [1,2,3,255]
the_bytes = bytes(blist)
the_bytes

b'\x01\x02\x03\xff'

In [97]:
the_byte_array = bytearray(blist)
the_byte_array

bytearray(b'\x01\x02\x03\xff')

In [98]:
the_bytes[1] = 127 # immutable이므로 error

TypeError: 'bytes' object does not support item assignment

In [100]:
the_byte_array[1] = 127 # mutable
the_byte_array

bytearray(b'\x01\x7f\x03\xff')

비트 연산자
- 1 << x :  숫자 1을 x번 만큼 left shift <=> 2^x
- x & (x-1) == 0 <=> x가 2^2

In [101]:
x = 4
1 << x

16

In [102]:
x = 8
x & (x-1)

0

In [103]:
x = 6
x & (x-1) # 0이 아님

4

### 연습문제

1. 문자열 전체 반전

In [108]:
# 내 풀이

def reverse_str(string):
    new = string
    for s in string:
        new[len(string)-string.index(s)] = s
    return new

# error

해답 코드

In [104]:
def revert(s):
    if s:
        s = s[-1] + revert(s[:-1])
    return s


def revert2(string):
    return string[::-1]


if __name__ == "__main__":
    str1 = "안녕 세상!"
    str2 = revert(str1)
    str3 = revert2(str1)
    print(str2)
    print(str3)

!상세 녕안
!상세 녕안


2. 문자열 단어 단위로 반전하기

In [112]:
def reverse_words(string):
    return ' '.join(string.split()[::-1])

if __name__ == "__main__":
    str1 = "파이썬 알고리즘 정말 재미있다"
    str2 = reverse_words(str1)
    print(str2)

재미있다 정말 알고리즘 파이썬


해답 코드

In [113]:
# 두 포인터를 사용

def reverser(string1, p1=0, p2=None):
    if len(string1) < 2:
        return string1
    p2 = p2 or len(string1)-1
    while p1 < p2:
        string1[p1], string1[p2] = string1[p2], string1[p1]
        p1 += 1
        p2 -= 1


def reversing_words_setence_logic(string1):
    # 먼저, 문장 전체를 반전한다.
    reverser(string1)
    # print(string1)
    p = 0
    start = 0
    while p < len(string1):
        if string1[p] == u"\u0020":
            # 단어를 다시 반전한다(단어를 원위치로 돌려놓는다).
            reverser(string1, start, p-1)
            # print(string1)
            start = p+1
        p += 1
    # 마지막 단어를 반전한다(단어를 원위치로 돌려놓는다).
    reverser(string1, start, p-1)
    # print(string1)
    return ''.join(string1)


if __name__ == "__main__":
    str1 = "파이썬 알고리즘 정말 재미있다"
    str2 = reversing_words_setence_logic(list(str1))
    print(str2)

재미있다 정말 알고리즘 파이썬


In [116]:
# 하나의 반복문만 사용

def reverse_words_brute(string):
    word, sentence = [], []
    for character in string:
        if character != " ":
            word.append(character)
        else:
            # 조건문에서 빈 리스트는 False다. 여러 공백이 있는 경우, 조건문을 건너뛴다.
            if word:
                sentence.append(''.join(word))
            word = []

    # 마지막 단어가 있다면, 문장에 추가한다.
    if word != '':
        sentence.append(''.join(word))
    sentence.reverse()
    return " ".join(sentence)


if __name__ == "__main__":
    str1 = "파이썬 알고리즘 정말 재미있다"
    str2 = reverse_words_brute(str1)
    print(str2)

재미있다 정말 알고리즘 파이썬


In [117]:
def reversing_words_slice(word):
    new_word = []
    words = word.split(" ")
    for word in words[::-1]:
        new_word.append(word)
    return " ".join(new_word)


if __name__ == "__main__":
    str1 = "파이썬 알고리즘 정말 재미있다"
    str2 = reversing_words_slice(str1)
    print(str2)

재미있다 정말 알고리즘 파이썬


In [115]:
def reversing_words(str1):
    words = str1.split(" ")
    rev_set = " ".join(reversed(words))
    return rev_set


def reversing_words2(str1):
    words = str1.split(" ")
    words.reverse()
    return " ".join(words)


if __name__ == "__main__":
    str1 = "파이썬 알고리즘 정말 재미있다"
    str2 = reversing_words(str1)
    str3 = reversing_words2(str1)
    print(str2)
    print(str3)

재미있다 정말 알고리즘 파이썬
재미있다 정말 알고리즘 파이썬


3. 단순 문자열 압축

aabcccccaaa -> a2b1c5a3 형식으로 압축

In [133]:
def compress(string):
    new = []
    start_idx = 0
    for i in range(len(string)-1):
        if (string[i] != string[i + 1]) | (i == len(string)-1):
            cnt = string[start_idx : i+1].count(string[i])
            new.append(string[i] + str(cnt))
            start_idx = i + 1
    return ''.join(new)

if __name__ == "__main__":
    result = compress("aabcccccaaa")
    print(result)

a2b1c5


해답 코드

In [134]:
def str_compression(s):
    count, last = 1, ""
    list_aux = []
    for i, c in enumerate(s):
        if last == c:
            count += 1
        else:
            if i != 0:
                list_aux.append(str(count))
            list_aux.append(c)
            count = 1
            last = c
    list_aux.append(str(count))
    return "".join(list_aux)


if __name__ == "__main__":
    result = str_compression("aabcccccaaa")
    print(result)

a2b1c5a3


4. 문자열 순열

[itertools](https://docs.python.org/3/library/itertools.html)

In [135]:
import itertools


def perm(s):
    if len(s) < 2:
        return s
    res = []
    for i, c in enumerate(s):
        for cc in perm(s[:i] + s[i+1:]):
            res.append(c + cc)
    return res


def perm2(s):
    res = itertools.permutations(s)
    return ["".join(i) for i in res]


if __name__ == "__main__":
    val = "012"
    print(perm(val))
    print(perm2(val))

['012', '021', '102', '120', '201', '210']
['012', '021', '102', '120', '201', '210']


In [136]:
def combinations(s):
    if len(s) < 2:
        return s
    res = []
    for i, c in enumerate(s):
        res.append(c)  # 추가된 부분
        for j in combinations(s[:i] + s[i+1:]):
            res.append(c + j)
    return res


if __name__ == "__main__":
    result = combinations("abc")
    print(result)

['a', 'ab', 'abc', 'ac', 'acb', 'b', 'ba', 'bac', 'bc', 'bca', 'c', 'ca', 'cab', 'cb', 'cba']


5. 회문

palindrome: 앞에서 읽으나 뒤에서 읽으나 동일한 단어나 구

In [146]:
def is_palindrome(string):
    new = ''.join(string.split())
    if new[:int(len(new)/2)] == new[::-1][:int(len(new)/2)]:
        return True
    else:
        return False

if __name__ == "__main__":
    str1 = "다시 합창합시다"
    str2 = ""
    str3 = "hello"
    print(is_palindrome(str1))
    print(is_palindrome(str2))
    print(is_palindrome(str3))

True
True
False


해답 코드

In [139]:
def is_palindrome(s):
    l = s.split(" ")
    s2 = ''.join(l)
    return s2 == s2[::-1]


def is_palindrome2(s):
    l = len(s)
    f, b = 0, l-1
    while f < l // 2:
        while s[f] == " ":
            f += 1
        while s[b] == " ":
            b -= 1
        if s[f] != s[b]:
            return False
        f += 1
        b -= 1
    return True


def is_palindrome3(s):
    s = s.strip()
    if len(s) < 2:
        return True
    if s[0] == s[-1]:
        return is_palindrome(s[1:-1])
    else:
        return False


if __name__ == "__main__":
    str1 = "다시 합창합시다"
    str2 = ""
    str3 = "hello"
    print(is_palindrome(str1))
    print(is_palindrome(str2))
    print(is_palindrome(str3))
    print(is_palindrome2(str1))
    print(is_palindrome2(str2))
    print(is_palindrome2(str3))
    print(is_palindrome3(str1))
    print(is_palindrome3(str2))
    print(is_palindrome3(str3))

True
True
False
True
True
False
True
True
False
