# 시퀀스

- 시퀀스는 일렬로 나열이 되어있는데 순서가 있고 번호가 붙어있는 형태이다.


- [Python Sequence](https://artofproblemsolving.com/wiki/index.php/Sequence_(Python))
    - In Python, sequence is the generic term for an ordered set. There are several types of sequences in Python, the following three are the most important.
        - Lists are the most versatile sequence type. The elements of a list can be any object, and lists are mutable - they can be changed. Elements can be reassigned or removed, and new elements can be inserted.

        - Tuples are like lists, but they are immutable - they can't be changed.

        - Strings are a special type of sequence that can only store characters, and they have a special notation. However, all of the sequence operations described below can also be used on strings. 
        
        
- 파이썬의 자료형은 컨테이너와 플랫으로 나뉜다.
- 컨테이너는 서로 다른 자료형을 담을 수 있고 플랫은 단일 자료형만 담을 수 있다.
    - 컨테이너(Container) : 서로 다른 자료형[list, tuple, collections.deque]
    - Flat : 한 개의 자료형[str, bytes, bytearray, array.array, memoryview])
    
    

- 또 가변형과 불변형으로 나눌 수 있다.
    - 가변(list, bytearray, array.array, memoryview, deque)
    - 불변(tuple, str, bytes)

## 시퀀스 1



### List comprehension
- 리스트 타입은 시퀀스 형태이다.

In [1]:
# Non Comprehending Lists
chars = '+_)(*&^%$#@!~)'  # 불변형
code_list1 = []

for s in chars:
    # 유니코드 리스트
    code_list1.append(ord(s))  # ord : 유니코드 리턴

print(code_list1)

[43, 95, 41, 40, 42, 38, 94, 37, 36, 35, 64, 33, 126, 41]


- `ord`는 문자를 유니코드(숫자)로 리턴해준다

In [2]:
# Comprehending Lists
code_list2 = [ord(s) for s in chars]

print(code_list2)

[43, 95, 41, 40, 42, 38, 94, 37, 36, 35, 64, 33, 126, 41]


- List Comprehension을 사용하면 속도면에서 약간 우세하다.

- 큰 차이는 없지만 데이터가 많을 때 권장한다.

### map, filter

In [3]:
# map
list(map(ord, chars))

[43, 95, 41, 40, 42, 38, 94, 37, 36, 35, 64, 33, 126, 41]

- `map` 메소드로 chars를 ord로 변환하였다.

In [4]:
# Comprehending Lists + Map, Filter
# 속도 약간 우세
code_list3 = [ord(s) for s in chars if ord(s) > 40]
code_list4 = list(filter(lambda x: x > 40, map(ord, chars)))

print(code_list3)
print(code_list4)

[43, 95, 41, 42, 94, 64, 126, 41]
[43, 95, 41, 42, 94, 64, 126, 41]


- `filter` 함수는 두 개의 인자를 받는데 익명함수(함수)와 리스트와 같은 자료 구조형을 받는다.

In [5]:
print([chr(s) for s in code_list1])
print([chr(s) for s in code_list2])
print([chr(s) for s in code_list3])
print([chr(s) for s in code_list4])

['+', '_', ')', '(', '*', '&', '^', '%', '$', '#', '@', '!', '~', ')']
['+', '_', ')', '(', '*', '&', '^', '%', '$', '#', '@', '!', '~', ')']
['+', '_', ')', '*', '^', '@', '~', ')']
['+', '_', ')', '*', '^', '@', '~', ')']


### 제너레이터

- 제너레이터는 시퀀스 결과를 반환하고, 다음에 반환할 값의 위치를 갖고 있다. 강력한 이터레이터라고 보면 된다.

- `__iter__` 가 데이터 속성에 있으면 순회가 가능하다.

- 제너레이터는 작은 메모리 조각으로 연속적인 메모리 조각을 만들어낼 수 있다.

    - 예를 들어 1부터 1억까지의 숫자 리스트를 메모리에 직접 할당하면 부하가 걸린다. 하지만 1만 반환하고 다음에는 2를 반환할 위치정보만 갖고 있다면 메모리 사용량을 극히 아낄 수 있게 된다. 

    - 즉, 제너레이터는 연속적인 값을 만드는데 메모리 사용량을 줄일 수 있게 해준다.

In [6]:
# Generator : 한 번에 한 개의 항목을 생성(메모리 유지X)
tuple_g = (ord(s) for s in chars) # 괄호만 소괄호로 바꾸면 된다.

print(type(tuple_g))
print(next(tuple_g))

<class 'generator'>
43


- 괄호만 소괄호로 바꾸면 리스트 형태에서 제너레이터 형태로 된다.
- 튜플 형태로 comprehension을 감싸고 print를 하면 값이 출력되는 것이 아니라 자료형이 출력된다. 이 말은 값을 아직 생성하지 않았고 반환할 준비만 했다는 뜻이다.

- `next`로 호출하면 값을 하나씩 반환한다.

In [7]:
print(dir(tuple_g))

['__class__', '__del__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', '__qualname__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'gi_yieldfrom', 'send', 'throw']


### 파이썬 Array

In [8]:
# Array
import array

array_g = array.array('I',  (ord(s) for s in chars))

print(type(tuple_g))
print(next(tuple_g))

print(type(array_g))
print(array_g.tolist())

<class 'generator'>
95
<class 'array.array'>
[43, 95, 41, 40, 42, 38, 94, 37, 36, 35, 64, 33, 126, 41]


- 파이썬에도 Array를 지원한다.
- Array는 리스트보다 좀 더 로우레벨에서 동작한다. 수치연산에 최적화되어 있다.

In [9]:
# 제네레이터 예제(반 만들기)

print(('%s' % c + str(n) for c in ['A', 'B', 'C', 'D'] for n in range(1, 11)))

<generator object <genexpr> at 0x00000192BC64E1C8>


In [10]:
# 하나 출력하고 하나 만든다

for s in ('%s' % c + str(n) for c in ['A', 'B', 'C', 'D'] for n in range(1, 11)):
    print(s)

A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
C1
C2
C3
C4
C5
C6
C7
C8
C9
C10
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10


### 얕은 복사, 깊은 복사

In [11]:
# 리스트 주의

marks1 = [['~'] * 3 for _ in range(4)]  # Deep Copy, 사용하지 않는 원소 _ 처리
marks2 = [['~'] * 3] * 4 # Shallow Copy

print(marks1)
print(marks2)

[['~', '~', '~'], ['~', '~', '~'], ['~', '~', '~'], ['~', '~', '~']]
[['~', '~', '~'], ['~', '~', '~'], ['~', '~', '~'], ['~', '~', '~']]


In [12]:
# 수정
marks1[0][1] = 'X'
marks2[0][1] = 'X'

print(marks1)
print(marks2)

[['~', 'X', '~'], ['~', '~', '~'], ['~', '~', '~'], ['~', '~', '~']]
[['~', 'X', '~'], ['~', 'X', '~'], ['~', 'X', '~'], ['~', 'X', '~']]


- 수정을 하면 하나만 바뀌는 것이 아니라 다 바뀐다.

- 첫번째는 id 값이 다른 `깊은 복사`이고, 두번째는 id값이 동일한 `얕은 복사`이기 때문이다.

In [13]:
# 증명
print([id(i) for i in marks1])
print([id(i) for i in marks2])

[1729737344648, 1729737506312, 1729737308872, 1729737307016]
[1729737309704, 1729737309704, 1729737309704, 1729737309704]


### Summary
- 리스트(List)는 다양한 자료형을 다룰 때 사용하고 숫자 기반으로는 배열(Array)을 사용하면 된다.
    - 리스트 기반 : 융통성, 다양한 자료형, 범용적 사용
    - 숫자 기반 : 배열(리스트와 거의 호환)

## 시퀀스 2
- 튜플(Tuple) 고급 사용
- Mutable(가변)
- Immutable(불변)
- Sort vs Sorted 실습

### 튜플 고급 사용 - 패킹, 언패킹


In [14]:
print(divmod(100, 9))  # 몫과 나머지 반환
print(divmod(*(100, 9)))  # 튜플을 언패킹 해서 삽입
print(*(divmod(100, 9)))  # 결과값을 푼다

(11, 1)
(11, 1)
11 1


In [15]:
x, y, *rest = range(10)  # x, y 외 나머지 값들은 리스트에 패킹
print(x, y, rest)
x, y, *rest = range(2)
print(x, y, rest)
x, y, *rest = 1, 2, 3, 4, 5
print(x, y, rest)

0 1 [2, 3, 4, 5, 6, 7, 8, 9]
0 1 []
1 2 [3, 4, 5]


- `*rest` 를 이용하면 남는 부분들은 리스트에 패킹된다.

In [16]:
# Mutable(가변) vs Immutable(불변)

l = (15, 20, 25)  # 불변형 Immutable
m = [15, 20, 25]  # 가변형 Mutable

print("Mutable: ", l, id(l))
print("Immutable: ", m, id(m))
print()

l = l * 2  # 불변형에 연산
m = m * 2

print("Mutable: ", id(l))
print("Immutable: ", id(m))
print()

l *= 2  # 불변형에 연산
m *= 2

print("Mutable: ", id(l))
print("Immutable: ", id(m))

Mutable:  (15, 20, 25) 1729736610424
Immutable:  [15, 20, 25] 1729737300232

Mutable:  1729711603240
Immutable:  1729737299784

Mutable:  1729736954216
Immutable:  1729737299784


- 불변형에 연산을 하면 id가 바뀐다. 즉 새로운 객체가 할당된다는 뜻이다.

### sorted vs sort

- `sorted`는 정렬 후 새로운 객체를 반환한다. 원본이 수정 안된다.

- `sort`는 정렬 후 객체를 직접 변경하기 때문에 원본이 수정된다.

In [17]:
# sort vs sorted
# reverse, key=len, key=str.lower, key=func..

# sorted : 정렬 후 새로운 객체 반환
f_list = ['orange', 'apple', 'mango',
          'papaya', 'lemon', 'strawberry', 'coconut']

print('sorted -', sorted(f_list))  # 기본 오름차순
print('sorted -', sorted(f_list, reverse=True))  # 역순 출력
print('sorted -', sorted(f_list, key=len))  # 문자의 길이 순으로 정렬

print('sorted -', sorted(f_list, key=lambda x: x[-1])) # key에 함수 직접 입력 가능 끝 글자 기준
print('sorted -', sorted(f_list, key=lambda x: x[-1], reverse=True)) # 위 결과 반대로
print() 

print('sorted -', f_list)  # 원본 출력

sorted - ['apple', 'coconut', 'lemon', 'mango', 'orange', 'papaya', 'strawberry']
sorted - ['strawberry', 'papaya', 'orange', 'mango', 'lemon', 'coconut', 'apple']
sorted - ['apple', 'mango', 'lemon', 'orange', 'papaya', 'coconut', 'strawberry']
sorted - ['papaya', 'orange', 'apple', 'lemon', 'mango', 'coconut', 'strawberry']
sorted - ['strawberry', 'coconut', 'mango', 'lemon', 'orange', 'apple', 'papaya']

sorted - ['orange', 'apple', 'mango', 'papaya', 'lemon', 'strawberry', 'coconut']


- `sorted`는 원본이 보존된다.

In [18]:
# sort : 정렬 후 객체 직접 변경

# 반환 값 확인(None)
print('sort -', f_list.sort(), f_list) # 기본 오름차순
print('sort -', f_list.sort(reverse=True), f_list) # 역순
print('sort -', f_list.sort(key=len), f_list) # 문자 길이 순으로 정렬
print('sort -', f_list.sort(key=lambda x: x[-1]), f_list) # key로 람다 함수 입력
print('sort -', f_list.sort(key=lambda x: x[-1], reverse=True), f_list) # 위의 역순

sort - None ['apple', 'coconut', 'lemon', 'mango', 'orange', 'papaya', 'strawberry']
sort - None ['strawberry', 'papaya', 'orange', 'mango', 'lemon', 'coconut', 'apple']
sort - None ['mango', 'lemon', 'apple', 'papaya', 'orange', 'coconut', 'strawberry']
sort - None ['papaya', 'apple', 'orange', 'lemon', 'mango', 'coconut', 'strawberry']
sort - None ['strawberry', 'coconut', 'mango', 'lemon', 'apple', 'orange', 'papaya']


- `sort`는 반환값이 None이다. 원본이 수정된다.

## 시퀀스 3
- 해시 테이블(Hashtable)
- Dict 생성 고급 예지
- Setdefault 사용법

### 해시 테이블
- 해시 테이블은 `Key`에 `Value`를 저장하는 구조를 말한다.
    - 적은 리소스로 많은 데이터들을 효율적으로 관리하게 해준다.
    - 파이썬 언어 자체가 강력한 헤시 테이블 엔진으로 구성되어 있다.
    

- 딕셔너리 자료구조가 기본 형태로 있다.
    - 딕셔너리는 key값의 중복이 허용 안된다. (set은 허용된다)
    

- 키 값의 연산 결과에 따라 직접 접근이 가능한 구조이다.

- key 값을 해싱 함수로 해쉬 주소를 알아내고 key에 대한 value를 참조할 수 있게 된다.

In [19]:
# Dict 구조
# print(__builtins__.__dict__)

In [20]:
# Hash 값 확인
t1 = (10, 20, (30, 40, 50)) # 튜플
t2 = (10, 20, [30, 40, 50]) # 리스트

print(hash(t1))
# print(hash(t2))  # 예외(리스트는 안된다.)

5737367089334957572


- Hash 값을 확인 할 수 있다는 것은 고유하다는 뜻이다.

- t2의 리스트는 수정이 가능하므로 해시 함수를 사용할 수 없다.

- 해시 함수에는 불변형이 들어가야 한다.

### setdefault
- 튜플로 나열된 값을 딕셔너리로 만들고 싶다.

In [21]:
# Dict Setdefault 예제
source = (('k1', 'val1'),
          ('k1', 'val2'),
          ('k2', 'val3'),
          ('k2', 'val4'),
          ('k2', 'val5'))

new_dict1 = {}
new_dict2 = {}

In [22]:
# No use setdefault

for k, v in source:
    if k in new_dict1:
        new_dict1[k].append(v)
    else:
        new_dict1[k] = [v]

print(new_dict1)

{'k1': ['val1', 'val2'], 'k2': ['val3', 'val4', 'val5']}


- `Setdefault`를 사용하지 않으면 if 문을 사용해야 한다.

In [23]:
# Use setdefault

for k, v in source:
    new_dict2.setdefault(k, []).append(v) # 리스트에 v 값을 append 한다

print(new_dict2)

{'k1': ['val1', 'val2'], 'k2': ['val3', 'val4', 'val5']}


- `Setdefault`는 속도에서 이점이 있다.

In [24]:
# 주의
new_dict3 = {k: v for k, v in source}

print(new_dict3)

{'k1': 'val2', 'k2': 'val5'}


- 키가 중복되면 나중 값으로 덮어 씌운다.

## 시퀀스 4
- 해시 테이블(Hashtable)
    - 해시테이블은 적은 리소스로 많은 데이터를 효율적으로 관리할 수 있는 자료구조이다.

    - 딕셔너리는 키의 중복을 허용하지 않고, 셋도 중복을 하용하지 않는다.
- Immutable Dict 생성
- 지능형 Set
- Set 선언 최적화

### Immutable Dict

In [25]:
from types import MappingProxyType

d = {'key1': 'value1'}

# Read Only
d_frozen = MappingProxyType(d)  # 수정 불가 딕셔너리

print(d, id(d))
print(d_frozen, id(d_frozen))
print(d is d_frozen, d == d_frozen)

# 수정 불가
# d_frozen['key1'] = 'value2'

d['key2'] = 'value2'

print(d)

{'key1': 'value1'} 1729737607832
{'key1': 'value1'} 1729737538008
False True
{'key1': 'value1', 'key2': 'value2'}


- `MappingProxyType`을 이용하면 읽기 전용 딕셔너리를 만들 수 있다.
- 수정 불가 딕셔너리이지만 해시 값을 지원하지 않는다.

### frozenset

In [26]:
s1 = {'Apple', 'Orange', 'Apple', 'Orange', 'Kiwi'}
s2 = set(['Apple', 'Orange', 'Apple', 'Orange', 'Kiwi'])
s3 = {3}
s4 = set()  # Not {}
s5 = frozenset({'Apple', 'Orange', 'Apple', 'Orange', 'Kiwi'})  # 수정 불가

# 추가
s1.add('Melon')

# 추가 불가
# s5.add('Melon')

print(s1, type(s1))
print(s2, type(s2))
print(s3, type(s3))
print(s4, type(s4))
print(s5, type(s5)) # frozenset

{'Orange', 'Melon', 'Kiwi', 'Apple'} <class 'set'>
{'Orange', 'Kiwi', 'Apple'} <class 'set'>
{3} <class 'set'>
set() <class 'set'>
frozenset({'Orange', 'Kiwi', 'Apple'}) <class 'frozenset'>


- `frozenset`은 읽기 전용 `set`을 만들어준다.

### 선언 최적화

In [27]:
from dis import dis

print('-' * 50)
print(dis('{10}')) # {}으로 집합 선언

print('-' * 50)
print(dis('set([10])')) # set으로 집합 선언
print('-' * 50)

--------------------------------------------------
  1           0 LOAD_CONST               0 (10)
              2 BUILD_SET                1
              4 RETURN_VALUE
None
--------------------------------------------------
  1           0 LOAD_NAME                0 (set)
              2 LOAD_CONST               0 (10)
              4 BUILD_LIST               1
              6 CALL_FUNCTION            1
              8 RETURN_VALUE
None
--------------------------------------------------


- `{}`으로 집합 선언한 것은 내부적으로 과정이 세 과정이고 `set`으로 집합 선언한 것은 이보다 많다.

- 그래서 집합을 선언할 때는 `set`을 이용하는 것보다 `{}`로 선언하는게 성능면에서 더 좋다.

### 지능형 집합(Comprehending Set)

In [28]:
from unicodedata import name

print({name(chr(i), '') for i in range(0, 256)})

{'', 'GREATER-THAN SIGN', 'SPACE', 'YEN SIGN', 'LATIN CAPITAL LETTER I', 'LATIN CAPITAL LETTER O WITH STROKE', 'DIGIT FIVE', 'LATIN SMALL LETTER R', 'LATIN SMALL LETTER Y', 'LATIN CAPITAL LETTER I WITH DIAERESIS', 'CEDILLA', 'INVERTED QUESTION MARK', 'VULGAR FRACTION THREE QUARTERS', 'GRAVE ACCENT', 'LATIN CAPITAL LETTER K', 'SUPERSCRIPT ONE', 'LATIN SMALL LETTER C WITH CEDILLA', 'MIDDLE DOT', 'LATIN SMALL LETTER U WITH DIAERESIS', 'APOSTROPHE', 'REVERSE SOLIDUS', 'LATIN SMALL LETTER A WITH DIAERESIS', 'EXCLAMATION MARK', 'LATIN SMALL LETTER M', 'ASTERISK', 'LATIN CAPITAL LETTER I WITH GRAVE', 'LATIN CAPITAL LETTER C', 'LATIN SMALL LETTER V', 'SEMICOLON', 'LATIN SMALL LETTER Z', 'VULGAR FRACTION ONE QUARTER', 'LESS-THAN SIGN', 'LATIN SMALL LETTER L', 'LATIN SMALL LETTER O', 'RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK', 'LATIN SMALL LETTER I WITH GRAVE', 'LATIN CAPITAL LETTER E WITH DIAERESIS', 'LATIN SMALL LETTER A', 'LATIN SMALL LETTER G', 'LATIN CAPITAL LETTER O WITH DIAERESIS', 'DIG

- 키보드 자판을 `name`으로 가져왔다.
- 집합도 지능형 코딩(Comprehending Set)이 가능하다.