Written by *uoneway(Kim Hangil)*   
https://github.com/uoneway/python_note

본 문서 작성을 위해 다음의 자료들을 기본으로 참고하였고, 그 외 다른 자료를 참고했을 시 링크를 달아놓았습니다.
- [Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython 2nd Edition by Wes McKinney](https://github.com/wesm/pydata-book)
- [The Python Language Reference](https://docs.python.org/3/reference/index.html)
- [The Python Standard Library](https://docs.python.org/3/library/index.html#library-index)

# Built-in Data Structures and Control Flow

In [None]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## Python built-in Data Structures 이해

Python의 Built-in Types으로는
- Scalar
    - Boolean Types: True, False
    - Numeric Types — int, float, complex
- Collection 객체
    - Sequence Types — list, tuple, range
    - Text Sequence Type — str
    - Set Types — set, frozenset
    - Mapping Types — dict

이 외에도 None, Module, classes, instances, exceptions 등이 있음. 
https://docs.python.org/3/library/stdtypes.html#the-null-object

![title](https://drive.google.com/uc?export=view&id=1OZ5L-YToj-6v9FHUpdSN_BzNncjLXAGf)




https://docs.python.org/ko/3/library/collections.abc.html?highlight=collections#collections.abc.Collection

class 상속관계는
collections.abc > Container, Sized, Iterable,  > Collection 

Collection 객체는 모두 이 Collection class를 상속받음에 따라 
- 객체 모음이기에 길이가 있고(len()) 특정 element가 속해있는지 물을 수 있고(in)
- iterable해서 for문 등에 쓰일 수 있다.    
즉 sequence가 아닌 Collection들도 iterable 함!
- iterable하다는 것은 해당 형이 내부에 `__iter()__`함수를 가지고 있는 경우

이 Collection class를 다시 상속받아
- Reversible, Collection > Sequence > MutableSequence
- Collection > Set > MutableSet
- Collection > Mapping > MutableMapping

크게 두 가지 기준으로 나눠볼 수 있다.
- Sequence인지 아닌지, 즉 element간 순서가 있어 index로 접근 가능하고, 값이 같은 value가 들어가는게 유의미한지(count), 
    - sequence : list, tuple, range, str, 
    - non ~(이걸 collection이라고도 하는듯) : set, frozenset, dict
- mutable한지 안한지, 즉 값을 넣다 뱼다, 삭제 등 수정 가능한지
    - mutable: list, set, dict
    - immutable: tuple, range, str, frozenset

In [None]:
from collections.abc import Container, Sequence, Collection
issubclass(Sequence, Collection)
issubclass(list, Sequence)

True

True

Python collection 함수 정리
https://docs.google.com/spreadsheets/d/1_doeEqNYTFLH7IihbWzyvy76YZPiVqOh91IMGoJS-qI/edit#gid=0

### 선언

In [None]:
t = (1, 2, 3)
l = [1, 2, 3]
s = {2, 2, 2, 1, 3, 3}
print(t,l,s)

(1, 2, 3) [1, 2, 3] {1, 2, 3}
<class 'tuple'> <class 'list'> <class 'dict'> <class 'set'>


빈 collection 선언하기

In [None]:
t = (); l = []; d = {} ; s=set()  #{}가 set이 아닌 dict인것에 주의! 
print(type(t),type(l),type(d),type(s))

element 1개 선언할 때, tuple 주의해야함

In [None]:
t1 = 1, 2, 3 # 괄호 없이하면(기본) tuple로 인식
t2 = ()      # 빈 괄호 또한 tuple로 인식하지만
print(t1,type(t1), t2, type(t2))

t3 = (1)     # 이렇게 하면 값이 1개인 tuple 되는게 아니라 그냥 int 또는 string이 됨
t4 = (1,)   # 이렇게 해줘야함. 출력될때도 (1,)로 표시된다는것 알아두기
print(t3, type(t3), t4, type(t4))

# 반면 list는 그냥 해도 됨
l = [1]
print(l,type(l))

(1, 2, 3) <class 'tuple'> () <class 'tuple'>
1 <class 'int'> (1,) <class 'tuple'>
[1] <class 'list'>


### 서로 형변환(Casting) 가능

In [None]:
ltot = tuple( [1, 2, 3] )
ttol = list( (1, 2, 3) )
ltos = set([1, 2, 3])
strtol = list( 'Hello' ) # 문자열을 list/tuple로 변환하면 문자 하나하나를 요소로 가진 문자 리스트, 문자 튜플이 생성
rtol = list( range(5) ) #많이 쓰이는 표현

print(ltot,ttol,strtol,rtol,ltos, sep='\n' )

(1, 2, 3)
[1, 2, 3]
['H', 'e', 'l', 'l', 'o']
[0, 1, 2, 3, 4]
{1, 2, 3}


### range(start, stop, step) 

In [None]:
# 그냥 range하면 range 객체로 생성됨
# 보통 리스트로 전환하여 사용하지만, for문 쓸때는 그냥 쓰면됨
# 참고로 np.arange()는 바로 ndarray로 생성되어 변환 안해줘도 됨

r = range(10) 
l = list(r)
print(r, type(r))
print(l)

for x in range(3):
    print(x)

range(0, 10) <class 'range'>
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
0
1
2


In [None]:
a = list(range(5))
b = list(range(2, 5))
c = list(range(-2, 10, 2))
d = list(range(10, 0, -1))
print(a, b, c, d, sep='\n')

[0, 1, 2, 3, 4]
[2, 3, 4]
[-2, 0, 2, 4, 6, 8]
[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]


## Collection 객체 공통

전체적으로 모두 유사하나 dict는 value가 아닌 key 기준으로 된다는 것을 인지해야함!

### 다루기

In [None]:
t = (1, 2, 3)
l = [1, 2, 3]
s = {1, 2, 3}
d = {'a':1, 'b':2, 'c':3} # ('a'=1, 같이 = 쓰는게 아님

#### len()

In [None]:
print(len(t), len(d) )

3 3


#### 빈 collection인지 확인하기

In [None]:
collect = []
if collect:        # "if len(seq)==0:" 보다 if not mylist 방식을 권장
    print(collect[-1])
else:
    print("empty")
    
print(collect) #empty colection이면 False?

empty
[]


#### 특정 값 포함하고 있는지 확인하기, for문: in

In [None]:
1 in t
'a' in d # dictionary 는 key 기준
1 in d

True

True

False

In [None]:
for i in range(2):  # 응용
    print(i)

0
1


#### map(func, iterable) 활용 : 모든 요소에 각각 함수 적용하기
- 유사 함수로 filter()와 reduce()가 있음 (reduce()는 잘 안쓰는듯)
- lambda와 함께 잘 쓰임

In [None]:
list(map(str, s)) # for i in range(len(a)): a[i] = str(a[i]) 대신

In [None]:
list(filter(lambda x: x < 5, range(10)))

[0, 1, 2, 3, 4]

##### reduce()
순서형 자료(문자열, 리스트, 튜플)의 원소들을 누적적으로(?) 함수에 적용
처음에는 순서형 자료의 0,1번째 element를 가져와서 각각 첫번째 두번째 parameter에 넣어줌
그 이후로는 그 결과를 첫번째 parameter에 넣어주고, 그 다음 2번째 element를 두번째 parameter에 넣어 준후 연산.반복

In [None]:
from functools import reduce  # python2에서는 필요없음

print(reduce(lambda x, y: x + y, [0, 1, 2, 3, 4]))
print(reduce(lambda x, y: y + x, 'abcde'))
# 처음은 x=a, y=b. ba가 된 후 다시 c와....

10
edcba


#### min(), max(), sum()

In [None]:
s = [1, 2, 3]
print(min(s), max(s))
sum(s)

#### 삭제하기

In [None]:
t = (1, 2, 3)
l = [1, 2, 3]
s = {1, 2, 3}

# collection 자체를 메모리에서 삭제하기
del t

# 요소 전체 삭제하여 빈 collection으로 만들기
s.clear() ; print(s)

#del collect는 다 되지만, del a[] 형태로의 element 삭제는 list만 가능(muatable&[]접근가능)
del l[:] ; print(l)
l = [1, 2, 3]
del l[1:3] ; print(l)

set()
[]
[1]


### Generators
Having a consistent way to iterate over sequences, like objects in a list or lines in a
file, is an important Python feature. This is accomplished by means of the iterator
protocol, a generic way to make objects iterable

In [None]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print(key)

a
b
c


In [None]:
dict_iterator = iter(some_dict)
dict_iterator

<dict_keyiterator at 0x10c3d3c50>

In [None]:
list(dict_iterator)

['a', 'b', 'c']

In [None]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

In [None]:
gen = squares()
gen

In [None]:
for x in gen:
    print(x, end=' ')

#### Generator expresssions

In [None]:
gen = (x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x7f496d0bbba0>

In [None]:
def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()

In [None]:
sum(x ** 2 for x in range(100))
dict((i, i **2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

#### itertools module

In [None]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

## Sequence types : tuple, list, string, range

말 그대로 순서가 있는 collection

공통점
- 문자열, 정수, 실수, 불 등 모든 자료형을 섞어서 저장할 수 있음
- bytes, bytearray도 여기에 포함됨

차이점
* list는 can be modified. 나머지는 모두 immutable, fixed-length. 연산하는것도 실제로 새로 변수를 생성하여 할당하는 것임
* 리스트에서 특정 값을 가지고 있는지 여부를 체크하면 linear scan하기때문에 dicts이나 sets에 비해(hash tables에 기반하여 constant time 안에 찾는) 많이 느림

별다른 언급 없다면 아래 내용은 Sequence types 모두 공통 적용되는 것들

range객체는 파이썬3버전에 새로 생긴것. 2버전에서 range(2)하면 [0,1] 리스트가 생겼으나, 메모리 문제로 range 객체가 생성하는 방식으로 3버전에서 바뀜 

### Indexing, Slicing
sequence니 indexing으로 접근 가능하다(subscriptable)

In [None]:
seq = ('a','b','c')
a = seq[0]
b = seq.index('c') #특정 요소의 index값 구하기
print(a,b)

a 2


dict도 non-sequncial이지만 d[key] 형태로 접근함.    
하지만 이는 index가 아닌 key로 접근하는 것!

In [None]:
d = {'a':1, 'b':2, 'c':3} 
d['a']

1

set은 []접근 불가(not subscriptable)

[start:stop]

In [None]:
seq = [1, 2, 3, 4, 5]
a = seq[1:3]
b = seq[-4:-2]
print(a,b)

[2, 3] [2, 3]


In [None]:
a = seq[1:-1] # 아래랑 같다고 생각하면 안됨
b = seq[1:]
c = seq[1:len(seq)] # len+1로 해줘야 위와 동일하다고 착각할 수 있음에 주의
print(a,b,c)

[2, 3, 4] [2, 3, 4, 5] [2, 3, 4, 5]


In [None]:
a = seq[:] # 이건 값 복사 하여 새로운 변수 생성
b = seq # 이건 동일 변수로. 즉 결과 다름
print(a,b)
print(id(seq),id(a),id(b))

[1, 2, 3, 4, 5] [1, 2, 3, 4, 5]
4462939024 4454161056 4462939024


In [None]:
#  Extended Slices: step 
a = seq[::2]
b = seq[::-2]
c = seq[::-1] # reversing으로 활용!!
print(a,b,c)

[1, 3, 5] [5, 3, 1] [5, 4, 3, 2, 1]


In [None]:
# 이런식으로 값 추가에도 사용가능함
l=[1,2,3]
l[1:1] = [500, 600]
l

[1, 500, 600, 2, 3]

In [None]:
# 다음 두개의 결과가 다름에 주의!
my_list = [0, 1, 2, 3, 4]
print(my_list[3])
print(my_list[3:4])

3
[3]


In [None]:
# 다음 코드가 out of indexing error를 발생시키지 않고 empty list를 리턴한다!
my_list[6:]

[]

### 정렬: sorted(seq), reversed(seq)
- list만 가지고 있는 l.sort() 등의 method에 반해 immutable sequence도 이용가능한 함수들
- 인자로 immutable sequence를 받아 연산하지만, 결과는 list로 리턴함

In [None]:
sorted((7, 1, 2, 6))
sorted('horse race') # 정렬된 새 리스트를 리턴. 공백도 포함해서 정렬함

list(reversed((7, 1, 2, 6))) # ‘reversed’ 객체를 반환하므로 형전환 해줘 이용

print( sorted({'c':1, 'b':2})) #dict도 되긴 하는데 큰 의미가...

[1, 2, 6, 7]

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

[6, 2, 1, 7]

['b', 'c']


In [None]:
#2차원 정렬: 거의 사용 안할듯
students = [
    ['john', 'C', 19],
    ['maria', 'A', 25],
    ['andrew', 'B', 7]
]
 
print(sorted(students, key=lambda student: student[1]))  # 안쪽 리스트의 인덱스 1을 기준('A', 'B', 'C' 순)으로 정렬
print(sorted(students, key=lambda student: student[2]))  # 안쪽 리스트의 인덱스 2를 기준(7, 19, 25 순)으로 정렬

[['maria', 'A', 25], ['andrew', 'B', 7], ['john', 'C', 19]]
[['andrew', 'B', 7], ['john', 'C', 19], ['maria', 'A', 25]]


### 통계

#### seq.count(elem): 특정 요소값 갯수 세기

In [None]:
t = (1, 2, 2, 2, 3, 4, 2)
s = "aabcd"

print(t.count(2), s.count('a')) # a tuple 속 2개수

4 2


#### min(iterable), max(), sum()

In [None]:
min(t)
max(t)
sum(t)

1

4

16

### 변형

#### +: concatenate
(단 range는 안됨! 오류남)

point wise 연산이라 생각하면 안됨. string 연결되는거 생각해야함

In [None]:
(1,2,3) + (1,2,3) # (2,4,6) 나오는게 아님

(1, 2, 3, 1, 2, 3)

In [None]:
'Hello, ' + str(10)

'Hello, 10'

# 같은 자료형끼리 해야함. 아래 다 오류
(1,2,3) + [1,2,3]
(1,2,3) + 4

In [None]:
# +가 되니 *도 됨. Multiplying
(1,2,3) * 3

(1, 2, 3, 1, 2, 3, 1, 2, 3)

'+'는 새로 list 생성하고 copy하는 작업이 포함되어 있기에   
mutable한 list의 경우에는 extend 쓰는게 빠름

In [None]:
x = [1,2,3]
x.extend([4])  # element로 collection 넣어줘야 함. x.extend(4)는 오류
x.append(5)  # .append()할때는 인자로 element를 넣어줌. extend와 햇갈리지 않도록 
x

[1, 2, 3, 4, 5]

#### Unpacking(리스트와 튜플로 변수 만들기)
- 각각 변수에 들어감
- 변수의 개수와 리스트(튜플)의 요소 개수는 같아야 함

In [None]:
tup = (4, 5, 6)
a, b, c = tup #a, b = tup 하면 오류남 "too many values to unpack"
b

5

In [None]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

unpacking을 활용 예시

In [None]:
# swap
a, b = 1, 2 # 이게 사실 tuple이었던 것!
b, a = a, b
a, b

(2, 1)

In [None]:
#  iterating over sequences of tuples or lists
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print(f'a={a}, b={b}, c={c}')

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [None]:
a, b = input().split()

 1 2


In [None]:
# 함수에서 인자 받을 때, 그 길이를 모르는 경우 *rest 표현을 통해 나머지 전부를 받을 수 있음.보통 *_ 으로 사용
values = 1, 2, 3, 4, 5
a, b, *_ = values
a, b
_

[3, 4, 5]

#### zip
- 같은 순서에 있는 요소끼리 묶어주기(vector를 matrix로 바꿔주는?)

In [None]:
seq1 = ['a1', 'a2', 'a3']
seq2 = ['b1', 'b2', 'b3']
zipped = zip(seq1, seq2)
list( zipped )

[('a1', 'b1'), ('a2', 'b2'), ('a3', 'b3')]

In [None]:
a = [[10, 20], [30, 40], [50, 60]]
b = [[2, 3], [4, 5], [6, 7]]

c = []
for (aa,bb), (cc,dd) in zip(a,b): # 이런식으로 한 번에.
    c.append([aa*cc,bb*dd])
    
c

[[20, 60], [120, 200], [300, 420]]

In [None]:
# 만약 합치는 sequece의 elements 개수가 다르다면 가장 작은걸 기준으로 만들어짐
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('a1', 'b1', False), ('a2', 'b2', True)]

실제 사용할 때는 아래와 같이 seq를 zip(*seq)형태로 전달해서 사용할듯.   
이렇게 넣어주면 list를 unpacking해서 함수에 전달해줌   
https://mingrammer.com/understanding-the-asterisk-of-python/

In [None]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
            ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers) # list unpacking하여 넣기. zip(('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt'))와 동일
first_names
last_names

('Nolan', 'Roger', 'Schilling')

('Ryan', 'Clemens', 'Curt')

실제 활용

In [None]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: a1, b1
1: a2, b2
2: a3, b3


In [None]:
# dict 생성
d3 = dict(zip(['health', 'mana'], [10, 20]))  
d3

{'health': 10, 'mana': 20}

### List: mutable sequence(assign, Adding,removing,sorting elements)

* 변하게 하는거니 당연히 list에만 해당(파이썬에서 mutable한 
* 모두 l.function() 하면 l 자체가 변하게 되는 함수 (앞 sorted, revered와 비교)
* pop 말고는 따로 리턴 안함

#### Assign(할당)

##### 내부 element에 할당( 당연히 list만 가능!)

In [None]:
l = [1,2,3]
l[2] = 4
l

[1, 2, 4]

##### 슬라이싱으로 요소 할당하기(당연히 list만 됨)

In [None]:
seq1 = [1, 2, 3, 4, 5]
seq2 = [1, 2, 3, 4, 5]
seq1[3:5] = ['a', 'b'] # 각각 한 번에 바꾸기. len그대로
print(seq1)
seq2[1:1] = ['a', 'b'] # 갯수 안맞게 넣으면 끼워넣기처럼 작동
print(seq2)

[1, 2, 3, 'a', 'b']
[1, 'a', 'b', 3, 4, 5]


In [None]:
seq1 = [1, 2, 3, 4, 5]
seq1[1:5:2] = ['a', 'b'] 
print(seq1)

# 이건 딱 갯수 맞아야 함. seq1[1:5:4] = ['a', 'b']는 오류

[1, 'a', 3, 'b', 5]


If an object inside a tuple is mutable, such as a list, you can modify it in-place:

In [None]:
t = ('foo', [1, 2], True)
t[1].append(3)
t

('foo', [1, 2, 3], True)

#### 요소 추가/삽입하기: append/insert, extend, +알파(deque, bisect)

In [None]:
l1 = ['a', 'b', 'c']

l1.append('d') #끝에 추가 = l1.insert(len(l1), 'd')
print(l1)
l1.insert(1, 'e') #특정 위치에 삽입
print(l1)
l1.extend([4,5]) #리스트 확장. 리스트만 인자로 가질 수 있음. append와 구분하기
l1[1:1] = [500, 600] #slice 활용! 중간에 여러개 넣고 싶을때.
l1[len(l1):] = [500, 600] # l1[len(l1)]는 index out of range
print(l1)
# insert는 append보다 computationally expensive함. insert로 추가한 값 위치 이후의 원소들 전체가 자리를 하나씩 옮겨야 하기 때문이다. 

['a', 'b', 'c', 'd']
['a', 'e', 'b', 'c', 'd']
['a', 500, 600, 'e', 'b', 'c', 'd', 4, 5, 500, 600]


In [None]:
# 순차 자료형의 시작과 끝지점에 원소를 추가/삭제하고 싶다면 양방향 큐인 collections.deque를 사용하자
from collections import deque    # collections 모듈에서 deque를 가져옴
a = deque([10, 20, 30]) ; print(a)
a.append(500) ; print(a)    # 덱의 오른쪽에 500 추가
a.popleft() ; print(a)     # 덱의 왼쪽 요소 하나 삭제

deque([10, 20, 30])
deque([10, 20, 30, 500])
deque([20, 30, 500])


(sorted list라고 가정하고) 특정 숫자가 어느자리로 들어가야하는지 Binary search방식으로 찾아주는 함수
* `bisect`는 자리 찾아주고, `insort`는 실제로 삽입

In [None]:
import bisect
sl = [1, 2, 2, 3, 4]
ul = [1, 2, 2, 3, 2]

i = bisect.bisect(sl, 2) #같은것 있으면 맨 뒷자리 반환
bisect.insort(sl, 6)
bisect.insort(ul, 2) #정렬 안되어있으면 error 안나도  binary search 알고리즘에 따라 이상한 결과 리턴할수 있으니 주의

print(i,sl,ul, sep='\n')

3
[1, 2, 2, 3, 4, 6]
[1, 2, 2, 3, 2, 2]


#### 요소 삭제하기: pop, remove, del+slicing

- 모두 특정 원소 삭제 후, list index를 재조정해줌. 반면 slicing은 원본은 그대로 두고 새로운 list를 리턴해주는것
- l.pop()과 del l[]은 index로, l.remove()는 value로
- pop만 삭제한 요소 리턴해줌
- del은 list indexing으로 표현하니, 다양하게 삭제 범위 지정 가능
- 만약 해당 값이 없다면 모두 오류 발생시킴
- 속도는 del > pop(), remove()> slicing 순임

In [None]:
l = ['a', 'b','a', 'c', 'd', 'a']

a = l.pop(); print(l) # 기본적으로 마지막 요소 삭제
a = l.pop(1); print(l) # removes and returns by index
del l[1]; print(l)
l.remove('a'); print(l) # removes by value (no return)

print(a)

#remove는 0부터 탐색해서 제거함(pop은 index로 처리하니 앞에서 부터라는 개념이 없지만...)

['a', 'b', 'a', 'c', 'd']
['a', 'a', 'c', 'd']
['a', 'c', 'd']
['c', 'd']
b


In [None]:
l = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
del l[0:3]; print(l)

l = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
del l[2:8:2]; print(l) 

[4, 5, 6, 7, 8, 9, 10]
[1, 2, 4, 6, 8, 9, 10]


#### 요소 정렬하기,뒤집기: sort, reverse
* 정렬 기준값이 같으면 처음 순서에 따라

In [None]:
l1 = [7, 2, 5, 1, 3]
l2 = ['a', 'cc', 'bbb']
l1.sort(); l2.sort() 
print( l1,l2 )

l2.sort(key=len) #길이로 정렬
print( l2 )

l2.reverse()
print( l2 )

[1, 2, 3, 5, 7] ['a', 'bbb', 'cc']
['a', 'cc', 'bbb']
['bbb', 'cc', 'a']


l.sort()/l.reverse()와 sorted(), reversed() 비교
- 전자는 list만 가능. 후자는 seq 모두 가능
- 전자는 지정된 list를 바꿔놓음. 후자는 인자로 넣은 seq를 새로운 리스트로 만들어 리턴해줌

## Dictionary: MutableMapping

- flexibly sized collection of key-value pairs. hash map or associative array라고도 볼 수 있음
- key를 통해 접근한다는 특성 때문에, key가 없을 때/있을 때를 위한 .get(), .setdefault()와 같은 함수를 이용

### 선언하기 :  {키1: 값1, 키2: 값2}

In [None]:
d1 = {'health': 10, 'mana': 20}  # {'key':value}
d2 = dict(health=10, mana=20)    # dict(key=value) 
d3 = dict([('health', 10), ('mana', 20)])
print(d1, d2, d3, sep='\n')

{'health': 10, 'mana': 20}
{'health': 10, 'mana': 20}
{'health': 10, 'mana': 20}


In [None]:
# 빈 dict 선언하기
d4 = { }
d5 = dict() # 위와 동일

In [None]:
# 키가 중복되면 가장 뒤에 있는 값만 저장됨
d = {'a': 1, 'b': 2, 'c': 3, 'a': 4}
print(d)

{'a': 4, 'b': 2, 'c': 3}


#### Creating dicts from sequences

In [None]:
dict(zip(['health', 'mana'], [10, 20]))    # zip 함수로 키 리스트와 값 리스트를 묶음
dict.fromkeys(['health', 'mana'], 100) # 모두 동일한 value로 dict 생성

{'health': 10, 'mana': 20}

{'health': 100, 'mana': 100}

#### key로 immutable type인 str, int, float, bool과 tuple까지 사용가능함
mutable인  list, set, dict 등은 사용불가

In [None]:
d = {100: 'hundred', False: 0, (1,2): [3.5, 3.5]}

### dict 키/값 반환하기

[파이썬 3.0 이후 버전의 keys 함수, 어떻게 달라졌나?]

파이썬 2.7 버전까지는 a.keys() 함수를 호출할 때 반환 값으로 dict_keys가 아닌 리스트를 돌려준다. 리스트를 돌려주기 위해서는 메모리 낭비가 발생하기에 파이썬 3.0 이후 버전부터는 dict_keys 객체를 돌려준다. 다음에 소개할 dict_values, dict_items 역시 파이썬 3.0 이후 버전에서 추가된 것들이다. 만약 3.0 이후 버전에서 반환 값으로 리스트가 필요한 경우에는 list(a.keys())를 사용하면 된다. dict_keys, dict_values, dict_items 등은 리스트로 변환하지 않더라도 기본적인 반복(iterate) 구문(예: for문)을 실행할 수 있다.

In [None]:
d1 = {'health': 10, 'mana': 20, 'armor':30}

list(d1.keys())  # dict_keys 객체 반환
list(d1.values())  # dict_values 객체 반환

['health', 'mana', 'armor']

[10, 20, 30]

In [None]:
for key, value in d1.items(): #dict_items 형으로 키-값 쌍 반환.
    print(key, value)

health 10
mana 20
armor 30


### 요소 접근/할당/추가하기

#### 기본적으로 d[key] 방식

In [None]:
d1 = {'health': 10, 'mana': 20}
d1['health']=11 # 기존에 있는 key면 값 변경
d1['armor']=30  # 기존에 없는 key면 추가
d1[7] = 'seven' # 이걸 7번째 자리에 값을 넣는다고 착각하지 않도록 주의
d1

#이 외에 setdefault 등의 method를 쓸수 있는데 크게 필요없을듯...
# https://dojang.io/mod/page/view.php?id=2307

{'health': 11, 'mana': 20, 'armor': 30, 7: 'seven'}

#### 여러개 한 번에 추가하기: .update()

In [None]:
d1.update({'b': 'foo', 'c': 12}) # d1+{'b': 'foo', 'c': 12} 는 오류남
d1

{'health': 11, 'mana': 20, 'armor': 30, 7: 'seven', 'b': 'foo', 'c': 12}

#### dict을 이용할 때, 존재하지 않는 키(nokey)로 인한 문제를 고려해야 함

##### 가져오기: get(key, default_value) 사용
이 key가 있다면 value 리턴해주고, 만약 key가 없으면 오류 말고 이 값을 리턴해줘

In [None]:
# d.get(key, default_value) 의미
if key in d:
    value = d[key]
else:
    value = default_value

In [None]:
d = {'name':'pey', 'phone':'0119993323', 'birth': '1118'}
value1 = d.get('key')     # key가 없으므로 None 리턴 
print(value1, d)
value2 = d.get('key', 0)  # key가 없으면, 0을 리턴해 
print(value2, d)

None {'name': 'pey', 'phone': '0119993323', 'birth': '1118'}
0 {'name': 'pey', 'phone': '0119993323', 'birth': '1118'}


##### 추가하기: d.setdefault(key, default_value) 사용
해당 key가 이미 존재한다면 아무것도 하지말고, 없다면 이 key- default_value 넣어줘

In [None]:
# d.setdefault(key, value) 의 의미
if key not in d:
    d[key] = value

# 활용 : d.setdefault(key, []).append(value) 의 의미
if key not in d:
    d[key] = [value]
else:
    d[key].append(value)

In [None]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

##### collections import defaultdict 활용
없는 key로 접근한 경우, 오류발생시키는게 아닌 지정한 defualt값으로 초기화해주는 dict
https://dongdongfather.tistory.com/69

In [None]:
from collections import defaultdict
by_letter = defaultdict(list) # 없는 key로 접근하면 empty list 반환해라
for word in words:
    by_letter[word[0]].append(word)
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

### 요소 삭제하기 : .pop(key), .popitem(), del d[key], .clear()

In [None]:
d1 = {'health': 10, 'mana': 20, 'armor':30}

print( d1.pop('health'), d1) # 지정은 key로, 리턴값은 value. pop이지만 list와 다르게 꼭 인자 넣어줘야함
print( d1.pop('health', None) ) #만약 값이 없으면 오류내지 말고 None을 리턴해라. list pop()에는 없는 기능
print( d1.popitem(), d1)# 마지막 아이템의 키-값쌍을 튜플로 리턴. 인자 없음
del d1['mana'] ; print(d1) #삭제하는 다른 방법

d1 = {'health': 10, 'mana': 20, 'armor':30}
d1.clear()  # 전체 삭제

d1

10 {'mana': 20, 'armor': 30}
None
('armor', 30) {'mana': 20}
{}


{}

## set: MutableSet

### set 특성: MutableSet(NonSequence)이다. 

In [None]:
{1, 2, 3} == {3, 2, 1}

True

 set 자료형에 저장된 값을 인덱싱으로 접근하려면 다음과 같이 리스트나 튜플로 변환한후 해야 한다. 즉 set[] 방식으로 접근못함


set은 immutable type(hashable)만 element로 가질 수 있음. 

In [None]:
# 아래 다 오류남
{[1, 2], 3, 4, 5}
{{1, 2}, 3, 4, 5}

#반면 tuple은 아래도 가능
t = ('foo', [1, 2], True)

변경불가능한 set 만들고 싶다면 frozenset 이용

In [None]:
frozenset(range(10)) # 변경불가능한 set

frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})

### 요소 추가, 삭제: `add()`, `discrd()`

In [None]:
s = {3, 2, 1}
s.add(4)
s.discard(3)
s.discard(5)  # 해당 element가 없어도 오류 발생 안시키는게 remove와 다른 점
s

{1, 2, 4}

### 집합 연산

In [None]:
a = {1, 2, 3,4}
b = {2, 3, 4}

In [None]:
print( a.union(b), a | b )    # a or b는 결과가 다르게 나옴
print( a.intersection(b), a & b ) # a and b는 결과가 다르게 나옴
print( a.difference(b), a - b )
print( a.symmetric_difference(b), a ^ b  ) # either a or b but not both

a # 위와 같이 연산해도 a는 안바뀜... 하려면 아래처럼 대입해줘야함

{1, 2, 3, 4} {1, 2, 3, 4}
{2, 3, 4} {2, 3, 4}
{1} {1}
{1} {1}


{1, 2, 3, 4}

In [None]:
# 아래처럼 대입과 같이 하려면 줄여쓸 수 있음
c = a.copy()
c |= b ; print(c) # c= c|b
d = a.copy()
d &= b ; print(d)

{1, 2, 3, 4}
{2, 3}


##### 포함관계 확인

In [None]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)
a_set.issuperset({1, 2, 3})
a_set.isdisjoint({1, 2, 3}) # if a and b have no elements in common

True

True

False

# DS와 제어문(Control Statement)

## for loops

for loops are for iterating over a collection (list, tuple, dict, set?) or an iterater

기본: for value in collection:, continue, break

In [None]:
for i in [1,2, None]:
    if i is None:
        continue
    for j in range(4):
        if j > i:
            break
        print((i, j))

(1, 0)
(1, 1)
(2, 0)
(2, 1)
(2, 2)


In [None]:
# 실제로 dict에서는 아래처럼 사용
x = {'a': 10, 'b': 20, 'c': 30, 'd': 40}
 
for key, value in x.items(): # 그냥 for i in dict :로 하면 key만 반환됨
    if value == 20:    # 값이 20이면
        x[key]+1     

21

#### range 활용

In [None]:
seq = [1, 2, 3, 4]
for i in range(len(seq)):
    val = seq[i]

In [None]:
count = 0
for i in range(100):
    if i % 3 == 0 or i % 5 == 0:
        count += 1
count

47

#### unpacking 활용(sequences)
- dict은 안됨.(물론 in dict.values()처럼 하면 되지만 이건 리스트를 반환하는거니)

In [None]:
#  iterating over sequences of tuples or lists
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print(f'a={a}, b={b}, c={c}')

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


#### enumerate 활용(sequence)

- 다음과 같이 index of the current item을 하도 많이 쓰니까 enumerate 함수를 만들어둠. 아래 두개는 완전 동일
- set이나 dict도 오류나진 않는데, index값 가져와도 의미가 없으니 사용x


In [None]:
i = 0
l = ['a','b','c']
for value in l:
    print(i, value)
    i += 1

0 a
1 b
2 c


In [None]:
l = ['a','b','c']
for i, value in enumerate(l):
    print(i, value)

0 a
1 b
2 c


In [None]:
for i, value in enumerate(l,1): #출력하는 index값 조정하고 싶을때, index1부터 사용하는게 아님!
    print(i, value)

1 a
2 b
3 c


zip과 결합해서 col->row로 바꿔서 하나씩 실행

In [None]:
seq1 = ['a1', 'a2', 'a3']
seq2 = ['b1', 'b2', 'b3']
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: a1, b1
1: a2, b2
2: a3, b3


## List, Set, and Dict Comprehensions

 - for문, if문 등을 활용하여 리스트 등을 생성하는 방법
     - for문가지고 .append()해서 리스트 생성하는 경우가 많으니 그것의 간편 표현방식
 - for문+if문 등의 결과로 dict나 list를 생성하는 작업을 한다고 하면 사용을 생각해 볼것
     - 결국 map()과 유사한 결과를 리턴?

In [None]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']

my_list = []
for x in strings:
    if len(x) > 2:
        my_list.append(x.upper())

# 위를 아래와 같이 표현할 수 있음
print( [x.upper() for x in strings if len(x) > 2]  )

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [None]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']

print( {len(x) for x in strings}  )
print( [i * j for j in range(2, 4) #2단부터 3ㅠ단까지 구구단
               for i in range(1, 10)]  )

d={'a': 10, 'b': 20, 'c': 30, 'd': 40}
{value: key for key, value in d.items()}  # 키-값 자리를 바꿈
{key: value for key, value in d.items() if value != 20} #값이 20인것 삭제

['BAT', 'CAR', 'DOVE', 'PYTHON']
{1, 2, 3, 4, 6}
[2, 4, 6, 8, 10, 12, 14, 16, 18, 3, 6, 9, 12, 15, 18, 21, 24, 27]


{10: 'a', 20: 'b', 30: 'c', 40: 'd'}

{'a': 10, 'c': 30, 'd': 40}

In [None]:
unique_lengths = set(map(len, strings))
unique_lengths

{1, 2, 3, 4, 6}

In [None]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

### Nested list comprehensions

In [None]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

In [None]:
names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)
names_of_interest

['Steven']

In [None]:
# all_Data > names > name -> for 2 in 3 for 1 in 2
result = [name for names in all_data for name in names
          if name.count('e') >= 2]
result

['Steven']

In [None]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

In [None]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]