# 발표 소단원 리스트

1-3, 1-7, 1-11, 1-15, 1-19, 2-3, 2-7, 2-11, 2-15

# 전체 요약자료

- (1 - 3)  : Limited history를 들고있고 싶으면 collections.deque를 사용합니다.
- (1 - 7)  : Dictionary에서 item들의 순서를 유지하고 싶을때 collections.Orderdict를 사용합니다.
- (1 - 11) : Slice를 객체로 사용할 수 있습니다.
- (1 - 15) : Dictionary나 instance의 sequence를 가지고 있고, 그 데이터를 특정 field의 value 기준으로 묶어서 iterate 하고싶을 떄 itertools.groupby()를 사용합니다.
- (1 - 19) : reduction fuction(e.g., sum(), min(), max())을 쓰고싶은데 먼저 data를 transform 해야 하는 경우, generator expression을 이용해 한방에 해결할 수 있습니다.
- (2 - 3)  : Unix shell에서 쓰던 wildcard pattern으로 text matching 하고 싶을 때 fnmatch와 fnmatchcase를 사용합니다
- (2 - 7)  : regular expression을 사용할 때, logest possible match가 아니라 shortest possible match 찾고싶은 경우 해결 방법
- (2 - 11) : string 앞, 뒤, 또는 중간에 위치한 원치 않는 문자들(이를테면 공백)을 쳐내고 싶을 때 stip() method를 사용합니다
- (2 - 15) : 작성중


### 1-3) Keeping the Last N Items
- Limited history를 들고있고 싶으면 collections.deque를 사용합니다

In [30]:
from collections import deque

In [31]:
q = deque(maxlen=3)

In [32]:
q.append('data')
q.append(1)
q.append('data2')

In [33]:
q

deque(['data', 1, 'data2'])

In [34]:
q.append("new data")

In [35]:
q

deque([1, 'data2', 'new data'])

- deque는 maxlen 인자를 입력받아 최대 maxlen개 까지의 데이터를 큐에 저장할 수 있습니다.
- 새로운 데이터가 들어올 경우 제일 오래된 데이터를 버립니다.

In [36]:
q.pop()

'new data'

In [37]:
q

deque([1, 'data2'])

In [38]:
q.popleft()

1

In [39]:
q

deque(['data2'])

- deque에 maxlen인자를 넘겨주지 않으면 크기가 unbounded 됩니다. 즉, 일반적인 que처럼 쓸 수 있습니다.
- list는 front에 insert하거나 front에서 pop하면 O(N)이지만, deque는 O(1)에 할 수 있습니다.

In [40]:
# input.txt
'''
string1 python
string2
string3
strint4python
string5 string5
python python
qwerasdf
pythonstring6
psyttrhiong7
string8 python
string9 python
string10
string11
string12
string13

'''

'\nstring1 python\nstring2\nstring3\nstrint4python\nstring5 string5\npython python\nqwerasdf\npythonstring6\npsyttrhiong7\nstring8 python\nstring9 python\nstring10\nstring11\nstring12\nstring13\n\n'

In [41]:
from collections import deque

def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
            previous_lines.append(line)# Example use on a file
            
if __name__ == '__main__':
    with open('input.txt') as f:
        for line, prevlines in search(f, 'python', 2):
            for pline in prevlines:
                print(pline, end='')
            print(line, end='')
            print('-'*20)

string1 python
--------------------
string1 python
strint4python
--------------------
string1 python
strint4python
python python
--------------------
strint4python
python python
pythonstring6
--------------------
python python
pythonstring6
string8 python
--------------------
pythonstring6
string8 python
string9 python
--------------------


- search하는 코드와 search result를 이용하는 코드를 분리하기 위해 yield를 포함하는 generator fuction을 사용합니다.

### 1-7) Keeping Dictionaries in Order
- Dictionary에서 item들의 순서를 유지하고 싶을때 collections.Orderdict를 사용합니다.

In [42]:
d = {}

d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4

for item in d:
    print(item)
print(d)

foo
bar
spam
grok
{'foo': 1, 'bar': 2, 'spam': 3, 'grok': 4}


In [43]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4

for key in d:
    print(key, d[key])
print(d)

foo 1
bar 2
spam 3
grok 4
OrderedDict([('foo', 1), ('bar', 2), ('spam', 3), ('grok', 4)])


- OrderedDict는 doubly linked list로 순서를 기억합니다.
- linked list를 가지고 있기 때문에 일반적인 dictionary보다 2배 이상 size가 커집니다.
- 특정 키에 다른 값을 다시 할당하여도 순서는 바뀌지 않습니다.

### 1-11) Naming a Slice
- Slice 할 때 hard coding하지 않고 이름 붙이기!
- Code의 의도와 동작을 보다 명확하게 기술할 수 있습니다.

In [16]:
######    0123456789012345678901234567890123456789012345678901234567890' 
record = '....................100          .......513.25     ..........'
cost = int(record[20:32]) * float(record[40:48])

위 코드에서 slice indice들을 아래와 같이 객체로 만들어 이름붙일 수 있습니다

In [25]:
SHARES = slice(20,32) 
PRICE  = slice(40,48)
cost = int(record[SHARES]) * float(record[PRICE])

In [28]:
items = [0, 1, 2, 3, 4, 5, 6]
body = slice(1,6)
print(items[body])
del items[body]
print(items)

[1, 2, 3, 4, 5]
[0, 6]


slice instance s를 만들면 s.start, s.stop, s.step attribute를 사용할 수 있습니다

In [19]:
ex_slice = slice(10, 50, 2)

In [20]:
ex_slice.start

10

In [23]:
ex_slice.stop

50

In [22]:
ex_slice.step

2

IndexError를 피하기 위해 slice instance s의 indeices(size) method를 사용할 수 있습니다.
이 함수는 (start, stop, step) tuple을 생성해주는데, 이 때 start, stop, step은 모두 size를 bound로 하여
자동으로 값이 fitting 됩니다.

In [47]:
s = "HelloWorld"
a = slice(2, 500)
a.indices(len(s))

(2, 10, 1)

### 1-15) Grouping Records Together Based on a Field
- Dictionary나 instance의 sequence를 가지고 있고, 그 데이터를 특정 field의 value 기준으로 묶어서 iterate 하고싶을 떄 itertools.groupby()를 사용합니다.

In [10]:
from operator import itemgetter 
from itertools import groupby

rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

# Sort by the desired field first
rows.sort(key=itemgetter('date'))
# rows.sort(key=lambda x : x['date'])

# Iterate in groups 
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    print(items)
    for i in items:
        print('    ', i)

07/01/2012
<itertools._grouper object at 0x00DBC4F0>
     {'address': '5412 N CLARK', 'date': '07/01/2012'}
     {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
<itertools._grouper object at 0x00DBC850>
     {'address': '5800 E 58TH', 'date': '07/02/2012'}
     {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
     {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
<itertools._grouper object at 0x00DBCD50>
     {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
<itertools._grouper object at 0x00DBCFB0>
     {'address': '5148 N CLARK', 'date': '07/04/2012'}
     {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


- groupby로 묶기 전에 먼저 sorting 해주어야 합니다. groupby가 연속된 값만 체크하기 때문!
- groupby는 묶어서 'iterate'하고 싶을 때 사용합니다. 그냥 묶기만 하고싶으면 아래와 같이 defaultdict를 사용합니다

In [11]:
from collections import defaultdict 

rows_by_date = defaultdict(list) 
for row in rows:
    rows_by_date[row['date']].append(row)
    
for item in rows_by_date['07/01/2012']:
    print(item)

{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}


groupby()는 메모리를 쓰지 않는 대신 sorting 하는 시간이 추가로 필요하고, defaultdict는 메모리를 쓰는 대신 더 빠르다

### 1-19) Transforming and Reducing Data at the Same Time
- reduction fuction(e.g., sum(), min(), max())을 쓰고싶은데 먼저 data를 transform 해야 하는 경우, 한방에 해결하기!
- generator-expression argument를 사용합니다

In [15]:
nums = [1, 2, 3, 4, 5] 
s = sum(x * x for x in nums)

In [33]:
import os

files = os.listdir('C:\\Users\\dusol\\PythonCookBook\\python_cookbook_study')
if (any(filename.endswith('.ipynb') for filename in files)):
    print("There be ipython")
else:
    print("Sorry, no ipython")

There be ipython


In [38]:
s = ('ACME', 50, 123.45)
print(','.join(str(x) for x in s))

ACME,50,123.45


In [43]:
portfolio = [   
    {'name':'GOOG', 'shares': 50},
    {'name':'YHOO', 'shares': 75},
    {'name':'AOL', 'shares': 20},
    {'name':'SCOX', 'shares': 65}
]
min_share = min(record['shares'] for record in portfolio)
min_share

20

Generator expression의 효율성과 아름다움

In [10]:
nums = [1, 2, 3, 4, 5] 

s = sum((x * x for x in nums))    # Pass generator-expr as argument 
s = sum(x * x for x in nums)      # More elegant syntax, pass generator
s = sum([x * x for x in nums])    # this creates extra list

Generator? generator function? generator expression?

- min()이나 max()같은 특정 함수들은 key argument를 이용하면 상황에 맞게 다른 object를 리턴받도록 할 수 있습니다.

In [12]:
portfolio = [   
    {'name':'GOOG', 'shares': 50},
    {'name':'YHOO', 'shares': 75},
    {'name':'AOL', 'shares': 20},
    {'name':'SCOX', 'shares': 65}
]

# Original: Returns 20 
min_shares = min(s['shares'] for s in portfolio)
print(min_shares)

# Alternative: Returns {'name': 'AOL', 'shares': 20}
min_shares = min(portfolio, key=lambda s: s['shares'])
print(min_shares)

20
{'name': 'AOL', 'shares': 20}


### 2-3) Matching String Using Shell Wildcard Patterns
- Unix shell에서 쓰던 wildcard pattern으로 text matching 하고 싶을 때!
- fnmatch()와 fnmatchcase()를 사용합니다

In [9]:
from fnmatch import fnmatch, fnmatchcase

fnmatch('foo.txt', '*.txt')

True

In [14]:
fnmatch('foo.txt', '?oo.txt')

True

In [15]:
fnmatch('Dat45.csv', 'Dat[0-9]*')

True

In [16]:
names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']
[name for name in names if fnmatch(name, 'Dat[0-9]*.csv')]

['Dat1.csv', 'Dat2.csv']

- regular expression에서 '?'는 정확히 한 개 문자 매칭만을, '*'은 (0 or more character)에 대한 매칭을 의미합니다

In [18]:
fnmatch('foo.txt', '*.TXT')

True

In [19]:
fnmatchcase('foo.txt', '*.TXT')

False

- fnmatch는 filesystem 아래단에서 동작하는 pattern matching rule과 같은 rule을 사용하기 때문에, 실행하는 OS마다 달라질 수 있습니다.
- 따라서 OS마다 동작이 달라지게 하고싶지 않으면 lower- and upper case conventions에 맞게 동작하도록 fnmatchcase를 사용합니다. 

Filename matching 뿐만 아니라 data processing에서도 요긴하게 써먹을수 있습니다

In [28]:
from fnmatch import fnmatchcase

addresses = [    
    '5412 N CLARK ST',
    '1060 W ADDISON ST',
    '1039 W GRANVILLE AVE',
    '2122 N CLARK ST',
    '4802 N BROADWAY',
] 

print([addr for addr in addresses if fnmatchcase(addr, '* ST')])
print([addr for addr in addresses if fnmatchcase(addr, '10[0-9]* W *')])

['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST']
['1060 W ADDISON ST', '1039 W GRANVILLE AVE']


- fnmatch를 이용한 matching은 단순한 string methods와 완전 regular expression을 쓰는 것의 중간어디쯤 있습니다.
-  data processing operation에 사용하면 좋은 solution이 될 수 있습니다.
- 파일 이름을 매칭시키는 코드를 작성하고 싶으면 glob module(5.13)을 쓰는 것이 더 적합합니다.

### 2-7) Specifying a Regular Expression for the Shortest Match
- regular expression을 사용할 때, logest possible match가 아니라 shortest possible match 찾고싶은 경우!

- 보통 시작과 끝을 구분하는 구분 기호 쌍을 매치할 때 자주 일어나는 문제입니다. 아래 구체적인 예시를 참고하세요

In [94]:
import re

str_pat = re.compile(r'\"(.*)\"')
text1 = 'Computer says "no."'
print(str_pat.findall(text1))

text2 = 'Computer says "no." Phone says "yes."'
print(str_pat.findall(text2))

['no.']
['no." Phone says "yes.']


- re.compile : 인자로 넘겨받은 정규표현식을 컴파일하고, 컴파일 된 패턴객체를 리턴합니다.
(참고 : https://wikidocs.net/4308)
- ' * ' : 0 or more
- ' . ' : any single character

위의 상황에서 text2를 컴파일 하는 경우 큰따옴표 사이에 있는 'no'와 'yes'만을 뽑아내고 싶은 것! 하지만 regular expression 안의 * operator가 넘모 greedy 하기 때문에 longest possible match를 찾아버리고 맙니다. 그래서 그럴 때에는 다음과 같이 * operator 뒤에 '?'를 붙여서 씁니다. 그러면 ?가 *의 greedy함을 제어해주는 역할을 함!

In [95]:
str_pat = re.compile(r'\"(.*?)\"')
str_pat.findall(text2) 

['no.', 'yes.']

### 2-11) Stripping Unwanted Characters from strings
- string 앞, 뒤, 또는 중간에 위치한 원치 않는 문자들(이를테면 공백)을 쳐내고 싶을 때 stip() method를 사용합니다

In [1]:
# Whitespace stripping 
s = '   hello world  \n'
print(s.strip())
print(s.lstrip())
print(s.rstrip())

hello world
hello world  

   hello world


- lstrip 또는 rstrip으로 왼쪽 오른쪽 골라서 쳐낼 수 있습니다.
- 인자에 아무것도 안들어가면 whitespace가 default, 들어가면 들어간 문자 기준으로!

In [2]:
t = '-----hello=====' 
print(t.lstrip('-'))
print(t.strip('-='))

hello=====
hello


- 다양한 strip 함수들은 data를 읽기 좋게 만들고, 또 나중에 processing 하기 전에 cleaning up 하기 위해서 쓰입니다.
- strip은 문자열 중간에 있는 무언가를 쳐내지는 못하는데, 이 때는 replace나 regular expression의 substitution을 사용해야 합니다.

In [3]:
import re

s = '  hello       world   \n'
print(s.replace(' ', ''))
print(re.sub('\s+', ' ', s))

helloworld

 hello world 


- 파일 읽기와 같이 반복적으로 무언가를 불러오는 작업을 할 때 strip operation을 combine할 수 있습니다.
- 이 때 generator expression을 사용하면 유용할수도!

In [6]:
# 아래 코드는 예시 코드일 뿐, 동작하지는 않습니다
'''

with open(filename) as f:
    lines = (line.strip() for line in f)
    for line in lines:
        ...

'''

'\n\nwith open(filename) as f:\n    lines = (line.strip() for line in f)\n    for line in lines:\n        ...\n\n'

### 2-15) Interpolating Variables in Strings
- 