# 발표 소단원 리스트

(1, 2)
(1, 6)
(1, 10)
(1, 14)
(1, 18)
(2, 2)
(2, 6)
(2, 10)
(2, 14)

# 전체 요약자료

### collections, itertools 패키지 잘 사용하기!

(1, 2) : [여러개의 변수를 한 번에 받기] : *변수이름 사용

(1, 6) : [key 안에 여러 값 저장하기] : defaultdict 사용

(1, 10) : [순서 유지하면서 중복된 값 제거하기] : 함수 사용

(1, 14) : [객체의 정렬] : key에 lambda식 적용

(1, 18) : [이름으로 접근하기] : collections에 namedtuple 모듈 사용

(2, 2) : [매칭] str.startswith(),str.endswith()

(2, 6) : [대/소문자 무관하게 찾기] flags = re.IGNORECASE 추가 

(2, 10) : [unicode 통일] unicodename

(2, 14) : [문자열 합치기] join,+,yield로 제너레이터 만들기

# 문항별 자료 
- 좀 더 자세한 내용 요약
- 작성한 코드 

### 1-2) unpack elements from iterables into seperate variables[arbitray length]
- useful
- (sol) use star expression

In [None]:
def drop_first_last(grades):
    first,*middle,last = grades
    return avg(middle)

In [6]:
record = ('Dave','dave@example.com','773-555-1212','847-555-1212')
name,email,*phone_numbers = record
print(phone_numbers)

['773-555-1212', '847-555-1212']


In [7]:
*trailing,current = [10,8,7,1,9,5,10,3]
trailing

[10, 8, 7, 1, 9, 5, 10]

In [8]:
current

3

### further version
1. different operation depending on first input
2. 


In [9]:
records = [
    ('foo',1,2),
    ('bar','hello'),
    ('foo',3,4),
]

In [13]:
def do_foo(x,y):
    print('foo',x,y)
    
def do_bar(s):
    print('bar',s)
    
for tag,*args in records:
    if tag=='foo':
        # must attach with star
        do_foo(*args)
    else:
        do_bar(*args) 

foo 1 2
bar hello
foo 3 4


In [14]:
line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
unname,*fields,homedir,sh = line.split(":")
print(sh)

/usr/bin/false


In [15]:
record = ('ACME',50,123.45,(12,18,2012))
name,*_,(*_,year) = record
print(name)
print(year)

ACME
2012


### 1-6) Mapping Keys to multiple values in a dictionary
- (sol) list,set ..
- dict 안에 key에 list 나 set을 매핑

In [50]:
from collections import defaultdict
d = defaultdict(list)

In [52]:
d['a'].append(1)
d['a'].append(2)
d['a'].append(3)

d['b'].append(4)
d['b'].append(5)

In [55]:
d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)

### 다른 방법 -> 비추..

In [62]:
d = {}
d.setdefault('a',[]).append(1)
d.setdefault('a',[]).append(2)
d.setdefault('b',[]).append(4)

In [63]:
d

{'a': [1, 2], 'b': [4]}

### defaultdict을 이용하면 없던 key를 만들어주는 프로세스가 필요 없어짐

In [None]:
## 원래
d = {}
for key,value in pairs:
    if key not in d.keys:
        d[key]=[]
    d[key].append(value)
    
## 개선
d = defaultdict(list)
for key,value in paris:
    ## if문 없어도 됨
    d[key].append(value)

### 1-10) Removing Duplicates from a Sequence while maintaing Order
- (sol) for hashable , non-hashable(dict)
- 그냥 바로 set을 쓰면 원래 순서를 그대로 유지 안 할 수도 있음!!

##### hashable

In [90]:
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item # for iterables
            seen.add(item)

In [92]:
a = [1,5,2,1,9,1,5,10]
list(dedupe(a))

[1, 5, 2, 9, 10]

##### non-hashable

In [93]:
def dedupe(items,key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item) # item을 key operator에 전달해서 나온 값 사용
        if val not in seen:
            yield item
            seen.add(val)

In [94]:
a = [ 
    {'x': 2, 'y': 3},
    {'x': 1, 'y': 4},
    {'x': 2, 'y': 3},
    {'x': 2, 'y': 3},
    {'x': 10, 'y': 15}
]

In [95]:
list(dedupe(a,key = lambda d : (d['x'],d['y']))) # x,y 다 같은거 지움

[{'x': 2, 'y': 3}, {'x': 1, 'y': 4}, {'x': 10, 'y': 15}]

In [96]:
list(dedupe(a,key = lambda d : (d['x']))) # x만 같은거 지움

[{'x': 2, 'y': 3}, {'x': 1, 'y': 4}, {'x': 10, 'y': 15}]

### 1-14) Sorting objects without native comparison support
- (sol) using key in "sorted" ft
- (sol2) operator -> attrgetter

In [39]:
## sort new class instance (User)
class User:
    def __init__(self,user_id):
        self.user_id = user_id
    
    def __repr__(self):
        return 'User({})'.format(self.user_id)

In [40]:
users = [User(23),User(3),User(99)]
users

[User(23), User(3), User(99)]

In [41]:
sorted(users,key = lambda s:s.user_id)

[User(3), User(23), User(99)]

In [42]:
from operator import attrgetter
sorted(users,key = attrgetter('user_id'))

[User(3), User(23), User(99)]

In [None]:
sorted(users,key = attrgetter('last_name','first_name'))

In [43]:
min(users,key = attrgetter('user_id'))

User(3)

### 1-18) Mapping names to sequence elements (useful)
- access elements by name !!
- (sol) collections namedtuple

In [82]:
from collections import namedtuple
Subscriber = namedtuple('Subscriber',['addr','joined'])
sub = Subscriber('jonesy@example.com','2012-10-19')

In [84]:
sub.addr

'jonesy@example.com'

In [85]:
len(sub)

2

In [86]:
addr,joined = sub
addr

'jonesy@example.com'

In [87]:
from collections import namedtuple
Stock = namedtuple('Stock',['name','shares','price'])

def compute_cost(records):
    total = 0.
    for rec in records:
        s = Stock(*rec)
        total += s.shares + s.price
    return total

### 그대신 namedtuple은 그 자체에서 수정 안 됨..

In [88]:
s = Stock('ACME',100,123.45)
s
s.shares= 75

AttributeError: can't set attribute

In [89]:
s._replace(shares = 75)

Stock(name='ACME', shares=75, price=123.45)

In [90]:
s

Stock(name='ACME', shares=100, price=123.45)

In [91]:
s = s._replace(shares = 75)
s

Stock(name='ACME', shares=75, price=123.45)

### prototype 만들고 하나씩 넣기..

In [93]:
### from collections import namedtuple

Stock = namedtuple('Stock',['name','shares','price','date','time'])
stock_prototype = Stock('',0,0.0,None,None)

def dict_to_stock(s):
    return stock_prototype._replace(**s)

a = {'name':'ACME','shares':100,'price':123.45}
dict_to_stock(a)

Stock(name='ACME', shares=100, price=123.45, date=None, time=None)

### 근데 대량의 데이터를 다 이런식으로 변경하는 것은 비효율적인 거 같음 -> 8.4에서 __slots__을 사용하는 것을 고려해보라고 함!

### 2-2) Matching text at the start or end of a string
- 파일 확장자, url 확장자 등등을 체크
- (sol) str.startswith(),str.endswith()


In [10]:
filename = 'spam.txt'
filename.endswith('txt')

True

In [11]:
filename.startswith('file:')

False

In [12]:
url = 'http://www.python.org'
url.startswith('http://')

True

In [16]:
import os
#filenames = os.listdir()
filenames = ['Makefile','foo.c','bar.py','spam.c','spam.h']
[name for name in filenames if name.endswith(('.c','.h'))] ## use tuple inputs!!

['foo.c', 'spam.c', 'spam.h']

In [28]:
any(list(name.endswith('.py') for name in filenames))

True

In [29]:
from urllib.request import urlopen

def read_data(name):
    if name.startswith(('http:','https:','ftp:')):
        return urlopen(name).read()
    else:
        with open(name) as f:
            return f.read()

In [30]:
choices = ['http:','ftp:']
url = 'http://www.python.org'
url.startwith(choices) # error occurs as input is list!!

AttributeError: 'str' object has no attribute 'startwith'

In [31]:
url.startswith(tuple(choices))

True

### using re to extract

In [44]:
import re
url = 'http://www.python.org'
re.match('http:|https:|ftp:',url)

<_sre.SRE_Match object; span=(0, 5), match='http:'>

### 2-6) Searching and Replacing Case-Insensitive Text
- case-insensitive : 대/소문자에 둔감한
- (sol) re.IGNORECASE 옵션 사용

In [88]:
text = 'UPPER PYTHON, lower python, Mixed Python'
re.findall('python',text,flags=re.IGNORECASE)

['PYTHON', 'python', 'Python']

In [90]:
re.sub('python','snake',text,flags=re.IGNORECASE)

'UPPER snake, lower snake, Mixed snake'

##### 위의 경우 원래의 대/소문자를 유지 못하는 한계가 있음 - 아래 방식으로 극복

In [95]:
## return function
def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper:
            return word.capitalize()
        else:
            return word
    return replace

In [96]:
## 새로운 sub 위치에 callback 함수 (compile된 패턴을 인자로 하는)를 대입!
re.sub('python',matchcase('snake'),text,flags=re.IGNORECASE)

'UPPER SNAKE, lower snake, Mixed Snake'

### 2-10) Working with unicode characters in regular expressions
- hadling unicode characters for regular expression
- (sol) 

In [123]:
## re match almost any unicode digit character
import re
num = re.compile('\d+')
num.match('123')

<_sre.SRE_Match object; span=(0, 3), match='123'>

In [134]:
num.match('\u06661\u06662\u06663')

<_sre.SRE_Match object; span=(0, 6), match='٦1٦2٦3'>

In [138]:
## match arabic code pages 
arabic = re.compile('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+')

In [160]:
num.match('\u0611')

In [158]:
arabic.match('\u0611')

<_sre.SRE_Match object; span=(0, 1), match='ؑ'>

In [152]:
arabic.match('\u08ff')

<_sre.SRE_Match object; span=(0, 1), match='ࣿ'>

### 그러므로 matching과 searching 전에 normalize 작업 먼저하기 추천!!
- 하지만 unicode에서 upper를 쓰는 경우, 문자가 바뀌는 문제가 발생함을 주의

In [163]:
pat = re.compile('stra\u00dfe',re.IGNORECASE)
s = 'straße'
pat.match(s)

<_sre.SRE_Match object; span=(0, 6), match='straße'>

In [164]:
pat.match(s.upper())

In [165]:
s.upper()

'STRASSE'

### 2-14) Combining and Concatenating Strings
- (sol)
    1. join
    2. +
    3. yield -> genertor 생성

In [43]:
parts = ['Is','Chicago','Not','Chicago?']
' '.join(parts)

'Is Chicago Not Chicago?'

In [44]:
','.join(parts) ## join되는 다양한 객체(리스트,튜플,딕셔너리,셋,제너레이터,파일 등등)에 모두 적용하기 위해, seperator str에 join을 적용!!

'Is,Chicago,Not,Chicago?'

In [45]:
a = 'Is Chicago'
b = 'Not Chicago?'
a + ' ' + b

'Is Chicago Not Chicago?'

In [46]:
print('{} {}'.format(a,b))

Is Chicago Not Chicago?


In [47]:
'Hello' 'World' # 그냥 떨어뜨려 쓰면 알아서 + 안써도 붙여짐... 

'HelloWorld'

### + 방식은 메모리 복사와 gc가 많이 일어나서 비효율적임! 
- + 나 += 는 매번 새로운 string object를 만들어내기 때문!!

In [48]:
## 1번 대안
data = ['ACME',50,91.1]
','.join(str(s) for s in data)

'ACME,50,91.1'

In [50]:
## 2번 대안
c=' '
print(a,b,c,sep=':')

Is Chicago:Not Chicago?: 


In [None]:
## 파일에 쓸 때도 + 안 쓰고, 따로 써주기
f.write(chunk1+chunk2) # 비추

## 추천
f.write(chunk1)
f.write(chunk2)

In [52]:
## 3번 대안 : writing the code as a generator function (yield)
def sample():
    yield 'Is'
    yield 'Chicago'
    yield 'Not'
    yield 'Chicago?'
    
text = ' '.join(sample())
text

'Is Chicago Not Chicago?'

In [None]:
## 파일에 쓰는 경우!!
for part in sample():
    f.write(part) 

In [53]:
### 
def combine(source,maxsize):
    parts = []
    size = 0
    for part in source:
        parts.append(part)
        size += len(part)
        ## size should not over maxsize!!
        if size > maxsize:
            yield ''.join(parts)
            parts = []
            size = 0
    yield ''.join(parts)

In [54]:
for part in combine(sample(),32768):
    print(part)

IsChicagoNotChicago?


In [None]:
### 2-14) Combining and Concatenating Strings
- (sol)
    1. join
    2. +
    3. 

parts = ['Is','Chicago','Not','Chicago?']
' '.join(parts)

','.join(parts) ## join되는 다양한 객체(리스트,튜플,딕셔너리,셋,제너레이터,파일 등등)에 모두 적용하기 위해, seperator str에 join을 적용!!



a = 'Is Chicago'
b = 'Not Chicago?'
a + ' ' + b

print('{} {}'.format(a,b))



'Hello' 'World' # 그냥 떨어뜨려 쓰면 알아서 + 안써도 붙여짐... 



### + 방식은 메모리 복사와 gc가 많이 일어나서 비효율적임! 
- + 나 += 는 매번 새로운 string object를 만들어내기 때문!!

## 1번 대안
data = ['ACME',50,91.1]
','.join(str(s) for s in data)

## 2번 대안
c=' '
print(a,b,c,sep=':')

## 파일에 쓸 때도 + 안 쓰고, 따로 써주기
f.write(chunk1+chunk2) # 비추

## 추천
f.write(chunk1)
f.write(chunk2)



## 3번 대안 : writing the code as a generator function (yield)
def sample():
    yield 'Is'
    yield 'Chicago'
    yield 'Not'
    yield 'Chicago?'
    
text = ' '.join(sample())
text

## 파일에 쓰는 경우!!
for part in sample():
    f.write(part) 



### 
def combine(source,maxsize):
    parts = []
    size = 0
    for part in source:
        parts.append(part)
        size += len(part)
        ## size should not over maxsize!!
        if size > maxsize:
            yield ''.join(parts)
            parts = []
            size = 0
    yield ''.join(parts)

for part in combine(sample(),32768):
    print(part)