## 1. Byte, str, unicode의 차이점

파이썬3 은 __bytes와 str 두가지 타입__ 으로 문자 시퀀스를 나타낸다.  
이 때 bytes 인스턴스는 raw 8비트 값을 저장하고, str 인스턴스는 유니코드 문자를 생성한다.(단 파이썬2 의 경우는 str 도 8비트 값을 저장한다.)  
유니코드 문자를 바이너리 데이털 표현하는 방법은 많은데, 그 중 가장 일반적인 인코딩 방식이 __UTF-8__ 이다.


조금 더 일반적인 형태의 프로그래밍을 하기 위해서는 입력 문자의 인코딩에 대해서 어떠한 가정도 하지 않는게 좋기 때문에,  
이를 위한 __헬퍼함수__ 를 통해서 __\*TypeError 혹은 UnicodeEncodingError를 방지\*__ 하는 것이 중요하다.


문자 시퀀스를 다룰 때 일반적으로 두가지 상황에 부딪힌다.
- UTF-8(혹은 다른 인코딩)으로 인도크된 문자인 8비트 값을 처리하는 경우
- 인코딩이 없는 유니코드 문자를 처리하는 상황

이 두 경우 사이에서 변환하고 코드에서 원하는 타입과 입력값의 타입이 정확히 일치하게 하려면 __헬퍼 함수 두 개__ 가필요하다.

### 1-1. str | bytes to str

In [3]:
def to_str(bytes_or_str):
    if isinstance(bytes_or_str, bytes):
        value = bytes_or_str.decode('utf-8')
    else:
        value = bytes_or_str
    
    return value

### 1-2. str | bytes to bytes

In [4]:
def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str, str):
        value = bytes_or_str.encode('utf-8')
    else:
        value = bytes_or_str
    
    return value

이 두가지 함수를 통해서 코드에서 원하는 타입과 입력값의 타입이 정확히 일치하게 할 수 있다.

추가적으로 파일을 읽고 쓸 때 유니코드가 아닌 __바이너리 타입의 경우에는 rb, wb의 인자를 활용__ 하여 작성 할 수 있다.

## 2. 복잡한 표현식 대신 헬퍼함수를 작성하자

파이썬의 경우 코드의 간결성으로 인해서 로직은 전부 적어도 그리 길지 않아서 그대로 사용하는 경우가 있는데,  

이 경우 가독성이 떨어짐으로, 어느정도 반복이 이루어지는 작업의 경우 __헬퍼함수로 가독성을 높이는 방법__ 을 선택하는 것이 중요하다.

예) URL의 쿼리 문자열 디코딩

In [7]:
from urllib.parse import parse_qs

my_values = parse_qs('red=5&blue=0&green=', keep_blank_values=True)
print(repr(my_values)) #str과 repr의 차이점은 공식적(repr)인 문자열인지 아닌지(str)를 의미한다.

{'red': ['5'], 'blue': ['0'], 'green': ['']}


In [9]:
#비효율적인 방법1
print('Red:    ', my_values.get('red'))
print('Blue:    ', my_values.get('blue'))
print('Green:    ', my_values.get('green'))
print('Opacity:    ', my_values.get('opacity'))#key value가 없는 경우

Red:     ['5']
Blue:     ['0']
Green:     ['']
Opacity:     None


In [11]:
#비효율적인 방법2
red = my_values.get('red',[''])[0] or 0
blue = my_values.get('blue',[''])[0] or 0
green = my_values.get('green',[''])[0] or 0
opacity = my_values.get('opacity',[''])[0] or 0

print('Red:    %r' % red )
print('Blue:    %r' % blue )
print('Green:    %r' % green)
print('Opacity:    %r' % opacity)#key value가 없는 경우

Red:    '5'
Blue:    '0'
Green:    0
Opacity:    0


효율적인 방법을 위한 헬퍼함수

In [12]:
def get_first_int(values, key, default=0):
    found = values.get(key,[''])
    if found[0]:
        found = int(found[0])
    else:
        found = default
    return found

In [15]:
#헬퍼함수를 재사용함으로서 가독성과 효율성을 높인 방법

red = get_first_int(my_values,'red')
blue = get_first_int(my_values,'blue')
green = get_first_int(my_values,'green')
opacity = get_first_int(my_values,'opacity')

print('Red:    %r' % red )
print('Blue:    %r' % blue )
print('Green:    %r' % green)
print('Opacity:    %r' % opacity)#key value가 없는 경우

Red:    5
Blue:    0
Green:    0
Opacity:    0


## 3. List comprehension과 Generator

리스트 컴프리헨션(list comprehension)은 for 문을 이용한 리스트/딕셔너리 생성을 한줄안에 끝낼 수 있는 방법이다. 이때 기본사용법 뿐 아니라 다중 루프도 지원하고 있다.  

for문을 두개를 사용할 수도 있고, if/else 문도 추가할 수 있다.  

__단 표현식이 두개가 넘어가는 경우 가독이 떨어지므로 피해야한다__  


### 3-1. 다음은 2중 리스트를 flat하게 만드는데 리스트 컴프리헨션을 사용한 경우이다.  



In [17]:
matrix = [[1, 2, 3],[4, 5, 6],[7, 8, 9]]
flat = [x for row in matrix for x in row] #다중 루프는 왼쪽부터 읽어들인다.
print(flat)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


In [18]:
squared = [[x**2 for x in row] for row in matrix]
print(squared)

[[1, 4, 9], [16, 25, 36], [49, 64, 81]]


In [20]:
#다중 루프와 if/else 문을 복합적으로 사용한 경우
filtered = [[x for x in row if x % 3 == 0] for row in matrix if sum(row) >= 10]
print(filtered)

[[6], [9]]


### 3-2. 컴프리헨션이 클 때는 제너레이터(Generator) 표현식을 고려하자.

리스트 컴프리헨션의 문제점은 입력시퀀스에 있는 각값별로 아이템을 하나씩 담은 리스트를 통째로 생성한다는 점이다.  

이는 입력이 적을 때는 괜찮지만, 입력 개수가 많아지면 __메모리를 많이 소모한다는 문제점__ 이 생기고, 이로 인해 프로그램을 망가뜨리는 원인이 되기도 한다.

__제너레이터의 특성__ 은 다음과 같다  
- 제너레이터 표현식은 이터레이터로 한 번에 한 출력만 만드므로 __메모리 문제를 피할 수 있다.__  
- 한 제너레이터 표현식에서 나온 이터레이터를 또 다른 제너레이터의 표현식의 for 서브 표현식으로 넘기는 방식으로 제너레이터 표현식을 조합할 수 있다.
- __제너레이터 표현식은 서로 연결되어 있을 때 매우 빠르게 실행된다.__

In [21]:
# Example 1 파일의 생성
import random
with open('./dataset/my_file.txt', 'w') as f:
    for _ in range(10):
        f.write('a' * random.randint(0, 100))
        f.write('\n')

In [22]:
#List comprehension 예시
value = [len(x) for x in open('./dataset/my_file.txt')]
print(value)

[92, 57, 64, 71, 29, 1, 48, 60, 17, 10]


In [36]:
#Generator 예시
gen = (len(x) for x in open('./dataset/my_file.txt'))
print(gen)

#generator의 값을 불러오는 방법
for x in gen:
    print(x)

<generator object <genexpr> at 0x0000026361E5E6C8>
92
57
64
71
29
1
48
60
17
10


In [37]:
#제너레이터는 한번 사용되면 없어지므로 다시 불러와야한다.
gen = (len(x) for x in open('./dataset/my_file.txt'))

#제너레이터로 또 다른 제너레이터 만들기
roots = ((x,x**0.5) for x in gen)

for x in roots:
    print(x)

(92, 9.591663046625438)
(57, 7.54983443527075)
(64, 8.0)
(71, 8.426149773176359)
(29, 5.385164807134504)
(1, 1.0)
(48, 6.928203230275509)
(60, 7.745966692414834)
(17, 4.123105625617661)
(10, 3.1622776601683795)


## 4. range 보다는 enumerate를 사용하자

내장함수 range는 정수집합을 순회하는 루프를 실행할 때 유용하다.  

허나 자료구조를 순회할 때는 range를 만들고 인덱스를 추출하는 것보다 __enumerate를 사용하는 것이 훨씬 유용할 뿐 아니라 가독성이 좋다.__


In [38]:
#range를 활용한 자료구조의 순회
flavor_list = ['vanillla', 'chocolate', 'pecan', 'strawberry']

for flavor in flavor_list:
    print('%s is delicious' %flavor)
    
for i in range(len(flavor_list)):
    flavor = flavor_list[i]
    print('%d : %s' % (i+1, flavor))

vanillla is delicious
chocolate is delicious
pecan is delicious
strawberry is delicious
1 : vanillla
2 : chocolate
3 : pecan
4 : strawberry


In [40]:
#enumerate를 활용한 자료구조의 순회
for i, flavor in enumerate(flavor_list):
    print('%d : %s' % (i+1, flavor))

1 : vanillla
2 : chocolate
3 : pecan
4 : strawberry


## 5. 이터레이터를 병렬로 처리하려면 zip을 사용하자

내장함수 zip은 여러 이터레이터를 병렬로 순회할 때 사용할 수 있다.

zip은 다음과 같은 특징을 가지고 있다.
- 파이썬3의 zip은 튜플을 생성하는 지연 제너레이터다. 이에 반해 파이썬 2의zip은 전체 결과를 튜플 리스트로 반환한다.
- 길이가 다른 이터레이터를 사용하면, 길이가 가장 짧은 이터레이터의 길이로 반복문이 돌아간다.
- 내장모듈 itertools의 zip_longest 함수를 쓰면 길이에 상관없이 가장 긴 이터레이터에 맞추어 돌아갈 수 있다.

In [41]:
names = ['Cecilia', 'Lise', 'Marie']
letters = [len(x) for x in names]
longest_name = None
max_letters=0

#zip을 사용하지 않는 경우
for i in range(len(names)):
    count = letters[i]
    if count > max_letters:
        longest_name=names[i]
        max_letters = count
print(longest_name)

Cecilia


In [42]:
#zip을 사용하는 경우
for name, count in zip(names, letters):
    if count > max_letters:
        longest_name = name
        max_latters = count
print(longest_name)

Cecilia


## 6. try/except/else/finally 에서 각 블록의 장점을 이용하자

- try : 에러가 발생가능한 코드
- except : 에러 코드
- else : 예외가 발생하지 않으면 실행되는 코드 / 에러가 발생할 수 있다. 특히 이 블록은 __try 블록에 있는 코드 양을 최소__ 로 줄이는데 도움을 주며, 에러여부에 따라 실행되는 코드를 명확히 구분하게 해준다. 또한 __finally 전에 실행되어야 하는 코드__ 를 정리할 수 있다.
- finally : 예외여부에 상관없이 반드시 실행되어야 하는 코드


예를 들어 파일에서 수행할 작업 설명을 읽고 처리한 후, 즉석에서 파일을 업데이트 한다고 하자. 이 때  


__except 블록__ 은 try 블록에서 일어난 예외를 처리하는데 사용한다.  

__else 블록__ 은 파일을 즉석에서 업데이트 하고, 이와 관련한 예외가 전달되게 하는데 사용한다.  

__finally 블록__ 은 파일 핸들을 정리하는데 사용한다.  



In [43]:
UNDEFINED = object()

def divide_json(path):
    handle = open(path,'r+')
    try:
        data = handle.read()
        op = json.loads(data)
        value = ( op['numerator'] / op['denominator'] )
    except ZeroDivisionError as e:
        return UNDEFINED
    else:
        op['result'] = value
        result = json.dumps(op)
        handle.seek(0)
        handle.write(result)
        return value
    finally:
        handle.close()