# 2장 파이썬 속성 강좌 
## 2.1 기본기 다지기
### 2.1.1 파이썬 설치하기
책의 내용은 python2.7 기준으로 작성됨.
python3를 사용하여도 무방함.

### 2.1.2 The Zen of Python
> 무엇을 하든 그것을 할 수 있는 하나의, 가급적이면 단 하나의 당연한 방법이 존재해야 한다.

여기서 **당연한** 방식으로 쓰여진 코드를 **파이썬스럽다(Pythonic)**고 한다.

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


### 2.1.3 들여쓰기
* 코드의 단락을 구분하는 데 중괄호(curly braces, {}) 대신 들여쓰기를 사용한다.
* 공백문자는 소괄호(parentheses, ())와 대괄호(brackets, [])안에서는 무시된다. 
    * 여러줄에 걸쳐 보기 좋게 expression을 작성할 경우 소괄호/ 대괄호로 expression을 묶거나 backslash 후 개행을 활용한다.

In [10]:
prefix = "    "
for i in [1, 2, 3, 4, 5]:
    print(i)
    for j in [1, 2, 3, 4, 5]:
        print(prefix + "[" + str(j) + "] " + str(i + j))
print("done looping")

1
    [1] 2
    [2] 3
    [3] 4
    [4] 5
    [5] 6
2
    [1] 3
    [2] 4
    [3] 5
    [4] 6
    [5] 7
3
    [1] 4
    [2] 5
    [3] 6
    [4] 7
    [5] 8
4
    [1] 5
    [2] 6
    [3] 7
    [4] 8
    [5] 9
5
    [1] 6
    [2] 7
    [3] 8
    [4] 9
    [5] 10
done looping


In [14]:
# 코드의 가독성을 높이기 위해
long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 
                           13 + 14 + 15 + 16 + 17 + 18 + 19 + 20)

list_of_lists = [[1, 2, 3], 
                 [4, 5, 6], 
                 [7, 8, 9]]

two_plus_three = 2 + \
                 3

# 빈 줄로 인한 오류 - python shell에서만 발생되는 문제. 지금도 그런가? - 잘되네요. -0-;
for i in [1, 2, 3, 4, 5]:
    
    # 빈 줄이 있다는 것을 확인
    print(i)

1
2
3
4
5


### 2.1.4 모듈

* 기본 모듈과 3rd party packages 사용을 위해 ```import```를 사용해야한다.
* 이름이 겹치거나 반복 타이핑을 용이하게 하기 위해 별칭(alias)를 사용할 수 있다.
* `from 모듈 import 기능[들]` 과 같이 필요한 기능만 불러올 수 있다.

In [21]:
# 정규표현식 사용을 위한 import
# import re as regex  #alias 사용
import re
print(match)
my_regex = re.compile("[0-9]+", re.I)
my_regex

<function match at 0x101cbe378>


re.compile(r'[0-9]+', re.IGNORECASE|re.UNICODE)

In [18]:
# 모듈에서 특정 기능만 명시해서 불러올 수 있다
from collections import defaultdict, Counter
lookup = defaultdict(int)
my_counter = Counter()
lookup
#my_counter
#defaultdict

defaultdict(int, {})

* `import X`
    * X 모듈을 현재의 namespace에 추가
    * `X.foo()` 와 같이 사용
    * X라는 이름의 충돌만 없다면 문제없음
* `from X import foo`
    * X 모듈의 foo를 현재의 namespace에 추가
    * `foo()` 와 같이 사용
    * foo라는 이름의 충돌만 없다면 문제없음
* `from X import *`
    * X 모듈에 정의된 모든 것을 현재의 namespace에 추가
    * `foo()` 와 같이 사용
    * 이름 충돌 발생할 가능성이 매우 높으며, 피해야하는 방법

In [20]:
# import가 기존 변수를 덮어쓸 수 있다. 피해야하는 사용법
match = 10
from re import *
print(match)

<function match at 0x101cbe378>


### 2.1.6 함수
```def```를 이용하여 함수를 정의함.

In [22]:
def double(x):
    """함수에 대한 설명"""
    return x * 2

In [23]:
double?

In [24]:
double("test") # 타입체킹 여부 확인 실패 -0-;

'testtest'

In [25]:
double() # TypeError 발생

TypeError: double() missing 1 required positional argument: 'x'

python의 함수들은 변수로 할당되거나 함수의 인자로 전달할 수 있다는 점에서 일급 함수(first-class)의 특성을 가진다.

In [8]:
def apply_to_one(f):
    """인자가 1인 함수 f를 호출"""
    return f(1)

my_double = double
x = apply_to_one(my_double)
x

2

In [9]:
# 짧은 익명의 람다 함수도 간편하게 만들 수 있다.
y = apply_to_one(lambda x: x + 4)
y

5

변수에 람다 함수를 담을 수도 있다. 그러나...
1. `def another_double(x): return 2 * x`
2. `another_double = lambda x: 2 * x       # 이 방법은 최대한 피하도록 하자. 왜???`

> The first form means that the name of the resulting function object is specifically ‘another_double’ instead of the generic ‘&lt;lambda>’. This is more useful for tracebacks and string representations in general. The use of the assignment statement eliminates the sole benefit a lambda expression can offer over an explicit def statement (i.e. that it can be embedded inside a larger expression)



In [12]:
# 인자에 기본값 할당
def my_print(message="my default message"):
    print(message)

my_print("hello")
my_print()

hello
my default message


In [2]:
# 인자의 이름을 명시해 주면 편리함
def subtract(a=0, b=0):
    return a - b

subtract(10, 5)
subtract(0, 5)
subtract(b=5)

-5

### 2.1.7 문자열
문자열(string)은 작은 따옴표(') 또는 큰 따옴표(")로 묶어 나타낸다. 

In [4]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

In [6]:
# 일부 특수 문자를 인코딩할 때 역슬래시를 사용
tab_string = "\t"
len(tab_string)   #1

1

In [7]:
# 만약 역슬래시를 역스래시로 보이는 문자로 사용하고 싶다면 
# (특히 윈도우 디렉터리 이름이나 정규표현식에서 사용하고 싶을 때) 
# 문자열 앞에 r을 붙여 raw string이라고 명시하면 된다.
not_tab_string = r"\t"
len(not_tab_string)     #2

2

In [10]:
# 세 개의 따옴표를 사용하면 하나의 문자열을 여러 줄로 나눠서 나타낼 수 있다.
multi_line_string = """This is the first line.
    and this is the second line
    and this is third line"""
print(multi_line_string)

This is the first line.
    and this is the second line
    and this is third line


### 또 2.1.7 예외 처리
코드가 뭔가 잘못되었을 때 파이썬을 예외(exception)를 발생시킨다.   
예외를 제대로 처리해 주지 않으면 프로그램이 죽는데, 이를 방지하기 위해 사용할 수 있는 것이 `try`와 `except`이다.

In [11]:
try:
    print(0 / 0)
except ZeroDivisionError:
    print("cannot divide by zero")

cannot divide by zero


많은 프로그래밍 언어에서 예외 처리는 나쁜 것이라고 받아들여지지만(??? 금시초문)  
파이썬에서는 코드를 깔끔하게 작성하기 위해서라면 얼마든지 사용된다.

### 2.1.8 list
- 파이썬의 가장 기봊적인 데이터 구조
- ordered collection (like array in other language)

In [15]:
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [ integer_list, heterogeneous_list, [] ]

list_length = len(integer_list)
print(list_length)
list_sum = sum(integer_list)
print(list_sum)

3
6


Python3에서 range는 list와 다르게 동작함.
* 아래 예제와 같이 `x[0] = -1`과 같이 assign이 동작하지 않음
* 따라서 list로 변환해줘야 함.
>The advantage of the range type over a regular list or tuple is that a range object will always take the same (small) amount of memory, no matter the size of the range it represents (as it only stores the start, stop and step values, calculating individual items and subranges as needed).

In [10]:
x = list(range(10)) # [0, 1, ..., 9] 형태의 list
zero = x[0]   
one = x[1]    
nine = x[-1]  
eight = x[-2]  
x[0] = -1
print("zero:", zero, ", one:", one, ", nine:", nine, ", eight:", eight)
print("x   :", x)
print()

first_three = x[:3]
three_to_end = x[3:]
one_to_four = x[1:5]
last_three = x[-3:]
without_first_and_last=x[1:-1]
copy_of_x = x[:]
print("first_three           :", first_three)
print("three_to_end          :", three_to_end)
print("one_to_four           :", one_to_four)
print("last_three            :", last_three)
print("without_first_and_last:", without_first_and_last)
print("copy_of_x             :", copy_of_x)

zero: 0 , one: 1 , nine: 9 , eight: 8
x   : [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]

first_three           : [-1, 1, 2]
three_to_end          : [3, 4, 5, 6, 7, 8, 9]
one_to_four           : [1, 2, 3, 4]
last_three            : [7, 8, 9]
without_first_and_last: [1, 2, 3, 4, 5, 6, 7, 8]
copy_of_x             : [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [17]:
# `in` 연산자 :  list안에 항목의 존재 여부를 확인
# O(N) - 모든 항목을 순회
print(1 in [1, 2, 3])
print(0 in [1, 2, 3])

True
False


In [19]:
x = [1, 2, 3]
x.extend([4, 5, 6])
print(x)
y = x + [4, 5, 6] # x 수정없이 

[1, 2, 3, 4, 5, 6]


In [20]:
x = [1, 2, 3]
x.append(0)
y = x[-1]
print(y)
z= len(x)
print(z)

0
4


In [11]:
# 리스트에 항목이 몇 개있는지 알고 있다면 unpack 사용 가능
x, y = [1, 2]  
# 하지만 양쪽 항목의 개수가 다르다면 ValueError 발생
_, y = [1, 2]
# 위와 같이 사용하지 않는 변수 생략가능
try:
    _, _, z = [1, 2]
except ValueError:
    print("ValueError occurred")


ValueError occurred


### 2.1.9 tuple
* **tuple은 변경할 수 없는 list**임.
* tuple은 대괄호 대신 괄호를 사용해서 (혹은 아무런 기호 없이) 정의한다.

In [15]:
my_list = [1, 2]
my_tuple = (1, 2)
other_tuple = 3, 4
my_list[1] = 3
print("my_list:", my_list)

try:
    my_tuple[1] = 3
except TypeError:
    print("cannot modify a tuple")

my_list: [1, 3]
cannot modify a tuple


In [16]:
# 함수에서 여러 값을 반환할 때 tuple을 사용
def sum_and_product(x, y):
    return (x + y), (x * y)
sp = sum_and_product(2, 3)
s, p = sum_and_product(5, 10)
print(sp, s, p)

(5, 6) 15 50


In [17]:
# tuple과 list는 다중 할당(multiple assignment)을 지원
x, y = 1, 2
x, y = y, x     # 가장 파이썬스럽게 swap
print("x:", x, ", y:", y)

x: 2 , y: 1


### 2.1.10 dict
* dictionary는 unique한 key값에 연결되 value를 담는 container
* dict의 key는 수정할 수 없음
* list를 key로 사용할 수 없음
    * 만약 다양한 값으로 구성된 key가 필요하다면 tuple이나 문자열을 key로 사용


In [18]:
empty_dict = {}        # 가장 파이썬스럽게 dict 만드는 방법
empty_dict = dict()    # 덜 파이썬스럽게 dict를 만드는 방법
grades = { "Joel" : 80, "Tim" : 95 }
joels_grade = grades["Joel"]
print(joels_grade)

# dict에 존재하지 않는 key를 입력하면 KeyError발생
try:
    kates_grade = grades["Kate"]
except KeyError:
    print("no grade for Kate!")


80
no grade for Kate!


In [20]:
# 연산자 `in`을 사용하면 key의 존재 여부를 확인할 수 있음
joel_has_grade = "Joel" in grades   
kate_has_grade = "Kate" in grades
print(joel_has_grade, kate_has_grade)

# `get` 메서드를 사용하면 입력한 key가 dict에 없어도 에러를 반환하지 않고 기본값을 반환해 줌
joels_grade = grades.get("Joel", 0)
kates_grade = grades.get("Kate", 0)
no_ones_grade = grades.get("No One")  # 없을 때의 default 값은 None
print(joels_grade, kates_grade, no_ones_grade)

True False
80 0 None


#### defaultdict
* 존재하지 않은 key의 value를 조회 시, 자동으로 기본 value을 해당 key값에 추가해줌
* 자동으로 추가되는 기본값은 defaultdict 생성 시 인자로 넘어가는 default_factory

In [22]:
# 1. 단어 수를 세는 방법 : 키값 존재 여부 확인
document = ""
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

# 2. 예외 활용
word_counts = {}
for word in document:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1

# 3. get 사용
word_counts = {}
for word in document:
    previous_count = word_count.get(word, 0)
    word_counts[word] = previous_count + 1

In [24]:
# defaultdict 사용
from collections import defaultdict

word_counts = defaultdict(int)   # int()는 0을 생성
for word in document:
    word_counts[word] += 1
    
# list, dict 또는 직접 만든 함수를 인자(default_factory)로 넣을 수 있다.
dd_list = defaultdict(list)
dd_list[2].append(1)
print(dd_list)

dd_dict = defaultdict(dict) 
dd_dict["Joel"]["City"] = "Seattle"
print(dd_dict)

dd_pair = defaultdict(lambda: [0, 0])
dd_pair[2][1] = 1
print(dd_pair)

defaultdict(<class 'list'>, {2: [1]})
defaultdict(<class 'dict'>, {'Joel': {'City': 'Seattle'}})
defaultdict(<function <lambda> at 0x10a3872f0>, {2: [0, 1]})


#### Counter
* Counter는 연속된 값을 `defaultdict(int)`와 유사한 객체로 변환해 주며, key와 value의 빈도를 연결시켜 준다. 
* 히스토그램 그릴 때 유용함

In [26]:
from collections import Counter
c = Counter([0, 1, 2, 0])
print(c)



Counter({0: 2, 1: 1, 2: 1})


In [29]:
document = ""

# 단어 수 셀 때도 유용함.
word_counts = Counter(document)

# Counter 객체에는 유용한 `most_common` 함수가 있음
#  가장 자주 나오는 단어  10개와 이 단어들의 빈도수를 출력
for word, count in word_counts.most_common(10):
    print(word, count)

### 2.1.11 set
집합을 나타내는 컨테이너