### List Comprehensions
- A powerful feature of the Python language.
 - original list의 모든 member에 함수를 적용하여, 새로운 list를 generate.
 - list comprehensions은 실제코드에서 많이 보게 된다.
- `[<expression> for <element> in <list>]`
 - `<expression>`은 `<element>`에 대한 계산/연산이다.

In [1]:
li = [3, 6, 2, 7]
[elem*2 for elem in li]

[6, 12, 4, 14]

- Tuple을 이용하여 list comprehensions를 사용할 수 있다.

In [2]:
tu = (1,2,3,4)
[elem*2 for elem in tu]

[2, 4, 6, 8]

In [3]:
# list comprehension을 사용하여 tuple을 생성하고 싶을 때
tuple([elem*2 for elem in tu])

(2, 4, 6, 8)

- `<element>`는 single element뿐만이 아닌, collection이 올 수 있다. 이 경우 list comprehensions 표현식에서 `<element>`는 `<list>`의 개별 원소와 shape이 동일해야 한다.

In [4]:
li = [('a', 1), ('b', 2), ('c', 7)]
# List Comprehensions표현식에서의 (x,n) shape은 li의 개별원소와 shape이 같아야 한다.
print [n*3 for (x, n) in li]
print [x for (x, n) in li]

[3, 6, 21]
['a', 'b', 'c']


### Filtered List Comprehension
- `[<expression> for <element> in <list> if <filter>]`
- `<filter>`는 `<list>`의 각 `<element>`에 대하여 `<expression>`을 수행할지 말지를 결정한다.
 - 각 `<list>`의 각 `<element>`에 대하여, 먼저 `<filter>` 조건을 만족하는지 체크한다.
 - `<filter>` 조건이 False 값을 반환하면, 그 `<element>`는 `<list>`의 list comprehension에서 제외된다.

In [5]:
li = [3, 6, 2, 7, 1, 9]
[elem*2 for elem in li if elem > 4] # filter 조건에 의하여 6, 7, 9 원소만 만족

[12, 14, 18]

### Nested List Comprehensions
- List comprehensions은 list를 input으로 취하고, output으로 list를 반환하기 때문에, nested 형태로 쉽게 만들 수 있다.

In [6]:
li = [3, 2, 4, 1]
# inner list comprehension : [4, 3, 5, 2]
# outer list comprehension : [8, 6, 10, 4]
[elem*2 for elem in [item+1 for item in li]]

[8, 6, 10, 4]

### Iterator in Python
- An iterator is any object with a **`next`** method.
- iterator는 built-in 함수 **`iter`**를 이용하여 생성할 수 있다.

In [7]:
li = [1, 2]
it = iter(li)
it

<listiterator at 0x1045d93d0>

- iterator에서는 **`next()`** 메소드를 이용하여 원소에 접근한다.

In [8]:
it.next()

1

In [9]:
it.next()

2

### Generators
- **`range()`** 함수는 list를 한 번에 생성한다. 만약에 전체가 아닌 list의 일부만 필요할 경우에 list 전체를 생성하여 사용하는 것은 엄청나게 비효율적이며 메모리에 문제가 발생할 수 있다.
- 이런 경우, 필요할 때만 생성하는 것을 생각해 볼 수 있다. (lazy개념)
- function과 **`yield`**를 사용하여 iterator를 정의
- Generator(생성자)는 (주로 for문을 통해서) 반복할 수 있으며, generator의 각 항목은 필요한 순간에 그때그때 생성

In [10]:
# 예제 1
def lazy_reverse(data):
    for i in range(len(data)):
        yield data[len(data)-1-i]

for char in lazy_reverse("spam"):
    print char

m
a
p
s


In [11]:
lazy_reverse("spam").next()

'm'

In [12]:
# 예제 2 : 무한수열을 생성
def natural_numbers():
    """1,2,3...을 반환"""
    n = 1
    while True:
        yield n
        n += 1

for elem in natural_numbers():
    if elem > 10:
        break
    print elem

1
2
3
4
5
6
7
8
9
10


In [13]:
# 예제 3 : Simple Merge sort
def merge(l, r):
    llen, rlen, i, j = len(l), len(r), 0, 0
    while i < llen or j < rlen:
        if j == rlen or (i < llen and l[i] < r[j]):
            yield l[i]
            i += 1
        else:
            yield r[j]
            j += 1

g = merge([2, 4], [1, 3, 5])

while True:
    try:
        print g.next()
    except StopIteration:
        print "Done"
        break

1
2
3
4
5
Done


### List Generators

In [14]:
a = (x * x for x in xrange(5))
a

<generator object <genexpr> at 0x1045e9460>

In [15]:
for elem in a:
    print elem

0
1
4
9
16


### items(), iteritems() of Dictionaries 

In [16]:
dict_1 = {"a" : 1, "b" : 2, "c" : 3}

# dictionary의 모든 원소를 List로 반환
dict_1.items()

[('a', 1), ('c', 3), ('b', 2)]

In [17]:
# Generator를 사용
it = dict_1.iteritems()

while True:
    try:
        print "Elem :", it.next()
    except StopIteration:
        print "Finish"
        break

Elem : ('a', 1)
Elem : ('c', 3)
Elem : ('b', 2)
Elem : Finish


### Import and Modules
- 프로그래밍을 할 때, 다른 파일에서 정의된 클래스나 함수를 사용하는 경우가 많다.
- Python module은 같은 이름을 가진 하나의 Python 파일이다. (.py 확장자)
 - 예를 들어, random 모듈은 random.py 파일이다.
- Module은 많은 클래스와 함수를 그 안에 포함할 수 있다.
- **`import`**를 이용하여 module에 접근한다.
- Module file의 위치
 - **`sys.path`** : Python이 바라보는 file 및 directory의 리스트
 - Python이 시작될 때, 이 변수는 **PYTHONPATH** 환경변수값을 읽어와서 초기화된다.
 - 추가하고 싶을 때는 **`sys.path.append(...path...)`**

### Import
- **`import`** somefile
 - somefile.py안에 있는
     - class에 접근 : `somefile.className.method(args)`
     - method에 접근 : `somefile.myFunction(args)`
- **`from somefile import *`**
 - somefile.py안에 있는
     - class에 접근 : `className.method(args)`
     - method에 접근 : `myFunction(args)`
- **`from somefile import className`**
 - `className`에만 접근가능
 - somefile.py안에 있는
     - `className`이름을 가진 class에 접근 : `className.method(args)`
     - method에 접근 : 불가능

### Counter Class
- List의 항목들을 key로 하고, 항목들의 빈도수를 value로 하는 dictionaries를 반환한다.

In [18]:
from collections import Counter
counts = Counter([0, 1, 2, 3, 2, 1, 1, 0, 0, 5])
counts

Counter({0: 3, 1: 3, 2: 2, 3: 1, 5: 1})

In [19]:
# Counter 객체에서 굉장히 유용하게 사용되는 메소드. 빈도수가 높은순서부터 내림차순으로 반환
for key, value in counts.most_common(10):
    print "key :", key, "value :", value

key : 0 value : 3
key : 1 value : 3
key : 2 value : 2
key : 3 value : 1
key : 5 value : 1


### 난수 생성
- 데이터 분석을 진행할 때 난수를 생성해야 할 때가 자주 있다. 이때는 random 모듈을 사용한다.

In [20]:
import random

# random 모듈에 있는 random() 메소드에 접근, 불필요한 값은 _로 표현
four_uniform_randoms = [random.random() for _ in range(4)]
four_uniform_randoms

[0.520043633245276, 0.8424175459874281, 0.3299250666642498, 0.7684266754292941]

- 동일한 난수를 계속 사용하고 싶다면, **`random.seed()`**를 사용한다.

In [21]:
random.seed(10)
print random.random()
random.seed(10)
print random.random()

0.57140259469
0.57140259469


- **`range()`**에 해당하는 구간 안에서 난수를 생성하기 위해서는 **`random.randrange()`**를 사용한다.

In [22]:
# range(10) = [0,1,2,...,9]에서 난수 생성
random.randrange(10)

4

In [23]:
# range(3,6) = [3,4,5]에서 난수 생성
random.randrange(3,6)

4

- list의 항목을 임의로 재정렬해주기 위해서는 **`random.shuffle()`**를 사용한다.

In [24]:
up_to_ten = range(10)
random.shuffle(up_to_ten)
up_to_ten

[8, 3, 5, 1, 9, 0, 4, 6, 7, 2]

- list에서 임의의 항목을 하나 선택하기 위해서는 **`random.choice()`**를 사용한다.

In [25]:
my_best_friend = random.choice(["Alice", "Bob", "Charlie"])
my_best_friend

'Charlie'

- 중복이 허용되지 않는 임의의 표본 list를 만들때는 **`random.sample()`**를 사용한다.

In [26]:
lottery_number = range(60)
random.sample(lottery_number, 6)

[2, 50, 34, 21, 15, 37]

- 중복이 허용되는 임의의 표본 list를 만들때는 **`random.choice()`**를 여러번 사용한다.

In [27]:
[random.choice(range(10)) for _ in range(4)]

[4, 6, 6, 1]

### Regular Expressions

In [28]:
import re

se_1 = re.search("at", "cat")   # at를 cat에서 찾을 수 있는가?
se_1.span()

(1, 3)

In [29]:
ma_1 = re.match("ct", "cat")    # a와 cat이 같은가?
print ma_1

None


In [30]:
# carbs는 a 또는 b에 의하여 ["c", "r", "s"]가 생성된다.
3 == len(re.split("[ab]", "carbs"))

True

In [31]:
# R2D2에서 0~9까지의 숫자를 "-"로 대체한다.
"R-D-" == re.sub("[0-9]", "-", "R2D2")

True