# `Comprehension`

파이썬에는 기존하는 자료구조에서 새로운 자료구조를 생성하는 `comprehension`이라는 방법이 있다.
 `comprehension`은 자료구조에 저장된 각 값으로 계산한 새로운 값을 저장한 새로운 자료구조를 생성할 때 사용하는 방법이다.
기본적인 사용법은 다음과 같으며 여기서 `container`는 여러 개의 값을 저장한 자료구조이며 `elem`은 `container`에 저장된 값 하나를 가리키는 변수이다.

```python
new_container = [ elem를포함하는표현식 for elem in container ]
```

실행 결과는 자료구조에 저장된 각 값으로 표현식을 계산한 결과를 저장한 새로운 리스트이다.
`comprehension`은 리스트가 아닌 다른 자료구조를 생성할 때도 사용할 수 있는데 `[]` 대신 어떤 괄호를 쓰느냐에 따라 달라진다.
위처럼 `[]`를 사용하면 결과는 리스트가 생성되며 `list comprehension`이라고 한다.
만약 `{}`를 사용하면 뒤에 배울 셋이나 사전이 생성되는데 이를 `set comprehension`, `dict comprehension`이라고 한다.

지금까지 배운 바를 이용하면, $0 \le x \le 10$ 구간을 100등분하는 101개 값에서 함수 $f \left( x \right) = x^2 + 2x + 3$의 값은 다음과 같이 구할 수 있다.

In [0]:
import math
xx = list(range(0, 101))

x = []
for xx0 in xx:
    x.append(xx0 / 10)

a = 1
b = 2
c = 3
fx = []
for x0 in x:
    fx.append(a * math.pow(x0, 2) + b * x0 + c)
print(fx[:10])

[3.0, 3.21, 3.44, 3.69, 3.96, 4.25, 4.5600000000000005, 4.89, 5.24, 5.61]


하지만 `list comprehension`을 이용하면 다음과 같이 훨씬 간단하게 프로그램 할 수 있다.

In [0]:
x = list(range(0, 101))

x = [ x0 / 10 for x0 in x ]

a = 1
b = 2
c = 3

fx = [ a * math.pow(x0, 2) + b * x0 + c for x0 in x ]

print(fx[:10])

[3.0, 3.21, 3.44, 3.69, 3.96, 4.25, 4.5600000000000005, 4.89, 5.24, 5.61]


다음과 같이 더 간단하게 프로그래밍할 수도 있다.

In [0]:
a = 1
b = 2
c = 3

fx = [ a * math.pow(x0/10, 2) + b * x0/10 + c for x0 in range(101) ]

print(fx)


[3.0, 3.21, 3.44, 3.69, 3.96, 4.25, 4.5600000000000005, 4.89, 5.24, 5.61, 6.0, 6.41, 6.84, 7.29, 7.76, 8.25, 8.760000000000002, 9.29, 9.84, 10.41, 11.0, 11.61, 12.240000000000002, 12.889999999999999, 13.559999999999999, 14.25, 14.96, 15.690000000000001, 16.439999999999998, 17.21, 18.0, 18.810000000000002, 19.64, 20.49, 21.36, 22.25, 23.16, 24.090000000000003, 25.04, 26.009999999999998, 27.0, 28.009999999999998, 29.04, 30.089999999999996, 31.160000000000004, 32.25, 33.36, 34.49, 35.64, 36.81, 38.0, 39.209999999999994, 40.440000000000005, 41.69, 42.96000000000001, 44.25, 45.559999999999995, 46.89, 48.24, 49.61, 51.0, 52.41, 53.84, 55.29, 56.760000000000005, 58.25, 59.75999999999999, 61.29, 62.839999999999996, 64.41000000000001, 66.0, 67.61, 69.24000000000001, 70.89, 72.56, 74.25, 75.96, 77.69000000000001, 79.44, 81.21000000000001, 83.0, 84.81, 86.63999999999999, 88.49000000000001, 90.36, 92.25, 94.16, 96.08999999999997, 98.04000000000002, 100.01, 102.0, 104.00999999999999, 106.0399999999

다음과 같이 `comprehenison`과 `if` 문장을 결합할 수도 있다.

```python
new_container = [ elem를포함한표현식 for elem in container if elem를포함한조건 ]
```

이 방법은 자료구조에 저장된 값 중에서 특정한 조건을 만족하는 값만 선택해서 새로운 값을 계산하고 그 결과를 담은 자료구조를 생성한다.
예를 들어, $0 \le x \le 10$ 구간을 100등분하는 101개 값에서 구한 함수 $f \left( x \right) = x^2 + 2x + 3$의 값 중에서 50과 100 사이의 값만 담은 리스트는 다음과 같이 구할 수 있다.

In [0]:
fx_btw_50_100 = [ fx0 for fx0 in fx  if 50 <= fx0 <= 100 ]
print(fx_btw_50_100)

[51.0, 52.41, 53.84, 55.29, 56.760000000000005, 58.25, 59.75999999999999, 61.29, 62.839999999999996, 64.41000000000001, 66.0, 67.61, 69.24000000000001, 70.89, 72.56, 74.25, 75.96, 77.69000000000001, 79.44, 81.21000000000001, 83.0, 84.81, 86.63999999999999, 88.49000000000001, 90.36, 92.25, 94.16, 96.08999999999997, 98.04000000000002]


만약 `comprehension`을 사용하지 않으면 다음과 같이 프로그래밍 해야 할 것이다.

In [0]:
fx_btw_50_100 = []
for fx0 in fx:
    if 50 <= fx0 <= 100:
        fx_btw_50_100.append(fx0)
print(fx_btw_50_100)

[51.0, 52.41, 53.84, 55.29, 56.760000000000005, 58.25, 59.75999999999999, 61.29, 62.839999999999996, 64.41000000000001, 66.0, 67.61, 69.24000000000001, 70.89, 72.56, 74.25, 75.96, 77.69000000000001, 79.44, 81.21000000000001, 83.0, 84.81, 86.63999999999999, 88.49000000000001, 90.36, 92.25, 94.16, 96.08999999999997, 98.04000000000002]


`comprehension`과 `if` 문장을 결합할 때 다음과 같이 `else` 절도 포함할 수 있다.

```python
new_container = [elem를포함한표현식1 if elem를포함한조건 else elem를포함한표현식2 for elem in container]
```

이 방법은 자료구조의 각 값에 대해 `if` 절의 조건을 평가하고 그 결과가 `True`이면 **elem를포함한표현식1**를 계산하고 `False`이면 **elem를포함한표현식2**를 계산한 결과를 담은 자료구조를 생성한다.
예를 들어, $0 \le x \le 10$ 구간을 100등분하는 101개 값에서 구한 함수 $f \left( x \right) = x^2 + 2x + 3$의 값 중에서 50과 100 사이의 값은 그대로 두고 나머지는 0으로 대체한 리스트는 다음과 같이 만들 수 있다.

In [0]:
new_fx = [ fx0 if 50 <= fx0 <= 100 else 0 for fx0 in fx ]
print(new_fx)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 51.0, 52.41, 53.84, 55.29, 56.760000000000005, 58.25, 59.75999999999999, 61.29, 62.839999999999996, 64.41000000000001, 66.0, 67.61, 69.24000000000001, 70.89, 72.56, 74.25, 75.96, 77.69000000000001, 79.44, 81.21000000000001, 83.0, 84.81, 86.63999999999999, 88.49000000000001, 90.36, 92.25, 94.16, 96.08999999999997, 98.04000000000002, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


만약 `list comprehension`을 사용하지 않았다면 다음과 같이 프로그래밍 해야 할 것이다.

In [0]:
new_fx = []
for fx0 in fx:
    if 50 <= fx0 <= 100:
        new_fx.append(fx0)
    else:
        new_fx.append(0)

print(new_fx)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 51.0, 52.41, 53.84, 55.29, 56.760000000000005, 58.25, 59.75999999999999, 61.29, 62.839999999999996, 64.41000000000001, 66.0, 67.61, 69.24000000000001, 70.89, 72.56, 74.25, 75.96, 77.69000000000001, 79.44, 81.21000000000001, 83.0, 84.81, 86.63999999999999, 88.49000000000001, 90.36, 92.25, 94.16, 96.08999999999997, 98.04000000000002, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## `comprehension`을 이용한 자료처리

파이썬의 강력한 기능 중 하나인 `comprehension`은 가능하면 사용하는 것이 바람직하다.
자료를 처리할 때도 `comprehension`은 상당히 효율적이다.
**대사율자료**를 이용해서 `list comprehension`의 사용법을 익혀보기로 하자.

In [0]:
gender = ['M']*2 + ['F']*4 + ['M'] + ['F']*2 + ['M'] + \
        ['F']*2 + ['M'] + ['F']*4 + ['M']*2
weight = [62.0, 62.9, 36.1, 54.6, 48.5, 42.0, 47.4, \
          50.6, 42.0, 48.7, 40.3, 33.1, 51.9, 42.4, \
          34.5, 51.1, 41.2, 51.9, 46.9]
metabolic_rate = [1792, 1666, 995, 1425, 1396, 1418, 1362, 1502,\
        1256, 1614, 1189, 913, 1460, 1124, 1052, 1347,\
        1204, 1867, 1439]

50 이상이고 60 미만인 체중은 다음과 같이 추출할 수 있다.

In [0]:
weight_btw_50_60 = [ wgt for wgt in weight if 50 <= wgt < 60 ]
print(weight_btw_50_60)

[54.6, 50.6, 51.9, 51.1, 51.9]


체중이 50 이상이고 60 미만인 경우의 대사율과 성별은 다음과 같이 구할 수 있다.

In [0]:
gender_btw_50_60 = [ gender[idx] for idx, wgt in enumerate(weight)
                    if 50 <= wgt < 60 ]
metabolic_rate_btw_50_60 = [ metabolic_rate[idx] for idx, wgt in enumerate(weight)
                            if 50 <= wgt < 60 ]
print(gender_btw_50_60)
print(metabolic_rate_btw_50_60)

['F', 'F', 'M', 'F', 'M']
[1425, 1502, 1460, 1347, 1867]


## 연습문제

1. 세 자리 정수의 리스트를 만든 다음 이 리스트에서 3의 배수만 추출한 리스트를 만드시오.

2. 6/45 로또 번호를 자동으로 생성하여 리스트로 만드는 것을 1000번 반복한 결과를 담은 리스트의 리스트를 만들고, 이 결과에서 1, ..., 45 사이의 각 정수가 나타난 횟수(빈도, 도수)를 리스트로 만드시오.

3. **대사율자료**에대한 아래 분석 요구를 처리하되 가능하면 `comprehension`을 사용하시오.

    * 남자(여자)의 체중과 대사율을 추출하여 별도의 리스트에 저장하고, 체중과 대사율의 합, 평균, 편차, 표준편차를 성별로 구하시오.
    
3. **심장병자료**에 대한 아래 분석 요구를 처리하되 가능하면 `comprehension`을 사용하시오.

    * 연간 포도주 소비량이 5 이상인 국가의 이름과 사망률을 별도의 리스트에 저장하시오.
    
    * 연간 포도주 소비량이 5 미만인 국가의 이름과 사망률을 별도의 리스트에 저장하시오.
    
    * 연간 포도주 소비량이 5 이상인 국가의 사망률의 합, 평균, 편차, 표준편차를 구하시오.
    