### 컬렉션 가공하기

 - 컬렉션에는 여러 데이터들이 담겨있음
 
 - 이러한 컬렉션의 데이터들을 그냥 읽고 저장하는 것을 넘어서 어떠한 처리를 할 수 있어야 함
 
 - 예시
 
 > 모든 요소에 연산 적용하기 (예: 음료 가격을 50 원씩 올리기)
 >
 > 모든 요소 누적하기 (예: 음료 가격의 평균 구하기)
 >
 > 선별하기 (예: 음료 가격이 2천 원 이하인 것만 구하기)
 >
 > 정렬하기 (예: 음료 가격을 싼 것부터 비싼 것 순으로 정렬하기)

#### 모든요소에 연산을 적용하기

In [2]:
# 어떤 가계의 음료 값
prices = [2500, 3000, 1800, 3500, 2000, 3000, 2500, 2000]

In [3]:
# for 문으로 모든 요소에 연산 적용하기
new_prices = []                    # ❶ 인상된 가격을 담을 새 리스트

for price in prices:               # ❷ 가격 리스트를 순회하면서
    new_prices.append(price + 50)  #    각 가격에 50을 더해 new_prices에 담는다


new_prices                         # ❸ 50 원씩 인상된 가격의 리스트가 만들어졌다

[2550, 3050, 1850, 3550, 2050, 3050, 2550, 2050]

#### 리스트 조건제시법

 - 리스트 조건제시법(list comprehension)이란, 각 요소를 구하는 조건을 제시하여 컬렉션을 정의하는 방법
 
 - 다음은 [2, 4, 6, 8, 10] 리스트를 여러 가지 방법으로 정의해 본 것

 > 원소나열법: [2, 4, 6, 8, 10]
 > 
 > 레인지: 2 이상 11 미만의 2씩 증가하는 수의 리스트
 >
 > 조건제시법: [1, 2, 3, 4, 5]의 각 요소에 2를 곱한 리스트
 
 - 리스트 조건제시법은 다음과 같은 양식으로 표현

 > [연산 for 변수 in 컬렉션]

In [4]:
# 리스트 조건제시법으로 리스트 정의하기

[e * 2 for e in [1, 2, 3, 4, 5]]

[2, 4, 6, 8, 10]

In [5]:
# 리스트 조건제시법으로 음료 가격 수정하기

[price + 50 for price in prices]

[2550, 3050, 1850, 3550, 2050, 3050, 2550, 2050]

#### map() 함수

 - 리스트 조건제시법과 비슷한 기능을 하는 함수로 map()이 있음
 
 - map()은 각 요소에 적용할 연산과 컬렉션을 전달받아, 컬렉션의 모든 요소에 연산을 적용하는 함수

In [6]:
# map() 함수로 음료 가격 수정하기

def plus50(n):             # ❶ 각 요소에 적용할 연산을 함수로 정의해 둔다
    return n + 50


list(map(plus50, prices))  # ❷ prices의 각 요소에 plus50 함수를 적용한 리스트 생성하

[2550, 3050, 1850, 3550, 2050, 3050, 2550, 2050]

 - 위의 plus50() 함수는 map() 함수에서 한 번만 쓰고 마는 일회용 함수
 
 - 일회용 함수를 def 문으로 정의해두는 것은 장황하고 번거로우므로 lambda를 사용할 수 있음

In [7]:
# map() 함수에 람다 식 전달하기

list(map(lambda n: n + 50, prices))

[2550, 3050, 1850, 3550, 2050, 3050, 2550, 2050]

###### 제곱 리스트 1

 - 리스트 [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]를 레인지와 리스트 조건제시법을 활용해 요소를 직접 나열하지 않고 작성해 보아라.

 > 힌트: 이 리스트는 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]의 각 요소를 제곱한 것이다.

###### 제곱 리스트 2

 - 위에서 만든 리스트를 레인지와 map() 함수를 이용해 작성해 보아라.

#### 모든 요소 누적하기

 - 각 요소에 연산을 하지 않고 모든 요소를 사용하여 연산한 결과를 보아야할 때도 있음
 
 > 예시 : 평균, 전체의 합, 가장 낮은 값 등등

In [9]:
# 음료의 평균 값 구하기

total_price = 0           # ❶ 총 가격을 저장할 변수
num_items = 0             #    전체 항목 개수를 저장할 변수

for price in prices:      # ❷ prices의 모든 요소를 순회하며
    total_price += price  #    각 음료 가격을 누적하고 (총 가격 구하기)
    num_items += 1        #    전체 항목 개수를 1씩 증가시킨다 (전체 항목 개수 세기)
    
    
total_price / num_items   # ❸ 평균 구하기

2537.5

In [10]:
# 최저성적 구하기

most_expensive = 0              # ❶ 가장 비싼 가격을 기억할 변수

for price in prices:            # ❷ prices의 모든 요소를 순회하며
    if most_expensive < price:  # ❸ 요소가 가장 비싼 가격보다 크면
        most_expensive = price  #    이 요소를 가장 비싼 가격으로 기억한다


most_expensive

3500

 - 실제로 이러한 연산은 많이 사용되지 않음
 
 - sum(), len(), min(), max() 같은 통계 함수를 사용하는 것이 좋음 (잘 만들어져 있다!)
 
 - 하지만 이러한 연산을 사용하지 않고 어떤 다른 모든 요소를 사용한 연산을 진행한다면 위와 같은 방법으로 하나하나 접근해야 함

###### 시퀀스의 길이 세기

 - len() 함수를 흉내낸 length() 함수를 정의해 보아라. 
 
 - 이 함수는 시퀀스 하나를 매개변수로 입력받아 요소의 개수를 반환한다. 
 
 - 단, len() 함수를 사용하면 안 된다.

###### 가장 긴 리스트 구하기

 - 여러 개의 시퀀스를 입력받아, 그 중 가장 많은 요소를 가진 시퀀스를 반환하는 함수 longest()를 정의해 보아라.
 
 - 다음은 이 함수의 실행 예다.
 
```
>>> longest([1, 2, 3], (4, 5), [], 'abcdefg', range(5))
'abcdefg'

>>> longest('파이썬', '프로그래밍')
'프로그래밍'

>>> longest(range(10), range(100), range(50))
range(0, 100)
```

 > 힌트: 함수에서 정해지지 않은 여러 개의 매개변수를 전달받으려면 패킹과 언패킹(5.5절 참고)을 활용한다.

#### 선별하기
 
 - 사람은 매순간 눈, 손, 코, 입 등등으로 수많은 정보를 받아들임
 
 - 이 중 필요한 정보만을 조합하고 선별하게됨
 
 > 예를 들어 배가 아프다면 배가 아픈 것과 관련된 동시에 이를 해소하기 위한 정보만을 다룰 것이다
 >
 > 맛있는 냄새를 맡더라도 배가 아프면 무시하게되는 것
 
 - 코드를 작성하다보면 컬렉션 데이터 중 선별을 진행해야하는 경우가 생기게 됨

In [11]:
# for 문으로 음료 가격 선별하기

filtered_prices = []                   # ❶ 조건에 맞는 가격을 담을 리스트

for price in prices:                   # ❷ prices 리스트의 모든 요소를 순회하며
    if price <= 2000:                  # ❸ 각 요소가 조건에 맞는 경우
        filtered_prices.append(price)  #    새 리스트에 담는다

filtered_prices

[1800, 2000, 2000]

In [12]:
#리스트 조건제시법으로 선별하기

print(prices)  # ❶

print([price for price in prices])  # ❷

print([price for price in prices if price <= 2000])  # ❸

[2500, 3000, 1800, 3500, 2000, 3000, 2500, 2000]
[2500, 3000, 1800, 3500, 2000, 3000, 2500, 2000]
[1800, 2000, 2000]


 - filter() 함수 : 컬렉션에서 조건에 맞는 요소를 선별
 
 - map과 비슷함
 
 > map ... 연산과 컬렉션을 입력으로 받음
 >
 > filter ... 조건과 컬렉션을 입력으로 받음

In [13]:
# filter() 함수를 이용해 선별하기

list(filter(lambda n: n <= 2000, prices))

[1800, 2000, 2000]

###### 용의자 프로파일링

 - 김파이 씨는 개 다섯 마리를 키우고 있다. 
 
 - 어느날 외출하고 돌아오니 누군가가 침대를 물어뜯어 부순 것이 아닌가! 
 
 - 현장 조사 결과, 범인은 주둥이가 작고, 발이 크고, 흰색 털을 가진 개라는 것을 알 수 있었다. 
 - 김파이 씨는 용의자를 좁히기 위해 개의 정보를 정리했다. 
 
 - 이 데이터를 선별해 용의자로 의심되는 개를 모두 찾아 그 이름을 화면에 출력해라.

```
용의자 = [
    {'이름': '멍멍', '털': '흰색', '주둥이': '크다', '발': '크다'},
    {'이름': '킁킁', '털': '검은색', '주둥이': '작다', '발': '크다'},
    {'이름': '왈왈', '털': '흰색', '주둥이': '작다', '발': '크다'},
    {'이름': '꿀꿀', '털': '검은색', '주둥이': '작다', '발': '작다'},
    {'이름': '낑낑', '털': '흰색', '주둥이': '작다', '발': '작다'},
]
```

###### 불량율 계산

 - 파이중공업은 여러 개의 베어링을 무작위로 선택하여 지름을 측정해 리스트에 담은 후, 이 정보를 이용해 베어링의 불량율을 계산하려 한다. 
 
 - 지름이 0.99 mm 이상 1.01 mm 미만인 베어링을 정상 제품이라고 가정하고, 베어링의 지름을 담은 리스트를 전달받아 불량율을 계산하는 함수 faulty_rate()를 정의해라.

 - 다음은 이 함수로 10개의 베어링으로 불량율을 계산한 예다.

```
>>> diameters = [0.985, 0.992, 1.004, 0.995, 0.899, 1.001, 1.002, 1.003, 1.009, 0.998]
>>> faulty_rate(diameters)
0.2
```

#### 정렬하기

 - 정렬(sort)이란 어떤 기준을 정해 컬렉션의 요소를 순서대로 재배열하는 것
 
 - '영국에서 3번째로 인기있는 커피는?' 같은 문제를 해결하려면 정렬이 필요
 
 - 여러가지 정렬 알고리즘이 있음
 
 > 1. 거품 정렬(bubble sort): 바로 옆의 두 요소를 각각 비교하는 알고리즘. 비효율적이고 정렬 속도가 느리지만 단순해서 쉽게 이해할 수 있다.
 >
 > 2. 퀵 정렬(quicksort): 요소 하나를 기준점으로 삼고 그보다 작은 요소와 큰 요소를 나누어 배치하는 과정을 반복하는 알고리즘.
 >
 > 3. 삽입 정렬(insertion sort): 각 요소를 이미 정렬된 부분의 제 위치에 삽입하는 과정을 반복하는 알고리즘.
 >
 > 4. 합병 정렬(merge sort): 전체를 작은 단위로 나눈 후 다시 합치면서 정렬하는 알고리즘.
 
 - python의 sorted() 함수는 Timsort라는 기법을 사용
 
 - 먼저 커품 정렬을 먼저 시도해보자

In [14]:
# 요소가 두 개인 리스트 정렬하기

coll = [2, 1]

if coll[0] > coll[1]:                    # ❶ 왼쪽 요소가 오른쪽 요소보다 크다면
    coll[0], coll[1] = coll[1], coll[0]  # ❷ 위치를 서로 바꾼다
print(coll)                              # ❸ 결과: [1, 2]

[1, 2]


In [15]:
# 요소가 세 개인 리스트 정렬하기

coll = [10, 5, 1]

if coll[0] > coll[1]:                    # ❶ 첫 번째와 두 번째 요소를 비교·교환
    coll[0], coll[1] = coll[1], coll[0]
print(coll)                              # 결과: [5, 10, 1]

if coll[1] > coll[2]:                    # ❷ 두 번째와 세 번째 요소를 비교·교환
    coll[1], coll[2] = coll[2], coll[1]
print(coll)                              # 결과: [5, 1, 10]

[5, 10, 1]
[5, 1, 10]


In [16]:
# 거품 정렬의 한 단계 수행하기

coll = [10, 5, 1, 9, 7, 3]

for i in range(len(coll) - 1):  # ❶ 요소 개수보다 하나 적은 횟수만큼 반복한다
    if coll[i] > coll[i + 1]:   # ❷ 컬렉션의 i번째 요소와 i+1번째 요소를 비교·교환한다
        coll[i], coll[i + 1] = coll[i + 1], coll[i]

print(coll)                     # ❸ 결과: [5, 1, 9, 7, 3, 10]

[5, 1, 9, 7, 3, 10]


In [17]:
# 거품 정렬의 모든 단계 수행하기

coll = [10, 5, 1, 9, 7, 3]

for _ in coll:                      # ❶ 컬렉션의 요소의 개수만큼 반복하여
    for i in range(len(coll) - 1):  # ❷ 각 주기마다 거품 정렬의 한 단계를 수행한다
        if coll[i] > coll[i + 1]:
            coll[i], coll[i + 1] = coll[i + 1], coll[i]

print(coll)  # [1, 3, 5, 7, 9, 10]

[1, 3, 5, 7, 9, 10]


 - 거퓸 정렬은 이해하기 쉽고 편하기 구현할 수 있음
 
 - 하지만 연산 비용이 너무 많이드는 단점이 있음
 
 > 컬렉션의 요소가 100 개이면 약 1만 회의 연산이, 1000 개이면 약 1백만 회의 연산이 필요

 - python은 sorted() 함수가 있음
 
 - 이 함수에 컬렉션을 전달하면 요소를 오름차순으로 정렬한 새 리스트를 얻을 수 있음

In [18]:
# sorted() 함수로 정렬하기

sorted([10, 5, 1, 9, 7, 3])

[1, 3, 5, 7, 9, 10]

In [20]:
# sorted() 함수는 원본 컬렉션을 수정하지 않는다

coll = [10, 5, 1, 9, 7, 3]
print(sorted(coll))# coll을 정렬한 리스트 구하기

print(coll)                 # 원본의 순서는 변하지 않는다

coll = sorted(coll)  # 정렬한 리스트로 바꾸기
print(coll)

[1, 3, 5, 7, 9, 10]
[10, 5, 1, 9, 7, 3]
[1, 3, 5, 7, 9, 10]


In [21]:
# 요소의 크기를 비교할 수 있다면 수가 아니라도 정렬이 가능하다

sorted(['월', '화', '수', '목', '금'])

['금', '목', '수', '월', '화']

In [22]:
# sorted() 함수로 정렬한 결과는 리스트로 반환된다

print(sorted((5, 4, 3, 2, 1)))                 # 튜플 정렬하기

print(sorted('안녕하세요'))                    # 문자열 정렬하기

print(sorted({'사자', '박쥐', '늑대', '곰'}))  # 집합 정렬하기

[1, 2, 3, 4, 5]
['녕', '세', '안', '요', '하']
['곰', '늑대', '박쥐', '사자']


In [23]:
# 오름차순(ascending order) 정렬과 내림차순(descending order) 정렬

print(sorted([3, 5, 1, 2, 4]))                # 오름차순 정렬

print(sorted([3, 5, 1, 2, 4], reverse=True))  # 내림차순 정렬

[1, 2, 3, 4, 5]
[5, 4, 3, 2, 1]


 - key 매개변수를 지정하여 sorted 함수를 사용할 수 있음

In [24]:
# 절대값으로 비교하기
sorted([3, -5, 1, -2, -4], key=abs)

[1, -2, 3, -4, -5]

In [26]:
import pprint

# 사전의 특정 키-값으로 비교
items = [
    {'name': '아메리카노', 'price': 2000},
    {'name': '카페 라테', 'price': 2500},
    {'name': '카푸치노', 'price': 2400},
]

sorted_items = sorted(items, key=lambda item: item['price'])

pprint.pprint(sorted_items)
[{'name': '아메리카노', 'price': 2000},
 {'name': '카푸치노', 'price': 2400},
 {'name': '카페 라테', 'price': 2500}]

[{'name': '아메리카노', 'price': 2000},
 {'name': '카푸치노', 'price': 2400},
 {'name': '카페 라테', 'price': 2500}]


[{'name': '아메리카노', 'price': 2000},
 {'name': '카푸치노', 'price': 2400},
 {'name': '카페 라테', 'price': 2500}]

###### 길이로 정렬하기

 - 문자열이 담긴 리스트를 sorted() 함수로 정렬하면 가나다순으로 정렬된다.

```
>>> fruits = ['배', '사과', '복숭아', '블루베리']
>>> sorted(fruits)
['배', '복숭아', '블루베리', '사과']
```

 - 문자열을 길이를 기준으로 정렬하려면 어떻게 해야 할까? 
 
 - sorted() 함수를 활용해 위의 fruits 데이터를 이름이 긴 것에서 짧은 것 순서로 정렬하라. 
 
 - 정렬 결과는 다음과 같아야 한다.

```
['블루베리', '복숭아', '사과', '배']
```