# 2.1 자료형과 자료 구조

## 기본 자료형

In [None]:
# 파이썬에는 몇 가지 기본 자료형이 있다.
# -----------------------------------
# 정수
# 부동소수점수
# 문자열(텍스트)

## None 타입

In [2]:
email_address = None

# None은 주로 선택적인 값이나 누락값(missing value)을 표시하는 데 사용된다. 조건문에서는 False로 평가한다.

if email_address:
    send_email(email_address, msg)
else:
    print('False')    

False


## 자료형

In [None]:
# 실제 프로그램에서는 더 복잡한 자료형을 사용한다. 주식 보유에 대한 정보의 예를 살펴 보자.

# 구글(GOOG) 주식을 490.10 달러에 100주 보유
# 이 "객체"는 세 부분으로 구성된다.

# 종목명 또는 심벌(문자열 "GOOG")
# 주식 수(정수 100)
# 가격(부동소수점수 490.10)

## 튜플(Tuple)

In [None]:
# 튜플은 함께 묶인 값의 컬렉션이다.

s = ('GOOG', 100, 490.1)

# 다음과 같이 ()를 생략하기도 한다.

s = 'GOOG', 100, 490.1

# 특수한 사례(0-튜플, 1-튜플).

t = ()            # 빈 튜플
w = ('GOOG', )    # 항목이 한 개 있는 튜플

# 튜플은 주로 단순한 레코드 또는 자료 구조를 표현하는 데 사용한다. 
# 일반적으로 여러 부분으로 된 단일 객체다. 좋은 비유: 튜플은 데이터베이스 테이블의 단일 행과 비슷하다.

# 튜플의 항목은 순서가 있다(배열과 비슷함).

s = ('GOOG', 100, 490.1)
name = s[0]                 # 'GOOG'
shares = s[1]               # 100
price = s[2]                # 490.1

# 그러나, 내용을 수정할 수 없다.

s[1] = 75

# TypeError: object does not support item assignment

# 현재 튜플을 가지고 새로운 튜플을 만들 수는 있다.

s = (s[0], 75, s[2])

## 튜플로 묶기(packing)

In [None]:
# 튜플은 서로 관련된 항목들을 단일 엔티티(entity)로 묶는 역할을 한다.

s = ('GOOG', 100, 490.1)

# 튜플을 단일 객체로서 프로그램의 다른 부분으로 쉽게 전달할 수 있다.

## 튜플을 풀기(unpacking)

In [3]:
# 튜플을 전달받은 후에는 풀어서 각각의 변수를 사용할 수 있다.

s = ('GOOG', 100, 490.1)
name, shares, price = s

print('Cost', shares * price)


# 왼쪽의 변수 개수가 튜플 구조와 일치해야 한다.
name, shares = s     # 오류

Cost 49010.0


## 튜플 vs. 리스트

In [None]:
# 튜플은 읽기 전용 리스트처럼 보인다. 
# 그러나, 튜플의 주된 용도는 여러 부분으로 구성된 단일 항목으로서 사용하는 것이다. 
# 리스트는 고유한 항목들의 컬렉션으로 사용되며, 이때 모든 항목이 같은 타입인 경우가 많다.

record = ('GOOG', 100, 490.1)       # 포트폴리오의 한 레코드를 나타내는 튜플

symbols = [ 'GOOG', 'AAPL', 'IBM' ]  # 세 가지 주식 심벌을 나타내는 리스트

## 딕셔너리(Dictionary)

In [8]:
# 딕셔너리는 키(key)를 값(value)에 대응(mapping)시킨다. 
# 해시 테이블(hash table) 또는 연관 배열(associative array)이라고도 부른다. 
# 키는 값에 접근하는 인덱스 역할을 한다.

s = {
    'name': 'GOOG',
    'shares': 100,
    'price': 490.1
}

# 공통적인 연산
# 딕셔너리에서 값을 얻으려면 키 이름을 사용한다.

print(s['name'], s['shares'])
print(s['price'])

# 값을 추가하거나 수정할 때 키 이름을 사용한다.

s['shares'] = 75
s['price'] = 500.0

# 값을 삭제하려면 del 문을 사용한다.

del s['price']
print(s)

# 딕셔너리를 사용하는 이유
# 딕셔너리는 서로 다른 값이 많이 있고 그 값들을 수정 또는 조작해야 할 때 유용하다. 딕셔너리를 사용하면 코드의 가독성이 높아진다.

# s['name'] Vs. s[0]

GOOG 100
490.1
{'name': 'GOOG', 'shares': 75}


## 연습 문제

In [9]:
# 지난 몇 개의 연습 문제에서, 데이터파일 Data/portfolio.csv를 읽는 프로그램을 작성했다. 
# csv 모듈을 사용하면 파일을 행 단위로 쉽게 읽을 수 있다.

import csv
f = open('../../data/portfolio.csv')
rows = csv.reader(f)
next(rows)

row = next(rows)
row

# 파일을 읽는 것은 쉽지만, 데이터를 읽은 다음에는 그것을 가지고 더 많은 일을 하고 싶을 때가 있다. 
# 예를 들어, 읽은 데이터를 저장하고 계산을 수행하고 싶을 것이다. 
# 하지만, 원시 "행(row)" 데이터만으로는 작업하기에 충분하지 않다. 예를 들어, 간단한 수학 계산도 할 수 없다.

row = ['AA', '100', '32.20']
cost = row[1] * row[2]

# Traceback (most recent call last):
#     File "<stdin>", line 1, in <module>
# TypeError: can't multiply sequence by non-int of type 'str'

# 원시 데이터를 좀 더 유용한 객체로 바꿔야 나중에 작업에 사용할 수 있다. 튜플이나 딕셔너리를 사용하면 된다.

TypeError: can't multiply sequence by non-int of type 'str'

### 2.1: 튜플

In [12]:
# 상호작용적인 프롬프트에서, 다음과 같이 위의 행을 나타내는 튜플을 생성하되, 숫자 컬럼은 적절한 숫자로 변환한다.

t = (row[0], int(row[1]), float(row[2]))
t

# 이것을 사용해, 주식수와 가격을 곱한 총비용을 계산할 수 있다.

cost = t[1] * t[2]
cost

# 파이썬에서 수학 계산이 틀린가? 답이 왜 3220.0000000000005라고 나올까?

# 이것은 컴퓨터의 부동소수점 하드웨어로 계산한 결과다. 
# 십진수(decimal)를 십진법(Base-10)이 아니라 이진법(Base-2)으로 표현하기 때문에 이런 결과가 나왔다. 
# 간단한 계산이라 할지라도, 십진수와 관련된 계산에는 작은 오류가 발생한다. 
# 처음 본다면 놀라울 수 있겠지만, 이것은 정상적인 작동이다.

# 부동소수점 십진수를 사용하는 모든 프로그래밍 언어에서 발생하는 일이지만, 프린팅 과정에서 종종 숨겨진다. 예:

print(f'{cost:0.2f}')
3220.00

# 튜플은 읽기 전용이다. 확인해 보고 싶으면 주식 수를 75로 바꿔보라.

# t[1] = 75
# Traceback (most recent call last):
#     File "<stdin>", line 1, in <module>
# TypeError: 'tuple' object does not support item assignment

# 튜플의 내용을 바꿀 수는 없지만, 항상 완전히 새로운 튜플을 생성해 기존 것을 대신할 수 있다.

t = (t[0], 75, t[2])
t

# 기존 변수명을 재할당할 때마다 기존 값은 버려진다. 
# 위의 할당문이 튜플을 수정하는 것처럼 보일 수 있지만, 실제로는 새로운 튜플을 생성하고 기존 것을 버렸다.

# 튜플은 패킹을 하고 변수로 언패킹하는 데 종종 사용된다. 다음과 같이 해 보자.

name, shares, price = t
name
shares
price

# 위 변수들을 튜플로 패킹하자.

t = (name, 2*shares, price)
t

3220.00


('AA', 150, 32.2)

###  2.2: 자료 구조로서의 딕셔너리

In [23]:

# 튜플 대신 딕셔너리를 생성할 수 있다.

d = {
    'name' : row[0],
    'shares' : int(row[1]),
    'price'  : float(row[2])
   }

print(d)

# 총비용을 계산하자.

cost = d['shares'] * d['price']
print(cost)

# 위의 튜플에 대해서 했던 것과 같은 계산을 했다. 주식 수를 75로 변경한다.

d['shares'] = 75
print(d)

# 튜플과 달리, 딕셔너리는 자유롭게 수정할 수 있다. 어트리뷰트를 추가하자.

d['date'] = (6, 11, 2007)
d['account'] = 12345
print(d)

{'name': 'AA', 'shares': 100, 'price': 32.2}
3220.0000000000005
{'name': 'AA', 'shares': 75, 'price': 32.2}
{'name': 'AA', 'shares': 75, 'price': 32.2, 'date': (6, 11, 2007), 'account': 12345}


### 2.3: 추가적인 딕셔너리 연산

In [24]:
# 딕셔너리를 리스트로 변환하면 전체 키를 얻는다.

print(list(d))

# 마찬가지로, 딕셔너리에 대해 for 문을 사용해 이터레이션을 해도 키를 얻는다,

for k in d:
    print('k =', k)


# 다음 코드는 키와 값을 동시에 조회한다.

for k in d:
    print(k, '=', d[k])

# keys() 메서드를 사용해도 전체 키를 얻을 수 있다.

keys = d.keys()
print(keys)

# keys()는 특수한 dict_keys 객체를 반환한다는 점에서 독특하다.

# 이것은 원래 딕셔너리에 대한 오버레이로, 딕셔너리가 변경되더라도 항상 현재 키를 얻게 해준다. 다음과 같이 해 보자.

del d['account']
print(keys)

# d.keys()를 다시 호출하지 않았음에도 'account'가 keys에서 사라진 것에 유의하라.

# 키와 값을 함께 다루는 더욱 우아한 방법은 items() 메서드를 사용하는 것이다. 이 메서드를 사용해 (키, 값) 튜플을 얻을 수 있다.

items = d.items()
print(items)
for k, v in d.items():
    print(k, '=', v)

# items 같은 튜플이 있으면 dict() 함수를 사용해 딕셔너리를 생성할 수 있다. 한번 해 보자.

print(items)

d = dict(items)
print(d)

['name', 'shares', 'price', 'date', 'account']
k = name
k = shares
k = price
k = date
k = account
name = AA
shares = 75
price = 32.2
date = (6, 11, 2007)
account = 12345
dict_keys(['name', 'shares', 'price', 'date', 'account'])
dict_keys(['name', 'shares', 'price', 'date'])
dict_items([('name', 'AA'), ('shares', 75), ('price', 32.2), ('date', (6, 11, 2007))])
name = AA
shares = 75
price = 32.2
date = (6, 11, 2007)
dict_items([('name', 'AA'), ('shares', 75), ('price', 32.2), ('date', (6, 11, 2007))])
{'name': 'AA', 'shares': 75, 'price': 32.2, 'date': (6, 11, 2007)}


# 2.2 컨테이너

## 개요

In [None]:
# 프로그램에서 많은 수의 객체를 다뤄야할 때가 있다.

# - 주식 포트폴리오
# - 주식 가격 테이블
# - 세 가지 선택사항이 있다.

# 리스트(list): 순서가 유지되는(ordered) 데이터.
# 딕셔너리(dict): 순서가 없는(unordered) 데이터.
# 세트(set): 고유한 항목의 집합이며 순서가 없음.

In [2]:
# 컨테이너로서의 리스트
# ---------------------
# 데이터의 순서가 중요할 때는 리스트를 사용하라. 리스트는 어떤 유형의 객체든 담을 수 있음을 명심하라. 예: 튜플의 리스트.

portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.3),
    ('CAT', 150, 83.44)
]

portfolio[0]
portfolio[1]

('IBM', 50, 91.3)

## 리스트 생성(construction)

In [29]:
records = []  # 빈 리스트로 초기화

# .append()를 사용해 항목을 추가
records.append(('GOOG', 100, 490.10))
records.append(('IBM', 50, 91.3))

records

# 다음은 파일에서 레코드를 읽어 리스트에 채우는 예이다.
records = []

with open('../../data/portfolio.csv', 'r') as f:
    next(f)
    for line in f:
        row = line.strip().replace('"', '').split(',')
        print(row)
        records.append((row[0], int(row[1]), float(row[2])))
records
        

['AA', '100', '32.20']
['IBM', '50', '91.10']
['CAT', '150', '83.44']
['MSFT', '200', '51.23']
['GE', '95', '40.37']
['MSFT', '50', '65.10']
['IBM', '100', '70.44']


[('AA', 100, 32.2),
 ('IBM', 50, 91.1),
 ('CAT', 150, 83.44),
 ('MSFT', 200, 51.23),
 ('GE', 95, 40.37),
 ('MSFT', 50, 65.1),
 ('IBM', 100, 70.44)]

## 컨테이너로서의 딕셔너리

In [31]:
# 딕셔너리는 빠른 임의 조회(키 이름을 사용)에 유용하다. 예: 주식 가격의 딕셔너리.
prices = {
    'GOOG': 513.25,
    'CAT': 87.22,
    'IBM': 93.37,
    'MSFT': 44.12
}
prices['IBM'], prices['GOOG']

(93.37, 513.25)

## 딕셔너리 생성

In [38]:
prices = {}

with open('../../data/prices.csv') as f:
    next(f)
    for line in f:
        row = line.strip().replace('"', '').split(',')
        prices[row[0]] = float(row[1])
        
prices['CVX']
prices.keys()
prices.values()
prices.items()


dict_items([('AXP', 24.85), ('BA', 44.85), ('BAC', 11.27), ('C', 3.72), ('CAT', 35.46), ('CVX', 66.67), ('DD', 28.47), ('DIS', 24.22), ('GE', 13.48), ('GM', 0.75), ('HD', 23.16), ('HPQ', 34.35), ('IBM', 106.28), ('INTC', 15.72), ('JNJ', 55.16), ('JPM', 36.9), ('KFT', 26.11), ('KO', 49.16), ('MCD', 58.99), ('MMM', 57.1), ('MRK', 27.58), ('MSFT', 20.89), ('PFE', 15.19), ('PG', 51.94), ('T', 24.79), ('UTX', 52.61), ('VZ', 29.26), ('WMT', 49.74), ('XOM', 69.35)])

## 딕셔너리 조회

In [47]:
prices.get('IBM', 0.0)
prices.get('SCOX', 0.0)    

0.0

## 복합 키(composite keys)

In [52]:
# 파이썬에서는 어떤 타입의 값이든 딕셔너리의 키로 사용할 수 있다. 딕셔너리 키는 반드시 변경불가능한 타입이어야 한다
holidays = {
    (1, 1): 'New Years',
    (3, 14): 'Pi day',
    (9, 13): "Programmer's day"
}
holidays

holidays[3, 14]
holidays[9,13]

# 리스트, 세트, 다른 딕셔너리는 변경 가능(mutable)하므로 딕셔너리의 키로 사용할 수 없다.

"Programmer's day"

## 세트(set)

In [64]:
# 세트는 고유 항목의 모음이며 순서를 유지하지 않는다
tech_stocks = {'IBM', 'AAPL', 'MSFT'}
tech_stocks = set(['IBM', 'AAPL', 'MSFT'])
type(tech_stocks)
tech_stocks


# 세트는 멤버십 테스트에 유용함.
'IBM' in tech_stocks
'FB' in tech_stocks


# 세트는 중복 제거에도 유용하다.
names = ['IBM', 'AAPL', 'GOOG', 'IBM', 'GOOG', 'YHOO']
unique = set(names)
unique

unique.add('CAT')
unique

unique.remove('YHOO')
unique

{'AAPL', 'CAT', 'GOOG', 'IBM'}

## 연습 문제

### 연습 문제 2.4: 튜플의 리스트

In [None]:
# ../../data/portfolio.csv 파일에는 포트폴리오에 편입된 주식 목록이 있다. 
# 연습 문제 1.30에서, 우리는 이 파일을 읽고 간단한 계산을 수행하는 portfolio_cost(filename) 함수를 작성했다.
import csv

def portfolio_cost(filename):
    '''포트폴리오 파일의 총 비용(주식수*가격)을 계산'''
    total_cost = 0.0
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            nshares = int(row[1])
            price = float(row[2])
            total_cost += nshares * price
    return total_cost



In [76]:
# 위 코드를 참고해, 새로운 report.py 파일을 생성하라. 
# 그 파일에서, 주어진 포트폴리오 파일을 열고 내용을 읽어 튜플의 리스트를 생성하는 
# read_portfolio(filename) 함수를 정의한다. 이를 위해, 위의 코드를 약간 수정해야 한다.

import csv 

def read_portfolio(filename):
    portfolio = []
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            holding = (row[0], int(row[1]), float(row[2]))
            portfolio.append(holding)
    return portfolio
                                   
portfolio = read_portfolio('../../data/portfolio.csv')
portfolio[0]
portfolio[0][0]

total = 0.0
for i in portfolio:
    total += i[1] * i[2]
f'{total:,.2f}'    

portfolio
total = 0.0
for name, nshares, price in portfolio:
    total += nshares * price
f'{total:,.2f}'



'44,671.15'

### 연습 문제 2.5: 딕셔너리의 리스트

In [89]:
# 연습 문제 2.4에서 작성한 함수를 수정해, 포트폴리오에 있는 주식을 
# 튜플 대신 딕셔너리로 나타내게 해 보자. 
# 이 딕셔너리에서 입력 파일의 컬럼들을 나타내기 위해, 
# 각각 "name", "shares", "price"라는 필드명을 사용한다.

# 이 함수를 연습 문제 2.4에서 했던 것과 같은 방식으로 실험해 보라.

import csv 

def read_portfolio(filename):
    portfolio = []
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            holding = {'name':row[0], 'shares':int(row[1]), 'price': float(row[2])}
            portfolio.append(holding)
    return portfolio
                                   
portfolio = read_portfolio('../../data/portfolio.csv')
portfolio

portfolio[0]['name']
portfolio[0]['shares']
portfolio[0]['price']

total = 0.0
for i in portfolio:
    total += i['shares'] * i['price']
f'Total {total:,.2f}'

print(portfolio)
print('-'*60)


from pprint import pprint
pprint(portfolio)
print('-'*60)

[{'name': 'AA', 'shares': 100, 'price': 32.2}, {'name': 'IBM', 'shares': 50, 'price': 91.1}, {'name': 'CAT', 'shares': 150, 'price': 83.44}, {'name': 'MSFT', 'shares': 200, 'price': 51.23}, {'name': 'GE', 'shares': 95, 'price': 40.37}, {'name': 'MSFT', 'shares': 50, 'price': 65.1}, {'name': 'IBM', 'shares': 100, 'price': 70.44}]
------------------------------------------------------------
[{'name': 'AA', 'price': 32.2, 'shares': 100},
 {'name': 'IBM', 'price': 91.1, 'shares': 50},
 {'name': 'CAT', 'price': 83.44, 'shares': 150},
 {'name': 'MSFT', 'price': 51.23, 'shares': 200},
 {'name': 'GE', 'price': 40.37, 'shares': 95},
 {'name': 'MSFT', 'price': 65.1, 'shares': 50},
 {'name': 'IBM', 'price': 70.44, 'shares': 100}]
------------------------------------------------------------


### 연습 문제 2.6: 컨테이너로서의 딕셔너리

In [4]:
# 딕셔너리는 항목을 정수 이외의 인덱스를 사용해 조회하고자 할 때 유용하다. 
# 파이썬 셸에서 딕셔너리를 가지고 놀아보자.

prices = {}
prices['IBM'] = 92.45
prices['MSFT'] = 45.12
prices['IBM']
'AAPL' in prices
'IBM' in prices

True

In [79]:
import csv

def read_prices(filename):
    prices = {}
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        for row in rows:
            prices[row[0]] = float(row[1])
    return prices         

filename = '../../data/prices.csv'
prices = read_prices(filename)
prices['IBM']
prices['MSFT']


20.89

### 연습 문제 2.7: 은퇴해도 되는지 알아보기

In [105]:
total_income = 0.0
for stock in portfolio:
    income = (prices[stock['name']] - stock['price']) * stock['shares']
    print(f"주식명: {stock['name']:<6} 주식수: {stock['shares']:>5} 매입가격: {stock['price']:>.2f} 현재가격: {prices[stock['name']]:>6.2f} 손익: {income:>10,.2f}")
    total_income += income

print('-' * 80)
print(f'주식 총 손익: {total_income:,.2f}')    
    

주식명: AA     주식수:   100 매입가격: 32.20 현재가격:   9.22 손익:  -2,298.00
주식명: IBM    주식수:    50 매입가격: 91.10 현재가격: 106.28 손익:     759.00
주식명: CAT    주식수:   150 매입가격: 83.44 현재가격:  35.46 손익:  -7,197.00
주식명: MSFT   주식수:   200 매입가격: 51.23 현재가격:  20.89 손익:  -6,068.00
주식명: GE     주식수:    95 매입가격: 40.37 현재가격:  13.48 손익:  -2,554.55
주식명: MSFT   주식수:    50 매입가격: 65.10 현재가격:  20.89 손익:  -2,210.50
주식명: IBM    주식수:   100 매입가격: 70.44 현재가격: 106.28 손익:   3,584.00
--------------------------------------------------------------------------------
주식 총 손익: -15,985.05


# 2.3 포매팅

## 문자열 포매팅

In [106]:
# 파이썬 3.6 이상에서는 문자열 포매팅에 f 문자열(f-string)을 사용할 수 있다.

name = 'IBM'
shares = 100
price = 91.1
f'{name:>10s} {shares:>10d} {price:>10.2f}'

# {표현식:포맷} 부분이 대체된다.

# 이것을 다음과 같이 print 문과 함께 사용한다.

print(f'{name:>10s} {shares:>10d} {price:>10.2f}')

       IBM        100      91.10


## 포맷 코드

In [None]:

# 포맷 코드({} 내의 : 이후)는 C의 printf()와 비슷하다. 일반적인 코드는 다음과 같다.

# d       십진 정수
# b       이진 정수
# x       16진 정수
# f       부동소수점수 [-]m.dddddd
# e       부동소수점수 [-]m.dddddde+-xx
# g       E 표기를 선택적으로 사용하는 부동소수점
# s       문자열
# c       문자(정수로부터)
# ---------------------------------------------

# 필드 폭과 정밀도를 조정하는 공통 수정자. 이것은 부분적인 목록이다.

# :>10d   정수를 10자리 필드에 오른쪽 정렬
# :<10d   정수를 10자리 필드에 왼쪽 정렬
# :^10d   정수를 10자리 필드에 가운데 정렬
# :0.2f   부동소수점수를 두 자리 정밀도로 나타냄
# -------------------------------------------

## 딕셔너리 포매팅

In [107]:

# format_map() 메서드를 사용해 값들의 딕셔너리에 문자열 포매팅을 적용할 수 있다.
# ------------------------------------------------------------------------

s = {
    'name': 'IBM',
    'shares': 100,
    'price': 91.1
}
'{name:>10s} {shares:10d} {price:10.2f}'.format_map(s)

# 그것은 f 문자열과 같은 코드를 사용하되, 제공된 딕셔너리로부터 값을 취한다.

'       IBM        100      91.10'

## C 스타일 포매팅

In [110]:
# 포매팅 연산자 %를 사용할 수도 있다.

'The value is %d' % 3

'%5d %-5d %10d' % (3,4,5)

'%0.2f' % (3.1415926,)

# 이때 오른쪽에는 단일 항목 또는 튜플이 있어야 한다. 포맷 코드는 C의 printf()와 유사하다.

# 참고: 이것은 바이트 문자열에 대해서만 사용 가능한 포매팅이다.

b'%s has %d messages' % (b'Dave', 37)

b'Dave has 37 messages'

## 연습 문제

### 연습 문제 2.8: 숫자를 포맷하는 법

In [115]:
# 숫자를 프린팅할 때의 공통적인 문제는 십진수의 자릿수를 지정하는 것이다. 
# 이것을 해결하는 한 가지 방법은 f 문자열을 사용하는 것이다. 다음 예를 시도해 보자.
value = 42863.1

print(value)
print(f'{value:0.4f}')
print(f'{value:>16.2f}')
print(f'{value:<16.2f}')
print(f'{value:*>16,.2f}')



42863.1
42863.1000
        42863.10
42863.10        
*******42,863.10


In [116]:
# f 문자열에서 사용하는 포매팅 코드에 대한 완전한 문서는 여기서 찾을 수 있다. 

# 문자열의 % 연산자를 사용해 포매팅을 수행할 수도 있다.
print('%0.4f' % value)
print('%16.2f' % value)


# %과 함께 사용되는 여러 가지 코드에 대한 문서를 여기서 찾을 수 있다.

# 문자열 포매팅을 print와 함께 사용하는 것이 일반적이기는 하지만, 반드시 그렇게 해야 하는 것은 아니다. 
# 포매팅한 문자열을 저장할 수도 있다. 다음과 같이 변수에 할당하면 된다.

f = '%0.4f' % value
f

42863.1000
        42863.10


'42863.1000'

### 연습 문제 2.9: 데이터 수집하기

In [138]:
# 연습 문제 2.7에서 주식 포트폴리오의 손익을 계산하는 report.py라는 프로그램을 작성했다. 
# 이 연습 문제에서는 그 프로그램을 수정해 다음과 같은 테이블을 생성한다.

#       Name     Shares      Price     Change
# ---------- ---------- ---------- ----------
#         AA        100       9.22     -22.98
#        IBM         50     106.28      15.18
#        CAT        150      35.46     -47.98
#       MSFT        200      20.89     -30.34
#         GE         95      13.48     -26.89
#       MSFT         50      20.89     -44.21
#        IBM        100     106.28      35.84

# 이 보고서에서 "Price"는 주식의 현재 가격이며 "Change"는 처음 매수한 가격과의 차이를 나타낸다.
# 위와 같은 보고서를 생성하려면, 우선 테이블에 있는 데이터를 모두 수집해야 한다. 
# 종목 리스트와 가격 딕셔너리를 입력으로 취해서 위의 테이블과 같은 행을 포함하는 튜플의 리스트를 
# 반환하는 make_report() 함수를 작성하자.
# 이 함수를 report.py 파일에 추가한다. 상호작용하면 다음과 같이 작동해야 한다.
# ---------------------------------------------------------------------------------------
import csv 

def read_portfolio(filename):
    portfolio = []
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            holding = {'name':row[0], 'shares':int(row[1]), 'price': float(row[2])}
            portfolio.append(holding)
    return portfolio


def read_prices(filename):
    prices = {}
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        for row in rows:
            prices[row[0]] = float(row[1])
    return prices         


def make_report(portfolio, prices):
    report = []
    
    for port in portfolio:
        name = port['name']
        shares = port['shares']
        price = prices[port['name']]
        change = prices[port['name']] - port['price']
        
        report.append((name, shares, price, change))
    return report    

        
portfolio = read_portfolio('../../data/portfolio.csv')
prices = read_prices('../../data/prices.csv')

report = make_report(portfolio, prices)        
for r in report:
    print(r)

('AA', 100, 9.22, -22.980000000000004)
('IBM', 50, 106.28, 15.180000000000007)
('CAT', 150, 35.46, -47.98)
('MSFT', 200, 20.89, -30.339999999999996)
('GE', 95, 13.48, -26.889999999999997)
('MSFT', 50, 20.89, -44.209999999999994)
('IBM', 100, 106.28, 35.84)


### 연습 문제 2.10: 포매팅된 테이블을 프린팅하기

In [147]:
# 연습 문제 2.9의 for 루프에서 print 문을 수정해 튜플을 포매팅한다.


for r in report:
    print('%10s %10d %10.2f %10.2f' % r)
print('-'*80)    

# 값을 확장해 f 문자열을 사용할 수도 있다. 예:

for name, shares, price, change in report:
    print(f'{name:>10s} {shares:>10d} {price:>10.2f} {change:>10.2f}')

# 위 문장을 report.py 프로그램에 추가하자. make_report() 함수의 출력을 사용해 보기 좋게 포매팅된 테이블을 프린트하게 프로그램을 작성하라.

        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84
--------------------------------------------------------------------------------
        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84


### 연습 문제 2.11: 헤더 추가하기

In [148]:
headers = ('Name', 'Shares', 'Price', 'Change')

print(f"{'Name':>10s} {'Shares':>10s} {'Price':>10s} {'Change':>10s}")
print(f"{'-'*10:>10s} {'-'*10:>10s} {'-'*10:>10s} {'-'*10:>10s}")

for name, shares, price, change in report:
    print(f'{name:>10s} {shares:>10d} {price:>10.2f} {change:>10.2f}')

      Name     Shares      Price     Change
---------- ---------- ---------- ----------
        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84


In [158]:
def make_header():
    headers = ('Name', 'Shares', 'Price', 'Change')

    for header in headers:
        print(f"{header:>10s} ", end='')
    print()
    for header in headers:
        print(f"{'-'*10:>10s} ", end='')
    print() 


make_header()
for name, shares, price, change in report:
    print(f'{name:>10s} {shares:>10d} {price:>10.2f} {change:>10.2f}')
    

      Name     Shares      Price     Change 
---------- ---------- ---------- ---------- 
        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84


### 연습 문제 2.12: 포매팅 도전

In [168]:
# 가격에 통화 기호($)를 포함해 다음과 같이 출력하게 수정해 보라.
import csv
from babel.numbers import format_currency

def make_header():
    headers = ('Name', 'Shares', 'Price', 'Change')

    for header in headers:
        print(f"{header:>10s} ", end='')
    print()
    for header in headers:
        print(f"{'-'*10:>10s} ", end='')
    print() 



def read_portfolio(filename):
    portfolio = []
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            holding = {'name':row[0], 'shares':int(row[1]), 'price': float(row[2])}
            portfolio.append(holding)
    return portfolio


def read_prices(filename):
    prices = {}
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        for row in rows:
            prices[row[0]] = float(row[1])
    return prices         


def make_report(portfolio, prices):
    report = []
    
    for port in portfolio:
        name = port['name']
        shares = port['shares']
        price = prices[port['name']]
        change = prices[port['name']] - port['price']
        
        report.append((name, shares, price, change))
    return report    

        
portfolio = read_portfolio('../../data/portfolio.csv')
prices = read_prices('../../data/prices.csv')

report = make_report(portfolio, prices)        


make_header()
for name, shares, price, change in report:
    print(f"{name:>10s} {shares:>10d} {format_currency(price,'USD', locale='en_US'):>10s} {change:>10.2f}")

      Name     Shares      Price     Change 
---------- ---------- ---------- ---------- 
        AA        100      $9.22     -22.98
       IBM         50    $106.28      15.18
       CAT        150     $35.46     -47.98
      MSFT        200     $20.89     -30.34
        GE         95     $13.48     -26.89
      MSFT         50     $20.89     -44.21
       IBM        100    $106.28      35.84


In [166]:
from babel.numbers import format_currency

USD = format_currency(1000, 'USD', locale='en_US')
print(USD)

for name, shares, price, change in report:
    print(f"{format_currency(price,'USD', locale='en_US'):>10s}")

$1,000.00
     $9.22
   $106.28
    $35.46
    $20.89
    $13.48
    $20.89
   $106.28


# 2.4 시퀀스

## 시퀀스 자료형

In [None]:
# 파이썬에는 세 가지 시퀀스(sequence) 자료형이 있다.
# -----------------------------------------------
# - 문자열: 'Hello'. 문자열(string)은 문자(character)들의 시퀀스다.
# - 리스트: [1, 4, 5].
# - 튜플: ('GOOG', 100, 490.1).

# 모든 시퀀스는 순서가 유지되고, 정수로 인덱싱하며, 길이가 있다.

a = 'Hello'               # 문자열
b = [1, 4, 5]             # 리스트
c = ('GOOG', 100, 490.1)  # 튜플

# 인덱싱된 순서
a[0]                      # 'H'
b[-1]                     # 5
c[1]                      # 100

# 시퀀스의 길이
len(a)                    # 5
len(b)                    # 3
len(c)                    # 3

# 시퀀스를 복제할 수 있다(s * n).
a = 'Hello'
a * 3

b = [1, 2, 3]
b * 2

# 같은 타입의 시퀀스끼리 이어붙일 수 있다(s + t).

a = (1, 2, 3)
b = (4, 5)
a + b

c = [1, 5]
a + c       # 오류 발생

## 슬라이싱(Slicing)

In [None]:
# 시퀀스의 일부(subsequence)를 취하는 것을 슬라이싱이라 한다. 
# s[start:end] 구문을 사용한다. start와 end는 얻고자 하는 서브시퀀스의 인덱스다.
a = [0,1,2,3,4,5,6,7,8]

a[2:5]    # [2,3,4]
a[-5:]    # [4,5,6,7,8]
a[:3]     # [0,1,2]

# start와 end 인덱스는 반드시 정수여야 한다.
# 슬라이스는 end 값을 포함하지 않는다. 수학에서 한쪽만 열린 구간(interval)과 비슷하다.
# 인덱스를 생략하면 리스트의 시작이나 끝을 기본값으로 사용한다.
# 슬라이스 재할당(re-assignment)
# 리스트에서 슬라이스를 다시 할당하거나 삭제할 수 있다.

# 재할당
a = [0,1,2,3,4,5,6,7,8]
a[2:4] = [10,11,12]       # [0,1,10,11,12,4,5,6,7,8]

# 참고: 재할당된 슬라이스는 길이가 똑같을 필요가 없다.

# 삭제
a = [0,1,2,3,4,5,6,7,8]
del a[2:4]                # [0,1,4,5,6,7,8]

## 시퀀스 축소(Reduction)

In [None]:
# 시퀀스를 단일 값으로 줄이는 몇 가지 함수가 있다.

s = [1, 2, 3, 4]
sum(s)
min(s)
max(s)

t = ['Hello', 'World']
max(t)
'World'

## 시퀀스에 대한 이터레이션

In [None]:
# for 루프는 시퀀스의 원소에 대해 이터레이션을 수행한다.
s = [1, 4, 9, 16]
for i in s:
    print(i)

# 각 이터레이션에서 새 항목을 얻어 작업한다. 이러한 새 값이 이터레이션 변수에 할당된다. 이 예에서 이터레이션 변수는 x다.

# for x in s:         # `x`는 이터레이션 변수
#     ...문장

# 각 이터레이션에서, 이터레이션 변수에 있는 이전 값을 덮어쓴다. 루프가 끝난 후 변수는 최종 값을 갖는다.

## break 문

In [None]:
# break 문을 사용해 루프에서 일찍 빠져나갈 수 있다.

# for name in namelist:
#     if name == 'Jake':
#         break
#     ...
#     ...
# 문장

# 문장의 실행을 break하면 루프에서 빠져나가서 다음 문장을 수행한다. 
# break 문은 가장 안쪽 루프에만 적용된다. 만약 이 루프가 다른 루프 안에 있다면, 바깥쪽 루프는 빠져나지 않는다.

## continue 문

In [None]:
# 한 원소를 건너뛰고 다음으로 가려면 continue 문을 사용한다.

# for line in lines:
#     if line == '\n':    # 공백 행을 건너뜀
#         continue
#     # 나머지 문장들
#     ...

# 현재 항목에 관심이 없거나 처리 과정에서 무시해야 할 때 유용하다.

## 정수에 대해 루핑

In [None]:
# 카운트를 하고 싶으면 range()를 써라.

# for i in range(100):
#     # i = 0,1,...,99

# 구문은 range([start,] end [,step])이다.

# for i in range(100):
#     # i = 0,1,...,99
# for j in range(10,20):
#     # j = 10,11,..., 19
# for k in range(10,50,2):
#     # k = 10,12,...,48
#     # step이 1이 아니라 2일 때 어떤 식으로 카운트하는지 눈여겨 보라.

# end 값은 포함하지 않는다. 이는 슬라이스의 작동과 같다.
# start는 선택적이고, 기본값이 0이다.
# step도 선택적이며, 기본값이 1이다.
# range()는 필요에 따라 값을 계산한다. 실제로 많은 숫자를 저장하지는 않는다.

## enumerate() 함수

In [None]:
# enumerate 함수는 이터레이션에 카운터 값을 추가한다.

# names = ['Elwood', 'Jake', 'Curtis']
# for i, name in enumerate(names):
#     # i = 0, name = 'Elwood'를 가지고 루프
#     # i = 1, name = 'Jake'
#     # i = 2, name = 'Curtis'

# 일반적 형태는 enumerate(시퀀스 [, start = 0])이다. start는 선택적이다. 
# enumerate()를 사용하는 좋은 예는 파일을 읽으면서 행 번호를 추적하는 것이다.

# with open(filename) as f:
#     for lineno, line in enumerate(f, start=1):
#         ...
# enumerate는 다음 코드를 축약하는 셈이다.

# i = 0
# for x in s:
#     문장
#     i += 1
# enumerate를 사용하면 타이핑을 적게 할 수 있고 속도도 약간 더 빠르다.

## for와 튜플

In [None]:
# 여러 개의 이터레이션 변수(iteration variable)를 사용해 루핑을 할 수 있다.

points = [
  (1, 4),(10, 40),(23, 14),(5, 6),(7, 8)
]

# for x, y in points:
#     # x = 1, y = 4를 가지고 루핑
#     #            x = 10, y = 40
#     #            x = 23, y = 14
#     #            ...

# 여러 개의 변수를 사용할 때, 각 튜플은 이터레이션 변수의 세트로 언팩(unpacked)된다. 
# 변수의 개수는 각 튜플의 항목 수와 일치해야 한다.

## zip() 함수

In [170]:
# zip 함수는 여러 시퀀스를 결합해 이터레이터(iterator)를 만든다.

columns = ['name', 'shares', 'price']
values = ['GOOG', 100, 490.1 ]
pairs = zip(columns, values)
# ('name','GOOG'), ('shares',100), ('price',490.1)

# 결과를 얻으려면 반드시 이터레이션을 해야 한다. 앞서 본 것처럼 여러 개의 변수를 사용해 튜플을 언팩할 수 있다.

# for column, value in pairs:
#     ...
# zip의 일반적인 용도는 딕셔너리를 생성하기 위한 키/값 쌍을 생성하는 것이다.

d = dict(zip(columns, values))

## 연습문제

### 연습 문제 2.13: 카운팅

In [172]:
# 기본적인 카운팅을 해 보자.

for n in range(10):            # 0 ... 9를 카운트
    print(n, end=' ')
print()

for n in range(10,0,-1):       # 10 ... 1을 카운트
    print(n, end=' ')
print()

for n in range(0,10,2):        # 0, 2, ... 8을 카운트
    print(n, end=' ')

0 1 2 3 4 5 6 7 8 9 
10 9 8 7 6 5 4 3 2 1 
0 2 4 6 8 

### 연습 문제 2.14: 더 많은 시퀀스 연산

In [178]:
# 시퀀스 축소 연산을 상호작용적으로 실험해 보자.

data = [4, 9, 1, 25, 16, 100, 49]
min(data)
max(data)
sum(data)

# 데이터에 대해 루핑을 해 보자.

for x in data:
    print(x, end=' ')
print('-'* 80)
for n, x in enumerate(data, start=1):
    print(n, x)

# 파이썬 초보자들은 for 문, len(), range()를 사용해 C 프로그램처럼 보이는 끔직한 코드를 작성하곤 한다.

print('-'* 80)
for n in range(len(data)): # C 프로그램 Style
    print(data[n])

# 이러지 마라! 가독성도 떨어지는데다 메모리를 비효율적으로 사용하며 실행 속도도 느려진다. 
# 평범한 for 루프를 써서 데이터를 이터레이트하라. 인덱스를 써야 할 합당한 이유가 있을 때는 enumerate()를 사용하라.

print('-'* 80)
datas = [4, 9, 1, 25, 16, 100, 49]

for num, data in enumerate(datas, start=1):          # Python Style
    print(num, data)



4 9 1 25 16 100 49 --------------------------------------------------------------------------------
1 4
2 9
3 1
4 25
5 16
6 100
7 49
--------------------------------------------------------------------------------
4
9
1
25
16
100
49
--------------------------------------------------------------------------------
1 4
2 9
3 1
4 25
5 16
6 100
7 49


### 연습 문제 2.15: 실용적인 enumerate() 예제

In [182]:
# 주식 포트폴리오 데이터가 있는 ../../data/missing.csv의 일부 행에는 데이터가 누락되어 있다. 
# enumerate()를 사용해 pcost.py 프로그램이 잘못된 입력을 만나면 행 번호와 경고 메시지를 프린트하게 해 보라.
def portfolio_cost(filename):
    '''포트폴리오 파일의 총 비용(주식수*가격)을 계산'''
    total_cost = 0.0
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for rowno, row in enumerate(rows, start=1):
            try:
                nshares = int(row[1])
                price = float(row[2])
                total_cost += nshares * price
            except ValueError as e:
                print(f'Row {rowno}: Bad row: {row} e: {e}')
    return total_cost


cost = portfolio_cost('../../data/missing.csv')

Row 4: Bad row: ['MSFT', '', '51.23'] e: invalid literal for int() with base 10: ''
Row 7: Bad row: ['IBM', '', '70.44'] e: invalid literal for int() with base 10: ''


### 연습 문제 2.16: zip() 함수 사용하기

In [194]:
# ../../data/portfolio.csv 파일의 첫 행에는 컬럼 헤더가 있다. 이전 코드에서는 그 부분을 버렸다.
import csv

f = open('../../data/portfolio.csv')
rows = csv.reader(f)
headers = next(rows)
f.close()

headers


# 헤더를 잘 활용할 수 있다면 좋지 않을까? zip() 함수를 이용해 보자. 먼저, 파일 헤더를 데이터 행과 짝을 짓는다.

# row = next(rows)
# row

# list(zip(headers, row))

# zip()이 어떻게 컬럼 헤더와 컬럼 값의 짝을 만드는지 눈여겨 보라. 
# 그 결과를 리스트로 바꾸기 위해 list()를 사용했으므로 확인할 수 있다. 
# zip()으로 이터레이터를 생성하여 for 루프에서 소비하는 것이 보통이다.

# 이러한 짝 짓기는 딕셔너리를 만들어내는 중간 단계다. 이번에는 이렇게 해 보자.

# record = dict(zip(headers, row))
# record
# {'price': '32.20', 'name': 'AA', 'shares': '100'}

# 이러한 변환 방식은 데이터 파일을 많이 처리할 때 매우 유용한 트릭이다. 
# 예를 들어, pcost.py 프로그램이 다양한 입력을 처리하게 하되, 
# 종목명, 주식 수, 가격이 나타나는 실제 컬럼 번호를 참고하고 싶다고 하자.

# pcost.py의 portfolio_cost() 함수를 다음과 같이 수정한다.
# pcost.py

# def portfolio_cost(filename):
#     '''포트폴리오 파일의 총 비용(주식수*가격)을 계산'''
#     total_cost = 0.0
#     with open(filename, 'r') as f:
#         rows = csv.reader(f)
# #        headers = next(rows)
#         for rowno, row in enumerate(rows, start=1):
#             record = dict(zip(headers, row))
#             try:
#                 nshares = int(record['shares'])
#                 price = float(record['price'])
#                 total_cost += nshares * price
#             except ValueError as e:
                
#                 print(f'Row {rowno}: Bad row: {row} e: {e}')
#     return total_cost



['name', 'shares', 'price']

In [223]:
def portfolio_cost(filename):
    '''포트폴리오 파일의 총 비용(주식수*가격)을 계산'''
    total_cost = 0.0
    records = []
    
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for rowno, row in enumerate(rows, start=1):
            record = dict(zip(headers, row))
            try:
                nshares = int(record['shares'])
                price = float(record['price'])
                total_cost += nshares * price
            except ValueError as e:
                print(f'Row {rowno}: Bad row: {row} e: {e}')
                
    return total_cost

cost = portfolio_cost('../../data/portfolio.csv')
cost

44671.15

In [226]:
# 이제 완전히 다른 데이터 파일을 함수에 적용해 보자. Data/portfoliodate.csv는 다음과 같다.

# name,date,time,shares,price
# "AA","6/11/2007","9:50am",100,32.20
# "IBM","5/13/2007","4:20pm",50,91.10
# "CAT","9/23/2006","1:30pm",150,83.44
# "MSFT","5/17/2007","10:30am",200,51.23
# "GE","2/1/2006","10:45am",95,40.37
# "MSFT","10/31/2006","12:05pm",50,65.10
# "IBM","7/9/2006","3:15pm",100,70.44

portfolio_cost('../../data/portfoliodate.csv')

# 데이터 파일이 앞에서 사용한 것과 완전히 달라지더라도 프로그램이 여전히 작동할 것이다. 멋지지 않은가!
# 코드를 많이 바꾸지 않았지만 그 효과는 상당하다. 
# 새로운 버전의 portfolio_cost() 함수에서는 고정된 파일 형식을 하드코딩하는 대신, 어느 CSV 파일이 
# 들어오더라도 원하는 값을 골라낼 수 있게 됐다. 필요한 컬럼이 파일에 있기만 하면 코드는 잘 작동한다.

44671.15

In [228]:
# 섹션 2.3에서 작성한 report.py 프로그램에, 컬럼 헤더를 선택하는 기술을 적용해보자.

# ../../data/portfoliodate.csv 파일에 대해 report.py 프로그램을 실행해, 이전과 같은 답을 만들어내는지 확인해 보라.
# ----------------------------------------------------------------------------------------------------------
import csv
from babel.numbers import format_currency

def make_header():
    headers = ('Name', 'Shares', 'Price', 'Change')

    for header in headers:
        print(f"{header:>10s} ", end='')
    print()
    for header in headers:
        print(f"{'-'*10:>10s} ", end='')
    print() 



def read_portfolio(filename):
    portfolio = []
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            holding = dict(zip(headers, row))
            #holding = {'name':row[0], 'shares':int(row[1]), 'price': float(row[2])}
            portfolio.append(holding)
    return portfolio


def read_prices(filename):
    prices = {}
    with open(filename, 'r') as f:
        rows = csv.reader(f)
        for row in rows:
            prices[row[0]] = float(row[1])
    return prices         


def make_report(portfolio, prices):
    report = []
    
    for port in portfolio:
        name = port['name']
        shares = int(port['shares'])
        price = float(prices[name])
        # change = float(prices[port['name']]) - float(port['price'])
        change = float(prices[name]) - float(port['price'])
        
        report.append((name, shares, price, change))
    return report    

        
# portfolio = read_portfolio('../../data/portfolio.csv')
portfolio = read_portfolio('../../data/portfoliodate.csv')

prices = read_prices('../../data/prices.csv')

report = make_report(portfolio, prices)        


# make_header()
for name, shares, price, change in report:
    print(f"{name:>10s} {shares:>10d} {format_currency(price,'USD', locale='en_US'):>10s} {change:>10.2f}")

        AA        100      $9.22     -22.98
       IBM         50    $106.28      15.18
       CAT        150     $35.46     -47.98
      MSFT        200     $20.89     -30.34
        GE         95     $13.48     -26.89
      MSFT         50     $20.89     -44.21
       IBM        100    $106.28      35.84


### 연습 문제 2.17: 딕셔너리 뒤집기

In [230]:
# 딕셔너리는 키를 값에 매팽한다. 다음은 주식 가격 딕셔너리의 예다.

prices = {
    'GOOG' : 490.1,
    'AA' : 23.45,
    'IBM' : 91.1,
    'MSFT' : 34.23
}

# items() 메서드를 사용하면 (키, 값) 쌍을 얻는다.

prices.items()

# 그런데, 만약 (값, 키)의 쌍이 필요하다면 어떻게 해야 할까? 힌트: zip()을 사용한다.

pricelist = list(zip(prices.values(),prices.keys()))
pricelist


# 이렇게 해야 할 이유가 있을까? 딕셔너리 데이터에 대해 특정한 데이터 처리를 할 수 있다는 점을 한 가지 이유로 들 수 있다.

min(pricelist)
max(pricelist)
sorted(pricelist)


# 또한 이것은 튜플의 중요 기능을 보여준다. 튜플을 비교하면, 첫 번째 항목부터 원소 하나하나를 비교하게 된다. 
# 이는 문자열의 문자 하나하나를 비교하는 것과 비슷하다.

# zip()은 이와 같이 서로 다른 자리의 데이터를 가지고 짝을 지어야 하는 상황에 종종 사용된다. 
# 예를 들어, 명명된 값의 딕셔너리를 만들기 위해, 컬럼명과 컬럼값의 쌍을 만들 수 있다.

# 참고로, zip()으로 1:1 쌍만 만들 수 있는 것이 아니다. 여러 개의 입력 리스트를 가지고도 그런 일을 할 수 있다.

a = [1, 2, 3, 4]
b = ['w', 'x', 'y', 'z']
c = [0.2, 0.4, 0.6, 0.8]
list(zip(a, b, c))
# [(1, 'w', 0.2), (2, 'x', 0.4), (3, 'y', 0.6), (4, 'z', 0.8))]

# 또한, zip()은 가장 짧은 입력 시퀀스의 마지막 원소에서 멈춘다.

a = [1, 2, 3, 4, 5, 6]
b = ['x', 'y', 'z']
list(zip(a,b))
# [(1, 'x'), (2, 'y'), (3, 'z')]

[(1, 'x'), (2, 'y'), (3, 'z')]

# 2.5 collections 모듈

In [None]:
# collections 모듈에는 데이터 처리를 위한 유용한 객체가 많이 있다. 그중 몇 가지를 간략히 소개한다.

## 예: 카운트하기

In [None]:
# 보유한 주식이 다음과 같을 때, 종목별로 합산해 나타내고 싶다고 하자.

portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15)
]
# 위 리스트에 IBM과 GOOG가 두 개씩 있다. 종목별로 합산해 보자.

### Counter

In [252]:
# 해법: Counter를 사용한다.

from collections import Counter
total_shares = Counter()
for name, shares, price in portfolio:
    total_shares[name] += shares

total_shares['IBM']     # 150

150

### 예: 일대다(One-Many) 매핑

In [None]:
# 문제: 하나의 키를 여러 개의 값에 매핑하려고 한다.

portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15)
]

# 앞의 예와 같이, IBM을 키로 삼으면 두 개의 튜플이 있다.

# 해법: defaultdict를 사용한다.

from collections import defaultdict
holdings = defaultdict(list)
for name, shares, price in portfolio:
    holdings[name].append((shares, price))
holdings['IBM'] # [ (50, 91.1), (100, 45.23) ]
defaultdict을 사용하면 키에 액세스할 때마다 기본값을 얻는다.

In [250]:
portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15)
]

temps = []
for name, shares, price in portfolio:
    if not temps:
        temps.append([name, shares, price])    
    else:    
        for temp in temps:   
            if temp[0] == name:
                # print(name, temp[0])
                temp[1] += shares
                temp[2] += price
            else:
                temps.append([name, shares, price])
    print(temps)                


[['GOOG', 100, 490.1]]
[['GOOG', 100, 490.1], ['IBM', 100, 182.2]]
[['GOOG', 100, 490.1], ['IBM', 100, 182.2], ['CAT', 300, 166.88], ['CAT', 300, 166.88]]
[['GOOG', 100, 490.1], ['IBM', 200, 227.42999999999998], ['CAT', 300, 166.88], ['CAT', 300, 166.88], ['IBM', 200, 90.46], ['IBM', 200, 90.46], ['IBM', 200, 90.46]]
[['GOOG', 175, 1062.5500000000002], ['IBM', 200, 227.42999999999998], ['CAT', 300, 166.88], ['CAT', 300, 166.88], ['IBM', 200, 90.46], ['IBM', 200, 90.46], ['IBM', 200, 90.46], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9]]
[['GOOG', 175, 1062.5500000000002], ['IBM', 200, 227.42999999999998], ['CAT', 300, 166.88], ['CAT', 300, 166.88], ['IBM', 200, 90.46], ['IBM', 200, 90.46], ['IBM', 200, 90.46], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['GOOG', 150, 1144.9], ['AA', 100, 46.3], ['AA', 100, 46.3], ['AA', 100, 4