# 2. 데이터로 작업하기

- [2.1 자료형과 자료 구조](#2.1-자료형과-자료-구조)
- [2.2 컨테이너](#2.2-컨테이너)
- [2.3 출력 포매팅](#2.3-포맷팅)
- [2.4 시퀀스](#2.4-시퀀스)
- [2.5 collections 모듈](#2.5-collections모듈)

## 2-1 기본 자료형
파이썬에는 몇 가지 기본 자료형이 있다.

- 정수
- 부동소수점수
- 문자열(텍스트)

### None Type

In [1]:
email_address  = None

`None`은 주로 선택값 혹은 널값 표시.조건절에서는 `False`로 판단함.

In [2]:
if email_address:
    send_email(email_address, msg)

In [3]:
def send_email(mail, msg):
    pass

### 자료형

실제 프로그래이 환경에서는 훨씬 더 복잡한 데이터를 사용한다. 주식보유 데이터을 예를 들어보겠다.

구글(GOOG) 주식을 490.10 달러에 100주 보유

이 "객체"는 세 부분으로 구성된다.

- 종목명 또는 심벌(문자열 "GOOG")
- 주식 수(정수 100)
- 가격(부동소수점수 490.10)

### 튜플(Tuple)
튜플은 함께 묶인 값의 컬렉션이며, 변경불가능(immutable)한 데이터 타입

예:

In [4]:
s = ('GOOG', 100, 490.1)
type(s)

tuple

In [5]:
s1 = 'GOOG', 100, 490.1
type(s1)

tuple

In [6]:
t = ()
t1 = ('GOOD',)  # 튜플은 항상 가로를 사용한다면 콤마가 있어야 함

"A tuple is like a single row in a database table"

In [7]:
s[0], s[1], s[2]

('GOOG', 100, 490.1)

In [8]:
s[1] = 500  # TypeError: 'tuple' object does not support item assignmen

TypeError: 'tuple' object does not support item assignment

### 튜플로 묶기(packing)
튜플은 서로 관련된 항목들을 단일 엔티티(entity)로 묶는 역할을 한다.

In [None]:
s = ('GOOG', 100, 490.1)

### 튜플을 풀기(unpacking)
튜플을 전달받은 후에는 풀어서 각각의 변수를 사용할 수 있다. 혹은 언팩킹이라고 함.

In [None]:
name, shares, prcies = s
display(name, shares, prcies)

왼쪽의 변수 개수가 튜플 구조와 일치해야 한다.

In [None]:
name, shares = s     # 오류

### 튜플 vs. 리스트
튜플은 읽기 전용 리스트처럼 보인다. 그러나, 튜플의 주된 용도는 여러 부분으로 구성된 단일 항목으로서 사용하는 것이다. 리스트는 고유한 항목들의 컬렉션으로 사용되며, 이때 모든 항목이 같은 타입인 경우가 많다.

In [None]:
record = ('GOOG', 100, 490.1)       # 포트폴리오의 한 레코드를 나타내는 튜플

symbols = [ 'GOOG', 'AAPL', 'IBM' ]  # 세 가지 주식 심벌을 나타내는 리스트

### 딕셔너리(Dictionary)
딕셔너리는 키(key)를 값(value)에 대응(mapping)시킨다. 해시 테이블(hash table) 또는 연관 배열(associative array)이라고도 부른다. 키는 값에 접근하는 인덱스 역할을 한다.

In [None]:
s_dict = {
    'name':'GOOG',
    'shares': 100,
    'price': 490.1
}

In [None]:
display(s_dict['name'], s_dict['shares'])

값 추가 혹은 수정

In [None]:
s_dict['shares'] = 250
s_dict['date'] = '2020-10-01'

In [None]:
s_dict

- 값을 삭제하는 경우엔

In [None]:
del s_dict['date']

In [None]:
s_dict

### 연습문제

In [None]:
import csv

with open("../../Work/Data/portfolio.csv", "rt") as f:
    rows = csv.reader(f)
    next(rows)
    
    for row in rows:
        print(row)  # 내부적으로 next()ㄹ르 호출함.

In [None]:
f = open("../../Work/Data/portfolio.csv", "rt")
rows = csv.reader(f)
row = next(rows)

row = next(rows)
row

In [None]:
row[1] * row[2]   #### TypeError: can't multiply sequence by non-int of type 'str'

추가적인 연산작업을 위한다면 리스트 타입보다는 다른 형태인 dictionary혹은 튜플타입으로 변경하는 것이 필요.

#### 튜플

In [None]:
t = (row[0], int(row[1]), float(row[2]))
t

자!! 이제는 계산이 가능하다.

In [None]:
cost = t[1] * t[2]
cost

컴퓨터의 부동소수점 하드웨어로 계산한 결과다. 십진수(decimal)를 십진법(Base-10)이 아니라 이진법(Base-2)으로 표현하기 때문에 이런 결과가 나왔다. 간단한 계산이라 할지라도, 십진수와 관련된 계산에는 작은 오류가 발생한다. 처음 본다면 놀라울 수 있겠지만, 이것은 정상적인 작동이다.

In [None]:
print(f"{cost:.2f}")  # 이렇게 숨길수도있어요.

#### 딕셔너리

In [None]:
d = {
        'name' : row[0],
        'shares' : int(row[1]),
        'price'  : float(row[2])
    }

In [None]:
d

In [None]:
cost = d['shares'] * d['price']
cost

In [None]:
d['shares'] = 75

In [None]:
cost = d['shares'] * d['price']
cost

In [None]:
d['date'] = (2, 18, 2021)
d

#### 추가적인 딕셔너리 연산
딕셔너리를 리스트로 변환하면 전체 키를 얻는다.

In [None]:
list(d.items())  # 키와 값을 매핑해서 가져옴.

In [None]:
list(d) # 키만 가져옴

In [None]:
list(d.values())  # 값만 가져오기

In [None]:
for k in d:
    print('k =', k)

In [None]:
for k in d.keys():
    print(k)

In [None]:
d.keys()

In [None]:
for k, v in d.items():
    print(f'키값은 {k} 이고 값은 {v}입니다')

### 2.2 컨테이너
* 이 섹션은 리스트, 딕셔너리, 세트를 논한다.

#### 개요
프로그램에서 많은 수의 객체를 다뤄야할 때가 있다.
* 주식포트폴리오
* 주식가격 테이블

세가지 선택사항이 있다.
- 리스트 : 순가 유지되는 ordered dict
- 딕셔너리 : 순서가 없는 데이터
- 세트     : 고유한 항목의 집합이면 순서가 없음.

#### 컨테이너로서의 리스트
데이터으시 순서가 중요할 때는 리스트를 사용.어떤 유형의 객체든 담을수있다

In [None]:
portpolio = [
    ('GOOG',100, 490.1),
    ('IBM', 50, 91.3),
    ('CAT', 150, 83.44)
]

portpolio[0], portpolio[1], portpolio[0][0]

**리스트 생성**

In [None]:
records = []

records.append((('GOOG',100, 490.1)))
records.append(('IBM', 50, 91.3))
records.append(('CAT', 150, 83.44))

In [None]:
records

다음은 파일에서 레코드를 읽어 리스트에 채우는 예이다.

In [None]:
records = []
with open("../../Work/Data/portfolio.csv", "rt") as f:
    next(f)
    for line in f:
        row = line.split(",")
        records.append((row[0].replace('"', ''), int(row[1]), float(row[2])))
records        

**컨테이너로서의 딕셔너리**
* 딕셔너리는 빠른 임의 조회(키 이름을 사용)에 유용

In [None]:
prices = {
    'GOOG':513.25,
    'CAT':87.22,
    'IBM':93.37,
    'MSFT':44.12
}

In [None]:
prices['GOOG'], prices['MSFT']

딕셔너리를 채우는 예제

In [None]:
prices = {}
with open("../../Work/Data/prices.csv", "rt") as f:
    next(f)
    try:
        for line in f:
            row = line.split(",")
            prices[row[0].replace('"', '')] = float(row[1])
    except IndexError:
        pass
# 딕셔너리를 출력
prices

**딕셔너리 조회**

In [None]:
prices.get("KIA", 'UNKNOWN')

In [None]:
if 'KIA' in prices.keys():
    print("Yes")
else:
    print("No")

**복합키**

파이썬에서는 어떤 타입의 값이든 딕녀러리의 키로 사용할 수 있다. 딕셔너리 키는 반드시 변경불가능한 타입이어야 한다.

In [None]:
holidays = {
    (5,1) : "노동절",
    (1,1) : "신년",
    (8.15): "광복절"
 }

In [None]:
holidays[(5,1)],holidays[1,1]

**세트(집합)**
* 집합은 고유 항목의 모음이며 순서를 유지하지 않음

In [None]:
tech_stocks = {'IBM', "APPL", "MSFT"}
tech_stocks = set(tech_stocks)

In [None]:
tech_stocks,type(tech_stocks)

* 멤버쉽 테스트

In [None]:
'APPL' in tech_stocks, 'KIA' not in tech_stocks, 'KIA' in tech_stocks

* 중복제거에도 유용

In [None]:
names = ['IBM', 'AAPL', 'APM', 'GOOG', 'IBM', 'YHGK', 'FACEBOOK', 'SAMSUNG', 'IBM', 'AAPL', 'GOOG']
unique = set(names)

In [None]:
unique

In [None]:
unique.add("CAT")
unique.remove("AAPL")

In [None]:
unique

## 연습문제

### 2.4  튜플을 이용한 주가 수익 계산

* REPL(Read Evaluate Print Loop)

In [None]:
portfolio = []
filename = "portfolio.csv"
with open(target_dir+filename, "rt") as f:
    next(f)
    rows= csv.reader(f)
    for row in rows:
        portfolio.append((row[0], int(row[1]), float(row[2]))) 
print("리스트로 주가 정보 출력")
portfolio

In [None]:
# 딕셔너리
portfolio = {}
filename = "portfolio.csv"
prices = []
with open(target_dir+filename, "rt") as f:
    next(f)
    rows= csv.reader(f)
    for row in rows:  # 루프의 한 요소는 타입은 list
        portfolio = {}    
        portfolio['name'] = row[0]
        portfolio['shares'] = int(row[1])
        portfolio['prices'] = float(row[2])
        prices.append(portfolio)
print("딕셔너리로 주가 정보 출력")
prices

In [None]:
# report.py
def read_portpolio(filename):
    """
    csv파일을 읽어 주가정보를 튜플에 담아 리스트로 리턴
    """
    import csv
    target_dir = "../../Work/Data/"
    portfolio = []
    with open(target_dir + filename, "rt") as f:
        headers = next(f)
        rows = csv.reader(f)
        for row in rows:
            portfolio.append((row[0], int(row[1]), float(row[2])))
    return portfolio

In [None]:
stocks = read_portpolio("portfolio.csv")
total_profit = 0.0
for row in stocks:
    total_profit += int(row[1]) * float(row[2])
print(f'총수익은 다음과 같다 :  {total_profit:.2f}')

In [None]:
stocks = read_portpolio("portfolio.csv")
total_profit = 0.0
for name, share, prices in stocks:
    total_profit += share * prices
print(f'총수익은 다음과 같다 :  {total_profit:.2f}')

### 2.5 딕셔너리를 이용한 주가 계산

In [None]:
def read_portpolio(filename):
    """
    csv파일을 읽어 주가정보를 딕셔너리형태로 담아서 리스트로 최종 리턴
    """
    import csv
    target_dir = "../../Work/Data/"
    stock_info = []
    with open(target_dir + filename, "rt") as f:
        headers = next(f)
        rows = csv.reader(f)
        for row in rows:
            portfolio = {}
            portfolio['name'] = row[0]
            portfolio['shares'] = int(row[1])
            portfolio['prices'] = float(row[2])
            stock_info.append(portfolio)
    return stock_info

In [None]:
portfolio = read_portpolio("portfolio.csv")

In [None]:
total = 0.0

for s in portfolio:
    total += s['shares'] * s['prices']
print(f'총수익은 다음과 같다 :  {total:.2f}')

In [None]:
from pprint import pprint

# 디버깅을 위해 출력 정돈
pprint(portfolio)

### 2.6 가격정보를 읽어 딕셔너리 생성

In [None]:
import csv

TARGET_DIR = "../../Work/Data/"
def read_prices(filename):
    """
    CSV파일을 읽어 주가정보와 주가명을 딕셔너리를 포함한 리스트로 리턴
    1.CSV파일내에 빈라인이 있는것이 있으니 그것에 대한 예외처리가 필요
    """
    try:
        stock_info = []
        import csv
        f = open(TARGET_DIR + filename, 'r')
        rows = csv.reader(f)
        next(f)
        for row in rows:
            portfolio = [{}]
            portfolio[row[0]] = float(row[1])
            stock_info.append(portfolio)
        f.close()
    except TypeError:
        pass
    except IndexError:
        pass
    return stock_info

In [None]:
def read_prices(filename):
    """
    CSV파일을 읽어 주가정보와 주가명을 딕셔너리로 리턴
    1.CSV파일내에 빈라인이 있는것이 있으니 그것에 대한 예외처리가 필요
    """
    try:
        prices = {}
        import csv
        f = open(TARGET_DIR + filename, 'r')
        rows = csv.reader(f)
        next(f)
        for row in rows:
            prices[row[0]] = float(row[1])
        f.close()
    except TypeError:
        pass
    
    except IndexError:
        pass
    return prices

In [None]:
portfolio = read_prices("prices.csv")
from pprint import pprint

# 디버깅을 위해 출력 정돈
pprint(portfolio)

### 2.7 나 은퇴해도 되는거야?
* 보유하고있는 주식과 주식의 현재 시세를 고려해서 은퇴여부를 알려주자.

In [None]:
prices['IBM']

In [21]:
import csv    
# 전역변수 
target_dir = "../../Work/Data/"

def read_prices(filename):
    """
    CSV파일을 읽어 주가정보와 주가명을 딕셔너리로 리턴
    1.CSV파일내에 빈라인이 있는것이 있으니 그것에 대한 예외처리가 필요
    """
    try:
        prices = {}
        f = open(TARGET_DIR + filename, 'r')
        rows = csv.reader(f)
        next(f)
        for row in rows:
            prices[row[0]] = float(row[1])
        f.close()
    except TypeError:
        pass
    except IndexError:
        pass
    return prices

def read_portpolio(filename):
    """
    csv파일을 읽어 주가정보를 딕셔너리형태로 담아서 리스트로 최종 리턴
    """
    stock_info = []
    with open(target_dir + filename, "rt") as f:
        headers = next(f)
        rows = csv.reader(f)
        for row in rows:
            portfolio = {}
            portfolio['name'] = row[0]
            portfolio['shares'] = int(row[1])
            portfolio['prices'] = float(row[2])
            stock_info.append(portfolio)
    return stock_info

def make_report(portfolio, prices):
    total_profit = 0.0
    rows = []
    for stock in portfolio:
        try:
            change = prices[stock['name']] - stock['prices']
            summary = (stock['name'], stock['shares'], stock['prices'], round(change,2))
            rows.append(summary)
        except KeyError:  # 보유한 주식이 아닌 경우의 처리.
            pass
    print("귀하의 보유한 주식에 대해 추정완료")
    
    # 총 수익 계산
    for my_asset in rows:
        total_profit += my_asset[1] * my_asset[3]
    
    if total_profit < 0 :
        msg = "은퇴하지 마세요"
    else:
        msg = "좀 더 버티세요.\n 손해는 안보지만 관망세"
    return total_profit, msg, rows

### Read Evaluate Print Loop

In [None]:
rows = []
for stock in portfolio:
    try:
        change = prices[stock['name']] - stock['prices']
        summary = (stock['name'], stock['shares'], stock['prices'], round(change,2))
        rows.append(summary)
    except KeyError:  # 보유한 주식이 아닌 경우의 처리.
        pass

print("귀하의 보유한 주식에 대해 추정완료")
print(rows)


print("\n")
total_profit = 0.0

for my_asset in rows:
    total_profit += my_asset[1] * my_asset[3]
    
print("현재 총 수익 : ", total_profit)

if total_profit < 0 :
    print("은퇴하지 마세요.")
else:
    print("좀 더 버티세요.\n 손해는 안보지만 관망세.")

### 최종 호출

In [None]:
# 함수 호출 결과 
prices = read_prices("prices.csv")
portfolio = read_portpolio("portfolio.csv")
amt, msg, prices = make_report(portfolio, prices)
print(f"귀하가 보유한 주식가치는 {amt:.2f} 이며, 지금은 {msg:}")

### 2.3 포맷팅
* 데이터를 가지고 구조화된 출력을 해야 할때.

In [None]:
      Name      Shares        Price
----------  ----------  -----------
        AA         100        32.20
       IBM          50        91.10
       CAT         150        83.44
      MSFT         200        51.23
        GE          95        40.37
      MSFT          50        65.10
       IBM         100        70.44

위와 같은 형태의 structured format을 하고자 할때 포맷팅을 사용

**문자열 포맷팅**
* 파이썬 3.6이상의 버번에서 `f`를 이용한 문자열 포맷팅을 지원

In [None]:
name, shares, price = 'IBM', 100, 91.11

In [None]:
print(f'주식종목 : {name:>10s}, 보유주식수 : {shares:>10d}, 주가 : {price:>10.2f}') # 오른쪽 정렬하되 자릿수는 10자리로 채움

In [None]:
f'주식종목 : {name:>10s}, 보유주식수 : {shares:>10d}, 주가 : {price:>10.2f}'

* 문자열 포맷팅시 코드

d - Decimal integer

b - Binary integer

x - Hexadecimal integer

f - Float as [-]m.dddddd

e - Float as [-]m.dddddde+-xx

g - Float, but selective use of E notation

s - String

c - Character (from integer)

:>10d - 자릿수가 10자리이고 오른쪽 정렬

:<10d - 자릿수가 10자리이고 왼쪽 정렬

:^10d - 자릿수 10자리에 가운데 정렬

:0.2f - 실수형에 소숫점 두자리.

**Dictionary를 이용한 문자열 포멧팅**
* `format_map`을 이용

In [None]:
s = {'names': 'IBM', 'shares': 100, 'prices': 91.1}

In [None]:
'종목: {names:>10s}, 보유주식 수 :  {shares:>10d},  주가 : {prices:>10.2f}'.format_map(s)

**`format`을 이용한 문자열 포멧팅**

In [None]:
'{name:10s} {shares:10d} {price:10.2f}'.format(name="IBM", shares= 100, price= 91.1)

In [None]:
'{:10s} {:10d} {:10.2f}'.format(name,shares,price)

**C스타일 포매팅**
* [문서 참조](https://docs.python.org/3/library/stdtypes.html#printf-style-string-formatting)

In [None]:
'The value is %d' % 100

In [None]:
'%5d %-5d %10d' % (3,4,5)

In [None]:
'%0.2f' % (3.1415926,)

In [None]:
b'%s has %n messages' % (b'Dave', 37)

### 연습문제

### 2.8 숫자 포맷

In [None]:
value = 42863.1
print(value)

In [None]:
print(f'{value:0.4f}')

In [None]:
print(f'{value:>16.2f}')

In [None]:
print(f'{value:<16.2f}')

In [None]:
print(f'{value:*>16,.2f}')  # 오른쪽 정렬하되 빈 자리는 `*`로 채움.

In [None]:
print('%0.4f'% value)

In [None]:
print('%16.2f' % value)

* 변수에 포맷 문자열 저장

In [None]:
f = '%0.4f' % value
type(f), f

### 2.9 Collecting Data

In [None]:
prices = read_prices("prices.csv")
portfolio = read_portpolio("portfolio.csv")
amt, msg, prices = make_report(portfolio, prices)

**C스타일 포맷문자열**

In [None]:
type(prices)
headers = ('Name', 'Shares', 'Price', 'Change')
print('%10s %10s %10s %10s' % headers)
print(('-' * 10 + ' ') * len(headers))
for row in prices:
    print('%10s %10d %10.2f %10.2f' % row)

**`f`포맷 문자열 이용**
* 달러표시는 추후에 해보자

In [None]:
headers = ('Name', 'Shares', 'Price', 'Change')
print('%10s %10s %10s %10s' % headers)
print(('-' * 10 + ' ') * len(headers))
for row in prices:
    print(f'{row[0]:>10s} {row[1]:>10d} {row[2]:>10.2f} {row[3]:>10.2f}')

## 2.4 시퀀스

### 시퀀스 자료형
모든 시퀀스로 유지되고, 정수로 인덱싱하며 길이가 있다.
- 문자열: 'Hello'. 문자열(string)은 문자(character)들의 시퀀스다.
- 리스트: [1, 4, 5].
- 튜플: ('GOOG', 100, 490.1).

In [None]:
a = 'Hello'               # 문자열
b = [1, 4, 5]             # 리스트
c = ('GOOG', 100, 490.1)  # 튜플

# 인덱싱된 순서
display(a[0],b[-1],c[1])
# 시퀀스의 길이
display(len(a),len(b), len(c))

* 시퀀스를 복제할수있다.

In [None]:
a = 'Hello'
a * 3

In [None]:
b = [1, 2, 3]
b * 3

* 같은 타입의 시퀀스끼는 이어붙힐 수도 있다.

In [None]:
a = (1, 2, 3)
b = (4, 5)
display(a + b)
c = [2, 6]
b + c    # TypeError: can only concatenate tuple (not "list") to tuple

### 슬라이싱(Slicing)
시퀀스의 일부(subsequence)를 취하는 것을 슬라이싱이라 한다. 

s[start:end] 구문을 사용한다. start와 end는 얻고자 하는 서브시퀀스의 인덱스다.

In [None]:
a = [0,1,2,3,4,5,6,7,8]

print(a[2:5])    # [2,3,4]
print(a[-5:])    # [4,5,6,7,8]
print(a[:3])     # [0,1,2]

* start와 end 인덱스는 반드시 정수여야 한다.
* 슬라이스는 end 값을 포함하지 않는다. 수학에서 한쪽만 열린 구간(interval)과 비슷하다.
* 인덱스를 생략하면 리스트의 시작이나 끝을 기본값으로 사용한다.

### 슬라이스 재할당(re-assignment)
리스트에서 슬라이스를 다시 할당하거나 삭제할 수 있다.

In [None]:
# 재할당
a = [0,1,2,3,4,5,6,7,8]
a[2:4] = [10,11,12]       # [0,1,10,11,12,4,5,6,7,8]
a

In [None]:
# 삭제
a = [0,1,2,3,4,5,6,7,8]
del a[2:4]                # [2,3]원소가 삭제

In [None]:
a

### 시퀀스 축소(Reduction)
시퀀스를 단일 값으로 줄이는 몇 가지 함수가 있다.

In [None]:
s = [1, 2, 3, 4]
sum(s)

In [None]:
s = [1, 2, 3, 4]
min(s)

In [None]:
s = [1, 2, 3, 4]
max(s)

In [None]:
t = ["Hello", "World"]
max(t)  # 알파벳순으로 누가 더 큰 문자

### 시퀀스에 대한 이터레이션
for 루프는 시퀀스의 원소에 대해 이터레이션을 수행한다.

In [None]:
s = [1, 4, 9, 16]
for i in s:
    print(i)

### break 문
break 문을 사용해 루프에서 일찍 빠져나갈 수 있다.

for name in namelist:

    if name == 'Jake':
    
        break
    ...
    ...
문장

문장의 실행을 break하면 루프에서 빠져나가서 다음 문장을 수행한다. 

break 문은 가장 안쪽 루프에만 적용된다. 만약 이 루프가 다른 루프 안에 있다면, 바깥쪽 루프는 빠져나지 않는다.

### continue 문
한 원소를 건너뛰고 다음으로 가려면 continue 문을 사용한다.

for line in lines:

    if line == '\n':    # 공백 행을 건너뜀    
        continue        
    # 나머지 문장들
    ...

### 정수에 대해 루핑
카운트를 하고 싶으면 range()를 써라.

- end 값은 포함하지 않는다. 이는 슬라이스의 작동과 같다.
- start는 선택적이고, 기본값이 0이다.
- step도 선택적이며, 기본값이 1이다.
- range()는 필요에 따라 값을 계산한다. 실제로 많은 숫자를 저장하지는 않는다.

### enumerate() 함수
`enumerate` 함수는 이터레이션에 카운터 값을 추가한다.

names = ['Elwood', 'Jake', 'Curtis']

for i, name in enumerate(names):

    # i = 0, name = 'Elwood'를 가지고 루프
    # i = 1, name = 'Jake'
    # i = 2, name = 'Curtis'

일반적 형태는 enumerate(시퀀스 [, start = 0])이다.

start는 선택적이다. enumerate()를 사용하는 좋은 예는 파일을 읽으면서 행 번호를 추적하는 것이다.

with open(filename) as f:

    for lineno, line in enumerate(f, start=1):
        ...

`enumerate`는 다음 코드를 축약하는 셈이다.

i = 0

for x in s:

    문장
    
    i = i + 1

### for와 튜플

In [None]:
points = [
    (1, 4), (10, 40), (23, 14), (5, 6), (7, 8)
]

for x, y in points:
    print(x, y)

여러 개의 변수를 사용할 때, 각 튜플은 이터레이션 변수의 세트로 언팩된다. 변수의 갯수는 각 튜플의 항목 수와 일치해야 한다.

### zip함수
* `zip`함수는 여러 시퀀스를 결합이 이터레이터를 만듦
* 일반적인 용도는 딕셔너리를 생성하기 위한 키/값 쌍을 생성하는 것

In [None]:
columns = ['name', 'share', 'prices']
values = ['GOOG', 100, 490.1]
pairs = zip(columns, values)

In [None]:
#결과 보기 
for col, val in pairs:
    print(col, val)

In [None]:
d = dict(zip(columns, values))

In [None]:
d.items(), d.keys(), d.values()

## 연습문제

### 2.13 : 카운팅

In [None]:
for n in range(10):
    print(n, end = ' ')

In [None]:
for n in range(10, 0, -1):
    print(n, end = ' ')

In [None]:
for n in range(0, 10,  2):
    print(n, end = ' ')

### 2.14: 더 많은 시퀀스 연산

In [None]:
data = [4, 9, 1, 25, 16, 100, 49]
min(data), max(data), sum(data)

In [None]:
# data 리스트에 대해 루핑
for x in data:
    print(x)

In [None]:
for n, x in enumerate(data):
    print(n, x)

파이썬 초보자들은 `for`문, `len()`, `range()`문을 사용해 C프록램처럼 보이는 끔찍한 코드를 작성하곤하낟.

In [None]:
for n in range(len(data)):
    print(data[n])

이러지 말자!!! 가독성도 떨어지고, 메모리를 비효율적으로 사용하여 실행속도도 느려지낟. 평범한 for루프를 써서 데이터를 이터레이트하라. 

인덱스를 써야 할 합당한 이유가 있을 때는 `enumerate()`를 사용하라.

### 2.15 : 실용적인 enumerate() 예제

In [None]:
# pcost.py
import csv
target_dir = "../../Work/Data/"
def portpolio_cost(filename):
    total_cost = 0.0
    """
    주식매수시 총 가격 계산
    1.잘못된 행의 데이터를 만나면 에러 메시지 출력
    """
    with open(target_dir+filename, "rt") as f:
        headers = next(f)
        rows = csv.reader(f)
        for idx, row in enumerate(rows):
            try:
                shares = int(row[1])
                prices = float(row[2])
                total_cost += shares * prices
            except ValueError:
                print(f"Row {idx} : Couldn't convert : [ {row[0]}, {row[1]}, {row[2]}]")
        return total_cost

import sys
if len(sys.argv) == 2:
    filename = sys.argv[1]
else:
    filename = input("Enter a filename:")
    
cost = portpolio_cost(filename)
print("Total Cost :", cost)

### 2.16 : zip()사용
* `csv`파일의 형식의 포맷이 어떻더라고 , 원하는 컬럼.즉, 여기에서는 shares, price만 있으면 작동한다.멋지지!!

In [None]:
import csv
f = open("../../Work/Data/portfolio.csv", "rt")

rows = csv.reader(f)
headers = next(rows)
headers

In [None]:
row = next(rows)
row

In [None]:
list(zip(headers, row))

In [None]:
record = dict(zip(headers, row))
record

In [None]:
# pcost.py
import csv
target_dir = "../../Work/Data/"
def portpolio_cost(filename):
    total_cost = 0.0
    """
    주식매수시 총 가격 계산
    1.잘못된 행의 데이터를 만나면 에러 메시지 출력
    2.zip()함수 사용
    """
    with open(target_dir+filename, "rt") as f:
        rows = csv.reader(f)
        headers = next(rows)
        for idx, row in enumerate(rows, start = 1):
            record = dict(zip(headers, row))
            print(record)
        
            try:
                shares = int(record['shares'])
                prices = float(record['price'])
                total_cost += shares * prices
            except ValueError:
                print(f"Row {idx} : Couldn't convert : [ {row[0]}, {row[1]}, {row[2]}]")
        return total_cost

import sys
if len(sys.argv) == 2:
    filename = sys.argv[1]
else:
    filename = input("Enter a filename:")
    
cost = portpolio_cost(filename)
print("Total Cost :", cost)

### 2.17 딕셔너리 뒤집기

In [None]:
prices = {
    'GOOG': 490.1,
    'AA':23.45,
    'IBM':91.1,
    'MSFT':34.23
}

In [None]:
prices.items()

In [None]:
pricelist = list(zip(prices.values(), prices.keys()))
pricelist

* 만약, 특정한 값만 처리해야 할 필요성이 있다면..위와 같은 것이 필요하다.

In [None]:
# 가장 작은값
min(pricelist)

In [None]:
#가장 큰 값
max(pricelist)

In [None]:
sorted(pricelist)

In [None]:
# 내림차순으로 정렬함.
sorted(pricelist, reverse = True)

* 다음과 같은 예를 봐보자.

In [9]:
a = [1, 2, 3, 4]
b = ['w', 'x', 'y', 'z']
c = [0.2, 0.4, 0.6, 0.8]

In [10]:
list(zip(a, b, c))

[(1, 'w', 0.2), (2, 'x', 0.4), (3, 'y', 0.6), (4, 'z', 0.8)]

* 짝은 맞지 않는 리스트를 `zip`시키면?

In [11]:
a = [1, 2, 3, 4, 5, 6]
b = ['x', 'y', 'z']

In [12]:
# 가장 짧은 입력 시퀀스의 마지막 원소에서 멈춘다.
list(zip(a, b))  

[(1, 'x'), (2, 'y'), (3, 'z')]

## 2.5 collections모듈

* `collections`모듈에는 데이터 처리를 위한 유용한 객체가 많이 있다.그중 몇가지를 간략히 소개한다.

보유한 주식이 다음과 같을때, 종목별로 합산해 나타내고 싶다고 하자.

In [13]:
portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15),
]

위 리스트에 `IBM`과 `GOOG`가 두개씩 있다. 종목별로 합산해보자.

### Counter
* 해법 : `Counter()`를 사용

In [14]:
from collections import Counter

total_shares = Counter()

for name, share, price in portfolio:
    #print(name, share, price)
    total_shares[name] = total_shares[name] + share
    print('total_shares['+name+'] =', total_shares[name])

total_shares['IBM']

total_shares[GOOG] = 100
total_shares[IBM] = 50
total_shares[CAT] = 150
total_shares[IBM] = 150
total_shares[GOOG] = 175
total_shares[AA] = 50


150

In [15]:
help(total_shares)

Help on Counter in module collections object:

class Counter(builtins.dict)
 |  Counter(iterable=None, /, **kwds)
 |  
 |  Dict subclass for counting hashable items.  Sometimes called a bag
 |  or multiset.  Elements are stored as dictionary keys and their counts
 |  are stored as dictionary values.
 |  
 |  >>> c = Counter('abcdeabcdabcaba')  # count elements from a string
 |  
 |  >>> c.most_common(3)                # three most common elements
 |  [('a', 5), ('b', 4), ('c', 3)]
 |  >>> sorted(c)                       # list all unique elements
 |  ['a', 'b', 'c', 'd', 'e']
 |  >>> ''.join(sorted(c.elements()))   # list elements with repetitions
 |  'aaaaabbbbcccdde'
 |  >>> sum(c.values())                 # total of all counts
 |  15
 |  
 |  >>> c['a']                          # count of letter 'a'
 |  5
 |  >>> for elem in 'shazam':           # update counts from an iterable
 |  ...     c[elem] += 1                # by adding 1 to each element's count
 |  >>> c['a']               

### 예 : 일대다(One-Many) 매핑
* 문제 : 하나의 키를 여러 개의 값에 매핑하려고 한다.

In [16]:
portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15),
]

앞의 예와 같이, `IBM`을 키로 삼으면 두개의 튜플이 있다.

In [17]:
from collections import defaultdict

holdings = defaultdict(list)

for name, share, price in portfolio:
    holdings[name].append((share, price))
holdings['IBM']

[(50, 91.1), (100, 45.23)]

In [18]:
help(holdings)

Help on defaultdict object:

class defaultdict(builtins.dict)
 |  defaultdict(default_factory[, ...]) --> dict with default factory
 |  
 |  The default factory is called without arguments to produce
 |  a new value when a key is not present, in __getitem__ only.
 |  A defaultdict compares equal to a dict with the same items.
 |  All remaining arguments are treated the same as if they were
 |  passed to the dict constructor, including keyword arguments.
 |  
 |  Method resolution order:
 |      defaultdict
 |      builtins.dict
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __copy__(...)
 |      D.copy() -> a shallow copy of D.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __missing__(...)
 |      __missing__(key) # Called by __getitem__ for missing key; pseudo-code:
 |      if self.default_factory is None: raise Key

### 예 : 이력을 유지하기
* 문제 : 미지막 N개의 이력을 유지하고 싶다.
* 해법 : `deque`를 사용

In [19]:
from collections import deque

history = deque(maxlen = N)

with open(filename) as f:
    for line in f:
        history.append(line)
        pass

NameError: name 'N' is not defined

### 연습문제

### 2.18 Counter를 표 형태의 데이터 다루기 
* 각 종목의 총 주식수를 나타내는 표를 만들고 싶다고 하자.`Counter`객체를 사용해 쉽게 할수 있다.

In [22]:
portfolio = read_portpolio("../../Work/Data/portfolio.csv")

In [26]:
from collections import Counter
holdings = Counter()

for s in portfolio:
    holdings[s['name']] += s['shares']

holdings

Counter({'AA': 100, 'IBM': 150, 'CAT': 150, 'MSFT': 250, 'GE': 95})

In [30]:
holdings['AA'], holdings['IBM']

(100, 150)

In [33]:
# 가장 많이 보유한 주식 3가지
holdings.most_common(3)

[('MSFT', 250), ('IBM', 150), ('CAT', 150)]

다른 포트폴리오를 가지고 새로운 Counter를 만들어보자 

In [38]:
portfolio2 = read_portpolio("../../Work/Data/portfolio2.csv")

In [40]:
from collections import Counter
holdings2 = Counter()

for s in portfolio2:
    holdings2[s['name']] += s['shares']

holdings2

Counter({'AA': 50, 'HPQ': 250, 'MSFT': 25, 'GE': 125})

모든 보유종목을 간단한 연산 하나로 결합

In [42]:
combined = holdings + holdings2
combined

Counter({'AA': 150,
         'IBM': 150,
         'CAT': 150,
         'MSFT': 275,
         'GE': 220,
         'HPQ': 250})