# Chapter 3. Programming in Python

### Programming의 필요성
- 효과적 데이터 획득 및 갱신 
- 체계적 데이터 분석 및 관리
- 전체 과정의 신뢰성 및 유지보수

### Expressions
- 프로그램은 expression들로 구성

예) 곱셈 expression

In [0]:
3*4

12

- 프로그래밍 언어의 문법은 상당히 엄격함
- 문법에 어긋나는 경우 실행을 멈춤

예)

In [0]:
3 * * 4

SyntaxError: ignored

In [0]:
3 ** 4

81

- 용어: operator vs operand
- 일반적인 산술 operator는 그대로 사용 가능함

| Expression Type     |  Operator | Example | Value |
---|---|---|---
| Addition      |    +    |    2 + 3            |  5  |
| Subtraction      |    -   |    2 - 3            |  -1  |
| Multiplication | *   | 2 * 3 |  6 |  
| Division  | /   | 7 / 3 |  2.66667 |  
| Remainder | %  | 7 % 3  | 1  |
| Exponentiation  | **   | 2 ** 0.5  | 1.41421 | 




In [0]:
1 + 2 * 3 * 4 * 5 / 6 ** 3 + 7 + 8 - 9 + 10

17.555555555555557

In [0]:
1 + 2 * (3 * 4 * 5 / 6) ** 3 + 7 + 8 - 9 + 10

2017.0

### Variables and Assignments
- variable
  - 수학에서 미지수를 나타내는 변수를 사용하듯 프로그램에서도 값을 저장하는 변수를 사용
- assignment
  - = 기호를 사용
  - 오른쪽항(수식)의 결과를 왼쪽항(변수)에 저장

In [0]:
a = 10
b = 20
a + b

30

In [0]:
quarter = 1/4
half = 2 * quarter # 이전에 계산된 변수들을 활용
half

0.5

주의) 변수값이 자동으로 갱신되지는 않음

In [0]:
quarter = 4
half

0.5

변수명
 - 영문자, 숫자, '_' 으로 구성
 - 변수명을 잘 지어야 코드 이해가 쉽다.

In [0]:
purchase_price = 5
state_tax_rate = 0.075
county_tax_rate = 0.02
city_tax_rate = 0
sales_tax_rate = state_tax_rate + county_tax_rate + city_tax_rate
sales_tax = purchase_price * sales_tax_rate
sales_tax

0.475

### Example : Growth rate (성장률)
- 미국 공무원 숫자
  - 2002년 : 2,766,000 명
  - 2012년 : 2,814,000 명
- 10년간 미국 공무원 증감 비율은

In [0]:
initial = 2766000
changed = 2814000
(changed - initial) / initial

0.01735357917570499

In [0]:
(changed/initial) - 1

0.017353579175704903

- 미국 정부 예산
 - 2002년: 2.37 조달러
 - 2012년: 3.38 조달러

In [0]:
initial = 2.37
changed = 3.38
(changed/initial) - 1

0.4261603375527425

- 연성장률 (annual growth rate)
 - 매년 3.5% 성장할 때, 10년 후 성장률은?

In [0]:
1.035 * 1.035 * 1.035 * 1.035 * 1.035 * 1.035 * 1.035 * 1.035 * 1.035 * 1.035 - 1

0.410598760621121

In [0]:
annual_growth_rate = 0.035
ten_year_growth_rate = (1 + annual_growth_rate) ** 10 - 1
ten_year_growth_rate

0.410598760621121

- 반대로 10년간 성장률을 연간성장률로 환산해 보자.

In [0]:
initial = 2.37
changed = 3.38
t = 10
(changed/initial) ** (1/t) - 1

0.03613617208346853

#### Call expressions (함수 호출문)
- 프로그램은 빈번하게 다른 함수를 호출하여 그 결과를 사용함
- 예)


In [0]:
abs(-12)

12

In [0]:
round(5 - 1.3)

4

In [0]:
max(2, 2 + 3, 4)

5

- 그러나 사용하고자 하는 함수가 기본 모듈에 없을 경우, 해당 모듈을 프로그램에 포함시켜야 사용할 수 있다.
- 예)

In [0]:
import math
import operator
math.sqrt(operator.add(4, 5))

3.0

In [0]:
(4 + 5) ** 0.5

3.0

- 함수 사용 팁
 - 인터넷에서 문서를 보고 확인
   - [Python’s built-in functions](https://docs.python.org/3/library/functions.html)
   - [math module](https://docs.python.org/3/library/math.html)
 - Jupyter notebook help
   - module명+'.' 입력 뒤 [Tab]키를 누름
   - 함수명 뒤 '?' 입력하여 실행


In [0]:
math.log?

### Tables
- datascience 모듈 내 Table 기본 사용법
- 다음 예제 데이터셋을 이용하여 연습

In [1]:
from datascience import *

  matplotlib.use('agg', warn=False)
  matplotlib.use('agg', warn=False)


In [4]:
!pip list | grep datascience

datascience              0.10.6         


In [30]:
cones = Table.read_table('https://raw.githubusercontent.com/data-8/materials-sp20/master/lec/cones.csv')
#cones = Table.read_table('cones.csv')
cones.show()

Flavor,Color,Price
strawberry,pink,3.55
chocolate,light brown,4.75
chocolate,dark brown,5.25
strawberry,pink,5.25
chocolate,dark brown,5.25
bubblegum,pink,4.75


- 6줄(row) : individuals
- 3열(column) : attributes
- Table 관련 명령어는 다음과 같은 형태
 - _table이름.methon이름(arguments)_

In [9]:
cones.show(2)


Flavor,Color,Price
strawberry,pink,3.55
chocolate,light brown,4.75


- Table의 일부 column들을 선택하기
  - select()
  - drop()

In [10]:
cones.select('Flavor')

Flavor
strawberry
chocolate
chocolate
strawberry
chocolate
bubblegum


In [11]:
cones.select('Flavor', 'Price')

Flavor,Price
strawberry,3.55
chocolate,4.75
chocolate,5.25
strawberry,5.25
chocolate,5.25
bubblegum,4.75


In [18]:
cones  # 앞의 method들에 의해 원래 Table 내용은 변화가 없다.

Flavor,Color,Price
strawberry,pink,3.55
chocolate,light brown,4.75
chocolate,dark brown,5.25
strawberry,pink,5.25
chocolate,dark brown,5.25
bubblegum,pink,4.75


In [19]:
cones.drop('Color')

Flavor,Price
strawberry,3.55
chocolate,4.75
chocolate,5.25
strawberry,5.25
chocolate,5.25
bubblegum,4.75


In [20]:
# 새 Table 생성
no_colors = cones.drop('Color')
no_colors

Flavor,Price
strawberry,3.55
chocolate,4.75
chocolate,5.25
strawberry,5.25
chocolate,5.25
bubblegum,4.75


- row를 정렬하기
 - sort()
 - 역시 Table을 변화시키지는 않는다.

In [21]:
cones.sort('Price')

Flavor,Color,Price
strawberry,pink,3.55
chocolate,light brown,4.75
bubblegum,pink,4.75
chocolate,dark brown,5.25
strawberry,pink,5.25
chocolate,dark brown,5.25


In [22]:
cones.sort('Price', descending=True)

Flavor,Color,Price
chocolate,dark brown,5.25
strawberry,pink,5.25
chocolate,dark brown,5.25
bubblegum,pink,4.75
chocolate,light brown,4.75
strawberry,pink,3.55


- 문자열도 sorting 가능한가?
  - Flavor column을 테스트해 보자.

In [23]:
cones.sort('Flavor', descending=True)

Flavor,Color,Price
strawberry,pink,5.25
strawberry,pink,3.55
chocolate,dark brown,5.25
chocolate,dark brown,5.25
chocolate,light brown,4.75
bubblegum,pink,4.75


- 조건에 맞는 row들 찾기
 - where()

In [24]:
cones.where('Flavor', 'chocolate')

Flavor,Color,Price
chocolate,light brown,4.75
chocolate,dark brown,5.25
chocolate,dark brown,5.25


In [25]:
# 검색어는 정확하게 일치 (exact matching)
cones.where('Flavor', 'Chocolate')

Flavor,Color,Price


- Another example
 - NBA 선수들의 15-16시즌 salary
 - [원본데이터셋](https://www.statcrunch.com/app/index.php?dataid=1843341)

In [26]:
nba = Table.read_table('https://raw.githubusercontent.com/data-8/materials-sp18/master/lec/nba_salaries.csv').relabeled(3, 'SALARY')
nba

PLAYER,POSITION,TEAM,SALARY
Paul Millsap,PF,Atlanta Hawks,18.6717
Al Horford,C,Atlanta Hawks,12.0
Tiago Splitter,C,Atlanta Hawks,9.75625
Jeff Teague,PG,Atlanta Hawks,8.0
Kyle Korver,SG,Atlanta Hawks,5.74648
Thabo Sefolosha,SF,Atlanta Hawks,4.0
Mike Scott,PF,Atlanta Hawks,3.33333
Kent Bazemore,SF,Atlanta Hawks,2.0
Dennis Schroder,PG,Atlanta Hawks,1.7634
Tim Hardaway Jr.,SG,Atlanta Hawks,1.30452


In [27]:
nba.where('PLAYER', 'Stephen Curry')

PLAYER,POSITION,TEAM,SALARY
Stephen Curry,PG,Golden State Warriors,11.3708


- Golden State Warriors 팀 선수들 정보를 조사해보자.

In [28]:
warriors = nba.where('TEAM', 'Golden State Warriors')
warriors.show() # 처음 10줄이 아닌 전체 출력

PLAYER,POSITION,TEAM,SALARY
Klay Thompson,SG,Golden State Warriors,15.501
Draymond Green,PF,Golden State Warriors,14.2609
Andrew Bogut,C,Golden State Warriors,13.8
Andre Iguodala,SF,Golden State Warriors,11.7105
Stephen Curry,PG,Golden State Warriors,11.3708
Jason Thompson,PF,Golden State Warriors,7.00847
Shaun Livingston,PG,Golden State Warriors,5.54373
Harrison Barnes,SF,Golden State Warriors,3.8734
Marreese Speights,C,Golden State Warriors,3.815
Leandro Barbosa,SG,Golden State Warriors,2.5


- 전체 선수들을 연봉순으로 출력해 보자.

In [29]:
nba.sort('SALARY', descending=True)

PLAYER,POSITION,TEAM,SALARY
Kobe Bryant,SF,Los Angeles Lakers,25.0
Joe Johnson,SF,Brooklyn Nets,24.8949
LeBron James,SF,Cleveland Cavaliers,22.9705
Carmelo Anthony,SF,New York Knicks,22.875
Dwight Howard,C,Houston Rockets,22.3594
Chris Bosh,PF,Miami Heat,22.1927
Chris Paul,PG,Los Angeles Clippers,21.4687
Kevin Durant,SF,Oklahoma City Thunder,20.1586
Derrick Rose,PG,Chicago Bulls,20.0931
Dwyane Wade,SG,Miami Heat,20.0


#### RECAP
- Expressions
 - 산술식, 조건식 등 일반적인 수학적 표현과 잘 일치
- Variables and assignments
 - 변수를 정의하고 계산하여 저장한 뒤 다른 계산에 활용
- Call expressions
 - 다른 함수를 호출하여 그 결과를 변수에 저장하여 활용
- Table
 - datascience에서 제공하는 Table method들을 활용
 
