In [1]:
import pandas as pd
from pandas import Series, DataFrame

# 5-1. 산술연산
## 1) Series 산술연산
### - 같은 인덱스 라벨을 가진 항목끼리 산술 연산을 수행함.
### - 겹치는 인덱스가 없다면, 데이터는 NA가 된다. 
<img src="img/5강/산술연산.jpg" alt="산술연산표" style="width: 800px;"/>

In [3]:
sr1 = Series([1,2,3], index = list('abc'))
sr2 = Series([4,5,6], index = list('abd'))

In [5]:
sr1

a    1
b    2
c    3
dtype: int64

In [6]:
sr2

a    4
b    5
d    6
dtype: int64

#### Series와 스칼라값 연산

In [4]:
sr1 + 10

a    11
b    12
c    13
dtype: int64

#### Series 끼리 산술연산

In [7]:
# Series 끼리 연산할 때
# 1. 같은 인덱스 라벨을 가진 항목끼리 산술 연산을 수행함.
# 2. 겹치는 인덱스가 없다면, 데이터는 NA가 된다. 
sr1 + sr2

a    5.0
b    7.0
c    NaN
d    NaN
dtype: float64

In [8]:
#sr1 + sr2와 동일하지만, 함수로 사용하는 경우에는 다양한 파라미터 설정이 가능해짐.
sr1.add(sr2) # sr1 + sr2

a    5.0
b    7.0
c    NaN
d    NaN
dtype: float64

In [10]:
# 산술 연산 시, 데이터가 없는 경우 fill_value인자의 값으로 간주함.
sr1.add(sr2,fill_value=0) # 함수로 쓰면 다른 파라미터를 사용가능

a    5.0
b    7.0
c    3.0
d    6.0
dtype: float64

In [11]:
sr3 = Series([5000,8000,3000],index=['Park','Lee','Kim'])
sr4 = Series([4000,3500,7000],index=['Park','Lee','Jung'])

In [12]:
sr3 + sr4

Jung        NaN
Kim         NaN
Lee     11500.0
Park     9000.0
dtype: float64

In [13]:
sr3.add(sr4,fill_value=0) # 이렇게 하면 NaN을 안 나오게 할 수 있다

Jung     7000.0
Kim      3000.0
Lee     11500.0
Park     9000.0
dtype: float64

## 2) DataFrame 산술연산

In [14]:
arr1 = [[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]
df1 = DataFrame(arr1, columns = list('bcd'), index = ['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [15]:
arr2 = [[0,  1,  2],
        [3,  4,  5],
        [6,  7,  8],
        [9, 10, 11]]
df2 = DataFrame(arr2, columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [16]:
# 컬럼과 로우 인덱스 모두 동일한 항목끼리 연산이 수행됨. Series와 동일함
# 둘 중 하나라도 없으면 NaN 
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [17]:
# fill_value = <값> : Missing Value를 <값>으로 간주함. 두 데이터프레임에 모두 없는 경우에는 결과도 Missing
# http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html#pandas.DataFrame.add
df1.add(df2,fill_value=0) # 두개 다 없어서 NaN 나올 수 있음

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


## DataFrame 산술 연산
<img src="img/5강/데이터프레임add.jpg" alt="Add" style="width: 1000px;"/>

## 3) DataFrame과 Series 간의 연산

### 기본적으로 DataFrame과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래로 전파한다.

In [18]:
df = DataFrame([[1,3, 5, 7],[2,4, 6, 8], [10, 20, 30, 40]], columns = list('ABCD'), index = ['X','Y','Z'])
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [19]:
#A, B, C, D 컬럼 각각에 10, 20, 30, 40을 더하기
sr = Series([10, 20, 30, 40], index = ['A','B','C','D'])
sr

A    10
B    20
C    30
D    40
dtype: int64

In [20]:
# df + sr
# axis 인자의 기본값이 1
# 브로드캐스팅해서 전부 더해준다
df + sr

Unnamed: 0,A,B,C,D
X,11,23,35,47
Y,12,24,36,48
Z,20,40,60,80


In [21]:
df.add(sr,axis=1) # df + sr

Unnamed: 0,A,B,C,D
X,11,23,35,47
Y,12,24,36,48
Z,20,40,60,80


In [22]:
#실습. X,Y,Z 로우에 각각에 10, 100, 1000을 더하시오.
sr2 = Series([10, 100, 1000], index = ['X','Y','Z'])

In [23]:
df.add(sr2,axis=0)

Unnamed: 0,A,B,C,D
X,11,13,15,17
Y,102,104,106,108
Z,1010,1020,1030,1040


## 4) 함수 적용과 매핑

### apply() :각 로우나 컬럼의 1차원 배열에 함수를 적용
### applymap() : 각 항목에 함수를 적용

In [None]:
df = DataFrame([[1,3, 5, 7],[2,4, 6, 8], [10, 20, 30, 40]], columns = list('ABCD'), index = ['X','Y','Z'])

In [26]:
sr

A    10
B    20
C    30
D    40
dtype: int64

In [27]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


#### 4-1) apply() 함수

In [28]:
def diff (x):
    return x.max() - x.min()

In [29]:
diff(sr)

30

In [30]:
diff(df)

A     9
B    17
C    25
D    33
dtype: int64

In [32]:
# DataFrame에서 column단위가 아니라
# row 단위로 하고 싶다면 별도로 만들 필요 없이!!
df.apply(diff,axis = 1) # axis는 기본값이 0

X     6
Y     6
Z    30
dtype: int64

#### 4-2) applymap() 함수

In [34]:
def mul2(x):
    return x * 2

In [36]:
mul2(df) # 각각의 항목들에 곱하기 2를 해서 결과를 

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


In [37]:
df.applymap(mul2)

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


In [38]:
# 보통의 경우, 파이썬에서 lambda 함수와 함께 적용한다
df.applymap(lambda x: x*2)

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


## 5. 컬럼 추가하기

In [95]:
df = DataFrame([[1,3, 5, 7],[2,4, 6, 8], [10, 20, 30, 40]], columns = list('ABCD'), index = ['X','Y','Z'])
sr = Series([10, 20, 30, 40], index = ['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [96]:
#'E' 컬럼을 추가하고 값을 10으로 할당
df['E']=10
df

Unnamed: 0,A,B,C,D,E
X,1,3,5,7,10
Y,2,4,6,8,10
Z,10,20,30,40,10


In [97]:
#'F' 컬럼을 추가하고, 값은 'B'와 'C' 컬럼의 값을 추가
df['F'] = df.B + df.C
df

Unnamed: 0,A,B,C,D,E,F
X,1,3,5,7,10,8
Y,2,4,6,8,10,10
Z,10,20,30,40,10,50


In [98]:
def rowMean(x):
    return sum(x)/len(x)

In [99]:
# 실습. df에 'G'라는 새로운 컬럼을 추가하고
# 값은 각 로우(row)에 있는 값들의 평균값으로 할당
df['G'] = df.apply(rowMean,axis=1)
df

Unnamed: 0,A,B,C,D,E,F,G
X,1,3,5,7,10,8,5.666667
Y,2,4,6,8,10,10,6.666667
Z,10,20,30,40,10,50,26.666667


# 실습
```
실습을 위한 데이터 읽기 (NC Dinos.xlsx의 첫번째 시트값만 읽어오기)
첫번째 시트는 2013년도 선수 기록 정보
NC 다이노스 선수들의 2013년 기록을 기준으로 안타와 홈런의 합이 100개 이상인 타자들만 아래 그림과 같이 출력
```
<img src="img/5강/NC안타홈런실습.jpg" alt='안타홈런실습' style="width: 250px;"/>

In [100]:
data13 = pd.read_excel('./data/NC Dinos.xlsx',sheet_name=0)
data13.drop('Unnamed: 0',axis=1,inplace=True)
data13.set_index('선수명',inplace=True)
data13

Unnamed: 0_level_0,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
모창민,NC,108,436,395,109,12,57,51,37,68,16,0.307,0.276,0.339,0.443,0.782,0.353,2.31
이호준,NC,126,508,442,123,20,46,87,60,109,2,0.324,0.278,0.362,0.475,0.837,0.373,1.85
김종호,NC,128,546,465,129,0,72,22,57,100,50,0.352,0.277,0.376,0.333,0.709,0.339,1.55
나성범,NC,104,458,404,98,14,55,64,33,95,12,0.279,0.243,0.319,0.416,0.735,0.329,1.5
조영훈,NC,120,426,380,107,6,38,39,39,56,4,0.316,0.282,0.35,0.413,0.763,0.348,0.83
이현곤,NC,91,161,139,38,0,10,9,16,14,2,0.304,0.273,0.361,0.324,0.685,0.327,0.52
이상호,NC,102,138,125,31,0,26,13,9,21,24,0.298,0.248,0.299,0.320,0.619,0.289,0.16
강진성,NC,3,3,2,1,0,1,0,1,0,0,0.500,0.500,0.667,1.000,1.667,0.671,0.1
조평호,NC,26,86,79,21,2,12,7,6,24,1,0.358,0.266,0.318,0.418,0.736,0.329,0.09
박민우,NC,32,48,42,11,0,10,6,5,7,9,0.306,0.262,0.333,0.286,0.619,0.296,0.07


In [101]:
data13['안타홈런'] = data13.안타 + data13.홈런

In [102]:
data13[data13['안타홈런'] >=100][['안타','홈런','안타홈런']]

Unnamed: 0_level_0,안타,홈런,안타홈런
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
모창민,109,12,121
이호준,123,20,143
김종호,129,0,129
나성범,98,14,112
조영훈,107,6,113
