In [1]:
import pandas as pd
from pandas import Series, DataFrame

# 5-1. 산술연산
## 1) Series 산술연산
### - 같은 인덱스 라벨을 가진 항목끼리 산술 연산을 수행함.
### - 겹치는 인덱스가 없다면, 데이터는 NA가 된다. 
<img src="img/5강/산술연산.jpg" alt="산술연산표" style="width: 800px;"/>

In [2]:
sr1 = Series([1,2,3], index = list('abc'))
sr2 =  Series([4,5,6], index = list('abd'))

In [9]:
sr1

a    1
b    2
c    3
dtype: int64

In [10]:
sr2

a    4
b    5
d    6
dtype: int64

In [11]:
#같은 인덱스 라벨을 가진 항목끼리 산술 연산을 수행함.
#겹치는 인덱스가 없다면, 데이터는 NA가 된다. 
sr1+sr2

a    5.0
b    7.0
c    NaN
d    NaN
dtype: float64

In [12]:
#sr1 + sr2와 동일하지만, 함수로 사용하는 경우에는 다양한 파라미터 설정이 가능해짐.
#sr1 + sr2
sr1.add(sr2)

a    5.0
b    7.0
c    NaN
d    NaN
dtype: float64

In [13]:
#산술 연산 시, 데이터가 없는 경우 fill_value인자의 값으로 간주함.
sr1.add(sr2, fill_value=0)

a    5.0
b    7.0
c    3.0
d    6.0
dtype: float64

## 2) DataFrame 산술연산

## DataFrame 산술 연산
<img src="img/5강/데이터프레임add.jpg" alt="Add" style="width: 1000px;"/>

In [14]:
arr1 = [[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]]
df1 = DataFrame(arr1, columns = list('bcd'), index = ['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [15]:
arr2 = [[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]]
df2 = DataFrame(arr2, columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [16]:
# 컬럼과 로우 인덱스 모두 동일한 항목끼리 연산이 수행됨.
# 둘 중 하나라도 없으면 NaN 
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [17]:
#fill_value = <값> : Missing Value를 <값>으로 간주함. 두 데이터프레임에 모두 없는 경우에는 결과도 Missing
# http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html#pandas.DataFrame.add
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


## 3) DataFrame과 Series 간의 연산

### 기본적으로 DataFrame과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래로 전파한다.

In [58]:
df = DataFrame([[1,3, 5, 7],[2,4, 6, 8], [10, 20, 30, 40]], 
                          columns = list('ABCD'), index = ['X','Y','Z'])
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [19]:
#A, B, C, D 컬럼 각각에 10, 20, 30, 40을 더하기
sr = Series([10, 20, 30, 40], index = ['A','B','C','D'])
sr

A    10
B    20
C    30
D    40
dtype: int64

In [22]:
# df + sr
df.add(sr, axis=1)
# axis 인자의 기본값이 1

Unnamed: 0,A,B,C,D
X,11,23,35,47
Y,12,24,36,48
Z,20,40,60,80


In [None]:
#실습. X,Y,Z 로우에 각각에 10, 100, 1000을 더하시오.

In [21]:
sr2 = Series([10, 100, 1000], index = ['X','Y','Z'])

In [23]:
df.add(sr2, axis=0)

Unnamed: 0,A,B,C,D
X,11,13,15,17
Y,102,104,106,108
Z,1010,1020,1030,1040


In [25]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [26]:
df.mean()

A     4.333333
B     9.000000
C    13.666667
D    18.333333
dtype: float64

In [28]:
df.mean(axis=1)

X     4.0
Y     5.0
Z    25.0
dtype: float64

## 4) 함수 적용과 매핑

### apply() :각 로우나 컬럼의 1차원 배열에 함수를 적용
### applymap() : 각 항목에 함수를 적용

In [29]:
sr

A    10
B    20
C    30
D    40
dtype: int64

In [30]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


#### 4-1) apply() 함수

In [31]:
def diff (x):
    return x.max() - x.min()

In [33]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [34]:
diff(df)

A     9
B    17
C    25
D    33
dtype: int64

In [35]:
diff(df, axis=1)

TypeError: diff() got an unexpected keyword argument 'axis'

In [36]:
df.apply(diff)

A     9
B    17
C    25
D    33
dtype: int64

In [37]:
df.apply(diff, axis=1)

X     6
Y     6
Z    30
dtype: int64

In [38]:
#lambda func
df.apply(lambda x:x.max()-x.min())

A     9
B    17
C    25
D    33
dtype: int64

#### 4-2) applymap() 함수

In [39]:
def mul2(x):
    return x * 2

In [42]:
mul2(df)

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


In [40]:
df.applymap(mul2)

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


In [41]:
df.applymap(lambda x:x*2)

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


## 5. 컬럼 추가하기

In [59]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [60]:
#'E' 컬럼을 추가하고 값을 10으로 할당
df['E']=10
df

Unnamed: 0,A,B,C,D,E
X,1,3,5,7,10
Y,2,4,6,8,10
Z,10,20,30,40,10


In [61]:
#'F' 컬럼을 추가하고, 값은 'B'와 'C' 컬럼의 값을 추가
df['F'] = df.B + df.C
df

Unnamed: 0,A,B,C,D,E,F
X,1,3,5,7,10,8
Y,2,4,6,8,10,10
Z,10,20,30,40,10,50


In [62]:
# 실습. df에 'G'라는 새로운 컬럼을 추가하고, 
# 값은 각 로우(row)에 있는 값들의 평균으로 할당
df['G'] = df.mean(axis=1)
df

Unnamed: 0,A,B,C,D,E,F,G
X,1,3,5,7,10,8,5.666667
Y,2,4,6,8,10,10,6.666667
Z,10,20,30,40,10,50,26.666667


In [52]:
df.mean()

A     4.333333
B     9.000000
C    13.666667
D    18.333333
E    10.000000
F    22.666667
G          NaN
dtype: float64

In [53]:
df.mean(axis=1)

X     5.666667
Y     6.666667
Z    26.666667
dtype: float64

In [67]:
# 실습. df에 새로운 'H'라는 컬럼을 추가하고, D의 값이 4의 배수이면 1, 아니면 0으로 할당
df['H'] = (df.D%4==0)*1
df

Unnamed: 0,A,B,C,D,E,F,G,H
X,1,3,5,7,10,8,5.666667,0
Y,2,4,6,8,10,10,6.666667,1
Z,10,20,30,40,10,50,26.666667,1


# 실습
## 실습을 위한 데이터 읽기 (NC Dinos.xlsx의 첫번째 시트값만 읽어오기)
## 첫번째 시트는 2013년도 선수 기록 정보
## NC 다이노스 선수들의 2013년 기록을 기준으로 안타와 홈런의 합이 100개 이상인 타자들만 아래 그림과 같이 출력
<img src="img/5강/NC안타홈런실습.jpg" alt='안타홈런실습' style="width: 250px;"/>

In [92]:
# 1. NC Dinos 데이터 적제
NC13 = pd.read_excel('data/NC Dinos.xlsx', sheet_name='2013').iloc[:, 1:]
NC13.head()

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
0,모창민,NC,108,436,395,109,12,57,51,37,68,16,0.307,0.276,0.339,0.443,0.782,0.353,2.31
1,이호준,NC,126,508,442,123,20,46,87,60,109,2,0.324,0.278,0.362,0.475,0.837,0.373,1.85
2,김종호,NC,128,546,465,129,0,72,22,57,100,50,0.352,0.277,0.376,0.333,0.709,0.339,1.55
3,나성범,NC,104,458,404,98,14,55,64,33,95,12,0.279,0.243,0.319,0.416,0.735,0.329,1.5
4,조영훈,NC,120,426,380,107,6,38,39,39,56,4,0.316,0.282,0.35,0.413,0.763,0.348,0.83


In [101]:
# 2. 필요한 컬럼만 선택
data2 = NC13[['선수명', '안타', '홈런']].copy()
data2.head()

Unnamed: 0,선수명,안타,홈런
0,모창민,109,12
1,이호준,123,20
2,김종호,129,0
3,나성범,98,14
4,조영훈,107,6


In [97]:
# 3. 안티홈런 컬럼 추가
data2['안타홈런'] = data2.안타 + data2.홈런
data2.head()

Unnamed: 0_level_0,안타,홈런,안타홈런
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
모창민,109,12,121
이호준,123,20,143
김종호,129,0,129
나성범,98,14,112
조영훈,107,6,113


In [96]:
# 4. 선수명 컬럼을 row index로 변환
# data2 = data2.set_index('선수명')
data2.set_index('선수명', inplace=True)
data2.head()

Unnamed: 0_level_0,안타,홈런
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1
모창민,109,12
이호준,123,20
김종호,129,0
나성범,98,14
조영훈,107,6


In [99]:
# 5. 안티홈런의 값이 100 이상인 선수만 선택
result = data2[data2.안타홈런>=100]
result

Unnamed: 0_level_0,안타,홈런,안타홈런
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
모창민,109,12,121
이호준,123,20,143
김종호,129,0,129
나성범,98,14,112
조영훈,107,6,113


In [91]:
df.apply(lambda x: 1 if x.D%4 == 0 else 0, axis=1)

X    0
Y    1
Z    1
dtype: int64