In [1]:
import pandas as pd

# 5-1. 산술연산
## 1) Series 산술연산
### - 같은 인덱스 라벨을 가진 항목끼리 산술 연산을 수행함.
### - 겹치는 인덱스가 없다면, 데이터는 NA가 된다. 
<img src="img/5강/산술연산.jpg" alt="산술연산표" style="width: 800px;"/>

In [2]:
sr1 = pd.Series([1,2,3], index = list('abc'))
sr2 =  pd.Series([4,5,6], index = list('abd'))

In [3]:
#같은 인덱스 라벨을 가진 항목끼리 산술 연산을 수행함.
#겹치는 인덱스가 없다면, 데이터는 NA가 된다. 
sr1+sr2

a    5.0
b    7.0
c    NaN
d    NaN
dtype: float64

In [4]:
#sr1 + sr2와 동일하지만, 함수로 사용하는 경우에는 다양한 파라미터 설정이 가능해짐.
#sr1 + sr2
sr1+sr2

a    5.0
b    7.0
c    NaN
d    NaN
dtype: float64

In [5]:
#산술 연산 시, 데이터가 없는 경우 fill_value인자의 값으로 간주함.
sr1.add(sr2,fill_value=0)

a    5.0
b    7.0
c    3.0
d    6.0
dtype: float64

## 2) DataFrame 산술연산

In [6]:
arr1 = [[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]
df1 = pd.DataFrame(arr1, columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [7]:
arr2 = [[0,  1,  2],
        [3,  4,  5],
        [6,  7,  8],
        [9, 10, 11]]
df2 = pd.DataFrame(arr2, columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [8]:
# 컬럼과 로우 인덱스 모두 동일한 항목끼리 연산이 수행됨.
# 둘 중 하나라도 없으면 NaN 
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [9]:
#fill_value = <값> : Missing Value를 <값>으로 간주함. 두 데이터프레임에 모두 없는 경우에는 결과도 Missing
# http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.add.html#pandas.DataFrame.add
df1.add(df2,fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


## DataFrame 산술 연산
<img src="img/5강/데이터프레임add.jpg" alt="Add" style="width: 1000px;"/>

## 3) DataFrame과 Series 간의 연산

### 기본적으로 DataFrame과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래로 전파한다.

In [10]:
df = pd.DataFrame([[1,3, 5, 7],[2,4, 6, 8], [10, 20, 30, 40]], 
                          columns = list('ABCD'), index = ['X','Y','Z'])
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [11]:
#A, B, C, D 컬럼 각각에 10, 20, 30, 40을 더하기
sr = pd.Series([10, 20, 30, 40], index = ['A','B','C','D'])
sr

A    10
B    20
C    30
D    40
dtype: int64

In [12]:
df+sr

Unnamed: 0,A,B,C,D
X,11,23,35,47
Y,12,24,36,48
Z,20,40,60,80


In [13]:
#df + sr
# axis 인자의 기본값이 1
df.add(sr,axis=1)

Unnamed: 0,A,B,C,D
X,11,23,35,47
Y,12,24,36,48
Z,20,40,60,80


In [14]:
#실습. X,Y,Z 로우에 각각에 10, 100, 1000을 더하시오.

In [15]:
sr2 = pd.Series([10, 100, 1000], index = ['X','Y','Z'])

In [16]:
df.add(sr2,axis=0)

Unnamed: 0,A,B,C,D
X,11,13,15,17
Y,102,104,106,108
Z,1010,1020,1030,1040


## 4) 함수 적용과 매핑

### apply() :각 로우나 컬럼의 1차원 배열에 함수를 적용
### applymap() : 각 항목에 함수를 적용

In [17]:
sr

A    10
B    20
C    30
D    40
dtype: int64

In [18]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


#### 4-1) apply() 함수

In [19]:
def diff (x):
    return x.max() - x.min()

In [20]:
diff(df)

A     9
B    17
C    25
D    33
dtype: int64

In [21]:
df.apply(diff)

A     9
B    17
C    25
D    33
dtype: int64

In [22]:
df.apply(diff, axis=1)

X     6
Y     6
Z    30
dtype: int64

In [23]:
df.apply(lambda x: x.max()-x.min())

A     9
B    17
C    25
D    33
dtype: int64

#### 4-2) applymap() 함수

In [24]:
df.apply(lambda a: a*2)

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


In [25]:
df.applymap(lambda a: a*2) #그냥 함수명(df)로 사용가능하므로 거의 사용하지 않음

Unnamed: 0,A,B,C,D
X,2,6,10,14
Y,4,8,12,16
Z,20,40,60,80


## 5. 컬럼 추가하기

In [26]:
df

Unnamed: 0,A,B,C,D
X,1,3,5,7
Y,2,4,6,8
Z,10,20,30,40


In [27]:
#'E' 컬럼을 추가하고 값을 10으로 할당
df['E']=10

In [28]:
#'F' 컬럼을 추가하고, 값은 'B'와 'C' 컬럼의 합을 추가
df['F']=df.B+df.C

In [29]:
#실습. df에 'G'라는 새로운 컬럼을 추가하고, 값은 각 로우(row)에 있는 값들 중 가장 작은 값으로 할당
df['G']=df.min(axis=1)

In [30]:
# 실습. df에 새로운 'H'라는 컬럼을 추가하고, D의 값이 4의 배수이면 1, 아니면 0으로 할당
df['H']=[int(not bool(i%4)) for i in df.D]

In [31]:
df

Unnamed: 0,A,B,C,D,E,F,G,H
X,1,3,5,7,10,8,1,0
Y,2,4,6,8,10,10,2,1
Z,10,20,30,40,10,50,10,1


In [38]:
df.apply(lambda row : 1 if row.D%4==0 else 0,axis=1)

X    0
Y    1
Z    1
dtype: int64

In [43]:
 1 if 4%2==0 else 0

1

# 실습
## 실습을 위한 데이터 읽기 (NC Dinos.xlsx의 첫번째 시트값만 읽어오기)
## 첫번째 시트는 2013년도 선수 기록 정보
## NC 다이노스 선수들의 2013년 기록을 기준으로 안타와 홈런의 합이 100개 이상인 타자들만 아래 그림과 같이 출력
<img src="img/5강/NC안타홈런실습.jpg" alt='안타홈런실습' style="width: 250px;"/>

In [32]:
data = pd.read_excel('data/NC Dinos.xlsx')
nc_df = data.drop('Unnamed: 0',axis=1)

In [33]:
nc_df['안타홈런'] = nc_df.안타 + nc_df.홈런

In [34]:
nc_df[nc_df.안타홈런>=100][['선수명','안타','홈런','안타홈런']]

Unnamed: 0,선수명,안타,홈런,안타홈런
0,모창민,109,12,121
1,이호준,123,20,143
2,김종호,129,0,129
3,나성범,98,14,112
4,조영훈,107,6,113


In [44]:
nc_df[nc_df.안타홈런>=100][['선수명','안타','홈런','안타홈런']].set_index('선수명')

Unnamed: 0_level_0,안타,홈런,안타홈런
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
모창민,109,12,121
이호준,123,20,143
김종호,129,0,129
나성범,98,14,112
조영훈,107,6,113
