In [1]:
import pandas as pd
import numpy as np

In [4]:
st1 = pd.Series({'국어':100, '영어':80, '수학':90})
st2 = pd.Series({'수학':80, '국어':90, '영어':80})
print(st1,'\n')
print(st2)

국어    100
영어     80
수학     90
dtype: int64 

수학    80
국어    90
영어    80
dtype: int64


In [7]:
# 두 학생의 과목별 점수로 사칙연산 수행

add = st1 + st2
sub = st1 - st2
mul = st1 * st2
div = round((st1 / st2),2)                               # << 반올림 소숫점 2번째 자리까지

df = pd.concat([add,sub,mul,div], axis=1)
df

Unnamed: 0,0,1,2,3
국어,190,10,9000,1.11
수학,170,10,7200,1.12
영어,160,0,6400,1.0


In [8]:
result = pd.DataFrame([add,sub,mul,div], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.11,1.12,1.0


In [12]:
np.arange(12)  

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [16]:
# 배열의 연산                                     # . 넣으면 실수
arr = np.arange(12.).reshape(3,4)               # reshape 2차원으로 바꿔줌
print(arr,'\n')
print(arr[0])

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]] 

[0. 1. 2. 3.]


In [17]:
# broadcasting  맞춰서 연산 가능하게 함
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [20]:
# DataFrame과 Series간 연산

frame = pd.DataFrame(np.arange(12.).reshape(4,3), columns=list('bde'),
                    index=['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [21]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [22]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [23]:
frame + frame                      # 해당되는 위치의 원소끼리 연산 가능  행렬 + 벡터 모두 가능

Unnamed: 0,b,d,e
Utah,0.0,2.0,4.0
Ohio,6.0,8.0,10.0
Texas,12.0,14.0,16.0
Oregon,18.0,20.0,22.0


커스텀 함수(custom function)를 DataFrame에 적용하려면 map함수, apply함수, applymap함수를 사용
- map함수 : DataFrame 타입이 아니라, 반드시 Series 타입에서만 사용
- apply함수 : 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply함수를 사용
- applymap함수 : DataFrame클래스의 함수이긴 하나, 위의 apply함수처럼 각 row(axis=1)나 각 column(axis=0)별로 
작동하는 함수가 아니라, 각 요소(element)별로 작동  
마치 선형대수에서 벡터에 스칼라를 연산하면, 벡터의 요소 하나하나에 해당 연산을 해주는 것처럼(elementwise) 
적용하는 DataFrame의 각 요소마다 커스텀 함수(반드시 Single vaule를 반환하는)를 수행한다고 보면 된다. 
applymap에 인자로 전달하는 커스텀함수가 Single value로부터 Single value를 반환한다는 점이 중요하다

In [25]:
f = lambda x : x.max() - x.min()
frame.apply(f)

b    9.0
d    9.0
e    9.0
dtype: float64

In [26]:
frame.apply(f, axis='columns')                      # << 열 '방향'임! 행 값이 나옴

Utah      2.0
Ohio      2.0
Texas     2.0
Oregon    2.0
dtype: float64

In [27]:
# 여러값을 가진 Series 반환
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [28]:
def f(x):
    return pd.Series([x.min(), x.max()], index = ['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,0.0,1.0,2.0
max,9.0,10.0,11.0


과제 : 최대한 복잡한 사용자 함수를 생성한 후 df에 적용하여 결과를 출력하세요.

In [32]:
# format
format = lambda x : '%.2f' % x                   # f 는 실수
frame.applymap(format)                           # applymap 함수 df 전체에 작용

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [31]:
frame['e'].map(format)

Utah       2.00
Ohio       5.00
Texas      8.00
Oregon    11.00
Name: e, dtype: object