# Pandas 객체간 산술 연산

In [3]:
import pandas as pd
import numpy as np

Pandas 객체간 산술 연산을 할 때, 일치하지 않는 index가 있으면 이 index는 연산 결과에 합쳐진다. 

In [4]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], 
               index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], 
               index=['a', 'c', 'e', 'f', 'g'])

In [5]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [6]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

- a,c,e는 2개 객체에 공통 index이므로 덧셈 연산 실행.
- d,f,g가 각 객체에 독립 index이므로 연산 결과는 NaN.

In [14]:
# s1 + s2  
s1.add(s2,fill_value=0)
s12 = s1.add(s2)
s12.ffill()

a    5.2
c    1.1
d    1.1
e    0.0
f    0.0
g    0.0
dtype: float64

In [6]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)),
                   columns=list('bcd'), 
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                   columns=list('bde'), 
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [7]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [8]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [9]:
df3 = df1+df2
df3

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


일치하지 않는 index를 갖는 pandas 객체 연산에서 연산 후 ffill을 사용해 값을 채워넣는 건 바람직하지 않음. 연산하기 전에 초기값을 설정하는 것이 바람직.

In [10]:
df3.ffill(axis=1)

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,3.0,6.0,6.0
Oregon,,,,
Texas,9.0,9.0,12.0,12.0
Utah,,,,


In [12]:
df3 = df1.add(df2, fill_value=0)
df3

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


In [13]:
df3.ffill(axis=1)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,8.0
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,9.0,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,0.0,1.0,2.0


서로 다른 index를 갖는 객체 간 산술 연산 결과 NaN 대신 특정 값을 지정하고자 할 경우

In [14]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                  columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                  columns=list('abcde'))

In [15]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [15]:
df2.loc[1, 'b'] = np.nan  # 1행, column='b'의 값을 NaN으로 변경
# df2.iloc[1,1]
df2

NameError: name 'df2' is not defined

In [17]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [17]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [18]:
df1.add(df2, fill_value=0) 

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


산술 연산 메소드는 피연산자(operand)의 순서를 바꾸는(reverse) 연산이 존재. div <-> rdiv. add <-> radd, sub <-> rsub, mul <-> rmul, floordiv <-> rfloordiv, pow <-> rpow 등. 아래 연산 결과에서 1/0와 같은 연산 결과는 inf로 표시. inf는 infinte(연산 불능).

In [19]:
1 / df1 # = df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [22]:
df1.rdiv(1)  # 1/df1 과 같은 연산.
#df1.div(1) # df/1 은 div, 1/df는 rdiv 메소드를 사용

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


함수, lambda, sorting, rank

In [16]:
frame = pd.DataFrame(np.random.randn(4, 3),
                columns=list('bde'), 
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.689921,-1.064013,-0.955574
Ohio,-0.303131,0.317476,-2.03531
Texas,0.484511,0.839979,-0.95038
Oregon,0.278639,-0.01315,1.773475


Pandas 객체에도 numpy의 universal function을 적용할 수 있다.

In [18]:
#np.abs(frame)
np.round(np.abs(frame), 1)

Unnamed: 0,b,d,e
Utah,0.7,1.1,1.0
Ohio,0.3,0.3,2.0
Texas,0.5,0.8,1.0
Oregon,0.3,0.0,1.8


간단한 기능은 lambda 함수를 사용해 행 또는 열에 적용.

In [19]:
f = lambda x: x.max()-x.min()

In [20]:
frame.apply(f) # 각 열에 적용(default)
#frame.apply(f, axis='rows')

b    0.993052
d    1.903991
e    3.808786
dtype: float64

In [32]:
frame.apply(f, axis='columns') # = frame.apply(f, axis=1), 각 행에 적용
# frame.apply(f, axis='rows')

Unnamed: 0,min,max
Utah,-1.064013,0.689921
Ohio,-2.03531,0.317476
Texas,-0.95038,0.839979
Oregon,-0.01315,1.773475


In [22]:
frame.sum()  # sum이나 mean 같은 일반 함수는 apply 메소드를 사용하지 않아도 됨.
#frame.sum(axis='columns')

b    1.149940
d    0.080292
e   -2.167789
dtype: float64

apply 메소드에는 scalar 값(한 가지 값) 대신, Series 객체를 전달할 수 있다. 이 경우 lambda 대신 함수를 정의해야 한다.

In [23]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [10]:
frame.apply(f)
#frame.apply(f, axis='columns')

Unnamed: 0,b,d,e
min,-0.887483,-1.677718,-0.690107
max,0.425292,0.060209,1.562005


python 함수를 Pandas 객체의 각 원소에 적용할 수 있다. 이 경우 apply 대신 applymap을 사용한다.

In [11]:
format = lambda x: '%.2f' % x  # 소수점 2째자리까지 출력

In [12]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.89,-0.71,0.26
Ohio,-0.13,-1.68,-0.69
Texas,0.43,-0.13,1.56
Oregon,-0.47,0.06,0.66


In [13]:
frame['e'].map(format)

Utah       0.26
Ohio      -0.69
Texas      1.56
Oregon     0.66
Name: e, dtype: object

sort_index(axis) - index(axis=0, default) 또는 column(axis=1)을 기준으로 행 또는 열을 정렬.

sort_values() - 값을 기준으로 정렬. 2차 행렬은 정렬 기준이 되는 column을 지정할 수 있음.

In [31]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [32]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [33]:
obj.sort_values()

d    0
a    1
b    2
c    3
dtype: int64

In [16]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [17]:
frame.sort_index() # index를 기준으로 정렬
#frame.sort_index(axis=0)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [18]:
frame.sort_index(axis=1) # column 이름을 기준으로 정렬

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [19]:
frame.sort_index(axis=1, ascending=False) # column을 내림차순 정렬

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [33]:
obj = pd.Series([4, 7, -3, 2])

In [34]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [35]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [36]:
obj.sort_values() # NaN은 내림차순, 오름차순 상관없이 마지막에 배치.
#obj.sort_values(ascending=False) 

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [37]:
frame = pd.DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [38]:
#frame.sort_values(by='a') # 2차 행렬일 때 정렬 기준인 by 옵션을 반드시 설정해야 함.
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [39]:
frame.sort_values(by=['a','b']) # by를 리스트로 설정 가능. 리스트 순에 따라 정렬

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


통계 및 요약

In [34]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                  [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


numpy와 달리 Pandas의 통계 관련 메소드는 NaN을 제외하고 연산을 수행

In [34]:
df.sum()
#df.sum(axis=0)

one    9.25
two   -5.80
dtype: float64

In [35]:
df.sum(axis='columns')
#df.sum(axis='columns', skipna=False)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [36]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [37]:
df.idxmin()
#df.idxmax()

one    d
two    b
dtype: object

In [38]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [39]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [40]:
df.quantile()

one    1.4
two   -2.9
Name: 0.5, dtype: float64

unique 및 vlaue_counts 함수

In [35]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

중복되지 않은 값만을 넘파이 배열(ndarray) 객체로 반환. 발생 순서대로 찾은 결과(정렬되지 않음). set 타입으로 변환해도 같은 결과를 얻을 수 있음.

In [40]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [38]:
set(obj.values)

{'a', 'b', 'c', 'd'}

In [41]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [42]:
pd.value_counts(obj.values, sort=False)

c    3
d    1
b    2
a    3
dtype: int64

In [47]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [48]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [49]:
result2 = data.apply(pd.value_counts)
result2

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0
