In [1]:
# Pandas 의 핵심 기능
# 재색인
import pandas as pd

obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d','b','a','c'])

obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [3]:
# Series 객체에 reindex 를 호출하면 데이터를 새로운 색인에 맞게 재 배열하고, 
# 존재하지 않는 색인 값이 있다면 Nan을 추가한다.

obj2 = obj.reindex(['a','b','c','d','e'])

obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [5]:
# 시계열 같은 순차적인 데이터를 재 색인 할 때 값을 보간하거나 채워 넣어야 할 경우가 있다.
# method 옵션을 이용해서 이를 해결 가능하다, fill 같은 메서드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0,2,4])

obj3

0      blue
2    purple
4    yellow
dtype: object

In [6]:
obj3.reindex(range(6), method='ffill')
# 누락된 값을 바로 전 값으로 채워 넣는다.

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [7]:
import numpy as np

frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index=['a','c','d'],
                    columns=['Ohio','Texas', 'California'])

frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [8]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [10]:
# 컬럼은 columns 예약어를 사용해서 재 색인이 가능하다.
states = ['Texas', 'Utah', 'California']

frame.reindex(columns = states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [11]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])

obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [13]:
new_obj = obj.drop('c')

new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [17]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [19]:
# loc와 iloc 로 선택하기
# DataFrame 의 로우에 대해 라벨로 색인하는 방법으로 특수한 색인필드인 loc, iloc
# numpy와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택할 수 있다.
# 축 이름을 선택할 때는 loc, 정수 색인으로 선택할 때는 iloc를 사용한다.
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one','two','three','four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [20]:
# 축의 라벨로 하나의 로우와 여러 컬럼을 선택
data.loc['Colorado', ['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

In [21]:
# iloc를 이용하여 정수 색인으로 선택
data.iloc[2,[3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [23]:
# 슬라이스 지원 및 단일 라벨이나 라벨 리스트도 지원
pd.DataFrame(data.loc[:'Utah', 'two'])


Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9


In [24]:
pd.DataFrame(data.iloc[:, :3][data.three>5])

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [25]:
# 산술연산과 데이터 정렬
s1 = pd.Series([7.3,-2.5,3.4,1.5], index=['a','c','d','e'])

s2 = pd.Series([-2.1,3.6,-1.5,4,3.1],
              index =['a','c','e','f','g'])

In [26]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [27]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [29]:
pd.DataFrame(s1 + s2, columns=['sum'])

Unnamed: 0,sum
a,5.2
c,1.1
d,
e,0.0
f,
g,


In [31]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns = list('bcd'),
                  index=['Ohio','Texas','Colorado'])

df2 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),
                   index=['Utah','Ohio','Texas','Oregon'])

In [32]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [33]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [34]:
df1 + df2 # 더하면 색인과 컬럼이 하나로 합쳐짐

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [35]:
df1 = pd.DataFrame({'A' : [1,2]})

df2 = pd.DataFrame({'B' : [3,4]})


In [36]:
df1

Unnamed: 0,A
0,1
1,2


In [37]:
df2

Unnamed: 0,B
0,3
1,4


In [38]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


In [39]:
# 산술연산 메서드에 채워 넣을 값 지정하기
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),
                  columns=list('abcd'))

df2 = pd.DataFrame(np.arange(20.).reshape((4,5)),
                  columns=list('abcde'))

df2.loc[1,'b'] - np.nan

df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [40]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [41]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [42]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [43]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [45]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [46]:
df1.div(1) #나누어지는 위치가 다른 pair 메소드를 가진다.

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [48]:
# DataFrame 과 Series간의 연산
# 브로드 캐스팅

arr = np.arange(12.).reshape((3,4))

arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [50]:
arr[0]

arr - arr[0]
# arr 에서 arr[0] 를 빼면 계산은 각 로우에 대해 한 번씩만 수행된다.
# 이를 브로드캐스팅이라고 한다.
# DataFrame 과 Series 간의 연산은 이와 유사하다.


array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [52]:
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                    columns=list('bde'),
                    index=['Utah','Ohio','Texas','Oregon'])

series = frame.iloc[0]

frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [53]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [58]:
# 색인값을 DataFrame의 컬럼이나 Series 의 색인에서 찾을 수 없다면, 
# 그 객체는 형식을 맞추기 위해 재색인된다.
series2 = pd.Series(np.arange(3), index=['b','e','f'])

frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [60]:
series3 = frame['d']

frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [61]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [63]:
frame.sub(series3, axis='index')
# axis 는 연산을 적용할 축 번호이다.
# axis='index' 나 axis=0 는 DataFrame의 로우를 따라 연산을 수행하라는 의미이다.

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [64]:
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                    index=['Utah', 'Ohio', 'Texas','Oregon'])

frame

Unnamed: 0,b,d,e
Utah,-0.199946,0.801096,0.014442
Ohio,-1.30427,-1.6094,1.829927
Texas,0.772769,-1.154305,0.516964
Oregon,-0.596486,-1.072104,-0.659976


In [65]:
np.abs(frame) # 유니버셜 함수( 각 셀에 적용되는 함수 ) 사용이 가능하다.

Unnamed: 0,b,d,e
Utah,0.199946,0.801096,0.014442
Ohio,1.30427,1.6094,1.829927
Texas,0.772769,1.154305,0.516964
Oregon,0.596486,1.072104,0.659976


In [66]:
# 각 컬럼이나 로우의 1차원 배열에 함수를 적용
f = lambda x: x.max() - x.min()

frame.apply(f)

b    2.077038
d    2.410496
e    2.489903
dtype: float64

In [67]:
# apply 함수에 axis='columns' 인자를 넘기면 각 로우에 대해 한번씩만 수행된다.
frame.apply(f, axis ='columns')

Utah      1.001042
Ohio      3.439327
Texas     1.927073
Oregon    0.475618
dtype: float64

In [68]:
# 배열에 대한 일반적인 통계(sum이나 mean같은)는 DataFrame의 메서드로 존재하므로 apply 메서드를 사용할 필요 없다.

def f(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

frame.apply(f)


Unnamed: 0,b,d,e
min,-1.30427,-1.6094,-0.659976
max,0.772769,0.801096,1.829927


In [69]:
format = lambda x: '%.2f' % x

frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.2,0.8,0.01
Ohio,-1.3,-1.61,1.83
Texas,0.77,-1.15,0.52
Oregon,-0.6,-1.07,-0.66


In [70]:
frame['e'].map(format)

Utah       0.01
Ohio       1.83
Texas      0.52
Oregon    -0.66
Name: e, dtype: object