In [1]:
import numpy as np
import pandas as pd

In [2]:
s = pd.Series(np.random.randn(10),
             index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
s

a  1    1.392482
   2   -1.395307
   3   -1.943276
b  1   -1.602224
   2   -1.563503
   3   -0.137816
c  1   -1.858218
   2   -1.803289
d  2    0.641210
   3   -1.111971
dtype: float64

In [3]:
s.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           codes=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

In [4]:
# 가장 바깎쪽 인덱스부터 인덱싱하는 것이 원칙
s['b']

1   -1.602224
2   -1.563503
3   -0.137816
dtype: float64

In [5]:
s['b':'c'] # 라벨로 인덱싱 하면 마지막도 나온다.

b  1   -1.602224
   2   -1.563503
   3   -0.137816
c  1   -1.858218
   2   -1.803289
dtype: float64

In [6]:
# 인덱스[상위계층, 하위계층]
s['b', 3] # 상위 'b'인덱스에서 하위 3번째 인덱스 출력

-0.13781606445198896

In [7]:
# .loc[행, 열] # 만약 행렬로 처리하고 싶으면 loc 사용
s[:, 2] # 상위계층 다가져오고, 하위계층 2인것만 출력

a   -1.395307
b   -1.563503
c   -1.803289
d    0.641210
dtype: float64

In [10]:
df = pd.DataFrame(np.arange(12).reshape((4, 3)),
                 index = [['a', 'a', 'b', 'b'],[1, 2, 1, 2]],
                 columns = [['Seoul', 'Seoul', 'Busan'],
                            ['Green', 'Red', 'Green']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Seoul,Seoul,Busan
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [11]:
df.index.names = ['key1', 'key2']
df.columns.names = ['city', 'color']
df

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [12]:
df['Seoul']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [13]:
df['Seoul', 'Green']

key1  key2
a     1       0
      2       3
b     1       6
      2       9
Name: (Seoul, Green), dtype: int32

In [14]:
df.loc['a']

city,Seoul,Seoul,Busan
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,0,1,2
2,3,4,5


In [15]:
df.loc['a', 1]

city   color
Seoul  Green    0
       Red      1
Busan  Green    2
Name: (a, 1), dtype: int32

In [16]:
df.loc['b', ('Seoul', 'Red')] # ('Seoul', 'Red')가 하위계층이 된다.

key2
1     7
2    10
Name: (Seoul, Red), dtype: int32

In [20]:
df.loc[('b', 2), 'Busan']

color
Green    11
Name: (b, 2), dtype: int32

In [21]:
df.loc[('b',1), ('Seoul', 'Green')]

6

In [22]:
df

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [23]:
# 정렬 : sort_index(axis=0, level=1) # level값은 df.index하면 나온다.
df.index

MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['key1', 'key2'])

In [25]:
df.sort_index(axis=0, level=1)

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [28]:
df.sort_index(axis=0, level=0) # 훨씬 직관적.

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [29]:
df.sort_index(axis=1, level=0) # index로 정렬 busan이 앞으로

Unnamed: 0_level_0,city,Busan,Seoul,Seoul
Unnamed: 0_level_1,color,Green,Green,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,2,0,1
a,2,5,3,4
b,1,8,6,7
b,2,11,9,10


In [30]:
# sort_values(by='컬럼명')
df.sort_values(by = ('Busan', 'Green'))# by = (상위계층, 하위계층)

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [32]:
df

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [31]:
# 각 열에 대한 합을 계산하시오.
df.sum(axis=0)

city   color
Seoul  Green    18
       Red      22
Busan  Green    26
dtype: int64

In [34]:
# axis = 0열에 따라 행방향으로(index), axis = 1 행에따라 열방향(columns)
# level = 0 1번째 index층이 기준이 되서 a, b를 구분해서 합이 구해진다.
# a는 a대로 계산하고, b는 b대로 계산으로 한다.
df.sum(axis=0, level=0) # level를 다루면 어디서 계산을 끝을지 결정이 된다.
                       # 열단위 계산, 첫번째 index에서 계산을 끝낼거다.

city,Seoul,Seoul,Busan
color,Green,Red,Green
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,3,5,7
b,15,17,19


In [35]:
# 각 1 과 2가 기준이 되어서 1은 1과, 2은 2와 합이 된다.
df.sum(axis= 0, level = 1)

city,Seoul,Seoul,Busan
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [36]:
df

Unnamed: 0_level_0,city,Seoul,Seoul,Busan
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [37]:
# axis=1 : 옆으로 계산
df.mean(axis=1, level = 'color') # level = 'color' == level = 1

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,1,1
a,2,4,4
b,1,7,7
b,2,10,10


In [38]:
df2 = pd.DataFrame({'a':range(7),
                   'b':range(7, 0, -1),
                   'c':['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd':[0, 1, 2, 0, 1, 2, 3]})
df2

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [39]:
df2.index # 따로 지정 되지 않음.

RangeIndex(start=0, stop=7, step=1)

In [40]:
# c, d를 보면 공통된 값을 가지고 있다. -> 계층적인 인덱스로 바꿔서 계산하는 경우가 있음
# C열, D열을 계층적인 인덱스로 변경
# set_index() : 리스트 형식으로, 계층순서대로 걸럼명
df3 = df2.set_index(['c', 'd']) # 2개의 열을 인덱스로 만든다 df에서는 c, d가 빠진다.
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [41]:
# c, d를 계층적인 인덱스로 사용할건데 c,d 데이터도 계속 유지 되었으면 할 때
df2.set_index(['c', 'd'], drop= False) # drop= False -> 없애지 마시오.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [42]:
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [43]:
df3.reset_index() # 인덱스 한 것으로 다시 reset 시키는 과정, 순서는 바뀜.

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


### DataFrame 인덱스 컬럼 전환

In [44]:
df4 = pd.DataFrame(np.arange(6).reshape((2, 3)),
                index = ['Seoul', 'Busan'],
                  columns = ['one', 'two', 'three'])
df4

Unnamed: 0,one,two,three
Seoul,0,1,2
Busan,3,4,5


In [45]:
df4.index.name = 'city'
df4.columns.name = 'number'
df4

number,one,two,three
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Seoul,0,1,2
Busan,3,4,5


In [47]:
# 이런 형태로 작업 할 수가 있음.
df5 = df4.stack() # 형태가 달라짐 -> Series type이 되어 버림( 그러면서 계층적인 인덱스가 됨 )
df5

city   number
Seoul  one       0
       two       1
       three     2
Busan  one       3
       two       4
       three     5
dtype: int32

In [48]:
df5.unstack() # 다시 DataFrame형태로 돌아옴.

number,one,two,three
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Seoul,0,1,2
Busan,3,4,5


### 병합
- merge : 공통된 하나의 열(또는 행)을 기준으로 합친다. n x m(join와 유사)
- concat : 이어붙이기, 동일한 index나 columns를 가지고 있는 경우

In [49]:
df1 = pd.DataFrame({'key': list('bbacaab'), 'data1':range(7)})
df2 = pd.DataFrame({'key': list('abd'), 'data2':range(3)})

In [50]:
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [51]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [52]:
pd.merge(df1, df2, on = 'key') # option : on(두개의 df의 매개체(key값)를 적어줌)
# 합치니깐 6개 데이터 -> 5개 데이터 ( c가 없어서 빠짐 ) 

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [53]:
# 양쪽에 존재하는 모든 조합
pd.merge(df1, df2, on = 'key', how= 'outer') # c를 안버리고 출력 대신 data2에는 결측값.

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


In [54]:
# 왼쪽에 있는 행은 고정, ( 오른쪽은 없으면 제거 )
pd.merge(df1, df2, on = 'key', how= 'left') # data1기준 data2가 없는 거 제거 (d가 제거)

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,1,1.0
2,a,2,0.0
3,c,3,
4,a,4,0.0
5,a,5,0.0
6,b,6,1.0


In [55]:
pd.merge(df1, df2, on = 'key', how= 'right')

Unnamed: 0,key,data1,data2
0,b,0.0,1
1,b,1.0,1
2,b,6.0,1
3,a,2.0,0
4,a,4.0,0
5,a,5.0,0
6,d,,2


In [56]:
df3 = pd.DataFrame({'key':list('bbacaab'), 'data1':range(7)})
df4 = pd.DataFrame({'key':list('ababd'), 'data2':range(5)})

In [57]:
df3

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [58]:
df4

Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [59]:
# how 인자에 inner를 넣으면, 넣지 않은 것과 동일하다.
# 공통된 값이 없으면 생략된다.
pd.merge(df3, df4, on= 'key', how = 'inner')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,6,1
5,b,6,3
6,a,2,0
7,a,2,2
8,a,4,0
9,a,4,2


In [67]:
# 합치고자 하는 컬럼이 동일한 값이 존재하지 않으면 합칠때 명시해준다.
df5 = pd.DataFrame({'lkey':list('bbacaab'), 'data1':range(7)})
df6 = pd.DataFrame({'rkey':list('abd'), 'data1':range(3)})

In [68]:
df5

Unnamed: 0,lkey,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [69]:
df6

Unnamed: 0,rkey,data1
0,a,0
1,b,1
2,d,2


In [70]:
pd.merge(df5, df6, left_on = 'lkey', right_on = 'rkey') #????

Unnamed: 0,lkey,data1_x,rkey,data1_y
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


In [73]:
left1 = pd.DataFrame({'key':list('abaabc'), 'value':range(6)})
right1 = pd.DataFrame({'group_val':[3.5, 7]}, index=['a', 'b'])

In [80]:
left1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [81]:
right1

Unnamed: 0,group_val
a,3.5
b,7.0


In [74]:
pd.merge(left1, right1, left_on='key', right_index= True) # 

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


In [75]:
left2 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
                    index = ['a', 'c', 'e'],
                    columns = ['Seoul', 'Incheon'])
right2 = pd.DataFrame([[7, 8], [9, 10], [11, 12], [13, 14]], 
                     columns = ['Daegu', 'Ulsan'])

In [76]:
left2

Unnamed: 0,Seoul,Incheon
a,1,2
c,3,4
e,5,6


In [77]:
right2

Unnamed: 0,Daegu,Ulsan
0,7,8
1,9,10
2,11,12
3,13,14


In [79]:
# 공통되지 않은 것들도 표시(결칙값)
pd.merge(left2, right2, left_index = True, right_index = True, how = 'outer')

Unnamed: 0,Seoul,Incheon,Daegu,Ulsan
a,1.0,2.0,,
c,3.0,4.0,,
e,5.0,6.0,,
0,,,7.0,8.0
1,,,9.0,10.0
2,,,11.0,12.0
3,,,13.0,14.0


In [82]:
s1 = pd.Series([0, 1], index = ['a', 'b'])
s2 = pd.Series([2, 3, 4], index = ['c', 'd', 'e'])
s3 = pd.Series([5, 6], index = ['f', 'g'])

In [83]:
s1

a    0
b    1
dtype: int64

In [84]:
s2

c    2
d    3
e    4
dtype: int64

In [85]:
s3

f    5
g    6
dtype: int64

In [86]:
# concat() : 리스트 형식으로 들어온 객체를 단순히 연결하는 함수(단순히 이어붙히는 함수)
# axis = 0 행, 생략가능
# axis = 1 열
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [87]:
pd.concat([s1, s2, s3], axis = 1) # 열 방향으로 채워짐 (나머지는 결측값이 된다)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0
