In [1]:
from numpy.random import randn
import numpy as np
np.random.seed(123)
import os
import matplotlib.pyplot as plt
import pandas as pd
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4)
pd.options.display.max_rows = 20

In [10]:
df1 = pd.DataFrame([[1, 5], [10, 6]], 
                 index = list('ab'), 
                 columns = list('AB'))
df1

Unnamed: 0,A,B
a,1,5
b,10,6


In [9]:
df2 = pd.DataFrame([[1, 6], [20, 7]], 
                 index = list('ac'), 
                 columns = list('AC'))
df2

Unnamed: 0,A,C
a,1,6
c,20,7


In [21]:
df1.merge(df2)

Unnamed: 0,A,B,C
0,1,5,6


In [22]:
df1.merge(df2, how='outer')

Unnamed: 0,A,B,C
0,1,5.0,6.0
1,10,6.0,
2,20,,7.0


In [27]:
df1

Unnamed: 0,A,B
a,1,5
b,10,6


In [25]:
df2

Unnamed: 0,A,C
a,1,6
c,20,7


In [28]:
df1.join(df2, rsuffix='_r')

Unnamed: 0,A,B,A_r,C
a,1,5,1.0,6.0
b,10,6,,


In [29]:
df1.join(df2, how='right', rsuffix='_r')

Unnamed: 0,A,B,A_r,C
a,1.0,5.0,1,6
c,,,20,7


In [30]:
df1.join(df2, how='inner', rsuffix='_r')

Unnamed: 0,A,B,A_r,C
a,1,5,1,6


In [31]:
df1.join(df2, how='outer', rsuffix='_r')

Unnamed: 0,A,B,A_r,C
a,1.0,5.0,1.0,6.0
b,10.0,6.0,,
c,,,20.0,7.0


In [35]:
df1

Unnamed: 0,A,B
a,1,5
b,10,6


In [36]:
df2

Unnamed: 0,A,C
a,1,6
c,20,7


In [38]:
pd.concat([df1, df2]) #suffixes = ['_l', '_r']

Unnamed: 0,A,B,C
a,1,5.0,
b,10,6.0,
a,1,,6.0
c,20,,7.0


In [39]:
df1.append(df2)

Unnamed: 0,A,B,C
a,1,5.0,
b,10,6.0,
a,1,,6.0
c,20,,7.0


In [40]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,A,B,C
a,1,5.0,
b,10,6.0,
a,1,,6.0
c,20,,7.0


In [41]:
pd.concat([df1, df2], join='inner')

Unnamed: 0,A
a,1
b,10
a,1
c,20


In [32]:
df1

Unnamed: 0,A,B
a,1,5
b,10,6


In [33]:
df1.reset_index()

Unnamed: 0,index,A,B
0,a,1,5
1,b,10,6


In [34]:
df1.set_index('A')

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,5
10,6


In [12]:
df1.join(df2)

ValueError: columns overlap but no suffix specified: Index(['A'], dtype='object')

## merge, join, concat 등 연습

In [3]:
df1 = pd.DataFrame([['국어', 80], ['영어', 90]],
                    index=list('김박'),
                    columns=['교과', '성적']
                    )
df1

Unnamed: 0,교과,성적
김,국어,80
박,영어,90


In [22]:
df2 = pd.DataFrame([['국어','B'], ['수학', 'A']],
                  index=list('김이'),
                  columns=['교과', '학점']) 
df2

Unnamed: 0,교과,학점
김,국어,B
이,수학,A


In [23]:
pd.merge(df1,df2)   # merge의 가장 큰 특징은 인덱스가 사라짐(?)

Unnamed: 0,교과,성적,학점
0,국어,80,B


In [24]:
pd.merge(df1, df2, on='교과')

Unnamed: 0,교과,성적,학점
0,국어,80,B


In [25]:
pd.merge(df1,df2, how='outer')

Unnamed: 0,교과,성적,학점
0,국어,80.0,B
1,영어,90.0,
2,수학,,A


In [26]:
pd.merge(df1, df2, how='left')

Unnamed: 0,교과,성적,학점
0,국어,80,B
1,영어,90,


In [27]:
pd.merge(df1, df2, how='right')

Unnamed: 0,교과,성적,학점
0,국어,80.0,B
1,수학,,A


In [28]:
df1.join(df2)

ValueError: columns overlap but no suffix specified: Index(['교과'], dtype='object')

In [38]:
# ValueError: columns overlap but no suffix specified: Index(['교과'], dtype='object')
# 결론은 같은 인덱스라는 '교과'가 있으니 suffix로 구분을 지어주라.
df1.join(df2, lsuffix="_df1", rsuffix="_df2")

Unnamed: 0,교과_df1,성적,교과_df2,학점
김,국어,80,국어,B
박,영어,90,,


In [39]:
df1.join(df2, lsuffix="_df1", how='right', rsuffix="_df2")

Unnamed: 0,교과_df1,성적,교과_df2,학점
김,국어,80.0,국어,B
이,,,수학,A


In [40]:
df1.join(df2, lsuffix="_df1", how='inner', rsuffix="_df2")

Unnamed: 0,교과_df1,성적,교과_df2,학점
김,국어,80,국어,B


In [41]:
df1.join(df2, lsuffix="_df1", how='outer', rsuffix="_df2")

Unnamed: 0,교과_df1,성적,교과_df2,학점
김,국어,80.0,국어,B
박,영어,90.0,,
이,,,수학,A


In [48]:
df1.join(df2, lsuffix="_df1", rsuffix="_df2")

Unnamed: 0,교과_df1,성적,교과_df2,학점
김,국어,80,국어,B
박,영어,90,,


In [47]:
df1.join(df2, lsuffix="_df1", rsuffix="_df2", on="교과")

Unnamed: 0,교과_df1,성적,교과_df2,학점
김,국어,80,,
박,영어,90,,


In [49]:
df1.join(df2, lsuffix="_df1", rsuffix="_df2", on="교과", how='right')

Unnamed: 0,교과,교과_df1,성적,교과_df2,학점
,김,,,국어,B
,이,,,수학,A


In [30]:
df1.concat(df2)

AttributeError: 'DataFrame' object has no attribute 'concat'

In [31]:
pd.concat([df1, df2])   # 올바른 concat 문법 ('여기 안에는 list가 와야한다')

Unnamed: 0,교과,성적,학점
김,국어,80.0,
박,영어,90.0,
김,국어,,B
이,수학,,A


In [34]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,교과,성적,교과.1,학점
김,국어,80.0,국어,B
박,영어,90.0,,
이,,,수학,A


In [50]:
pd.concat([df1, df2], join='outer')

Unnamed: 0,교과,성적,학점
김,국어,80.0,
박,영어,90.0,
김,국어,,B
이,수학,,A


In [51]:
pd.concat([df1, df2], join='inner')

Unnamed: 0,교과
김,국어
박,영어
김,국어
이,수학


In [54]:
pd.concat([df1, df2], join='right')

ValueError: Only can inner (intersect) or outer (union) join the other axis

In [55]:
df1

Unnamed: 0,교과,성적
김,국어,80
박,영어,90


In [57]:
df1.stack()    # 인덱스가 멀티인덱스가 되면서 칼럼이 한개만 된다.

김  교과    국어
   성적    80
박  교과    영어
   성적    90
dtype: object

In [59]:
type(df1.stack())   # 타입은 series로 변형

pandas.core.series.Series

In [58]:
df1.unstack()

교과  김    국어
    박    영어
성적  김    80
    박    90
dtype: object

In [60]:
df1

Unnamed: 0,교과,성적
김,국어,80
박,영어,90


In [61]:
df1.melt()

Unnamed: 0,variable,value
0,교과,국어
1,교과,영어
2,성적,80
3,성적,90


In [62]:
df1.melt(id_vars='교과')    # id_vars로 해준 값은 칼럼으로 고정되어서 나오고 나머지인 성적에 대해서
                            # melting

Unnamed: 0,교과,variable,value
0,국어,성적,80
1,영어,성적,90


In [63]:
df1.melt(id_vars='성적')

Unnamed: 0,성적,variable,value
0,80,교과,국어
1,90,교과,영어


In [64]:
df1

Unnamed: 0,교과,성적
김,국어,80
박,영어,90


In [65]:
df1.pivot()

KeyError: 'None of [None] are in the columns'

In [67]:
df1

Unnamed: 0,교과,성적
김,국어,80
박,영어,90


In [66]:
# KeyError: 'None of [None] are in the columns'
# 칼럼지정은 무조건 하나는 해주어야 한다

df1.pivot(columns='교과')

Unnamed: 0_level_0,성적,성적
교과,국어,영어
김,80.0,
박,,90.0


In [68]:
df1.pivot(columns='성적')

Unnamed: 0_level_0,교과,교과
성적,80,90
김,국어,
박,,영어
