In [4]:
"""
DataFrame Merge

2개 DataFrame 을 Join 하는 방법 : merge
    - pd.merge(df1,df2,on=['key',....],how='inner')
    on = []에 들어갈 값들은 병합 기준이 되는 칼럼명(입력하지 않으면 동일 칼럼명들 지정)
    how='inner','left','right','outer' 중 선택 1개 (입력하지 않으면 inner로 지정처리)

"""
import numpy as np
import pandas as pd

code = {'code':['a','b','c','d','e'],'name':['아','비','씨','디','이']}
code2 = {'code':['a','b','c','x','y'],'value':['1','2','3','4','5']}
tf = pd.DataFrame.from_dict(code)
vf = pd.DataFrame.from_dict(code2)

In [6]:
pd.merge(tf,vf) #동일 컬럼명인 CDDE 기준으로 inner join 처리

Unnamed: 0,code,name,value
0,a,아,1
1,b,비,2
2,c,씨,3


In [9]:
"""
pd.merge(df1,df2,on=['CODE'],how='inner')
기준 칼럼에서 같은 값을 가진 열들의 요소들을 합친다
기준 칼럼에서 같은 값이 아닌 대상들은 모두 제외된다.
"""
rf = pd.merge(tf,vf,on=['code'],how='inner') #how를 지정하지 않아도 기본 inner로 동작

In [10]:
rf

Unnamed: 0,code,name,value
0,a,아,1
1,b,비,2
2,c,씨,3


In [12]:
"""
pd.merge(df1,df2,on=['code'],how='left')
왼쪽 DataFrame의 다른 열 값들을 보존하며 오른쪽 DataFrame을 끼워 맞춘다
df1.CODE 의 전체를 보존하며 병합, df2.CODE에서 없는 것들은 NaN 으로 채움
"""

df1 = pd.DataFrame.from_dict(code)
df2 = pd.DataFrame.from_dict(code2)

lf = pd.merge(df1,df2,on=['code'],how='left')
lf

Unnamed: 0,code,name,value
0,a,아,1.0
1,b,비,2.0
2,c,씨,3.0
3,d,디,
4,e,이,


In [14]:
"""
오른쪽 DataFrame의 다른 열 값들을 보존하며 왼쪽 DataFrame 을 끼워 맞춘다
df2.CODE 전체를 보존하며 병합 , df1.CODE에서 없는 것들은 NaN으로 채움
"""

rf = pd.merge(df1,df2,on=['code'],how='right')
rf

Unnamed: 0,code,name,value
0,a,아,1
1,b,비,2
2,c,씨,3
3,x,,4
4,y,,5


In [17]:
"""
Outer Join
pd.merge(df1,df2,on=['code'],how='outer')
두개의 DataFrame의 기준 칼럼의 합집합 기준으로 병합
서로 없는 CODE 값들에 해당되는 다른 칼럼들은 NaN 으로 채움
"""

of = pd.merge(df1,df2,on=['code'],how='outer')
of

Unnamed: 0,code,name,value
0,a,아,1.0
1,b,비,2.0
2,c,씨,3.0
3,d,디,
4,e,이,
5,x,,4.0
6,y,,5.0


In [23]:
"""
groupby(['컬럼명',...])
    - '컬럼명' 내의 고유 값 기준으로 Groupby 객체 리턴
    - 보통 groupby 메소드에 지정된 칼럼명은 인덱스로 지정됨
    - Groupby 객체에는 그룹벌로 연산을 할 수 있는 그룹 연산 메서드 존재

Groupby 그룹 연산 메소드
    - size(),count() : 갯수
    - mean(), median(), min(), max() : 평균,중앙값,최소,최대
    - sum(), prod(), std(), var(), quantile() : 합계, 곱, 표준편차, 분산, 사분위수
"""

df = pd.DataFrame(np.array([70,20000,70,50000,90,50000]).reshape(3,2),columns=['성능','가격'])
df

Unnamed: 0,성능,가격
0,70,20000
1,70,50000
2,90,50000


In [24]:
df.groupby('성능').sum()

Unnamed: 0_level_0,가격
성능,Unnamed: 1_level_1
70,70000
90,50000


In [25]:
df.groupby('성능').mean()

Unnamed: 0_level_0,가격
성능,Unnamed: 1_level_1
70,35000
90,50000


In [26]:
df.groupby('성능').count()

Unnamed: 0_level_0,가격
성능,Unnamed: 1_level_1
70,2
90,1
