### 기준열 이름이 같을 때
pd.merge(left, right, on = '기준열', how = '조인방식')  
### 기준열 이름이 다를 때
pd.merge(left, right, left_on = '왼쪽 열', right_on = '오른쪽 열', how = '조인방식')

left : 왼쪽 데이터프레임  
right : 오른쪽 데이터프레임  
on : (두 데이터프레임의 기준열 이름이 같을 때) 기준열  
how : 조인 방식 {'left', 'right', 'inner', 'outer'} 기본값은 'inner'  
left_on : 기준열 이름이 다를 때, 왼쪽 기준열  
right_on : 기준열 이름이 다를 때, 오른쪽 기준열  


In [1]:
import pandas as pd
fruit = pd.DataFrame({'Num':[123, 456, 789, 1011, 1112],'Fruit':['Apple', 'Banana', 'Cherry', 'Lemon', 'Peach']})
grade  =   pd.DataFrame({'Num':[123, 789, 1314], 'Grade':['A', 'B', 'C']})

In [2]:
fruit

Unnamed: 0,Num,Fruit
0,123,Apple
1,456,Banana
2,789,Cherry
3,1011,Lemon
4,1112,Peach


In [3]:
grade

Unnamed: 0,Num,Grade
0,123,A
1,789,B
2,1314,C


### 1. how = JOIN 방식
<img src="merge_how.jpg" alt="merge_how" width="500"/>

#### Left Join  
: 왼쪽 데이터프레임을 기준으로 조인한다. 오른쪽 데이터프레임에 없는 값은 NaN으로 나타난다.

In [4]:
fruit

Unnamed: 0,Num,Fruit
0,123,Apple
1,456,Banana
2,789,Cherry
3,1011,Lemon
4,1112,Peach


In [5]:
grade

Unnamed: 0,Num,Grade
0,123,A
1,789,B
2,1314,C


In [6]:
pd.merge(fruit, grade, on = 'Num', how = 'left')

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,456,Banana,
2,789,Cherry,B
3,1011,Lemon,
4,1112,Peach,


#### Right Join

: 오른쪽 데이터프레임을 기준으로 조인한다. 왼쪽 데이터프레임에 없는 값은 NaN으로 나타난다.

In [7]:
pd.merge(fruit, grade, on = 'Num', how = 'right')

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,789,Cherry,B
2,1314,,C


#### Inner Join

: 교집합을 의미한다. 양쪽에 공통으로 있는 값만 나타난다. 

In [8]:
pd.merge(fruit, grade, on = 'Num', how = 'inner')

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,789,Cherry,B


#### Outer Join

: 모든 값이 나타나도록 한다. 왼쪽 데이터프레임과 오른쪽 데이터프레임에 없는 값들은 NaN으로 나타난다.

In [9]:
pd.merge(fruit, grade, on = 'Num', how = 'outer')

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,456,Banana,
2,789,Cherry,B
3,1011,Lemon,
4,1112,Peach,
5,1314,,C


In [8]:
grade.join(fruit, on = 'Num', how='outer')  #컬럼이 겹쳐서 에러가 발생

ValueError: columns overlap but no suffix specified: Index(['Num'], dtype='object')

In [10]:
left = pd.DataFrame({'key1':['foo', 'foo', 'bar'],
                    'key2':['one', 'two', 'one'],
                    'lval':[1, 2, 3]})
right = pd.DataFrame({'key1':['foo', 'foo', 'bar', 'bar'],
                     'key2': ['one', 'one', 'one', 'two'],
                     'rval': [4, 5, 6, 7]})

In [11]:
left

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [12]:
right

Unnamed: 0,key1,key2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


### 2. on = '기준열'
공통이 되는 기준 열이 여러 개일 때

In [14]:
pd.merge(left, right, on = ['key1', 'key2'])

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1,4
1,foo,one,1,5
2,bar,one,3,6


In [15]:
pd.merge(left, right, on = ['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


공통이 되는 기준 열이 하나일 때

In [17]:
left

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [18]:
right

Unnamed: 0,key1,key2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


In [19]:
pd.merge(left, right, on = 'key1')

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [20]:
pd.merge(left, right, on = 'key1', how='inner')

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


두 데이터프레임의 열 이름이 다를 때

위 예시처럼 양쪽 데이터프레임에서 merge의 기준이 되는 열의 이름이 같다면 on = '기준열'로 지정해주면 된다. 하지만 양쪽 데이터프레임에서 기준이 되는 열의 이름이 다르다면 각각 left_on = '왼쪽 열', right_on = '오른쪽 열'로 지정하면 된다.

In [21]:
pd.merge(left, right, left_on = 'key1', right_on='key2', how='outer')

Unnamed: 0,key1_x,key2_x,lval,key1_y,key2_y,rval
0,foo,one,1.0,,,
1,foo,two,2.0,,,
2,bar,one,3.0,,,
3,,,,foo,one,4.0
4,,,,foo,one,5.0
5,,,,bar,one,6.0
6,,,,bar,two,7.0


#### join과 concat 방법에 대해서도 확인하시오.
#### 색인으로 병합할때 DataFrame의 join메소드를 사용하면 편리하다. 
#### join메소드는 컬럼이 겹치지 않으며 완전히 같거나 유사한 색인구조를 가진 여러개의 DataFrame 객체를 병합할때 사용할 수있다.  

## 데이터 합치기
#### pandas 객체에 저장된 데이터는 여러가지 방법으로 합칠 수 있다. 
####     1. 'pandas.merge'는 하나 이상의 키를 기준으로 DataFrames의 row를 합친다. 
####     2. 'pandas.concat'는 하나의 축을 따라 객체를 이어 붙인다. 
####     3. 'combine_first' 메소드는 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채울수 있게 한다.

In [16]:
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                    index=['a', 'c', 'e'],
                    columns=['Ohio', 'Nevada'])
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                     index=['b','c','d','e'],
                     columns=['Missouri','Alabama'])

left2

Unnamed: 0,Ohio,Nevada
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [17]:
right2

Unnamed: 0,Missouri,Alabama
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [18]:
pd.merge(left2, right2, how='outer', left_index=True, right_index=True)

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [25]:
left2.join(right2, how='outer')

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [19]:
s1 = pd.Series([0,1], index=['a', 'b'])
s2 = pd.Series([2,3,4], index=['c', 'd', 'e'])
s3 = pd.Series([5,6], index=['f', 'g'])

In [20]:
s1

a    0
b    1
dtype: int64

In [21]:
s2

c    2
d    3
e    4
dtype: int64

In [22]:
s3

f    5
g    6
dtype: int64

In [23]:
pd.concat([s1, s2, s3])# 세객체를 묶어서 concat 함수에 전달하면 값과 색인을 연결해준다.

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [24]:
pd.concat([s1, s2, s3], axis=1)#axis=1을 넘기면 결과는 Series가 아니라 DataFrame이 된다.

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [25]:
import numpy as np

a = pd.Series([np.nan, 2.5, 0.0, 3.5, 4.5, np.nan],
             index=['f','e','d','c','b','a'])
b = pd.Series([0., np.nan, 2., np.nan, np.nan, 5.],
             index=['a','b','c','d','e','f'])


In [27]:
a

f    NaN
e    2.5
d    0.0
c    3.5
b    4.5
a    NaN
dtype: float64

In [28]:
b

a    0.0
b    NaN
c    2.0
d    NaN
e    NaN
f    5.0
dtype: float64

In [29]:
b.combine_first(a) 

a    0.0
b    4.5
c    2.0
d    0.0
e    2.5
f    5.0
dtype: float64

In [31]:
b.combine_first(a)

a    0.0
b    4.5
c    2.0
d    0.0
e    2.5
f    5.0
dtype: float64

#### pivot()은 여러 형태로 이루어진 dataframe에 index, columns, values를 각각 지정해주어 melt된 df를 보기 좋은 형태로 재구조화 시켜주는 메서드이다. 즉, unmelt의 개념이다.
데이터 테이블 재배치(구조 변경)
 - 여러 column을 index, values, columns 값으로 사용 가능
 - Group 연산, 테이블 요약, 그래프 등을 위해 사용
 - set_index로 계층적 색인 생성 후, unstack 메서드로 형태를 변경하는 과정의 축약형 

p1.pivot(index=None, columns=None, values=None)  
      index : index 색인으로 사용될 컬럼  
      columns : column 색인으로 사용될 컬럼  
      values : value에 채우고자 하는 컬럼


In [30]:
import pandas as pd

df=pd.DataFrame({'store':['Costco','Costco','Costco','Wal-Mart','Wal-Mart','Wal-Mart',"Sam's Club","Sam's Club","Sam's Club"],
               'product':['Potato','Onion','Cucumber','Potato','Onion','Cucumber','Potato','Onion','Cucumber'],
               'price':[3000,1600,2600,3200,1200,2100,2000,2300,3000],
                'quantity':[25,31,57,32,36,21,46,25,9]})
df

Unnamed: 0,store,product,price,quantity
0,Costco,Potato,3000,25
1,Costco,Onion,1600,31
2,Costco,Cucumber,2600,57
3,Wal-Mart,Potato,3200,32
4,Wal-Mart,Onion,1200,36
5,Wal-Mart,Cucumber,2100,21
6,Sam's Club,Potato,2000,46
7,Sam's Club,Onion,2300,25
8,Sam's Club,Cucumber,3000,9


In [31]:
df.pivot(index='product', columns='store',values='price')
#df.pivot('product', 'store')['price']
#df.pivot('product', 'store', 'price')

store,Costco,Sam's Club,Wal-Mart
product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cucumber,2600,3000,2100
Onion,1600,2300,1200
Potato,3000,2000,3200


In [32]:
df.pivot(index='product', columns='store',values='quantity')

store,Costco,Sam's Club,Wal-Mart
product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cucumber,57,9,21
Onion,31,25,36
Potato,25,46,32


In [33]:
df.pivot(index='product', columns='store')

Unnamed: 0_level_0,price,price,price,quantity,quantity,quantity
store,Costco,Sam's Club,Wal-Mart,Costco,Sam's Club,Wal-Mart
product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Cucumber,2600,3000,2100,57,9,21
Onion,1600,2300,1200,31,25,36
Potato,3000,2000,3200,25,46,32


### p1.pivot_table(index, columns, values, aggfunc)  
###      index : index 색인으로 사용될 컬럼  
###      columns : column 색인으로 사용될 컬럼  
###      values : value에 채우고자 하는 컬럼
###      aggfund : 데이터 집계함수

In [35]:
df

Unnamed: 0,store,product,price,quantity
0,Costco,Potato,3000,25
1,Costco,Onion,1600,31
2,Costco,Cucumber,2600,57
3,Wal-Mart,Potato,3200,32
4,Wal-Mart,Onion,1200,36
5,Wal-Mart,Cucumber,2100,21
6,Sam's Club,Potato,2000,46
7,Sam's Club,Onion,2300,25
8,Sam's Club,Cucumber,3000,9


In [36]:
df.pivot_table(index='product', columns='store', values='price', aggfunc=sum)

store,Costco,Sam's Club,Wal-Mart
product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cucumber,2600,3000,2100
Onion,1600,2300,1200
Potato,3000,2000,3200


In [37]:
df.pivot_table(index='product', columns='store', aggfunc=sum)

Unnamed: 0_level_0,price,price,price,quantity,quantity,quantity
store,Costco,Sam's Club,Wal-Mart,Costco,Sam's Club,Wal-Mart
product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Cucumber,2600,3000,2100,57,9,21
Onion,1600,2300,1200,31,25,36
Potato,3000,2000,3200,25,46,32


#### melt  :컬럼을 녹여 행으로 보낸다
pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)  
 
frame 자리엔 바꿀 df를 넣어주고, id_vars에는 ID 변수를 지정해준다.  
melt는 ID 변수를 기준으로 원래 데이터셋에 있던 컬럼명들을 'variable' 컬럼의 값들로 위에서 아래로 길게 나열하고, 'value' 컬럼에 ID 변수와   variable에 있는 값대로 차례차례 넣어주는 식으로 작동한다.  
value_vars는 'value' 컬럼에 들어가는 값을 지정해준다. 

In [38]:
df

Unnamed: 0,store,product,price,quantity
0,Costco,Potato,3000,25
1,Costco,Onion,1600,31
2,Costco,Cucumber,2600,57
3,Wal-Mart,Potato,3200,32
4,Wal-Mart,Onion,1200,36
5,Wal-Mart,Cucumber,2100,21
6,Sam's Club,Potato,2000,46
7,Sam's Club,Onion,2300,25
8,Sam's Club,Cucumber,3000,9


In [39]:
df.melt(id_vars=['product', 'store']) #store와 product를 기준으로 price와 quantity를 녹인다.
#df.melt(['product','store'])

Unnamed: 0,product,store,variable,value
0,Potato,Costco,price,3000
1,Onion,Costco,price,1600
2,Cucumber,Costco,price,2600
3,Potato,Wal-Mart,price,3200
4,Onion,Wal-Mart,price,1200
5,Cucumber,Wal-Mart,price,2100
6,Potato,Sam's Club,price,2000
7,Onion,Sam's Club,price,2300
8,Cucumber,Sam's Club,price,3000
9,Potato,Costco,quantity,25


In [40]:
df.melt(id_vars=['product','store'],value_vars='quantity')#store와 product를 기준으로 variable은 quantity
#df.melt(['product','store'],'quantity')

Unnamed: 0,product,store,variable,value
0,Potato,Costco,quantity,25
1,Onion,Costco,quantity,31
2,Cucumber,Costco,quantity,57
3,Potato,Wal-Mart,quantity,32
4,Onion,Wal-Mart,quantity,36
5,Cucumber,Wal-Mart,quantity,21
6,Potato,Sam's Club,quantity,46
7,Onion,Sam's Club,quantity,25
8,Cucumber,Sam's Club,quantity,9


In [41]:
df.melt(id_vars=['product','store'],var_name='product_info',value_name='product_value') #variable과 value의 이름을 지정가능

Unnamed: 0,product,store,product_info,product_value
0,Potato,Costco,price,3000
1,Onion,Costco,price,1600
2,Cucumber,Costco,price,2600
3,Potato,Wal-Mart,price,3200
4,Onion,Wal-Mart,price,1200
5,Cucumber,Wal-Mart,price,2100
6,Potato,Sam's Club,price,2000
7,Onion,Sam's Club,price,2300
8,Cucumber,Sam's Club,price,3000
9,Potato,Costco,quantity,25


In [42]:
df.melt(id_vars=['product','store'],value_vars='quantity', var_name='product_info',value_name='product_value')

Unnamed: 0,product,store,product_info,product_value
0,Potato,Costco,quantity,25
1,Onion,Costco,quantity,31
2,Cucumber,Costco,quantity,57
3,Potato,Wal-Mart,quantity,32
4,Onion,Wal-Mart,quantity,36
5,Cucumber,Wal-Mart,quantity,21
6,Potato,Sam's Club,quantity,46
7,Onion,Sam's Club,quantity,25
8,Cucumber,Sam's Club,quantity,9


In [43]:
df1 = df.melt(id_vars=['product','store'],value_vars='quantity')
df1

Unnamed: 0,product,store,variable,value
0,Potato,Costco,quantity,25
1,Onion,Costco,quantity,31
2,Cucumber,Costco,quantity,57
3,Potato,Wal-Mart,quantity,32
4,Onion,Wal-Mart,quantity,36
5,Cucumber,Wal-Mart,quantity,21
6,Potato,Sam's Club,quantity,46
7,Onion,Sam's Club,quantity,25
8,Cucumber,Sam's Club,quantity,9


In [41]:
df

Unnamed: 0,store,product,price,quantity
0,Costco,Potato,3000,25
1,Costco,Onion,1600,31
2,Costco,Cucumber,2600,57
3,Wal-Mart,Potato,3200,32
4,Wal-Mart,Onion,1200,36
5,Wal-Mart,Cucumber,2100,21
6,Sam's Club,Potato,2000,46
7,Sam's Club,Onion,2300,25
8,Sam's Club,Cucumber,3000,9


In [42]:
df1[df1['store']=='Costco']

Unnamed: 0,product,store,variable,value
0,Potato,Costco,quantity,25
1,Onion,Costco,quantity,31
2,Cucumber,Costco,quantity,57


In [43]:
df1[df1['product']=='Potato']

Unnamed: 0,product,store,variable,value
0,Potato,Costco,quantity,25
3,Potato,Wal-Mart,quantity,32
6,Potato,Sam's Club,quantity,46


## 실습
#### pandas에는 pivot과 pivot_table 두가지를 제공하는데, 
#### 차이는 pivot은 중복된 index와 column을 처리하지 못하는데, pivot_table은 처리할 수 있다. - 즉 Grouping을 할 수 있다.

In [42]:
data = {'name':['홍길동','홍길동','홍길동','아무개','아무개','아무개'],
        'col_name':['age','sex','address','age','sex','address'],
        'value':[30,'male','seoul',22,'female','busan']}
data_df = pd.DataFrame(data)
data_df

Unnamed: 0,name,col_name,value
0,홍길동,age,30
1,홍길동,sex,male
2,홍길동,address,seoul
3,아무개,age,22
4,아무개,sex,female
5,아무개,address,busan


In [60]:
data_df.pivot(index='name', columns='col_name', values = 'value')

col_name,address,age,sex
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
아무개,busan,22,female
홍길동,seoul,30,male


In [61]:
pd.pivot_table(data_df, index='name', columns='col_name', values = 'value', aggfunc='sum')

col_name,address,age,sex
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
아무개,busan,22,female
홍길동,seoul,30,male


In [43]:
data = {'name':['홍길동','홍길동','홍길동','아무개','아무개','아무개','아무개'],
        'col_name':['age','sex','address','age','sex','address','age'],
        'value':[30,'male','seoul',22,'female','busan',30]}
data_df = pd.DataFrame(data)
data_df

Unnamed: 0,name,col_name,value
0,홍길동,age,30
1,홍길동,sex,male
2,홍길동,address,seoul
3,아무개,age,22
4,아무개,sex,female
5,아무개,address,busan
6,아무개,age,30


In [56]:
data_df.pivot(index='name', columns='col_name', values = 'value')

ValueError: Index contains duplicate entries, cannot reshape

In [50]:
import numpy as np
pd.pivot_table(data_df, index='name', columns='col_name', values = 'value', aggfunc='max')

col_name,address,age,sex
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
아무개,busan,30,female
홍길동,seoul,30,male


In [64]:
#seaborn에서 제공하는 데이터 사용
import seaborn as sns
dia = sns.load_dataset('diamonds')
dia

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53935,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


### 1. 다이아몬드의 cut과 color의 상태에 따른 가격(price)의 평균을 구하시오

In [49]:
dia.pivot(index='cut', columns='color', values='price')

ValueError: Index contains duplicate entries, cannot reshape

In [66]:
dia.pivot_table(index='cut', columns='color', values='price', aggfunc='mean')

color,D,E,F,G,H,I,J
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Ideal,2629.094566,2597.55009,3374.939362,3720.706388,3889.334831,4451.970377,4918.186384
Premium,3631.292576,3538.91442,4324.890176,4500.742134,5216.70678,5946.180672,6294.591584
Very Good,3470.467284,3214.652083,3778.82024,3872.753806,4535.390351,5255.879568,5103.513274
Good,3405.382175,3423.644159,3495.750275,4123.482204,4276.254986,5078.532567,4574.172638
Fair,4291.06135,3682.3125,3827.003205,4239.254777,5135.683168,4685.445714,4975.655462


### 2. 다이아몬드의 cut과 color를 행인덱스, clarity를 열인덱스로 하여 중위가격을 구하시오

In [68]:
dia.pivot_table(index=['cut', 'color'], columns='clarity', values='price', aggfunc=np.median)

Unnamed: 0_level_0,clarity,IF,VVS1,VVS2,VS1,VS2,SI1,SI2,I1
cut,color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Ideal,D,4184.5,1547.0,1295.0,1330.0,1113.5,1610.5,2533.5,3886.0
Ideal,E,1207.0,1057.0,1106.0,1097.0,1576.0,1749.0,3429.0,3552.0
Ideal,F,979.0,1124.0,2059.0,1911.5,1625.0,2596.0,3246.0,3544.0
Ideal,G,1014.0,1114.0,1918.0,1876.0,2383.0,2397.0,3903.5,3909.5
Ideal,H,1055.0,1029.5,880.0,1665.0,2446.5,4587.0,4536.0,3951.0
Ideal,I,865.0,974.0,1316.0,2557.0,2832.0,4457.5,5237.5,3328.0
Ideal,J,828.0,994.0,2143.0,3267.0,4280.5,4443.0,4684.5,9454.0
Premium,D,10129.0,1582.0,1323.0,2860.0,1775.0,1786.0,4007.0,3740.0
Premium,E,1207.0,1044.0,1082.0,1748.5,1694.0,2287.5,3846.0,3343.5
Premium,F,1085.0,1356.0,2160.0,2830.5,1869.0,2812.5,4043.0,2999.5


### 2. 다이아몬드의 cut과 color에 따른 가격(price)는 중위가격, 무게(carat)은 합계로 따로 집계하시오.

In [70]:
dia.pivot_table(index='cut', columns='color', values=['price', 'carat'], aggfunc= { 'price': 'median','carat': 'sum'} )

Unnamed: 0_level_0,carat,carat,carat,carat,carat,carat,carat,price,price,price,price,price,price,price
color,D,E,F,G,H,I,J,D,E,F,G,H,I,J
cut,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Ideal,1603.38,2257.5,2509.2,3422.29,2490.52,1910.97,952.98,1576.0,1437.0,1775.0,1857.5,2278.0,2659.0,4096.0
Premium,1156.64,1677.37,1927.82,2460.51,2398.82,1634.97,1044.82,2009.0,1928.0,2841.0,2745.0,4511.0,4640.0,5063.0
Very Good,1053.69,1623.16,1603.44,1762.87,1670.69,1260.53,768.32,2310.0,1989.5,2471.0,2437.0,3734.0,3888.0,4113.0
Good,492.87,695.21,705.32,741.13,642.14,551.87,337.56,2728.5,2420.0,2647.0,3340.0,3468.5,3639.5,3733.0
Fair,149.98,191.88,282.27,321.48,369.41,209.66,159.6,3730.0,2956.0,3035.0,3057.0,3816.0,3246.0,3302.0
