In [352]:
import pandas as pd
import numpy as np
import seaborn

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음,  
병합의 기준이 되는 열 혹은 행을 '키'라고 함
기본적으로 `merge()`메서드는 **inner join** 형태를 가짐  
**outer(full), left, right join** 형태로 변경하고자 한다면 `how`  
인수에 조인 방식을 지정함  
`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함

In [353]:
df1 = pd.DataFrame(
    {
        '고객번호' : [1001, 1002, 1003, 1004, 1005, 1006, 1007 ],
        '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희'],
    }, columns = ['고객번호', '이름']
)
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [354]:
df2 = pd.DataFrame (
    {
        '고객번호' : [1001, 1001, 1005, 1006 ,1008, 1001],
        '금액' : [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns= ['고객번호', '금액']
)
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [355]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [356]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


만약 키값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함

In [357]:
df1 = pd.DataFrame(
    {
        '품종' : ['튤립', '튤립', '장미', '장미'],
        '꽃잎 길이' : [1.4, 1.3, 1.5, 1.3]
    }
)
df1

Unnamed: 0,품종,꽃잎 길이
0,튤립,1.4
1,튤립,1.3
2,장미,1.5
3,장미,1.3


In [358]:
df2 = pd.DataFrame(
    {
        '품종' : ['튤립', '장미', '장미', '무궁화'],
        '꽃잎너비' : [0.4, 0.3, 0.5, 0.3]
    }
)
df2

Unnamed: 0,품종,꽃잎너비
0,튤립,0.4
1,장미,0.3
2,장미,0.5
3,무궁화,0.3


In [359]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎 길이,꽃잎너비
0,튤립,1.4,0.4
1,튤립,1.3,0.4
2,장미,1.5,0.3
3,장미,1.5,0.5
4,장미,1.3,0.3
5,장미,1.3,0.5


In [360]:
pd.merge(df1,df2, how = 'outer')

Unnamed: 0,품종,꽃잎 길이,꽃잎너비
0,무궁화,,0.3
1,장미,1.5,0.3
2,장미,1.5,0.5
3,장미,1.3,0.3
4,장미,1.3,0.5
5,튤립,1.4,0.4
6,튤립,1.3,0.4


병합되는 두 데이터 프레임의 동일한 컬럼영이 여러개 존재한다면 모두 키가 되기  
때문에 특정한 컬러만 키로 사용하고자 한다면 `on` 인수로 지정해줘야함

In [361]:
df1 = pd.DataFrame(
    {
        '이름' : ['춘향', '몽룡', '춘향'],
        '날짜' : ['20180101', '20180102', '20180102'],
        '데이터' : ['20000', '30000', '100000']
    }
)
df1

Unnamed: 0,이름,날짜,데이터
0,춘향,20180101,20000
1,몽룡,20180102,30000
2,춘향,20180102,100000


In [362]:
df2 = pd.DataFrame (
    {
        '이름' : ['춘향', '몽룡'],
        '데이터' : ['여', '남']
    }
)
df2

Unnamed: 0,이름,데이터
0,춘향,여
1,몽룡,남


In [363]:
pd.merge(df1, df2)

Unnamed: 0,이름,날짜,데이터


이때 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y와 같은 접미사가 붙는다.

In [364]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,이름,날짜,데이터
0,몽룡,20180102.0,30000
1,몽룡,,남
2,춘향,20180102.0,100000
3,춘향,20180101.0,20000
4,춘향,,여


In [365]:
pd.merge(df1,df2, on='이름')

Unnamed: 0,이름,날짜,데이터_x,데이터_y
0,춘향,20180101,20000,여
1,몽룡,20180102,30000,남
2,춘향,20180102,100000,여


키가 되는 기준열의 이름이 서로 다르면 `left_on` `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [366]:
df1 = pd.DataFrame(
    {
        '이름' : ['춘향', '몽룡', '춘향'],
        '날짜' : ['20180101', '20180102', '20180102'],
    }
)
df1

Unnamed: 0,이름,날짜
0,춘향,20180101
1,몽룡,20180102
2,춘향,20180102


In [367]:
df2 = pd.DataFrame (
    {
        '성명' : ['춘향', '몽룡', '길동'],
        '데이터' : ['여', '남', '남']
    }
)
df2

Unnamed: 0,성명,데이터
0,춘향,여
1,몽룡,남
2,길동,남


In [368]:
pd.merge(df1, df2, left_on = '이름', right_on = '성명')

Unnamed: 0,이름,날짜,성명,데이터
0,춘향,20180101,춘향,여
1,몽룡,20180102,몽룡,남
2,춘향,20180102,춘향,여


In [369]:
df1 = pd.DataFrame(
    {
        '도시' : ['서울', '서울', '서울', '부산','부산'],
        '연도' : [2000, 2005, 2010, 2000, 2005],
        '인구' : [980, 970, 960, 360, 350]
    }
)
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,980
1,서울,2005,970
2,서울,2010,960
3,부산,2000,360
4,부산,2005,350


In [370]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index = [
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns = ['데이터1', '데이터2']
)
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [371]:
pd.merge(df1, df2, left_on = ['도시', '연도'], right_index= True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### `Join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드 사용

In [372]:
df1.join(df2, on = ['도시', '연도'])

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


### `concat` 메서드로 데이터 연결  
기준 열 지정 없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
기본적으로 위 아래로 행을 연결하기 때문에 인덱스가 중복 될 수 있음  
만약 좌우로 열을 연결하고 싶을 때는 `axis = 1` 인수를 사용함

In [373]:
s1 = pd.Series([0, 1] , index= ['A', 'B'])

In [374]:
s2 = pd.Series([2,3,4] , index= ['A', 'B', 'C'])

In [375]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [376]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),  
    index = ['a', 'b', 'c'],
    columns = ['데이터1', '데이터2']
)
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [377]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2, 2),  
    index = ['b', 'd'],
    columns = ['데이터3', '데이터4']
)
df2

Unnamed: 0,데이터3,데이터4
b,0,1
d,2,3


In [378]:
pd.concat((df1, df2), axis = 1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,0.0,1.0
c,4.0,5.0,,
d,,,2.0,3.0


### 파이썬으로 다음 연산을 수행한다.

어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는   데이터프레임을 만든 뒤 합친다. 실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).  

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [379]:
first_half = pd.DataFrame(
    {
        '매출' : [10000, 11000, 9000, 12000, 13000, 8000],
        '비용' : [9000, 9500, 9000, 10000, 11000, 10000],
        '이익' : [1000, 1500 , 0, 2000, 2000, -2000]
    }, index = [1, 2, 3, 4, 5, 6]
)
first_half

Unnamed: 0,매출,비용,이익
1,10000,9000,1000
2,11000,9500,1500
3,9000,9000,0
4,12000,10000,2000
5,13000,11000,2000
6,8000,10000,-2000


In [380]:
second_half = pd.DataFrame(
    {
        '매출' : [9000, 10000, 12000, 9000, 10000, 11000],
        '비용' : [10000, 12000, 10000, 9000, 9000, 9500],
        '이익' : [-1000, -2000, 2000, 0, 1000, 1500]
    }, index = [7, 8, 9, 10, 11, 12]
)
second_half

Unnamed: 0,매출,비용,이익
7,9000,10000,-1000
8,10000,12000,-2000
9,12000,10000,2000
10,9000,9000,0
11,10000,9000,1000
12,11000,9500,1500


In [381]:
annual = pd.concat([first_half, second_half])
annual

Unnamed: 0,매출,비용,이익
1,10000,9000,1000
2,11000,9500,1500
3,9000,9000,0
4,12000,10000,2000
5,13000,11000,2000
6,8000,10000,-2000
7,9000,10000,-1000
8,10000,12000,-2000
9,12000,10000,2000
10,9000,9000,0


In [382]:
annual_sum = annual.sum()
annual_sum.name = '총실적'
annual_sum

매출    124000
비용    118000
이익      6000
Name: 총실적, dtype: int64

In [383]:
annual.loc['총실적', :] = annual_sum
annual

Unnamed: 0,매출,비용,이익
1,10000.0,9000.0,1000.0
2,11000.0,9500.0,1500.0
3,9000.0,9000.0,0.0
4,12000.0,10000.0,2000.0
5,13000.0,11000.0,2000.0
6,8000.0,10000.0,-2000.0
7,9000.0,10000.0,-1000.0
8,10000.0,12000.0,-2000.0
9,12000.0,10000.0,2000.0
10,9000.0,9000.0,0.0


### 피벗 테이블
**피벗 테이블** : 데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로  
사용하는 테이블

pandas에서 피벗테이블을 만들기 위해선 `pivot()` 메서드를 사용할 수 있음  
`pivot` 메서드에는 `index` 인수로 행 인덱스로 사용할 열을 지정, `columns`  
인수로 열 인덱스로 사용할 열을 지정, `valeus` 인수로 표현할 데이터를 지정

In [384]:
df1 = pd.DataFrame(
    {
        '도시' : ['서울', '서울', '서울', '부산','부산', '부산', '인천', '인천'],
        '연도' : [2000, 2005, 2010, 2000, 2005,2010, 2005, 2010],
        '인구' : [980, 970, 960, 360, 350, 350, 250,260],
        '지역' : ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']
    }
)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2000,980,수도권
1,서울,2005,970,수도권
2,서울,2010,960,수도권
3,부산,2000,360,경상권
4,부산,2005,350,경상권
5,부산,2010,350,경상권
6,인천,2005,250,수도권
7,인천,2010,260,수도권


In [385]:
df1.pivot(index = '도시', columns = '연도',values = '인구')

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


행 인덱스나 열 인덱스를 리스트로 전달하면 다중 인덱스 피벗 테이블로 생성할 수 있음

In [386]:
df1.pivot(index = ['지역', '도시'], columns = '연도', values = '인구')

Unnamed: 0_level_0,연도,2000,2005,2010
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,360.0,350.0,350.0
수도권,서울,980.0,970.0,960.0
수도권,인천,,250.0,260.0


행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피벗 테이블을 생성할 수 없음

In [387]:
# df1.pivot(index= '연도', columns = '지역', values = '인구')

### 그룹 분석
데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  
그룹 분석은 피벗테이블과 다르게 키에 의해서 결정되는 데이터가 여러 개 있을 경우  
미리 지정한 연산을 통해서 해당 그룹의 대표 값을 계산함

#### `groupby` 메서드
`groupby()` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드  
그룹 객체는 그룹 연산 메서드를 포함 하고 있음

#### 그룹 연산 메서드 
- `size()`, `count()`: 그룹 데이터의 갯수  
- `mean()` `median()`, `min()`, `max()` : 그룹 데이터의 평균, 중앙값, 최소값, 최대값  
- `sum()`, `prod()`, `std()`, `var()`, `quantile()` : 그룹 데이터의  
                                                      합계, 곱, 표준편차, 분산, 사분위수  
- `first()` ,`last()` : 그룹 데이터의 처음 값, 마지막 값

- `agg()`, `aggregate()` : 그룹 연산 메서드를 직접 생성하여 사용하도록 하는  
                            메서드, 여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로  전달하여  사용하도록 하는 메서드

- `describe()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는 메서드   
- `apply()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는데  
원하는 그룹 연산이 없을 때 메서드를 직접 생성하여 사용하도록 하는 메서드  
- `transform()` : 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드


In [388]:
df2 = pd.DataFrame(
    {
        'key1' : ['A', 'A', 'B', 'B', 'A'],
        'key2' : ['one', 'two', 'one', 'two', 'one'],
        'data1' : [1,2,3,4,5],
        'data2' : [10, 20, 30, 40, 50]
    }
)
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [389]:
dg = df2.groupby(df2.key1)
dg

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002CC020E7D40>

In [390]:
dg.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [391]:
df2.data2.groupby(df2.key1).sum()

key1
A    80
B    70
Name: data2, dtype: int64

In [392]:
df2.groupby(df2.key1).sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [393]:
df2.groupby(df2.key1)['data1'].sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [394]:
df2.groupby(df2.key1)[['data1', 'data2']].sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [395]:
df2.groupby(df2.key1).sum().data1

key1
A    8
B    7
Name: data1, dtype: int64

##### 파이썬으로 다음 연산을 수행한다.
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌  
데이터 프레임으로 구한다.

In [396]:
df2.groupby(df2.key1).sum()[['data1']]

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


두 개 이상의 열을 기준으로 그룹 분석을 하고자 할때 `groupby` 메서드에 리스트 형태로  
키를 전달하면 됨

In [397]:
df2.groupby([df2.key1, df2.key2]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


In [398]:
df2.groupby([df2.key1, df2.key2]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,3.0,30.0
A,two,2.0,20.0
B,one,3.0,30.0
B,two,4.0,40.0


In [399]:
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [400]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack('key2')

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [401]:
df1['인구'].groupby(df1['지역']).sum()

지역
경상권    1060
수도권    3420
Name: 인구, dtype: int64

In [402]:
df1['인구'].groupby(df1['지역']).mean()

지역
경상권    353.333333
수도권    684.000000
Name: 인구, dtype: float64

In [403]:
iris = seaborn.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [404]:
def peak_to_peak_ratio(group_row):
    return group_row.max() / group_row.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [405]:
iris.groupby(iris.species).describe()

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,...,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


transform 메서드는 그룹별 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터프레임 자체를 변화시킴   따라서 만들어진 데이터프레임의 크기는 원래 데이터프레임과 같음  
 예를 들어 다음처럼 각 붓꽃 꽃잎길이가 해당 종 내에서 대/중/소 어느 것에 해당되는지에 대한 데이터프레임을   만들어라

In [406]:
def q3cut(s):
    return pd.qcut(s, 3, labels=["소", "중", "대"]).astype(str)

iris["petal_length_class"] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[["petal_length", "petal_length_class"]].head(10)

Unnamed: 0,petal_length,petal_length_class
0,1.4,소
1,1.4,소
2,1.3,소
3,1.5,중
4,1.4,소
5,1.7,대
6,1.4,소
7,1.5,중
8,1.4,소
9,1.5,중


### 파이썬으로 다음 연산을 수행한다.

붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을   구하라. 만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지   생각하라.

In [407]:
iris.groupby(iris.species).mean()

TypeError: agg function failed [how->mean,dtype->object]

### `pivot_table` 메서드
`pivot_table` 메서드는 `groupby`메서드 결과를 피벗 테이블로 결과를 보여주는 메서드  
`pivot_table(data, values, index, columns, aggfunc, fill_value, margins, margins_name)`  
- `data` : 그룹 분석할 데이터 프레임 (데이터프레임의 메서드 일 때는 불필요)  
- `values` :분석할 열  
- `index` : 행 인덱스로 사용할 열  
- `columns` : 열 인덱스로 사용할 열  
- `aggfunc` : 분석 메서드
- `fill_value` : NaN을 대체할 값  
- `margins` : 데이터 분석 결과를 오른쪽과 아래쪽에 표시할 지 여부
- `margins_name` : 마진 행열의 이름 

In [None]:
df1.pivot_table(values = '인구', index= '도시', columns = '연도')

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


In [None]:
df1.pivot_table(values='인구', index='도시', columns='연도', margins=True, margins_name='평균')

In [None]:
df1.pivot_table(values='인구', index='도시', columns='연도', aggfunc='sum', margins=True, margins_name='합계')

In [None]:
df1.pivot_table(values='인구', index=['지역', '도시'])

In [None]:

tips = seaborn.load_dataset('tips')
tips.head()

In [None]:
tips['tip_pct'] = tips.tip / tips.total_bill
tips.head()

In [None]:
tips.describe()

In [None]:
tips.groupby('sex').count()

In [None]:
tips.groupby('sex').size()

In [408]:
tips.groupby(['sex', 'smoker']).size()

NameError: name 'tips' is not defined