In [62]:
import pandas as pd
import numpy as np
import seaborn

#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`merge`함수를 통한 데이터프레임 병합</span>
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음, 병합의 기준이 되는 열 혹은 행을 '키'라고 함  

기본적으로 `merge()`메서드는 **inner join** 형태를 가짐
**outer(full), left, right join** 형태로 변경하고자 한다면 `how` 인수에 조인 방식을 지정함  

- `merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함 (ex_columns명이 같아야한다)

In [63]:
df1 = pd.DataFrame(
    {
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [64]:
df2 = pd.DataFrame(
    {
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [65]:
pd.merge(df1,df2)
# 모든 값을 함께 출력

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [66]:
pd.merge(df1,df2,how='outer')
# 좌 우측을 모두 보여주고 데이터가 없는 부분에는 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [67]:
pd.merge(df1,df2,how='left')
# 좌측에 대해 존재하는 값을 보여주고, 우측에 존재하지 않는 값은 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [68]:
pd.merge(df1,df2,how='right')
# 우측에 있는 값을 다 보여주고, 없는 것은 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


만약 키 값에 동일한 데이터가 여러개 존재한다면, 모든 경우의 수를 표현함

In [69]:
df1 = pd.DataFrame(
    {
    '품종': ['튤립', '튤립', '장미', '장미'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
    }
)    
df1

Unnamed: 0,품종,꽃잎길이
0,튤립,1.4
1,튤립,1.3
2,장미,1.5
3,장미,1.3


In [70]:
df2 = pd.DataFrame(
    {
    '품종': ['튤립', '장미', '장미', '무궁화'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
    }
)    
df2

Unnamed: 0,품종,꽃잎너비
0,튤립,0.4
1,장미,0.3
2,장미,0.5
3,무궁화,0.3


In [71]:
pd.merge(df1,df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,튤립,1.4,0.4
1,튤립,1.3,0.4
2,장미,1.5,0.3
3,장미,1.5,0.5
4,장미,1.3,0.3
5,장미,1.3,0.5


In [72]:
pd.merge(df1,df2,how='outer')

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,무궁화,,0.3
1,장미,1.5,0.3
2,장미,1.5,0.5
3,장미,1.3,0.3
4,장미,1.3,0.5
5,튤립,1.4,0.4
6,튤립,1.3,0.4


- 병합되는 두 데이터 프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에  
특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해야함

In [73]:
df1 = pd.DataFrame(
    {
        '이름':['춘향','몽룡','춘향'],
        '날짜':['20180101','20180102','20180102'],
        '데이터':['20000','30000','100000']
    }
)
df1

Unnamed: 0,이름,날짜,데이터
0,춘향,20180101,20000
1,몽룡,20180102,30000
2,춘향,20180102,100000


In [74]:
df2 = pd.DataFrame(
    {
        '이름':['춘향','몽룡'],
        '데이터':['여','남']
    }
)
df2

Unnamed: 0,이름,데이터
0,춘향,여
1,몽룡,남


In [75]:
pd.merge(df1,df2, how='outer')

Unnamed: 0,이름,날짜,데이터
0,몽룡,20180102.0,30000
1,몽룡,,남
2,춘향,20180102.0,100000
3,춘향,20180101.0,20000
4,춘향,,여


In [76]:
pd.merge(df1,df2,on='이름')
# 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y 와 같은 접미사가 붙는다.

Unnamed: 0,이름,날짜,데이터_x,데이터_y
0,춘향,20180101,20000,여
1,몽룡,20180102,30000,남
2,춘향,20180102,100000,여


- 키가 되는 기준열의 이름이 서로 다르면 `left_on` , `right_on` 인수에 사용할 키 컴럼 이름을 지정함

In [77]:
df1 = pd.DataFrame(
    {
        '이름':['춘향','몽룡','춘향'],
        '날짜':['20180101','20180102','20180102']
    }
)
df1

Unnamed: 0,이름,날짜
0,춘향,20180101
1,몽룡,20180102
2,춘향,20180102


In [78]:
df2 = pd.DataFrame(
    {
        '성명':['춘향','몽룡','길동'],
        '데이터':['여','남','남']
    }
)
df2

Unnamed: 0,성명,데이터
0,춘향,여
1,몽룡,남
2,길동,남


In [79]:
pd.merge(df1,df2,left_on='이름',right_on='성명')
# 둘 데이터 모두 출력

Unnamed: 0,이름,날짜,성명,데이터
0,춘향,20180101,춘향,여
1,몽룡,20180102,몽룡,남
2,춘향,20180102,춘향,여


- 일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 `left_index` 또는 `right_index` 인수를 `True` 로 설정한다.

In [80]:
df1 = pd.DataFrame(
    {
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [980, 970, 960, 360, 350]
    }
)
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,980
1,서울,2005,970
2,서울,2010,960
3,부산,2000,360
4,부산,2005,350


In [81]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6,2)),
    index =[
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns=['데이터1','데이터2']
)
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [82]:
pd.merge(df1,df2,left_on=['도시','연도'], right_index=True)
# 일반 데이터 열이 아닌 인덱스를 기준열로 사용 

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`join` 메서드</span>
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용가능

In [83]:
df1.join(df2,on=['도시','연도'])

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`concat` 메서드로 데이터 연결</span>
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
- 단, 기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
- 만약, 좌우로 열을 연결하고 싶을 때는 `axis=1`인수를 사용함

In [84]:
s1 = pd.Series([0,1],index=['A','B'])
s1

A    0
B    1
dtype: int64

In [85]:
s2 = pd.Series([2,3,4], index=['A','B','C'])
s2

A    2
B    3
C    4
dtype: int64

In [86]:
pd.concat([s1,s2]) # []배열로 연결

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [87]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a','b','c'],
    columns=['데이터1','데이터2']
)
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [88]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2,2),
    index=['b','d'],
    columns=['데이터3','데이터4']
)
df2

Unnamed: 0,데이터3,데이터4
b,0,1
d,2,3


In [89]:
pd.concat([df1,df2],axis=1)
# 없는 데이터는 NaN 으로 표시되고, 데이터를 연결시킬 수 있다

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,0.0,1.0
c,4.0,5.0,,
d,,,2.0,3.0


<span style='color:YELLOW;'>예제문제)</span> 
- 어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.  
실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).

- 또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [90]:
df1 = pd.DataFrame(
    {
    '매출': [10000, 11000, 9000, 12000, 13000, 8000],
    '비용': [9000,9500,9000,10000,11000,10000],
    '이익': [1000,1500,0,2000,2000,-2000]
    }, 
    index = ['1월','2월','3월','4월','5월','6월'],
    columns=['매출', '비용','이익']
)
df1

Unnamed: 0,매출,비용,이익
1월,10000,9000,1000
2월,11000,9500,1500
3월,9000,9000,0
4월,12000,10000,2000
5월,13000,11000,2000
6월,8000,10000,-2000


In [91]:
df2 = pd.DataFrame(
    {
    '매출': [9000, 10000, 12000, 9000, 10000, 11000],
    '비용': [10000,12000,10000,9000,9000,9500],
    '이익': [-1000,-2000,2000,0,1000,1500]
    }, 
    index = ['7월','8월','9월','10월','11월','12월'],
    columns=['매출', '비용','이익'])
df2

Unnamed: 0,매출,비용,이익
7월,9000,10000,-1000
8월,10000,12000,-2000
9월,12000,10000,2000
10월,9000,9000,0
11월,10000,9000,1000
12월,11000,9500,1500


In [92]:
df3 = pd.concat([df1,df2])
df3

Unnamed: 0,매출,비용,이익
1월,10000,9000,1000
2월,11000,9500,1500
3월,9000,9000,0
4월,12000,10000,2000
5월,13000,11000,2000
6월,8000,10000,-2000
7월,9000,10000,-1000
8월,10000,12000,-2000
9월,12000,10000,2000
10월,9000,9000,0


In [93]:
df3.loc['총실적'] = df3.sum()
df3

Unnamed: 0,매출,비용,이익
1월,10000,9000,1000
2월,11000,9500,1500
3월,9000,9000,0
4월,12000,10000,2000
5월,13000,11000,2000
6월,8000,10000,-2000
7월,9000,10000,-1000
8월,10000,12000,-2000
9월,12000,10000,2000
10월,9000,9000,0


#### <span style='background-color:rgba(20, 200, 50, 0.4);'>피봇 테이블</span>
**피봇 테이블**:데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블

pandas에서 피봇테이블을 만들기 위해서는 `pivot()`메서드를 사용할 수 있음  
`pivot()`메서드에는  
- `index`인수로 행 인덱스로 사용할 열을 지정,  
- `columns`인수로 열 인덱스로 사용할 열을 지정,  
- `values()`인수로 표현할 데이터 지정

In [94]:
df1 = pd.DataFrame(
    {
    '도시': ['서울', '서울', '서울', '부산', '부산','부산','인천','인천'],
    '연도': [2000, 2005, 2010, 2000, 2005, 2010, 2005, 2010],
    '인구': [980, 970, 960, 360, 350, 350, 250, 260],
    '지역':['수도권','수도권','수도권','경상권','경상권','경상권','수도권','수도권']
    }
)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2000,980,수도권
1,서울,2005,970,수도권
2,서울,2010,960,수도권
3,부산,2000,360,경상권
4,부산,2005,350,경상권
5,부산,2010,350,경상권
6,인천,2005,250,수도권
7,인천,2010,260,수도권


In [95]:
df1.pivot(index='도시',columns='연도',values='인구')
# 인천은 2000 자료가 없기 때문에 NaN 으로 표시됨

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


- 행 인덱스나 열 인덱스를 리스트[ ]로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [96]:
df1.pivot(index=['지역','도시'],columns='연도',values='인구')

Unnamed: 0_level_0,연도,2000,2005,2010
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,360.0,350.0,350.0
수도권,서울,980.0,970.0,960.0
수도권,인천,,250.0,260.0


- 행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇 테이블을 생성할 수 없음 / 겹치면 안됨

In [97]:
df1.pivot(index='연도',columns='지역',values='인구')
# ValueError: Index contains duplicate entries, cannot reshape : 에러 메세지
# 중복된 데이터가 있어서 안된다는 메세지 (EX_2005-수도권-인천 : 2005-수도권-서울)

ValueError: Index contains duplicate entries, cannot reshape

#### <span style='background-color:rgba(200, 200, 50, 0.5);'>그룹분석</span>
데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  
그룹 분석은 피봇테이블과 다르게 키에 의해서 결정되는 데이터가 여러 개 있을 경우,  
미리 지정한 연산을 통해서 해당 그룹의 대표값을 계산함

##### <span style='background-color:rgba(20, 200, 50, 0.4);'>`groupby` 메서드</span> 
`groupby()` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드  
- 그룹 객체는 그룹 연산 메서드를 포함하고 있음

##### <span style='background-color:rgba(20, 200, 50, 0.7);'>그룹 연산 메서드</span>
- `size()` , `count()` : 그룹 데이터의 갯수
- `mean`, `median`, `min`, `max`: 그룹 데이터의 평균, 중앙값, 최소, 최대값
- `sum`, `prod`, `std`, `var`, `quantile` : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- `first`, `last`: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

- `agg()` , `aggregate()` : 그룹 연산 메서드를 직접 생성하여 사용하도록 하는 메서드  
                            여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로 전달하여 사용하도록 하는 메서드
- `describe()`: 하나의 대표값이 아니라 여러개의 값을 데이터프레임으로 구하는 메서드
- `apply()` : 하나의 대표값이 아니라 여러개의 값을 데이터프레임으로 구하는데 원하는 그룹 연산이 없을 때 메서드를 직접 생성하여 사용하도록 하는 메서드
- `transform()`: 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드

In [None]:
df2 = pd.DataFrame(
    {
    'key1': ['A','A','B','B','A'],
    'key2': ['one','two','one','two','one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
    }
)
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [None]:
dg = df2.groupby(df2.key1)
dg

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F4A6C34320>

In [None]:
dg.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [None]:
dg.sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [None]:
df2.groupby(df2.key1).sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [None]:
df2.groupby(df2.key1)[['data1', 'data2']].sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [None]:
df2.groupby(df2.key1).sum().data1

key1
A    8
B    7
Name: data1, dtype: int64

<span style='color:yellow;'>예제문제)  </span>  
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [None]:
df2.groupby(df2.key1).sum()[['data1']]

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


- 두 개 이상의 열을 기준으로 그룹 분석을 하고자 하면 `groupby` 메서드에 리스트 형태로 키를 전달하면 됨

In [None]:
df2.groupby([df2.key1, df2.key2]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


In [None]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack('key2')

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [None]:
df1['인구'].groupby(df1['지역']).mean()

지역
경상권    353.333333
수도권    684.000000
Name: 인구, dtype: float64

In [106]:
iris = seaborn.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [107]:
def peak_to_peak_ratio(group_row):
    return group_row.max() / group_row.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [101]:
iris.groupby(iris.species).describe()

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,...,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


In [102]:
def top3_petal_length(group_row):
    return group_row.sort_values(by='petal_length', ascending=False)[:3]

iris.groupby(iris.species).apply(top3_petal_length)

  iris.groupby(iris.species).apply(top3_petal_length)


Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa,대
setosa,44,5.1,3.8,1.9,0.4,setosa,대
setosa,23,5.1,3.3,1.7,0.5,setosa,대
versicolor,83,6.0,2.7,5.1,1.6,versicolor,대
versicolor,77,6.7,3.0,5.0,1.7,versicolor,대
versicolor,72,6.3,2.5,4.9,1.5,versicolor,대
virginica,118,7.7,2.6,6.9,2.3,virginica,대
virginica,117,7.7,3.8,6.7,2.2,virginica,대
virginica,122,7.7,2.8,6.7,2.0,virginica,대


In [103]:
def q3cut(s):
    return pd.qcut(s, 3, labels=['소', '중', '대']).astype(str)

iris['petal_length_class'] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[['petal_length', 'petal_length_class']].head(10)

Unnamed: 0,petal_length,petal_length_class
0,1.4,소
1,1.4,소
2,1.3,소
3,1.5,중
4,1.4,소
5,1.7,대
6,1.4,소
7,1.5,중
8,1.4,소
9,1.5,중


<span style='color:yellow;'>예제문제)</span>   
붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을 구하라.     
만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [108]:
iris.groupby(iris.species).mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`pivot_table`메서드</span>
`pivot_table` 메서드는 `groupby`메서드의 결과값을 피봇테이블로 보여주는 메서드
- `pivot_table(data, values, index, columns, aggfunc, fill_value, margins, margins_name)`
    - `data`: 그룹 분석할 데이터프레임 (데이터프레임의 메서드일 때는 불필요)
    - `values`: 분석할 데이터프레임에서 분석할 열
    - `index`: 행 인덱스로 사용할 열
    - `columns`: 열 인덱스로 사용할 열
    - `aggfunc`: 분석 메서드
    - `fill_value`: NaN 대체 값
    - `margins`: 모든 데이터를 분석한 결과를 오른쪽과 아래쪽에 표시할 지 여부
    - `margins_name`: 마진 열/행의 이름

In [109]:
df1.pivot_table(values='인구',index='도시',columns='연도')

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


In [110]:
df1.pivot_table(values='인구',index='도시',columns='연도',margins=True,margins_name='평균')
# 그룹 연산에 피봇테이블을 함께 쓰게 해주는 것이 `pivot_table` 이다

연도,2000,2005,2010,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,360.0,350.0,350.0,353.333333
서울,980.0,970.0,960.0,970.0
인천,,250.0,260.0,255.0
평균,670.0,523.333333,523.333333,560.0


In [111]:
df1.pivot_table(values='인구',index='도시',columns='연도',aggfunc='sum',margins=True,margins_name='평균')

연도,2000,2005,2010,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,360.0,350.0,350.0,1060
서울,980.0,970.0,960.0,2910
인천,,250.0,260.0,510
평균,1340.0,1570.0,1570.0,4480


In [112]:
df1.pivot_table(values='인구',index=['지역','도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,도시,Unnamed: 2_level_1
경상권,부산,353.333333
수도권,서울,970.0
수도권,인천,255.0


In [113]:
tips = seaborn.load_dataset('tips')
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


<span style='color:yellow;'>- `tail()` 과 `head()` 차이</span>  

- `tail()` : 데이터의 마지막 5개를 출력
- `head()` : 데이터의 처음 5개를 출력

In [114]:
tips['tip_pct'] = tips.tip / tips.total_bill
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


In [115]:
tips['tip_pct'] = tips.tip / tips.total_bill
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [116]:
tips.describe()
# 각 열의 데이터 분포 / 실수 형태의 값으로 출력됨

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [117]:
# 성별로 나누어 데이터 갯수를 알아본다
tips.groupby('sex').count()

  tips.groupby('sex').count()


Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [118]:
# `size` 명령을 사용 / `size` 명령은 NaN이 있어도 상관하지 않는다.
tips.groupby("sex").size()

  tips.groupby("sex").size()


sex
Male      157
Female     87
dtype: int64

In [119]:
# 성별과 흡연유무로 나누어 데이터의 갯수를 알아본다
tips.groupby(["sex", "smoker"]).size()

  tips.groupby(["sex", "smoker"]).size()


sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [120]:
# 피봇 테이블 형태로 변경
tips.pivot_table(values="tip_pct", index="sex", columns="smoker", aggfunc="count", margins=True)

  tips.pivot_table(values="tip_pct", index="sex", columns="smoker", aggfunc="count", margins=True)


smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


<span style='color:yellow;'>======================================================================================</span>  

In [121]:
# 성별에 따른 평균 팁 비율을 살펴본다
tips.groupby("sex")[["tip_pct"]].mean()

  tips.groupby("sex")[["tip_pct"]].mean()


Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [122]:
# 흡연 여부에 따른 평균 팁 비율을 살펴본다
tips.groupby("smoker")[["tip_pct"]].mean()

  tips.groupby("smoker")[["tip_pct"]].mean()


Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


<span style='color:yellow;'>=========================== 출력되는 테이블의 차이 =============================</span>  

In [123]:
# `pivot_table` 명령을 사용할 수도 있다.
tips.pivot_table("tip_pct", ["sex", "smoker"])

  tips.pivot_table("tip_pct", ["sex", "smoker"])


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [124]:
tips.pivot_table("tip_pct", "sex", "smoker")

  tips.pivot_table("tip_pct", "sex", "smoker")


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


<span style='color:yellow;'>=========================================================================</span>  

In [125]:
# `describe` 을 통해 성별에 따른 통계값을 한번에 본다
tips.groupby("sex")[["tip_pct"]].describe()

  tips.groupby("sex")[["tip_pct"]].describe()


Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,0.157651,0.064778,0.035638,0.121389,0.153492,0.18624,0.710345
Female,87.0,0.166491,0.053632,0.056433,0.140416,0.155581,0.194266,0.416667


In [126]:
# `describe` 을 통해 성별과 흡연여부에 따른 통계값을 한번에 본다
tips.groupby(["sex", "smoker"])[["tip_pct"]].describe()

  tips.groupby(["sex", "smoker"])[["tip_pct"]].describe()


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672


<span style='color:pink;'>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>></span> 

In [127]:
# 각 그룹에서 가장 많은 팁과 가장 적은 팁의 차이를 알아보자. 
# 이 계산을 해 줄 수 있는 그룹연산 함수가 없으므로 함수를 직접 만들고 agg 메서드를 사용한다.
def peak_to_peak(group_row):
    return group_row.max() - group_row.min()


tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)

  tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)


Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


In [128]:
# 여러가지 그룹연산을 동시에 하고 싶다면 리스트를 이용
tips.groupby(["sex", "smoker"])[["total_bill"]].agg(["mean", peak_to_peak])

  tips.groupby(["sex", "smoker"])[["total_bill"]].agg(["mean", peak_to_peak])


Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,peak_to_peak
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2
Male,Yes,22.2845,43.56
Male,No,19.791237,40.82
Female,Yes,17.977879,41.23
Female,No,18.105185,28.58


In [129]:
# 데이터 열마다 다른 연산을 하고 싶다면 열 라벨과 연산 이름(또는 함수)를 딕셔너리로 넣는다.
tips.groupby(["sex", "smoker"]).agg(
    {'tip_pct': 'mean', 
     'total_bill': peak_to_peak
     }
    )

  tips.groupby(["sex", "smoker"]).agg(


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [130]:
# `pivot_table` 명령으로 좀 더 상세하게 분석한다
tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')

  tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')


Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [131]:
# 값은 sum(합)으로 보여주고, 만약 NaN 값이 있다면 0 으로 표시해라
tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day',aggfunc='sum', fill_value=0)

  tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day',aggfunc='sum', fill_value=0)


Unnamed: 0_level_0,Unnamed: 1_level_0,day,Thur,Fri,Sat,Sun
time,sex,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Lunch,Male,Yes,23,5,0,0
Lunch,Male,No,50,0,0,0
Lunch,Female,Yes,17,6,0,0
Lunch,Female,No,60,3,0,0
Dinner,Male,Yes,0,12,71,39
Dinner,Male,No,0,4,85,124
Dinner,Female,Yes,0,8,33,10
Dinner,Female,No,2,2,30,43
