In [1]:
import pandas as pd
import numpy as np
import seaborn

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음, 병합의 기준이 되는 열 혹은 행을 '키'라고 함  
    
기본적으로 `merge()` 메서드는 **inner join** 형태를 가짐  
**outer(full), left, right join** 형태로 변경하고 하고자 한다면 `how` 인수에 조인 방식을 지정함  
`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열이 존재해야함

In [2]:
df1 = pd.DataFrame(
    {
        '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
        '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름']
)
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [3]:
df2 = pd.DataFrame(
    {
        '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
        '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액']
)
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [4]:
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1, df2, how='left')

In [None]:
pd.merge(df1, df2, how='right')

만약 키 값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함

In [None]:
df1 = pd.DataFrame(
    {
        '품종': ['튤립', '튤립', '장미', '장미'],
        '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '품종': ['튤립', '장미', '장미', '무궁화'],
        '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
    }
)
df2

In [None]:
pd.merge(df1, df2)

In [None]:
pd.merge(df1, df2, how='outer')

병합되는 두 데이터프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에 특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해야함

In [None]:
df1 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡', '춘향'],
        '날짜': ['20180101', '20180102', '20180102'],
        '데이터': ['20000', '30000', '100000']
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡'],
        '데이터': ['여', '남']
    }
)
df2

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1, df2, on='이름')

키가 되는 기준열의 이름이 서로 다르면 `left_on`, `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [None]:
df1 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡', '춘향'],
        '날짜': ['20180101', '20180102', '20180102']
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '성명': ['춘향', '몽룡', '길동'],
        '데이터': ['여', '남', '남']
    }
)
df2

In [None]:
pd.merge(df1, df2, left_on='이름', right_on='성명')

In [None]:
df1 = pd.DataFrame(
    {
        '도시': ['서울', '서울', '서울', '부산', '부산'],
        '연도': [2000, 2005, 2010, 2000, 2005],
        '인구': [980, 970, 960, 360, 350]
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns=['데이터1', '데이터2']
)
df2

In [None]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

#### `join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용

In [None]:
df1.join(df2, on=['도시', '연도'])

### `concat` 메서드로 데이터 연결
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
만약 좌우로 열을 연결하고 싶을 때는 `axis=1` 인수를 사용함

In [5]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [6]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [7]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [8]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2']
)
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [9]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2, 2),
    index=['b', 'd'],
    columns=['데이터3', '데이터4']
)
df2

Unnamed: 0,데이터3,데이터4
b,0,1
d,2,3


In [10]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,0.0,1.0
c,4.0,5.0,,
d,,,2.0,3.0


##### 파이썬으로 다음 연산을 수행한다.
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).  
    
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [None]:
first_half = pd.DataFrame(
    {
        '매출': [10000, 11000, 9000, 12000, 13000, 8000],
        '비용': [9000, 9500, 9000, 10000, 11000, 10000],
        '이익': [1000, 1500, 0, 2000, 2000, -2000]
    },
    index=['1', '2', '3', '4', '5', '6']
)
first_half

In [None]:
second_half = pd.DataFrame(
    {
        '매출': [9000, 10000, 12000, 9000, 10000, 11000],
        '비용': [10000, 12000, 10000, 9000, 9000, 9500],
        '이익': [-1000, -2000, 2000, 0, 1000, 1500]
    },
    index=['7', '8', '9', '10', '11', '12']
)
second_half

In [None]:
annuual = pd.concat([first_half, second_half])
annuual

In [None]:
annuual_sum = annuual.sum()
annuual_sum.name = '총실적'
annuual_sum

In [None]:
annuual.loc['총실적', :] = annuual_sum
annuual

### 피봇 테이블
**피봇 테이블** : 데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블  
    
pandas에서 피봇테이블을 만들기 위해서는 `pivot()` 메서드를 사용할 수 있음  
`pivot()`메서드에는 `index` 인수로 행 인덱스로 사용할 열을 지정, `columns` 인수로 열 인덱스로 사용할 열을 지정, `values` 인수로 표현할 데이터를 지정

In [11]:
df1 = pd.DataFrame(
    {
        '도시': ['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천'],
        '연도': [2000, 2005, 2010, 2000, 2005, 2010, 2005, 2010],
        '인구': [980, 970, 960, 360, 350, 350, 250, 260],
        '지역': ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']
    }
)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2000,980,수도권
1,서울,2005,970,수도권
2,서울,2010,960,수도권
3,부산,2000,360,경상권
4,부산,2005,350,경상권
5,부산,2010,350,경상권
6,인천,2005,250,수도권
7,인천,2010,260,수도권


In [12]:
df1.pivot(index='도시', columns='연도', values='인구')

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


행 인덱스나 열 인덱스를 리스트로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [13]:
df1.pivot(index=['지역', '도시'], columns='연도', values='인구')

Unnamed: 0_level_0,연도,2000,2005,2010
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,360.0,350.0,350.0
수도권,서울,980.0,970.0,960.0
수도권,인천,,250.0,260.0


행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇 테이블을 생성할 수 없음

In [14]:
df1.pivot(index='연도', columns='지역', values='인구')

ValueError: Index contains duplicate entries, cannot reshape

### 그룹 분석
데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  
그룹 분석은 피봇테이블과 다르게 키에 의해서 결정되는 데이터가 여러 개 있을 경우 미리 지정한 연산을 통해서 해당 그룹의 대표값을 계산함  

#### `groupby` 메서드
`groupby()` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드  
그룹 객체는 그룹 연산 메서드를 포함하고 있음

#### 그룹 연산 메서드
- `size()`, `count()` : 그룹 데이터의 갯 수
- `mean()`, `median()`, `min()`, `max()` : 그룹 데이터의 평균, 중앙값, 최소값, 최대값
- `sum()`, `prod()`, `std()`, `var()`, `quantile()` : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- `first()`, `last()` : 그룹 데이터의 처음 값, 마지막 값
    
- `agg()`, `aggregate()` : 그룹 연산 메서드를 직접 생성하여 사용하도록 하는 메서드, 여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로 전달하여 사용하도록 하는 메서드
- `describe()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는 메서드
- `apply()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는데 원하는 그룹 연산이 없을 때 메서드를 직접 생성하여 사용하도록 하는 메서드
- `transform()` : 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드

In [None]:
df2 = pd.DataFrame(
    {
        'key1': ['A', 'A', 'B', 'B', 'A'],
        'key2': ['one', 'two', 'one', 'two', 'one'],
        'data1': [1, 2, 3, 4, 5],
        'data2': [10, 20, 30, 40, 50]
    }
)
df2

In [None]:
dg = df2.groupby(df2.key1)
dg

In [None]:
dg.groups

In [None]:
dg.sum()

In [None]:
df2.groupby(df2.key1).sum()

In [None]:
df2.groupby(df2.key1)[['data1', 'data2']].sum()

In [None]:
df2.groupby(df2.key1).sum().data1

##### 파이썬으로 다음 연산을 수행한다.
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [None]:
df2.groupby(df2.key1).sum()[['data1']]

두 개 이상의 열을 기준으로 그룹 분석을 하고자 하면 `groupby` 메서드에 리스트 형태로 키를 전달하면 됨

In [None]:
df2.groupby([df2.key1, df2.key2]).sum()

In [None]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack('key2')

In [None]:
df1['인구'].groupby(df1['지역']).mean()

In [15]:
iris = seaborn.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [None]:
def peak_to_peak_ratio(group_row):
    return group_row.max() / group_row.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

In [None]:
iris.groupby(iris.species).describe()

In [None]:
def top3_petal_length(group_row):
    return group_row.sort_values(by='petal_length', ascending=False)[:3]

iris.groupby(iris.species).apply(top3_petal_length)

In [20]:
def q3cut(s):
    return pd.qcut(s, 3, labels=['소', '중', '대']).astype(str)

iris['petal_length_class'] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris.groupby('species')['petal_length_class'].value_counts()

species     petal_length_class
setosa      소                     24
            대                     13
            중                     13
versicolor  소                     19
            중                     17
            대                     14
virginica   소                     18
            대                     16
            중                     16
Name: count, dtype: int64

##### 파이썬으로 다음 연산을 수행한다.
붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을 구하라. 만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [None]:
iris.groupby(iris.species).mean()

### `pivot_table` 메서드
`pivot_table` 메서드는 `groupby` 메서드 결과를 피봇 테이블로 결과를 보여주는 메서드  
`pivot_table(data, values, index, colums, aggfunc, fill_value, margins, margins_name)`  
- `data`: 그룹 분석할 데이터 프레임 (데이터프레임의 메서드일 때는 불필요)
- `values`: 분석할 열
- `index`: 행 인덱스로 사용할 열
- `columns`: 열 인덱스로 사용할 열
- `aggfunc`: 분석 메서드
- `fill_value`: NaN을 대체할 값
- `margins`: 데이터 분석 결과를 오른쪽과 아래쪽에 표시할 지 여부
- `margins_name`: 마진 행열의 이름

In [None]:
df1.pivot_table(values='인구', index='도시', columns='연도')

In [None]:
df1.pivot_table(values='인구', index='도시', columns='연도', margins=True, margins_name='평균')

In [None]:
df1.pivot_table(values='인구', index='도시', columns='연도', aggfunc='sum', margins=True, margins_name='합계')

In [None]:
df1.pivot_table(values='인구', index=['지역', '도시'])

In [None]:
tips = seaborn.load_dataset('tips')
tips.head()

In [None]:
tips['tip_pct'] = tips.tip / tips.total_bill
tips.head()

In [None]:
tips.describe()

In [None]:
tips.groupby('sex').count()

In [None]:
tips.groupby('sex').size()

In [None]:
tips.groupby(['sex', 'smoker']).size()

In [None]:
tips.pivot_table(values='tip_pct', index='sex', columns='smoker', aggfunc='count', margins=True)

In [None]:
tips.groupby('sex')[['tip_pct']].mean()

In [None]:
tips.groupby('smoker')[['tip_pct']].mean()

In [None]:
tips.pivot_table(values='tip_pct', index=['sex'])

In [None]:
tips.pivot_table(values='tip_pct', index=['sex', 'smoker'])

In [None]:
tips.pivot_table(values='tip_pct', index='sex', columns='smoker')

In [None]:
tips.groupby('sex')[['tip_pct']].describe()

In [None]:
tips.groupby('smoker')[['tip_pct']].describe()

In [None]:
tips.groupby(['sex', 'smoker'])[['tip_pct']].describe()

In [None]:
def peak_to_peak(group_row):
    return group_row.max() - group_row.min()

tips.groupby(['sex', 'smoker'])[['tip']].agg(peak_to_peak)

In [None]:
tips.groupby(['sex', 'smoker'])[['total_bill']].agg(['mean', peak_to_peak])

In [None]:
tips.groupby(['sex', 'smoker']).agg(
    {
        'tip_pct': 'mean',
        'total_bill': peak_to_peak
    }
)

In [25]:
tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')

  tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')


Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [26]:
tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day', aggfunc='sum', fill_value=0)

  tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day', aggfunc='sum', fill_value=0)


Unnamed: 0_level_0,Unnamed: 1_level_0,day,Thur,Fri,Sat,Sun
time,sex,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Lunch,Male,Yes,23,5,0,0
Lunch,Male,No,50,0,0,0
Lunch,Female,Yes,17,6,0,0
Lunch,Female,No,60,3,0,0
Dinner,Male,Yes,0,12,71,39
Dinner,Male,No,0,4,85,124
Dinner,Female,Yes,0,8,33,10
Dinner,Female,No,2,2,30,43
