In [None]:
import pandas as pd
import numpy as np
import seaborn

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음, 병합의 기준이 되는 열 혹은 행을 '키'라고 함  
    
기본적으로 `merge()` 메서드는 **inner join** 형태를 가짐  
**outer(full), left, right join** 형태로 변경하고 하고자 한다면 `how` 인수에 조인 방식을 지정함  
`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함

In [None]:
df1 = pd.DataFrame(
    {
        '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
        '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름']
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
        '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액']
)
df2

In [None]:
pd.merge(df1, df2)

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1, df2, how='left')

In [None]:
pd.merge(df1, df2, how='right')

만약 키 값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함

In [None]:
df1 = pd.DataFrame(
    {
        '품종': ['튤립', '튤립', '장미', '장미'],
        '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '품종': ['튤립', '장미', '장미', '무궁화'],
        '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
    }
)
df2

In [None]:
pd.merge(df1, df2)

In [None]:
pd.merge(df1, df2, how='outer')

병합되는 두 데이터프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에 특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해야함

In [None]:
df1 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡', '춘향'],
        '날짜': ['20180101', '20180102', '20180102'],
        '데이터': ['20000', '30000', '100000']
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡'],
        '데이터': ['여', '남']
    }
)
df2

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1, df2, on='이름')

키가 되는 기준열의 이름이 서로 다르면 `left_on`, `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [None]:
df1 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡', '춘향'],
        '날짜': ['20180101', '20180102', '20180102']
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '성명': ['춘향', '몽룡', '길동'],
        '데이터': ['여', '남', '남']
    }
)
df2

In [None]:
pd.merge(df1, df2, left_on='이름', right_on='성명')

In [None]:
df1 = pd.DataFrame(
    {
        '도시': ['서울', '서울', '서울', '부산', '부산'],
        '연도': [2000, 2005, 2010, 2000, 2005],
        '인구': [980, 970, 960, 360, 350]
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns=['데이터1', '데이터2']
)
df2

In [None]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

#### `join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용

In [None]:
df1.join(df2, on=['도시', '연도'])

### `concat` 메서드로 데이터 연결
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
만약 좌우로 열을 연결하고 싶을 때는 `axis=1` 인수를 사용함

In [None]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

In [None]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

In [None]:
pd.concat([s1, s2])

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2']
)
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2, 2),
    index=['b', 'd'],
    columns=['데이터3', '데이터4']
)
df2

In [None]:
pd.concat([df1, df2], axis=1)

##### 파이썬으로 다음 연산을 수행한다.
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).  
    
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [None]:
first_half = pd.DataFrame(
    {
        '매출': [10000, 11000, 9000, 12000, 13000, 8000],
        '비용': [9000, 9500, 9000, 10000, 11000, 10000],
        '이익': [1000, 1500, 0, 2000, 2000, -2000]
    },
    index=['1', '2', '3', '4', '5', '6']
)
first_half

In [None]:
second_half = pd.DataFrame(
    {
        '매출': [9000, 10000, 12000, 9000, 10000, 11000],
        '비용': [10000, 12000, 10000, 9000, 9000, 9500],
        '이익': [-1000, -2000, 2000, 0, 1000, 1500]
    },
    index=['7', '8', '9', '10', '11', '12']
)
second_half

In [None]:
annuual = pd.concat([first_half, second_half])
annuual

In [None]:
annuual_sum = annuual.sum()
annuual_sum.name = '총실적'
annuual_sum

In [None]:
annuual.loc['총실적', :] = annuual_sum
annuual

### 피봇 테이블
**피봇 테이블** : 데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블  
    
pandas에서 피봇테이블을 만들기 위해서는 `pivot()` 메서드를 사용할 수 있음  
`pivot()`메서드에는 `index` 인수로 행 인덱스로 사용할 열을 지정, `columns` 인수로 열 인덱스로 사용할 열을 지정, `values` 인수로 표현할 데이터를 지정

In [71]:
df1 = pd.DataFrame(
    {
        '도시': ['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천'],
        '연도': [2000, 2005, 2010, 2000, 2005, 2010, 2005, 2010],
        '인구': [980, 970, 960, 360, 350, 350, 250, 260],
        '지역': ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']
    }
)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2000,980,수도권
1,서울,2005,970,수도권
2,서울,2010,960,수도권
3,부산,2000,360,경상권
4,부산,2005,350,경상권
5,부산,2010,350,경상권
6,인천,2005,250,수도권
7,인천,2010,260,수도권


In [None]:
df1.pivot(index='도시', columns='연도', values='인구')

행 인덱스나 열 인덱스를 리스트로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [66]:
df1.pivot(index=['지역', '도시'], columns='연도', values='인구')

Unnamed: 0_level_0,연도,2000,2005,2010
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,360.0,350.0,350.0
수도권,서울,980.0,970.0,960.0
수도권,인천,,250.0,260.0


행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇 테이블을 생성할 수 없음

In [72]:
df1.pivot(index='연도', columns='지역', values='인구')

ValueError: Index contains duplicate entries, cannot reshape