In [1]:
import pandas as pd
import numpy as np
import seaborn

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합할 수 있음, 병합의 기준이 되는 열 혹은 행을 '키'라고 함  
  
기본적으로 `merge()` 메서드는 **inner join** 형태를 가짐  
**outer(full), left, right join** 형태로 변경하고자 한다면 `how` 인수에 조인 방식을 지정함  
`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야 함

In [2]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [3]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [4]:
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [5]:
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [6]:
pd.merge(df1, df2, how = 'left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [7]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


만약 키 값에 동일한 데이터가 여러 개 존재한다면 모든 경우의 수를 표현함

In [8]:
df1 = pd.DataFrame({
    '품종': ['튤립', '튤립', '장미', '장미'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,튤립,1.4
1,튤립,1.3
2,장미,1.5
3,장미,1.3


In [9]:
df2 = pd.DataFrame({
    '품종': ['튤립', '장미', '장미', '무궁화'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,튤립,0.4
1,장미,0.3
2,장미,0.5
3,무궁화,0.3


In [10]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,튤립,1.4,0.4
1,튤립,1.3,0.4
2,장미,1.5,0.3
3,장미,1.5,0.5
4,장미,1.3,0.3
5,장미,1.3,0.5


In [12]:
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,무궁화,,0.3
1,장미,1.5,0.3
2,장미,1.5,0.5
3,장미,1.3,0.3
4,장미,1.3,0.5
5,튤립,1.4,0.4
6,튤립,1.3,0.4


병합되는 두 데이터프레임의 동일한 컬럼명이 여러 개 존재한다면 모두 키가 되기 때문에 특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해야 함

In [22]:
df1 = pd.DataFrame({
    '이름': ['춘향', '춘향', '몽룡'],
    '날짜': ['20180101', '20180102', '20180102'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,이름,날짜,데이터
0,춘향,20180101,20000
1,춘향,20180102,30000
2,몽룡,20180102,100000


In [23]:
df2 = pd.DataFrame({
    '이름': ['춘향', '몽룡'],
    '데이터': ['여', '남']})
df2

Unnamed: 0,이름,데이터
0,춘향,여
1,몽룡,남


In [24]:
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,이름,날짜,데이터
0,몽룡,20180102.0,100000
1,몽룡,,남
2,춘향,20180101.0,20000
3,춘향,20180102.0,30000
4,춘향,,여


In [25]:
pd.merge(df1, df2, on = '이름')

Unnamed: 0,이름,날짜,데이터_x,데이터_y
0,춘향,20180101,20000,여
1,춘향,20180102,30000,여
2,몽룡,20180102,100000,남


키가 되는 기준 열의 이름이 서로 다르면 `left_on`, `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [26]:
df1 = pd.DataFrame({
    '이름': ['춘향', '춘향', '몽룡'],
    '날짜': ['20180101', '20180102', '20180102']})
df1

Unnamed: 0,이름,날짜
0,춘향,20180101
1,춘향,20180102
2,몽룡,20180102


In [28]:
df2 = pd.DataFrame({
    '성명': ['춘향', '몽룡', '길동'],
    '데이터': ['여', '남', '남']})
df2

Unnamed: 0,성명,데이터
0,춘향,여
1,몽룡,남
2,길동,남


In [29]:
pd.merge(df1, df2, left_on='이름', right_on='성명')

Unnamed: 0,이름,날짜,성명,데이터
0,춘향,20180101,춘향,여
1,춘향,20180102,춘향,여
2,몽룡,20180102,몽룡,남


In [30]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [980, 970, 960, 360, 350]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,980
1,서울,2005,970
2,서울,2010,960
3,부산,2000,360
4,부산,2005,350


In [31]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)), 
    index = [
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ], columns = ['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [32]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### `join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용

In [34]:
df1.join(df2, on=['도시', '연도'])

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


### `concat` 메서드로 데이터 연결
기준 열 지정 없이 단순히 데이터를 연결하고자 할 땐 `concat` 메서드를 사용함  
기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
만약 좌우로 열을 연결하고 싶을 때는 `axis=1` 인수를 사용함

In [36]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [37]:
s2 = pd.Series([2, 3, 4], ['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [38]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [39]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index = ['a', 'b', 'c'],
    columns = ['데이터1', '데이터2']
    )
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [40]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2, 2),
    index = ['b', 'd'],
    columns = ['데이터3', '데이터4']
    )
df2

Unnamed: 0,데이터3,데이터4
b,0,1
d,2,3


In [41]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,0.0,1.0
c,4.0,5.0,,
d,,,2.0,3.0


##### 파이썬으로 다음 연산을 수행한다.
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).  
  
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [64]:
practice_df1 = pd.DataFrame(
    {'매출' : [10000, 11000, 9000, 12000, 13000, 8000],
     '비용' : [9000, 9500, 9000, 10000, 11000, 10000],
     '이익' : [1000, 1500, 0, 2000, 2000, -2000]},
     index = ['1', '2', '3', '4', '5', '6']
)
practice_df1

Unnamed: 0,매출,비용,이익
1,10000,9000,1000
2,11000,9500,1500
3,9000,9000,0
4,12000,10000,2000
5,13000,11000,2000
6,8000,10000,-2000


In [65]:
practice_df2 = pd.DataFrame({
    '매출' : [9000, 10000, 12000, 9000, 10000, 11000],
    '비용' : [10000, 12000, 10000, 9000, 9000, 9500],
    '이익' : [-1000, -2000, 2000, 0, 1000, 1500]},
    index = ['7', '8', '9', '10', '11', '12']
)
practice_df2

Unnamed: 0,매출,비용,이익
7,9000,10000,-1000
8,10000,12000,-2000
9,12000,10000,2000
10,9000,9000,0
11,10000,9000,1000
12,11000,9500,1500


In [66]:
practice_df3 = pd.concat([practice_df1, practice_df2])
practice_df3

Unnamed: 0,매출,비용,이익
1,10000,9000,1000
2,11000,9500,1500
3,9000,9000,0
4,12000,10000,2000
5,13000,11000,2000
6,8000,10000,-2000
7,9000,10000,-1000
8,10000,12000,-2000
9,12000,10000,2000
10,9000,9000,0


In [68]:
# 강사님 코드
practice_df3_sum = practice_df3.sum()
practice_df3_sum.name = '총실적'
practice_df3_sum
# practice_df3.loc['총실적', :] = practice_df3_sum

매출    248000.0
비용    236000.0
이익     12000.0
Name: 총실적, dtype: float64

In [67]:
practice_df3.loc['총실적', :] = practice_df3.sum()
practice_df3

Unnamed: 0,매출,비용,이익
1,10000.0,9000.0,1000.0
2,11000.0,9500.0,1500.0
3,9000.0,9000.0,0.0
4,12000.0,10000.0,2000.0
5,13000.0,11000.0,2000.0
6,8000.0,10000.0,-2000.0
7,9000.0,10000.0,-1000.0
8,10000.0,12000.0,-2000.0
9,12000.0,10000.0,2000.0
10,9000.0,9000.0,0.0


#### 피봇 테이블
피봇 테이블 : 데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블  
  
pandas에서 피봇 테이블을 만들기 위해서는 `pivot()`이라는 메서드를 사용할 수 있음  
`pivot()` 메서드에는 `index` 인수로 행 인덱스로 사용할 열을 지정, `columns` 인수로 열 인덱스로 사용할 열을 지정, `values` 인수로 표현할 데이터를 지정

In [69]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천'],
    '연도': [2000, 2005, 2010, 2000, 2005, 2010, 2005, 2010],
    '인구': [980, 970, 960, 360, 350, 350, 250, 260],
    '지역': ['수도권', '수도권','수도권', '경상권', '경상권', '경상권', '수도권', '수도권']})
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2000,980,수도권
1,서울,2005,970,수도권
2,서울,2010,960,수도권
3,부산,2000,360,경상권
4,부산,2005,350,경상권
5,부산,2010,350,경상권
6,인천,2005,250,수도권
7,인천,2010,260,수도권


In [70]:
# '도시'를 행 인덱스, '연도'를 열 인덱스
df1.pivot(index = '도시', columns = '연도', values = '인구')

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


In [73]:
df1.pivot(index = '도시', columns = '연도', values = ['인구', '지역'])

Unnamed: 0_level_0,인구,인구,인구,지역,지역,지역
연도,2000,2005,2010,2000,2005,2010
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
부산,360.0,350,350,경상권,경상권,경상권
서울,980.0,970,960,수도권,수도권,수도권
인천,,250,260,,수도권,수도권


행 인덱스나 열 인덱스를 리스트로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [72]:
df1.pivot(index = ['지역', '도시'], columns = '연도', values = '인구')

Unnamed: 0_level_0,연도,2000,2005,2010
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,360.0,350.0,350.0
수도권,서울,980.0,970.0,960.0
수도권,인천,,250.0,260.0


행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇 테이블을 생성할 수 없음

In [75]:
df1.pivot(index = '지역', columns = '연도', values = '인구')

ValueError: Index contains duplicate entries, cannot reshape

### 그룹 분석
데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  
그룹 분석은 피봇 테이블과 다르게 키에 의해서 결정되는 데이터가 여러 개 있을 경우 미리 지정한 연산을 통해서 해당 그룹의 대표값을 계산함

#### `groupby` 메서드
`groupby()` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드  
그룹 객체는 그룹 연산 메서드를 포함하고 있음

#### 그룹 연산 메서드
- `size()`, `count()` : 그룹 데이터의 갯수  
- `mean()`, `median()`, `min()`, `max()` : 그룹 데이터의 평균, 중앙값, 최솟값, 최댓값  
- `sum()`, `prod()`, `std()`, `var()`, `quantile()` : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수  
- `first()`, `last()` : 그룹 데이터의 처음 값, 마지막 값  
  
- `agg()`, `aggregate()` : 그룹 연산 메서드를 직접 생성하여 사용하도록 하는 메서드, 여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로 전달하여 사용하도록 하는 메서드  
- `describe()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는 메서드  
- `apply()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는데 원하는 그룹 연산이 없을 때 메서드를 직접 생성하여 사용하도록 하는 메서드  
- `transform()` : 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드

In [76]:
df2 = pd.DataFrame({
    'key1' : ['A', 'A', 'B','B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [79]:
dg = df2.groupby(df2.key1)
dg

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D6F31DF1D0>

In [80]:
dg.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [81]:
dg.sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [83]:
df2.data2.groupby(df2.key1).sum()

key1
A    80
B    70
Name: data2, dtype: int64

In [84]:
df2.groupby(df2.key1)['data1'].sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [85]:
df2.groupby(df2.key1)[['data1', 'data2']].sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [86]:
df2.groupby(df2.key1).sum()['data1']
df2.groupby(df2.key1).sum().data1 # 위의 코드와 동일한 결과 출력

key1
A    8
B    7
Name: data1, dtype: int64

##### 파이썬으로 다음 연산을 수행한다.
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [87]:
df2.groupby(df2.key1).sum()[['data1']]

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


두 개 이상의 열을 기준으로 그룹 분석을 하고자 하면 `groupby` 메서드에 리스트 형태로 키를 전달하면 됨

In [89]:
df2.groupby([df2.key1, df2.key2]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


In [91]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack('key2')

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4
