In [3]:
import pandas as pd
import numpy as np
import seaborn as sns

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합할 수 있음.  
병합의 기준이 되는 열 혹은 행을 `키` 라고 함.  

기본적으로 `merge` 메서드는 **inner join** 형태를 가짐.  
**outer(full), left, right join** 형태로 변경하고자 한다면 `now` 인수에 조인 방식을 지정함.  

`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함. 

In [None]:
df1 = pd.DataFrame({
    '고객번호' : [1001,1002,1003,1004,1005,1006,1007],
    '이름' : ['둘리','도우너','또치','길동','희동','마이콜','영희']

    }, columns=['고객번호','이름'])
df1

In [None]:
df2 = pd.DataFrame({
    '고객번호' : [1001,1001,1005,1006,1008,1001], 
    '금액' : [10000,20000,15000,5000,100000,30000]
}, columns=['고객번호','금액'])
df2

In [None]:
pd.merge(df1,df2,how='outer')

In [None]:
pd.merge(df1,df2,how='left')

In [None]:
pd.merge(df1,df2,how='right')

만약 키 값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함.

In [None]:
df1 = pd.DataFrame({
    '품종' : ['튤립','튤립','장미','장미'],
    '꽃입길이' : [1.4,1.3,1.5,1.3]

})
df1

In [None]:
df2 = pd.DataFrame({
    '품종' : ['튤립','장미','장미','무궁화'],
    '꽃입넓이' : [0.4,0.3,0.5,0.3]
})
df2

In [None]:
pd.merge(df1,df2)

In [None]:
pd.merge(df1,df2,how='outer')

병합되는 두 데이터프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에 특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해줘야 함

In [None]:
df1 = pd.DataFrame({
    '이름' : ['춘향', '몽룡', '춘향'],
    '날짜' : ['20180101', '20180102', '20180102'],
    '데이터' : ['20000','30000','100000']
})
df1

In [None]:
df2 = pd.DataFrame({
    '이름' : ['춘향', '몽룡'],
    '데이터' : ['여','남']
})
df2

In [None]:
pd.merge(df1,df2,how='outer')

In [None]:
pd.merge(df1,df2,on='이름')

키가 되는 기준열의 이름이 서로 다르면 `left_on`, `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [None]:
df1 = pd.DataFrame({
    '이름' : ['춘향', '몽룡', '춘향'],
    '날짜' : ['20180101', '20180102', '20180102']
})
df1

In [None]:
df2 = pd.DataFrame({
    '성명' : ['춘향', '몽룡','길동'],
    '데이터' : ['여','남','남']
})
df2

In [None]:
pd.merge(df1,df2,left_on='이름',right_on='성명')

In [None]:
df1 = pd.DataFrame({
    '도시' : ['서울','서울','서울','부산','부산'],
    '연도' : [2000,2005,2010,2000,2005],
    '인구' : [980,970,960,360,350]
})
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6,2)),
    index=[
        ['부산','부산','서울','서울','서울','서울'],
        [2000,2005,2000,2005,2010,2015]],
    columns=['데이터1','데이터2'])
df2

In [None]:
pd.merge(df1,df2,left_on=['도시','연도'],right_index=True)

#### `join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge()` 메서드 대신에 `join()` 메서드를 사용

In [None]:
df1.join(df2,on=['도시','연도'])

### `concat` 메서드로 데이터 연결
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용  

기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  

만약 좌우로 열을 연결하고 싶을 때는 `axis=1`  인수를 사용

In [None]:
s1 = pd.Series([0,1],index=['A','B'])
s1

In [None]:
s2 = pd.Series([2,3,4],index=['A','B','C'])
s2

In [None]:
pd.concat([s1,s2])

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a','b','c'],
    columns=['데이터1','데이터2']

)
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2,2),
    index=['b','d'],
    columns=['데이터3','데이터4']

)
df2

In [None]:
pd.concat([df1,df2],axis=1)

In [None]:
df1 = pd.DataFrame({
    '매출' : [10000,11000,9000,12000,13000,8000],
    '비용' : [9000,9500,9000,10000,11000,10000],
    '이익' : [1000,1500,0,2000,2000,2000]
}, index=['1','2','3','4','5','6']
)
df1

In [None]:
df2 = pd.DataFrame({
    '매출' : [9000,10000,12000,9000,10000,11000],
    '비용' : [10000,12000,10000,9000,9000,9500],
    '이익' : [-1000,-2000,2000,0,1000,1500]
}, index=['7','8','9','10','11','12']
)
df2

In [None]:
year = pd.concat([df1,df2])
year

In [None]:
year_sum = year.sum()
year_sum.name = '총실적'
year_sum

In [None]:
year.loc['총실적',:] = year_sum
year

### 피봇 테이블
데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블  

pandas 에서 피볼테이블을 만드기 위해서는 `pivot()` 메서드를 사용할 수 있음  

`pivot()` 메서드에는 `index` 인수로 행 인덱스로 사용할 열을 지정,  
`columns` 인수로 열 인덱스로 사용할 열을 지정,  
`values` 인수로 표현할 데이터를 지정

In [None]:
df1 = pd.DataFrame({
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": [2000,2005,2010,2000,2005,2010,2005,2010],
    "인구": [980,970,960,360,350,350,250,260],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
)
df1

In [None]:
df1.pivot(index='도시',columns='연도',values='인구')

행 인덱스나 열 인덱스를 리스트로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [None]:
df1.pivot(index=['지역','도시'],columns='연도',values='인구')

행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇테이블을 생성할 수 없음

In [None]:
try:
    df1.pivot(index='지역',columns='연도',values='인구')
except ValueError as e:
    print('ValueError:',e)

### 그룹 분석
데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  

그룹 분석은 피봇테이블과 다르게 키에 의해서 결정되는 데이터가 여러 개 있을 경우  
미리 지정한 연산을 통해서 해당 그룹의 대표값을 계산

#### `groupby` 메서드
`groupby()` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드  

그룹 객체는 그룹 연산 메서드를 포함하고 있음

#### 그룹 연산 메서드
- `size()`, `count()` : 그룹 데이터의 갯수
- `mean()`, `median()`, `min()`, `max()` : 그룹 데이터의 평균, 중앙값, 최소값, 최대값
- `sum()`, `prod()`, `std()`, `var()`, `quantile()` : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- `first()`, `last()` : 그룹 데이터의 처음 값, 마지막 값

- `agg()`, `aggregate()` : 그룹 연산 메서드를 직접 생성하여 사용하도록 하는 메서드,  
여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로 전달하여 사용하도록 하는 메서드  

- `decribe()` : 하나의 대표값이 아니라 여러개의 값을 데이터프레임으로 구하는 메서드
- `apply()` : 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는데 원하는 그룹 연산이 없을 때
메서드를 직접 생성하여 사용하도록 하는 메서드  
- `transform()` : 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드

In [None]:
df2 = pd.DataFrame({
    'key1' : ['A','A','B','B','A'],
    'key2' : ['one','two','one','two','one'],
    'data1' : [1,2,3,4,5],
    'data2' : [10,20,30,40,50]
})
df2

In [None]:
groups = df2.groupby(df2.key1)
groups

In [None]:
groups.groups

In [None]:
df2 = groups.sum()
df2

In [None]:
df2.groupby(df2.key1).sum().data1

In [None]:
df2.groupby(df2.key1).sum()[['data1']]

두 개 이상의 열을 기준으로 그룹 분석을 하고자 하면 `groupby()` 메서드에 리스트 형태로 키를 전달하면 됨

In [None]:
df2.data1.groupby([df2.key1,df2.key2]).sum().unstack('key2')

In [None]:
df1 = pd.DataFrame({
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": [2000,2005,2010,2000,2005,2010,2005,2010],
    "인구": [980,970,960,360,350,350,250,260],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
)
df1

In [None]:
df1[['인구']].groupby(df1['지역']).mean()

In [None]:
iris = sns.load_dataset('iris')
iris.head()

In [None]:
def peak_to_peak_ratio(group_row):
    return group_row.max() / group_row.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

In [None]:
iris.groupby(iris.species).describe()

In [None]:
def top3_petal_length(group_row):
    return group_row.sort_values(by='petal_length',ascending=False)[:3]

iris.groupby(iris.species).apply(top3_petal_length)

In [None]:
def q3cut(s):
    return pd.qcut(s,3,labels=['소','중','대']).astype(str)

iris['petal_length_class'] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[['petal_length','petal_length_class']].head(10)

In [None]:
dg = iris.groupby(iris.species)
dg.petal_length.transform(q3cut)
dg

In [None]:
iris.groupby(iris.species).mean()

### `pivot_table` 메서드
`pivot_table` 메서드는 `groupby` 메서드의 결과를 피봇 테이블로 결과를 보여주는 메서드  

`pivot_table(data, values, index, columns, aggfunc, fill_value, margins, margins_name`

- `data` : 그룹 분석할 데이터 프레임(데이터프레임의 메ㅔ서드일 때는 불필요)
- `values` : 분석할 열
- `index` : 행 인덱스로 사용할 열
- `columns` : 열 인덱스로 사용할 열
- `aggfunc` : 분석 메서드
- `fill_value` : NaN을 대체할 값
- `margins` : 데이터 분석 결과를 오른쪽과 아래쪽에 표시할 지 여부
- `margins_name` : 마진 행열의 이름

In [None]:
df1 = pd.DataFrame({
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": [2000,2005,2010,2000,2005,2010,2005,2010],
    "인구": [980,970,960,360,350,350,250,260],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
)
df1

In [None]:
df1.pivot_table(values='인구',index='도시',columns='연도',aggfunc='sum',margins=True,margins_name='합계')

In [81]:
df1.pivot_table(values='인구',index=['지역','도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,도시,Unnamed: 2_level_1
경상권,부산,353.333333
수도권,서울,970.0
수도권,인천,255.0


In [5]:
tips = sns.load_dataset('tips')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [6]:
tips['tip_pct'] = tips.tip / tips['total_bill']
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


In [7]:
tips.describe()

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [8]:
tips.groupby('sex').size()

  tips.groupby('sex').size()


sex
Male      157
Female     87
dtype: int64

In [9]:
tips.groupby(['sex','smoker']).size()

  tips.groupby(['sex','smoker']).size()


sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [10]:
tips.pivot_table(values='tip_pct',index='sex',columns='smoker',aggfunc='count',margins=True)

  tips.pivot_table(values='tip_pct',index='sex',columns='smoker',aggfunc='count',margins=True)


smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [11]:
tips.groupby('sex')[['tip_pct']].mean()

  tips.groupby('sex')[['tip_pct']].mean()


Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [12]:
tips.groupby('smoker')[['tip_pct']].mean()

  tips.groupby('smoker')[['tip_pct']].mean()


Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


In [13]:
tips.pivot_table(values='tip_pct',index=['sex','smoker'])

  tips.pivot_table(values='tip_pct',index=['sex','smoker'])


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [14]:
tips.pivot_table(values='tip_pct',index='sex',columns='smoker')

  tips.pivot_table(values='tip_pct',index='sex',columns='smoker')


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [15]:
tips.groupby('smoker')[['tip_pct']].describe()

  tips.groupby('smoker')[['tip_pct']].describe()


Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


In [16]:
tips.groupby(['sex','smoker'])[['tip_pct']].describe()

  tips.groupby(['sex','smoker'])[['tip_pct']].describe()


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672


In [17]:
def peak_to_peak(group_row):
    return group_row.max() - group_row.min()

tips.groupby(['sex','smoker'])['tip'].agg(peak_to_peak)

  tips.groupby(['sex','smoker'])['tip'].agg(peak_to_peak)


sex     smoker
Male    Yes       9.00
        No        7.75
Female  Yes       5.50
        No        4.20
Name: tip, dtype: float64

In [18]:
tips.groupby(['sex','smoker'])['total_bill'].agg(['mean',peak_to_peak])

  tips.groupby(['sex','smoker'])['total_bill'].agg(['mean',peak_to_peak])


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,peak_to_peak
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,22.2845,43.56
Male,No,19.791237,40.82
Female,Yes,17.977879,41.23
Female,No,18.105185,28.58


In [20]:
tips.groupby(['sex','smoker']).agg(
{
    'tip_pct':'mean',
    'total_bill':peak_to_peak
}
)

  tips.groupby(['sex','smoker']).agg(


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [21]:
tips.pivot_table(['tip_pct', 'size'], ['sex', 'day'], 'smoker')

  tips.pivot_table(['tip_pct', 'size'], ['sex', 'day'], 'smoker')


Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [25]:
tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day', aggfunc='sum', fill_value=0)

  tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day', aggfunc='sum', fill_value=0)


Unnamed: 0_level_0,Unnamed: 1_level_0,day,Thur,Fri,Sat,Sun
time,sex,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Lunch,Male,Yes,23,5,0,0
Lunch,Male,No,50,0,0,0
Lunch,Female,Yes,17,6,0,0
Lunch,Female,No,60,3,0,0
Dinner,Male,Yes,0,12,71,39
Dinner,Male,No,0,4,85,124
Dinner,Female,Yes,0,8,33,10
Dinner,Female,No,2,2,30,43
