In [None]:
import pandas as pd
import numpy as np
import seaborn

#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`merge`함수를 통한 데이터프레임 병합</span>
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음, 병합의 기준이 되는 열 혹은 행을 '키'라고 함  

기본적으로 `merge()`메서드는 **inner join** 형태를 가짐
**outer(full), left, right join** 형태로 변경하고자 한다면 `how` 인수에 조인 방식을 지정함  

- `merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함 (ex_columns명이 같아야한다)

In [None]:
df1 = pd.DataFrame(
    {
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름'])
df1

In [None]:
df2 = pd.DataFrame(
    {
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액'])
df2

In [None]:
pd.merge(df1,df2)
# 모든 값을 함께 출력

In [None]:
pd.merge(df1,df2,how='outer')
# 좌 우측을 모두 보여주고 데이터가 없는 부분에는 NaN으로 표시

In [None]:
pd.merge(df1,df2,how='left')
# 좌측에 대해 존재하는 값을 보여주고, 우측에 존재하지 않는 값은 NaN으로 표시

In [None]:
pd.merge(df1,df2,how='right')
# 우측에 있는 값을 다 보여주고, 없는 것은 NaN으로 표시

만약 키 값에 동일한 데이터가 여러개 존재한다면, 모든 경우의 수를 표현함

In [None]:
df1 = pd.DataFrame(
    {
    '품종': ['튤립', '튤립', '장미', '장미'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
    }
)    
df1

In [None]:
df2 = pd.DataFrame(
    {
    '품종': ['튤립', '장미', '장미', '무궁화'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
    }
)    
df2

In [None]:
pd.merge(df1,df2)

In [None]:
pd.merge(df1,df2,how='outer')

- 병합되는 두 데이터 프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에  
특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해야함

In [None]:
df1 = pd.DataFrame(
    {
        '이름':['춘향','몽룡','춘향'],
        '날짜':['20180101','20180102','20180102'],
        '데이터':['20000','30000','100000']
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '이름':['춘향','몽룡'],
        '데이터':['여','남']
    }
)
df2

In [None]:
pd.merge(df1,df2, how='outer')

In [None]:
pd.merge(df1,df2,on='이름')
# 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y 와 같은 접미사가 붙는다.

- 키가 되는 기준열의 이름이 서로 다르면 `left_on` , `right_on` 인수에 사용할 키 컴럼 이름을 지정함

In [None]:
df1 = pd.DataFrame(
    {
        '이름':['춘향','몽룡','춘향'],
        '날짜':['20180101','20180102','20180102']
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '성명':['춘향','몽룡','길동'],
        '데이터':['여','남','남']
    }
)
df2

In [None]:
pd.merge(df1,df2,left_on='이름',right_on='성명')
# 둘 데이터 모두 출력

- 일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 `left_index` 또는 `right_index` 인수를 `True` 로 설정한다.

In [None]:
df1 = pd.DataFrame(
    {
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [980, 970, 960, 360, 350]
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6,2)),
    index =[
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns=['데이터1','데이터2']
)
df2

In [None]:
pd.merge(df1,df2,left_on=['도시','연도'], right_index=True)
# 일반 데이터 열이 아닌 인덱스를 기준열로 사용 

#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`join` 메서드</span>
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용가능

In [None]:
df1.join(df2,on=['도시','연도'])

#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`concat` 메서드로 데이터 연결</span>
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
- 단, 기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
- 만약, 좌우로 열을 연결하고 싶을 때는 `axis=1`인수를 사용함

In [None]:
s1 = pd.Series([0,1],index=['A','B'])
s1

In [None]:
s2 = pd.Series([2,3,4], index=['A','B','C'])
s2

In [None]:
pd.concat([s1,s2]) # []배열로 연결

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a','b','c'],
    columns=['데이터1','데이터2']
)
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2,2),
    index=['b','d'],
    columns=['데이터3','데이터4']
)
df2

In [None]:
pd.concat([df1,df2],axis=1)
# 없는 데이터는 NaN 으로 표시되고, 데이터를 연결시킬 수 있다

<span style='color:YELLOW;'>예제문제)</span> 
- 어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.  
실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).

- 또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [None]:
df1 = pd.DataFrame(
    {
    '매출': [10000, 11000, 9000, 12000, 13000, 8000],
    '비용': [9000,9500,9000,10000,11000,10000],
    '이익': [1000,1500,0,2000,2000,-2000]
    }, 
    index = ['1월','2월','3월','4월','5월','6월'],
    columns=['매출', '비용','이익']
)
df1

In [None]:
df2 = pd.DataFrame(
    {
    '매출': [9000, 10000, 12000, 9000, 10000, 11000],
    '비용': [10000,12000,10000,9000,9000,9500],
    '이익': [-1000,-2000,2000,0,1000,1500]
    }, 
    index = ['7월','8월','9월','10월','11월','12월'],
    columns=['매출', '비용','이익'])
df2

In [None]:
df3 = pd.concat([df1,df2])
df3

In [None]:
df3.loc['총실적'] = df3.sum()
df3

#### <span style='background-color:rgba(20, 200, 50, 0.4);'>피봇 테이블</span>
**피봇 테이블**:데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블

pandas에서 피봇테이블을 만들기 위해서는 `pivot()`메서드를 사용할 수 있음  
`pivot()`메서드에는  
- `index`인수로 행 인덱스로 사용할 열을 지정,  
- `columns`인수로 열 인덱스로 사용할 열을 지정,  
- `values()`인수로 표현할 데이터 지정

In [None]:
df1 = pd.DataFrame(
    {
    '도시': ['서울', '서울', '서울', '부산', '부산','부산','인천','인천'],
    '연도': [2000, 2005, 2010, 2000, 2005, 2010, 2005, 2010],
    '인구': [980, 970, 960, 360, 350, 350, 250, 260],
    '지역':['수도권','수도권','수도권','경상권','경상권','경상권','수도권','수도권']
    }
)
df1

In [None]:
df1.pivot(index='도시',columns='연도',values='인구')
# 인천은 2000 자료가 없기 때문에 NaN 으로 표시됨

- 행 인덱스나 열 인덱스를 리스트[ ]로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [None]:
df1.pivot(index=['지역','도시'],columns='연도',values='인구')

- 행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇 테이블을 생성할 수 없음 / 겹치면 안됨

In [None]:
df1.pivot(index='연도',columns='지역',values='인구')
# ValueError: Index contains duplicate entries, cannot reshape : 에러 메세지
# 중복된 데이터가 있어서 안된다는 메세지 (EX_2005-수도권-인천 : 2005-수도권-서울)

#### <span style='background-color:rgba(200, 200, 50, 0.5);'>그룹분석</span>
데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  
그룹 분석은 피봇테이블과 다르게 키에 의해서 결정되는 데이터가 여러 개 있을 경우,  
미리 지정한 연산을 통해서 해당 그룹의 대표값을 계산함

##### <span style='background-color:rgba(20, 200, 50, 0.4);'>`groupby` 메서드</span> 
`groupby()` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드  
- 그룹 객체는 그룹 연산 메서드를 포함하고 있음

##### <span style='background-color:rgba(20, 200, 50, 0.7);'>그룹 연산 메서드</span>
- `size()` , `count()` : 그룹 데이터의 갯수
- `mean`, `median`, `min`, `max`: 그룹 데이터의 평균, 중앙값, 최소, 최대값
- `sum`, `prod`, `std`, `var`, `quantile` : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- `first`, `last`: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

- `agg()` , `aggregate()` : 그룹 연산 메서드를 직접 생성하여 사용하도록 하는 메서드  
                            여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로 전달하여 사용하도록 하는 메서드
- `describe()`: 하나의 대표값이 아니라 여러개의 값을 데이터프레임으로 구하는 메서드
- `apply()` : 하나의 대표값이 아니라 여러개의 값을 데이터프레임으로 구하는데 원하는 그룹 연산이 없을 때 메서드를 직접 생성하여 사용하도록 하는 메서드
- `transform()`: 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드

In [None]:
df2 = pd.DataFrame(
    {
    'key1': ['A','A','B','B','A'],
    'key2': ['one','two','one','two','one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
    }
)
df2

In [None]:
dg = df2.groupby(df2.key1)
dg

In [None]:
dg.groups

In [None]:
dg.sum()

In [None]:
df2.groupby(df2.key1).sum()

In [None]:
df2.groupby(df2.key1)[['data1', 'data2']].sum()

In [None]:
df2.groupby(df2.key1).sum().data1

<span style='color:yellow;'>예제문제)  </span>  
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [None]:
df2.groupby(df2.key1).sum()[['data1']]

- 두 개 이상의 열을 기준으로 그룹 분석을 하고자 하면 `groupby` 메서드에 리스트 형태로 키를 전달하면 됨

In [None]:
df2.groupby([df2.key1, df2.key2]).sum()

In [None]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack('key2')

In [None]:
df1['인구'].groupby(df1['지역']).mean()

In [None]:
iris = seaborn.load_dataset('iris')
iris.head()

In [None]:
def peak_to_peak_ratio(group_row):
    return group_row.max() / group_row.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

In [None]:
iris.groupby(iris.species).describe()

In [None]:
def top3_petal_length(group_row):
    return group_row.sort_values(by='petal_length', ascending=False)[:3]

iris.groupby(iris.species).apply(top3_petal_length)

In [None]:
def q3cut(s):
    return pd.qcut(s, 3, labels=['소', '중', '대']).astype(str)

iris['petal_length_class'] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[['petal_length', 'petal_length_class']].head(10)

<span style='color:yellow;'>예제문제)</span>   
붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을 구하라.     
만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [None]:
iris.groupby(iris.species).mean()

#### <span style='background-color:rgba(20, 200, 50, 0.4);'>`pivot_table`메서드</span>
`pivot_table` 메서드는 `groupby`메서드의 결과값을 피봇테이블로 보여주는 메서드
- `pivot_table(data, values, index, columns, aggfunc, fill_value, margins, margins_name)`
    - `data`: 그룹 분석할 데이터프레임 (데이터프레임의 메서드일 때는 불필요)
    - `values`: 분석할 데이터프레임에서 분석할 열
    - `index`: 행 인덱스로 사용할 열
    - `columns`: 열 인덱스로 사용할 열
    - `aggfunc`: 분석 메서드
    - `fill_value`: NaN 대체 값
    - `margins`: 모든 데이터를 분석한 결과를 오른쪽과 아래쪽에 표시할 지 여부
    - `margins_name`: 마진 열/행의 이름

In [None]:
df1.pivot_table(values='인구',index='도시',columns='연도')

In [None]:
df1.pivot_table(values='인구',index='도시',columns='연도',margins=True,margins_name='평균')
# 그룹 연산에 피봇테이블을 함께 쓰게 해주는 것이 `pivot_table` 이다

In [None]:
df1.pivot_table(values='인구',index='도시',columns='연도',aggfunc='sum',margins=True,margins_name='평균')

In [None]:
df1.pivot_table(values='인구',index=['지역','도시'])

In [None]:
tips = seaborn.load_dataset('tips')
tips.tail()

<span style='color:yellow;'>- `tail()` 과 `head()` 차이</span>  

- `tail()` : 데이터의 마지막 5개를 출력
- `head()` : 데이터의 처음 5개를 출력

In [None]:
tips['tip_pct'] = tips.tip / tips.total_bill
tips.head()

In [None]:
tips['tip_pct'] = tips.tip / tips.total_bill
tips.tail()

In [None]:
tips.describe()
# 각 열의 데이터 분포 / 실수 형태의 값으로 출력됨

In [None]:
# 성별로 나누어 데이터 갯수를 알아본다
tips.groupby('sex').count()

In [None]:
# `size` 명령을 사용 / `size` 명령은 NaN이 있어도 상관하지 않는다.
tips.groupby("sex").size()

In [None]:
# 성별과 흡연유무로 나누어 데이터의 갯수를 알아본다
tips.groupby(["sex", "smoker"]).size()

In [None]:
# 피봇 테이블 형태로 변경
tips.pivot_table(values="tip_pct", index="sex", columns="smoker", aggfunc="count", margins=True)

<span style='color:yellow;'>======================================================================================</span>  

In [None]:
# 성별에 따른 평균 팁 비율을 살펴본다
tips.groupby("sex")[["tip_pct"]].mean()

In [None]:
# 흡연 여부에 따른 평균 팁 비율을 살펴본다
tips.groupby("smoker")[["tip_pct"]].mean()

<span style='color:yellow;'>=========================== 출력되는 테이블의 차이 =============================</span>  

In [None]:
# `pivot_table` 명령을 사용할 수도 있다.
tips.pivot_table("tip_pct", ["sex", "smoker"])

In [None]:
tips.pivot_table("tip_pct", "sex", "smoker")

<span style='color:yellow;'>=========================================================================</span>  

In [None]:
# `describe` 을 통해 성별에 따른 통계값을 한번에 본다
tips.groupby("sex")[["tip_pct"]].describe()

In [None]:
# `describe` 을 통해 성별과 흡연여부에 따른 통계값을 한번에 본다
tips.groupby(["sex", "smoker"])[["tip_pct"]].describe()

<span style='color:pink;'>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>></span> 

In [None]:
# 각 그룹에서 가장 많은 팁과 가장 적은 팁의 차이를 알아보자. 
# 이 계산을 해 줄 수 있는 그룹연산 함수가 없으므로 함수를 직접 만들고 agg 메서드를 사용한다.
def peak_to_peak(group_row):
    return group_row.max() - group_row.min()


tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)

In [None]:
# 여러가지 그룹연산을 동시에 하고 싶다면 리스트를 이용
tips.groupby(["sex", "smoker"])[["total_bill"]].agg(["mean", peak_to_peak])

In [None]:
# 데이터 열마다 다른 연산을 하고 싶다면 열 라벨과 연산 이름(또는 함수)를 딕셔너리로 넣는다.
tips.groupby(["sex", "smoker"]).agg(
    {'tip_pct': 'mean', 
     'total_bill': peak_to_peak
     }
    )

In [None]:
# `pivot_table` 명령으로 좀 더 상세하게 분석한다
tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')

In [None]:
# 값은 sum(합)으로 보여주고, 만약 NaN 값이 있다면 0 으로 표시해라
tips.pivot_table(values='size', index=['time', 'sex', 'smoker'], columns='day',aggfunc='sum', fill_value=0)