### 데이터 프레임 합치기
- merge()
- concat()

#### 1.단순 병합
- 데이터 프레임을 위-아래 or 왼쪽 - 오른쪽으로 단순 연결할 때는 concat()을 활용
- concat()은 기본적(axis=0)으로 위-아래로 합친다.
- 인덱스 번호를 유지하며 새롭게 설정하려면 ignore_index = True 옵션을 붙인다.

In [1]:
import pandas as pd

appetizer = pd.DataFrame({
    'Menu':['Salad','Soup','Bread'],
    'Price':[5000,3000,2000]
})

main = pd.DataFrame({
    'Menu':['Steak','Pasta','Chicken'],
    'Price':[15000,12000,10000]
})

print(appetizer)
print(main)


    Menu  Price
0  Salad   5000
1   Soup   3000
2  Bread   2000
      Menu  Price
0    Steak  15000
1    Pasta  12000
2  Chicken  10000


In [None]:
# 위 아래 병합
full_menu = pd.concat([appetizer,main],ignore_index=True)
full_menu

Unnamed: 0,Menu,Price
0,Salad,5000
1,Soup,3000
2,Bread,2000
3,Steak,15000
4,Pasta,12000
5,Chicken,10000


In [4]:
# 왼쪽 오른쪽 병합
full_menu = pd.concat([appetizer,main],axis=1)
full_menu

Unnamed: 0,Menu,Price,Menu.1,Price.1
0,Salad,5000,Steak,15000
1,Soup,3000,Pasta,12000
2,Bread,2000,Chicken,10000


#### key 기준 병합
- 주어진 2개의 데이터에서 특정 키를 기준으로 합칠 때가 있다.
- 메뉴를 기준으로 병합하고자 할때 merge()를 활용한다.
- on='Menu' 설정을 통해 왼쪽에 있는 데이터의 메뉴를 기준으로 오른쪽 데이터가 합쳐진다.


In [5]:
price = pd.DataFrame({
    'Menu':['Salad','Soup','Steak','Pasta'],
    'Price':[5000,3000,15000,12000]
})

cal = pd.DataFrame({
    'Menu':['Soup','Steak','Pasta','Soup'],
    'Calories':[100,500,400,150]
})

menu_info = pd.merge(price,cal,on='Menu')
menu_info

Unnamed: 0,Menu,Price,Calories
0,Soup,3000,100
1,Soup,3000,150
2,Steak,15000,500
3,Pasta,12000,400


### 피벗 테이블
- 복잡한 데이터를 간단한 표로 요약하여 중요한 통계치(합계, 평균, 최솟값, 최대값 등을) 한눈에 볼수있게 도와준다.
- pivot_table()함수를 이용해 쉽게 만들수 있다.

피벗테이블 주요 구성 요소
|제목|내용|
|:---|:---:|
|index(행)|데이터의 그룹 기준이 되는 열
||예를 들어, 부서별로 데이터를 집계하고 싶다면, index='부서'라고 지정
|columns (열)|추가적으로 데이터의 세부 항목을 열로 배치할 때 사용
||예를 들어, 부서 안에서 성별이나 직급에 따라 데이터를 구분하고 싶다면 columns에 해당 열이름 지정
|values (값)|집계할 대상
||예를 들어, 급여나 근속 연수 같은 숫자 데이터를 요약할 때 사용
|aggfunc (집계 함수)|데이터를 어떻게 요약할 것인지 결정하는 함수
||예를 들어, mean,sum,min,max 등



#### 기본 피벗 테이블 사용
- index='부서': 부서별로 데이터 그룹화
- values='급여': 집계할 대상은 급여
- aggfunc='mean' : 각 부서의 급여 평균 계산

In [6]:
import pandas as pd

data ={
    '이름':['서아','다인','채아','예담','종현','태헌'],
    '부서':['개발','기획','개발','기획','개발','기획'],
    '급여':[300,3200,3100,3300,2900,3100]
}

#데이터 프레임 만들기
df = pd.DataFrame(data)
print(["원본 데이터"])
print(df)

# 피벗 테이블 만들기
pt = df.pivot_table(index='부서',values='급여',aggfunc='mean')
print("\n[부서별 평균 급여]")
print(pt)

['원본 데이터']
   이름  부서    급여
0  서아  개발   300
1  다인  기획  3200
2  채아  개발  3100
3  예담  기획  3300
4  종현  개발  2900
5  태헌  기획  3100

[부서별 평균 급여]
        급여
부서        
개발  2100.0
기획  3200.0


#### 여러 열로 집계하기(sum)
- index='부서'
- columns ='직급'
- aggfunc='sum'

In [9]:
data ={
    '부서':['개발','기획','기획','기획','개발','개발'],
    '직급':['대리','과장','대리','과장','대리','과장'],
    '급여':[3000,4000,3200,4200,3500,4500]
}

#데이터 프레임 만들기
df = pd.DataFrame(data)
print(["원본 데이터"])
print(df)

# 피벗 테이블 만들기
pt = df.pivot_table(index='부서',columns='직급',values='급여',aggfunc='sum')
print("\n[부서별 및 직급별 급여 합계]")
print(pt)

['원본 데이터']
   부서  직급    급여
0  개발  대리  3000
1  기획  과장  4000
2  기획  대리  3200
3  기획  과장  4200
4  개발  대리  3500
5  개발  과장  4500

[부서별 및 직급별 급여 합계]
직급    과장    대리
부서            
개발  4500  6500
기획  8200  3200


#### 여러 열로 집계하기(mean)
- index='부서'
- columns ='성별'
- aggfunc='mean'

In [10]:
data ={
    '부서':['개발','기획','기획','기획','개발','개발'],
    '성별':['남','여','남','여','남','여'],
    '근속연수':[3,5,4,6,7,8]
}

#데이터 프레임 만들기
df = pd.DataFrame(data)
print(["원본 데이터"])
print(df)

# 피벗 테이블 만들기
pt = df.pivot_table(index='부서',columns='성별',values='근속연수',aggfunc='mean')
print("\n[부서별 및 직급별 급여 합계]")
print(pt)


['원본 데이터']
   부서 성별  근속연수
0  개발  남     3
1  기획  여     5
2  기획  남     4
3  기획  여     6
4  개발  남     7
5  개발  여     8

[부서별 및 직급별 급여 합계]
성별    남    여
부서          
개발  5.0  8.0
기획  4.0  5.5


#### 다양한 집계 예제


In [11]:
df = pd.DataFrame({
    "구분":['전자','전자','전자','전자','전자','가전','가전','가전','가전'],
    "유형":['일반','일반','일반','특수','특수','일반','일반','특수','특수'],
    "크기":['소형','대형','대형','소형','소형','대형','소형','소형','대형'],
    '수량':[1,2,2,3,3,4,5,6,7],
    '금액':[2,4,5,5,6,6,8,9,9]
})

print(df)

   구분  유형  크기  수량  금액
0  전자  일반  소형   1   2
1  전자  일반  대형   2   4
2  전자  일반  대형   2   5
3  전자  특수  소형   3   5
4  전자  특수  소형   3   6
5  가전  일반  대형   4   6
6  가전  일반  소형   5   8
7  가전  특수  소형   6   9
8  가전  특수  대형   7   9


#### 단일 값에 대해 집계하기
- index=['구분','유형']:구분(전자/가전), 유형(일반/특수)을 기준으로 행 구성
- columns=['크기']:크기를 열로 사용(대형/소형)
- aggfunc='sum' 수량 합산

In [13]:
pt = pd.pivot_table(
    df,
    values='수량',
    index=['구분','유형'],
    columns=['크기'],
    aggfunc='sum'
)

pt


Unnamed: 0_level_0,크기,대형,소형
구분,유형,Unnamed: 2_level_1,Unnamed: 3_level_1
가전,일반,4.0,5.0
가전,특수,7.0,6.0
전자,일반,4.0,1.0
전자,특수,,6.0


In [14]:
pt = pd.pivot_table(
    df,
    values='수량',
    index=['구분','유형'],
    columns=['크기'],
    aggfunc='sum',
    fill_value=0
)

pt


Unnamed: 0_level_0,크기,대형,소형
구분,유형,Unnamed: 2_level_1,Unnamed: 3_level_1
가전,일반,4,5
가전,특수,7,6
전자,일반,4,1
전자,특수,0,6


#### 여러 열에 대해 각기 다른 집계 함수 적용하기
- values=['수량','금액']: 한번에 여러열 집계
- aggfunc를 딕셔너리 형태로 지정하면, 열마다 다른 함수 적용

In [15]:
pt = pd.pivot_table(
    df,
    values=['수량','금액'],
    index=['구분','크기'],
    aggfunc={'수량':"mean",'금액':'mean'}
)

pt


Unnamed: 0_level_0,Unnamed: 1_level_0,금액,수량
구분,크기,Unnamed: 2_level_1,Unnamed: 3_level_1
가전,대형,7.5,5.5
가전,소형,8.5,5.5
전자,대형,4.5,2.0
전자,소형,4.333333,2.333333


#### 하나의 열에 대해 여러 집계 함수를 동시에 적용하기
- 하나의 열(금액)에 대해 여러 개의 집계 함수를 동시에 적용 가능
- 출력 결과에서 금액 아래에 min,max,mean이 각각 표시


In [16]:
pt=pd.pivot_table(
    df,
    values=['수량','금액'],
    index=['구분','크기'],
    aggfunc={'수량':'mean','금액':["min",'max','mean']}
)

pt

Unnamed: 0_level_0,Unnamed: 1_level_0,금액,금액,금액,수량
Unnamed: 0_level_1,Unnamed: 1_level_1,max,mean,min,mean
구분,크기,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
가전,대형,9,7.5,6,5.5
가전,소형,9,8.5,8,5.5
전자,대형,5,4.5,4,2.0
전자,소형,6,4.333333,2,2.333333


In [17]:
pt.reset_index()

Unnamed: 0_level_0,구분,크기,금액,금액,금액,수량
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,max,mean,min,mean
0,가전,대형,9,7.5,6,5.5
1,가전,소형,9,8.5,8,5.5
2,전자,대형,5,4.5,4,2.0
3,전자,소형,6,4.333333,2,2.333333
