## Merge
> merge메서드는 두 객체를 병합하는 메서드입니다(SQL에서 join과 같은 기능)

In [2]:
import pandas as pd

In [3]:
df1 = pd.read_csv('사원정보.csv', encoding='cp949')
df2 = pd.read_csv('휴가정보.csv', encoding='cp949')
print('샘플 데이터 1')
print(df1)
print('샘플 데이터 2')
print(df2)

샘플 데이터 1
       사번  이름 성별    생년월일
0  121212  철수  남  101101
1  131313  영희  여  101201
2  151515  짱구  남  100801
3  161616  맹구  남  100901
4  171717  훈이  남  100801
샘플 데이터 2
       사번  이름      휴가일자
0  121212  철수  20230901
1  121212  철수  20230902
2  171717  훈이  20230901
3  131313  영희  20230910


In [8]:
#열 기준으로 병합 (left_on / right_on)
df1.merge(df2, left_on='사번',right_on='사번')

Unnamed: 0,사번,이름_x,성별,생년월일,이름_y,휴가일자
0,121212,철수,남,101101,철수,20230901
1,121212,철수,남,101101,철수,20230902
2,131313,영희,여,101201,영희,20230910
3,171717,훈이,남,100801,훈이,20230901


In [9]:
#suffixes를 통한 동명인 열 구분
df1.merge(df2, left_on='사번',right_on='사번',suffixes=('_left','_right'))

Unnamed: 0,사번,이름_left,성별,생년월일,이름_right,휴가일자
0,121212,철수,남,101101,철수,20230901
1,121212,철수,남,101101,철수,20230902
2,131313,영희,여,101201,영희,20230910
3,171717,훈이,남,100801,훈이,20230901


In [10]:
#how 인수의 사용하여 객체의 기준을 정함
df1.merge(df2, left_on='사번',right_on='사번',how='left')

Unnamed: 0,사번,이름_x,성별,생년월일,이름_y,휴가일자
0,121212,철수,남,101101,철수,20230901.0
1,121212,철수,남,101101,철수,20230902.0
2,131313,영희,여,101201,영희,20230910.0
3,151515,짱구,남,100801,,
4,161616,맹구,남,100901,,
5,171717,훈이,남,100801,훈이,20230901.0


In [11]:
#how 인수의 사용하여 객체의 기준을 정함
df1.merge(df2, left_on='사번',right_on='사번',how='inner')

Unnamed: 0,사번,이름_x,성별,생년월일,이름_y,휴가일자
0,121212,철수,남,101101,철수,20230901
1,121212,철수,남,101101,철수,20230902
2,131313,영희,여,101201,영희,20230910
3,171717,훈이,남,100801,훈이,20230901


In [12]:
df1.merge(df2, left_on='사번',right_on='사번',how='outer')

Unnamed: 0,사번,이름_x,성별,생년월일,이름_y,휴가일자
0,121212,철수,남,101101,철수,20230901.0
1,121212,철수,남,101101,철수,20230902.0
2,131313,영희,여,101201,영희,20230910.0
3,151515,짱구,남,100801,,
4,161616,맹구,남,100901,,
5,171717,훈이,남,100801,훈이,20230901.0


## 행열 추가/삭제

In [13]:
df3 = pd.DataFrame(data=[['111111','길순','여','090201'],
                         ['202020','길동','남','110205']]
                   ,columns=['사번','이름','성별','생년월일']) #컬럼명이 맞는 항목에 자동으로 매칭
df3

Unnamed: 0,사번,이름,성별,생년월일
0,111111,길순,여,90201
1,202020,길동,남,110205


In [None]:
#행추가
pd.concat([df1,df3],axis=0)  

In [None]:
df1.insert(4,'부서',['영업부','인사부','총무부','영업부','인사부']) #열추가
df1

In [None]:
df1['부서'] = ['영업부','인사부','총무부','영업부','인사부'] #열추가
df1

## 중복행 제거
기본 사용법
df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)   
subset : 중복값을 검사할 열 입니다. 기본적으로 모든 열을 검사합니다.   
keep : {first / last} 중복제거를할때 남길 행입니다. first면 첫값을 남기고 last면 마지막 값을 남깁니다.    
inplace : 원본을 변경할지의 여부입니다.   
ignore_index : 원래 index를 무시할지 여부입니다. True일 경우 0,1,2, ... , n으로 부여됩니다.   

In [47]:
col = ['col1','col2','col3']
data = [['A','x','-'],['A','x','-'],['B','x','앞'],['B','y','-'],['B','y','뒤']]
df = pd.DataFrame(data=data, columns=col)
df

Unnamed: 0,col1,col2,col3
0,A,x,-
1,A,x,-
2,B,x,앞
3,B,y,-
4,B,y,뒤


In [48]:
df.drop_duplicates()

Unnamed: 0,col1,col2,col3
0,A,x,-
2,B,x,앞
3,B,y,-
4,B,y,뒤


In [49]:
df.drop_duplicates(subset='col2')

Unnamed: 0,col1,col2,col3
0,A,x,-
3,B,y,-


In [50]:
df.drop_duplicates(subset=['col1','col2'])

Unnamed: 0,col1,col2,col3
0,A,x,-
2,B,x,앞
3,B,y,-


In [51]:
#keep인수를 통해 남길 행 선택
df.drop_duplicates(subset='col1',keep='first')

Unnamed: 0,col1,col2,col3
0,A,x,-
2,B,x,앞


In [57]:
df.drop_duplicates(subset='col1',keep='last')

Unnamed: 0,col1,col2,col3
1,A,x,-
4,B,y,뒤


In [56]:
df.drop_duplicates(subset='col1',keep='last').reset_index(drop=True)

Unnamed: 0,col1,col2,col3
0,A,x,-
1,B,y,뒤


## 피벗
> df.pivot(index=None, columns=None, values=None)   
index : 인덱스로 사용될 열입니다.   
columns : 열로 사용될 열 입니다.   
values : 값으로 입력될 열 입니다.   
※ index나 columns에 리스트를 입력 할 경우 멀티 인덱스로 피벗테이블이 생성됩니다.   
values에 리스트를 입력 할 경우 각 값에 대한 테이블이 연속적으로 생성됩니다.   

In [59]:
col = ['Machine','Country','Price','Brand']
data = [['TV','Korea',1000,'A'],
        ['TV','Japan',1300,'B'],
        ['TV','China',300,'C'],
        ['PC','Korea',2000,'A'],
        ['PC','Japan',3000,'E'],
        ['PC','China',450,'F']]
df = pd.DataFrame(data=data, columns=col)
df

Unnamed: 0,Machine,Country,Price,Brand
0,TV,Korea,1000,A
1,TV,Japan,1300,B
2,TV,China,300,C
3,PC,Korea,2000,A
4,PC,Japan,3000,E
5,PC,China,450,F


In [64]:
#index를 Machine으로 columns를 Country로, values를 Price로 피벗 테이블을 생성
df.pivot(index='Machine',columns='Country',values='Price')

Country,China,Japan,Korea
Machine,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PC,450,3000,2000
TV,300,1300,1000


In [65]:
df.pivot(index='Country',columns=['Machine','Brand'],values='Price')

Machine,TV,TV,TV,PC,PC,PC
Brand,A,B,C,A,E,F
Country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
China,,,300.0,,,450.0
Japan,,1300.0,,,3000.0,
Korea,1000.0,,,2000.0,,
