## 통계 함수 : 4-40 즈음 참고

## ------------------

## Concat & Merge

In [22]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

In [None]:
'''
서로 다른 데이터프레임을 하나로 합치는 작업
1) Concat : 단순 붙이기
    단순히 하나의 데이터프레임에 다른 데이터프레임을 연속적으로 붙이는 방법
    이 경우에는 두 개의 데이터프레임의 인덱스와 컬럼이 서로 동일한 경우가 대부분(비슷한 컬럼수에서 이어붙일 때)
    기본이 상하 연결
    Axis를 수정하면 좌우연결 가능(기본 : axis = 0)
    
    (중요)
    Outer Join
    key를 이용한 concat이 가능하다
    
2) Merge

'''

## Concat 

In [25]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']
})
print(df1)
df2 = DataFrame({
    'A':['A4','A5','A6','A7'],
    'B':['B4','B5','B6','B7'],
    'C':['C4','C5','C6','C7'],
    'D':['D4','D5','D6','D7'],
})
df2

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3


Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [38]:
'''
df1과 df2를 데이터를 가만히 보면... 상하로 병합해야 하는 데이터라는 것을 알 수 있다

index handling 필요 : 인덱스가 동일한 값 존재
ingore_index 속성
'''
result = pd.concat([df1,df2], ignore_index=True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [31]:
# 좌우 연결
result = pd.concat([df1,df2], axis=1)
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [37]:
'''
keys 속성
::
데이터를 어디에서 가져왔는지를 확인 및 Grouping 가능
ex) 데이터출처, 그룹, 그룹핑 기준 등등으로 가능
'''
result = pd.concat([df1,df2],keys=['ClassA','ClassB'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
ClassA,0,A0,B0,C0,D0
ClassA,1,A1,B1,C1,D1
ClassA,2,A2,B2,C2,D2
ClassA,3,A3,B3,C3,D3
ClassB,0,A4,B4,C4,D4
ClassB,1,A5,B5,C5,D5
ClassB,2,A6,B6,C6,D6
ClassB,3,A7,B7,C7,D7


In [39]:
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
})
df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [40]:
df4 = DataFrame({
    'A':['A4','A5','A6','A7'],
    'B':['B4','B5','B6','B7'],
    'C':['C4','C5','C6','C7'],
    'D':['D4','D5','D6','D7'],
})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [45]:
# df3, df4는 행과 열이 동시에 일치하지 않는 데이터
# df3에는 D열이 없다. 그래서 NaN으로 채워짐
result2 = pd.concat([df3,df4], ignore_index=True)
result2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [47]:
# 결측치 처리하기
result2.fillna(-9)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,-9
1,A1,B1,C1,-9
2,A2,B2,C2,-9
3,A3,B3,C3,-9
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [49]:
# inner Join 과 Outer Join 차이
'''
inner
::
두 데이터프레임에 모두 존재하는 행, 열 값만 가져온다
'''
result3 = pd.concat([df3,df4], join='inner')
result3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


## Merge

In [57]:
df1 = DataFrame({
    'Year':[2001,2002,2003,2004],
    'Product_Code':[11,22,33,44],
    'Price' : [10000,20000,30000,40000],
    }, index=list('1234'))
df1

Unnamed: 0,Year,Product_Code,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,30000
4,2004,44,40000


In [58]:
df2 = DataFrame({
    'Year':[2001,2002,2003,2004],
    'Product_Code':[11,22,33,44],
    'Price' : [10000,20000,30000,40000],
    }, index=list('5678'))
df2

Unnamed: 0,Year,Product_Code,Price
5,2001,11,10000
6,2002,22,20000
7,2003,33,30000
8,2004,44,40000


In [92]:
df3 = DataFrame({
    'Year':[2001,2003,2004,2005],
    'Product_Code':[11,22,33,44],
    'Color_Num':[3,4,5,9]
    }, index=list('1234'))
df3

Unnamed: 0,Year,Product_Code,Color_Num
1,2001,11,3
2,2003,22,4
3,2004,33,5
4,2005,44,9


In [61]:
result=pd.concat([df1,df2])
result

'''
df1, df2를 병합
인덱스 상관없이 좌우로 병합... 중복된 값은 표시하지 않음
on으로 기준을 만들어 줘야 함... 그러면 중복값도 표시함
'''
result = pd.merge(df1,df2)
result

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [68]:
df1_1 = DataFrame({
    'Year':[2001,2002,2003,2004],
    'Product_Code':[11,22,33,44],
    'Price' : [11000,22000,33000,44000],
    }, index=list('1234'))
df1_1
# result = pd.merge(df1_1,df2)
result=pd.merge(df1_1,df2, on='Year')
result

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,11000,11,10000
1,2002,22,22000,22,20000
2,2003,33,33000,33,30000
3,2004,44,44000,44,40000


In [69]:
'''
merge할 때는 특정한 컬럼을 기준으로 병합함
On 속성 사용
기준 컬럼 외에는 데이터가 중복으로 표기됨
'''

# df1, df2를 year컬럼 기준으로 병함
result1 = pd.merge(df1_1,df2, on='Year')
result1

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,11000,11,10000
1,2002,22,22000,22,20000
2,2003,33,33000,33,30000
3,2004,44,44000,44,40000


In [70]:
# 두 개의 컬럼으로 병합.... year, pc로
result2 = pd.merge(df1_1,df2, on=['Year','Product_Code'])
result2

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,11000,10000
1,2002,22,22000,20000
2,2003,33,33000,30000
3,2004,44,44000,40000


In [88]:
'''
set_index()
::
특정 컬럼이 인덱스 역할할 때 있음
DataFrame 컬럼값 중에 인덱스로 바꾸는 함수
'''
# result2.set_index('Year',inplace=True)
result2


Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,11000,10000
2002,22,22000,20000
2003,33,33000,30000
2004,44,44000,40000


In [96]:
# Product_Code, Year의 데이터가 같은 행만 병합
result3 = pd.merge(df1,df3)
result3

Unnamed: 0,Year,Product_Code,Price,Color_Num
0,2001,11,10000,3


In [97]:
# On에 명시한 컬럼에 같은 값만 병합
result4 = pd.merge(df1,df3, on='Year')
result4

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_Num
0,2001,11,10000,11,3
1,2003,33,30000,22,4
2,2004,44,40000,33,5


In [98]:
# outer는 기준에 되는 컬럼의 데이터중복과 상관없이 모두 출력
result4 = pd.merge(df1,df3, on='Year',how='outer')
result4

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_Num
0,2001,11.0,10000.0,11.0,3.0
1,2002,22.0,20000.0,,
2,2003,33.0,30000.0,22.0,4.0
3,2004,44.0,40000.0,33.0,5.0
4,2005,,,44.0,9.0


In [99]:
# 합칠 때, inner/outer & on에 유의

Unnamed: 0,Year,Product_Code,Color_Num
1,2001,11,3
2,2003,22,4
3,2004,33,5
4,2005,44,9


In [103]:
# Left Join
# 왼쪽 Year 중심으로
result5 = pd.merge(df1,df3,on='Year',how='left')
result5

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_Num
0,2001,11,10000,11.0,3.0
1,2002,22,20000,,
2,2003,33,30000,22.0,4.0
3,2004,44,40000,33.0,5.0


In [1]:
# right join
result6 = pd.merge(df1,df3,on='Year',how='outer')
result6

NameError: name 'pd' is not defined