# Pandas
-----
## 06. 데이터 합치기와 변형
### 데이터프레임 합치기 (Dataframe Merging)
- Concatenation (연결) : concat
- Merge (병합) : merge
- Join (조인) : join

### concat

In [None]:
# 제공된 코드
from IPython.display import display
import pandas as pd

data1 = {'ID': [1, 2, 3, 4],
         'Name': ['Alice', 'Bob', 'Charlie', 'David'],
         'Age': [25, 30, 22, 28]}
df1 = pd.DataFrame(data1)

data2 = {'ID': [3, 4, 5, 6],
         'Salary': [50000, 60000, 70000, 80000]}
df2 = pd.DataFrame(data2)

display("df1", df1)
display("df2", df2)
# /제공된 코드

display("행방향 연결", pd.concat([df1, df2]))
display("열방향 연결", pd.concat([df1, df2], axis=1))

### merge
- 두 데이터프레임 사이에 공통된 컬럼이나 인덱스를 기준으로 데이터를 합치는 작업을 수행
    - on 매개변수로 기준 컬럼 지정
- SQL의 Join과 비슷한 개념

In [None]:
display("df1", df1)
display("df2", df2)

display(pd.merge(df1, df2, on='ID'))

### join
- 인덱스를 기준으로 두 개의 데이터프레임을 조인
- how:
    - left, right, inner, outer 조인 등 다양한 방법을 지원
    - 기본 방식은 left

In [None]:
display("df1", df1)
display("df2", df2)

display("left", df1.join(df2, lsuffix="_df1", rsuffix="_df2"))
display("left", df1.join(df2.set_index("ID"), on="ID", how="left"))


In [None]:
display("df1", df1)
display("df2", df2)

display("right", df1.join(df2.set_index("ID"), on="ID", how="right"))


In [None]:
display("df1", df1)
display("df2", df2)

display("inner", df1.join(df2.set_index("ID"), on="ID", how="inner"))

In [None]:
display("df1", df1)
display("df2", df2)

display("outer", df1.join(df2.set_index("ID"), on="ID", how="outer"))

### 데이터 변형 및 조작
- 피벗 테이블
- Melt
- Stack과 Unstack

### Melt
- 넓은 형식의 데이터프레임을 긴 형식으로 변형하는 방법
- melt 함수의 구조
    - frame: 변형하고자 하는 데이터프레임
    - id_vars: 그대로 유지할 열의 이름(식별자 변수)을 지정
    - value_vars: 변형할 열의 이름을 지정
    - var_name: value_vars가 이동하는 열의 이름을 지정
    - value_name: value_vars가 이동하는 값의 열 이름을 지정    

In [None]:
# 제공된 코드
from IPython.display import display
import pandas as pd

data = {'ID': [1, 2, 3],
        'Name': ['Alice', 'Bob', 'Charlie'],
        'Eng': [85, 90, 87],
        'Math': [90, 85, 78],
        'Science': [88, 92, 80]}
df = pd.DataFrame(data)
display(df)
# /제공된 코드

# Eng, Math, Science 열을 긴 형식으로 변환 (melt)
melted_df = pd.melt(df, # 변형할 데이터프레임
                    id_vars=['ID', 'Name'], # 유지할 열의 이름
                    value_vars=['Eng', 'Math', 'Science'],  # 변형할 열의 이름
                    var_name='Subject', # value_vars가 이동할 열의 이름
                    value_name='Score') # value_vars가 이동하는 값의 열 이름
display(melted_df)



#### Stack과 Unstack
- 판다스에서 다중 인덱스를 가지는 데이터프레임을 재구성하는데 사용하는 메서드들
- 데이터프레임의 인덱스와 컬럼을 재배치하여 다른 형태로 변환할 수 있다

##### Stack
- 데이터프레임의 컬럼들을 인덱스 레벨로 이동시기는 기능 수행
    - 열 데이터를 행 데이터로 변환하는 작업
    - 기본적으로 가장 안쪽(가장 낮은 레벨)의 컬럼들을 인덱스 레벨로 이동


In [None]:
from IPython.display import display
import pandas as pd

df = melted_df.copy()
del df['ID']
df.set_index(['Name', 'Subject'])
stacked_df = df.stack()
stacked_df




##### unstack
- unstack : stack의 반대 작업 수행
    - 다중 인덱스를 가진 데이터프레임에서 특정 레벨의 인덱스를 컬럼으로 이동
    - 기본적으로 가장 낮은 레벨의 인덱스를 컬럼으로 이동

In [None]:
display(stacked_df)

unstacked_df = stacked_df.unstack()
display(unstacked_df)