# Pandas concat

* 영상링크 : https://youtu.be/vbr4xrFEbyw

In [None]:
import pandas as pd

In [None]:
# 1. 시리즈 생성
# pd.Series([...]): 1차원 배열 형태의 데이터(Series)를 만듭니다.
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
s1
s2

In [None]:
# --- Concat (데이터 이어 붙이기) ---

In [None]:
# 2. 기본 위아래 연결
# pd.concat([s1, s2]): 리스트 안에 있는 데이터들을 위아래로 단순히 이어 붙입니다.
# 인덱스가 0, 1, 0, 1 처럼 그대로 유지됩니다.
pd.concat([s1, s2])

In [None]:
# 3. 인덱스 무시하고 연결
# ignore_index=True: 기존 인덱스를 무시하고 0, 1, 2, 3... 순서로 새로 번호를 매깁니다.
pd.concat([s1, s2], ignore_index=True)

In [None]:
# 3. 멀티인덱스 연결
#  pd.concat([...], keys=[...], names=[...]):
# 리스트 안에 있는 데이터들을 위아래로 이어 붙이되, keys와 names를 사용해 멀티인덱스를 생성합니다.
pd.concat([s1, s2], keys=['s1', 's2',], names=['Series name', 'Row ID'])

In [None]:
# 4. 데이터프레임 생성
# pd.DataFrame([...], columns=[...]): 2차원 배열 형태의 데이터(Data Frame)를 만듭니다.
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df1

In [None]:
# 5. 데이터프레임 연결
# pd.concat([df1, df2], ignore_index=True):
# 리스트 안에 있는 데이터프레임들을 위아래로 이어 붙입니다.
# ignore_index=True로 인덱스를 새로 매깁니다.
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
df2

In [None]:
# 데이터프레임 연결 결과
pd.concat([df1, df2])

In [None]:
# 6. 열이 다른 데이터프레임 연결
# 열이 다른 데이터프레임을 연결하면, 없는 열에는 NaN 값이 들어갑니다.
# 예를 들어, animal 열이 추가된 df3를 만들어서 df1과 연결해보겠습니다.
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']],
                   columns=['letter', 'number', 'animal'])
df3

In [None]:
# 열이 다른 데이터프레임 연결 결과
pd.concat([df1, df3], sort=False)

In [None]:
# 공통 열만 남기고 연결
# join="inner": 공통 열만 남기고 연결합니다.
pd.concat([df1, df3], join="inner")

In [None]:
# 추가 예제: 열이 완전히 다른 데이터프레임 연결
# animal과 name 열만 있는 df4를 만들어서 df1과 연결해보겠습니다
# 이 경우에도 없는 열에는 NaN 값이 들어갑니다.
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']],
                   columns=['animal', 'name'])
df4

In [None]:
# 데이터프레임 연결 결과
# 열이 완전히 다른 데이터프레임을 연결한 결과
df5 = pd.DataFrame([1], index=['a'])
df5

In [None]:
# 또 다른 예제
df6 = pd.DataFrame([2], index=['a'])
df6

In [None]:
# ValueError: Indexes have overlapping values: ['a']
# pd.concat([df5, df6], verify_integrity=True)