In [1]:
import pandas as pd
import numpy as np

In [3]:
def make_df(cols, ind):
    """빠르게 DataFrame 생성"""
    # Dictionary 컴프리헨션을 통해 각 열 이름(c)에 대해 데이터를 생성
    # 예) c='A', ind=[0,1,2] -> 'A0','A1','A2' 형태의 리스트
    data = {
        c: [str(c) + str(i) for i in ind]  # 열 이름과 인덱스를 문자열로 합침
        for c in cols
    }
    # 생성한 데이터 딕셔너리를 사용해 DataFrame을 만들고, 인덱스로 ind를 사용
    return pd.DataFrame(data, ind)

# DataFrame 예제
make_df('ABC', range(2+1))


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [4]:
class display(object):
    """여러 객체를 HTML 형태로 표시"""

    # HTML 템플릿 문자열
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}{1}
    """

    def __init__(self, *args):
        # 여러 개의 객체 이름을 args에 저장
        self.args = args

    def _repr_html_(self):
        # 각 객체를 HTML 문자열로 변환한 뒤 연결
        return '\n'.join(
            self.template.format(a, eval(a)._repr_html_())  # 객체 이름과 실제 객체의 HTML 출력
            for a in self.args
        )

    def __repr__(self):
        # 터미널 등에서의 문자열 표현
        return '\n\n'.join(
            a + '\n' + repr(eval(a))  # 객체 이름과 객체의 문자열 표현
            for a in self.args
        )

In [5]:
import numpy as np  # NumPy 라이브러리 불러오기

# x, y, z 리스트 정의
x = [1, 2, 3]       # 길이가 3인 리스트
y = [4, 5, 6]       # 길이가 3인 리스트
z = [7, 8, 9]       # 길이가 3인 리스트

# np.concatenate() 함수를 이용해 여러 리스트를 하나의 NumPy 배열로 연결
# 기준 축(axis)은 0이 기본값이며, 
# 리스트(또는 1차원 배열)를 순차적으로 이어붙이며 1차원 배열을 생성
result = np.concatenate([x, y, z])

# 결과 출력: 연결된 배열 [1 2 3 4 5 6 7 8 9]
print(result)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis = 1)

[[1 2 1 2]
 [3 4 3 4]]


In [8]:
import numpy as np  # NumPy 라이브러리 불러오기

# 2차원 리스트 x 정의
# x는 2x2 형태의 리스트이며, 내부 요소는 정수
x = [
    [1, 2],  # 첫 번째 행
    [3, 4]   # 두 번째 행
]

# np.concatenate() 함수를 이용해 x를 열 방향(axis=1)으로 이어 붙임
# 즉, x의 열(가로)을 확장하는 방식으로 연결
result = np.concatenate([x, x], axis=1)

# 결과 출력: 
# [[1 2 1 2]
#  [3 4 3 4]]
print(result)

[[1 2 1 2]
 [3 4 3 4]]


In [9]:
pd.concat(objs, axis = 0, join = 'outer', join_axis = None, ignore_index = False,
          keys = None, levels = None, names = None, verify_integrity = False,
          copy = True)

NameError: name 'objs' is not defined

In [10]:
import pandas as pd  # pandas 라이브러리 불러오기

# 두 개의 Series 정의 
# ser1: 인덱스가 [1, 2, 3], 값이 ['A', 'B', 'C']
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])

# ser2: 인덱스가 [4, 5, 6], 값이 ['D', 'E', 'F']
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

# pd.concat()을 사용하여 ser1과 ser2를 하나의 Series로 연결
# 기본적으로 axis=0(행 방향)로 이어 붙임
result = pd.concat([ser1, ser2])

# 결과 출력: 인덱스가 1,2,3,4,5,6이 되고
# 값이 A,B,C,D,E,F 순서로 연결된 새로운 Series 생성
print(result)

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [13]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1)

    A   B
1  A1  B1
2  A2  B2


In [14]:
print(df2)

    A   B
3  A3  B3
4  A4  B4


In [15]:
print(pd.concat([df1, df2])) # 기본은 axis = 0

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [16]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3)

    A   B
0  A0  B0
1  A1  B1


In [17]:
print(df4)

    C   D
0  C0  D0
1  C1  D1


In [18]:
print(pd.concat([df3, df4], axis = 1))

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [19]:
import pandas as pd

def make_df(cols, ind):
    """빠르게 DataFrame 생성"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

# x, y라는 두 개의 DataFrame 생성
# 각 DataFrame은 열(cols='AB')과 인덱스(ind=[0,1], [2,3])로 구성
x = make_df('AB', [0, 1])  # 인덱스 0,1
y = make_df('AB', [2, 3])  # 인덱스 2,3

# y의 인덱스를 x의 인덱스로 덮어씀 -> 인덱스가 0,1이됨
y.index = x.index  # 인덱스가 완전히 동일

# x, y 출력
print("DataFrame x:")
print(x)
print("\nDataFrame y:")
print(y)

# pd.concat()으로 x, y를 연결
# 기본으로 axis=0(행 방향)으로 연결하므로, 
# 인덱스가 동일해서 중복된 인덱스가 생김
print("\nConcatenated DataFrame:")
print(pd.concat([x, y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [20]:
# 반복을 에러로 잡아낸다
# 동일한 인덱스가 존재하기 때문에 verify_integrity=True일 경우 ValueError 발생

try:
    pd.concat([x, y], verify_integrity = True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


In [21]:
# 인덱스를 무시한다

print(x)  # DataFrame x 출력
print(y)  # DataFrame y 출력

# pd.concat()을 사용하여 x와 y를 연결할 때 기존 인덱스를 무시하고 새로운 인덱스를 부여
# ignore_index=True를 설정하면 연결된 DataFrame의 인덱스가 0부터 시작하는 새로운 정수 인덱스로 재설정됨
# 이렇게 하면 원래의 인덱스가 중복되거나 겹치는 문제를 방지할 수 있음
print(pd.concat([x, y], ignore_index=True))
# 결과:
#    A   B
# 0  A0  B0
# 1  A1  B1
# 2  A0  B0
# 3  A1  B1

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [22]:
# 다중 인덱스 키를 추가한다

import pandas as pd  # pandas 라이브러리 불러오기

def make_df(cols, ind):
    """빠르게 DataFrame 생성"""
    # 각 열 이름(c)에 대해 인덱스(ind)를 문자열로 결합한 리스트 생성
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    # 생성된 딕셔너리를 사용해 DataFrame 생성, 인덱스는 ind로 설정
    return pd.DataFrame(data, ind)

# DataFrame x 생성: 열 'A', 'B'와 인덱스 0, 1
x = make_df('AB', [0, 1])
# DataFrame y 생성: 열 'A', 'B'와 인덱스 2, 3
y = make_df('AB', [2, 3])

# y의 인덱스를 x의 인덱스와 동일하게 설정 (0, 1으로 변경)
y.index = x.index  # 인덱스가 0, 1로 변경됨

# DataFrame x 출력
print("DataFrame x:")
print(x)
# 출력 예시:
#     A   B
# 0  A0  B0
# 1  A1  B1

# DataFrame y 출력
print("\nDataFrame y:")
print(y)
# 출력 예시:
#     A   B
# 0  A0  B0
# 1  A1  B1

# pd.concat()을 사용하여 x와 y를 연결하면서 keys를 추가하여 다중 인덱스 생성
# keys=['x', 'y']는 상위 인덱스로 사용되어 결과 DataFrame의 계층적 인덱스를 형성
concatenated = pd.concat([x, y], keys=['x', 'y'])

# 연결된 DataFrame 출력
print("\nConcatenated DataFrame with MultiIndex keys ['x', 'y']:")
print(concatenated)
# 출력 예시:
#       A   B
# x 0  A0  B0
#   1  A1  B1
# y 0  A0  B0
#   1  A1  B1

# 결과 설명:
# - 상위 레벨 인덱스가 'x'와 'y'로 설정되어, 원본 DataFrame x와 y를 구분 가능
# - 하위 레벨 인덱스는 원래의 인덱스 (0, 1)가 유지됨
# - MultiIndex가 적용되어 데이터의 출처를 명확히 구분할 수 있음

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3


In [23]:
import pandas as pd  # pandas 라이브러리 불러오기

def make_df(cols, ind):
    """빠르게 DataFrame 생성"""
    # 각 열 이름(c)에 대해 인덱스(ind)를 문자열로 결합한 리스트 생성
    # 예: c='A', ind=[1,2] -> ['A1', 'A2']
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    # 생성된 딕셔너리를 사용해 DataFrame 생성, 인덱스는 ind로 설정
    return pd.DataFrame(data, ind)

# DataFrame df5 생성: 열 'A', 'B', 'C'와 인덱스 1, 2
df5 = make_df('ABC', [1, 2])
# DataFrame df6 생성: 열 'B', 'C', 'D'와 인덱스 3, 4
df6 = make_df('BCD', [3, 4])

# df5 출력
print("DataFrame df5:")
print(df5)
# 출력 예시:
#     A   B   C
# 1  A1  B1  C1
# 2  A2  B2  C2

# df6 출력
print("\nDataFrame df6:")
print(df6)
# 출력 예시:
#     B   C   D
# 3  B3  C3  D3
# 4  B4  C4  D4

# pd.concat()을 사용하여 df5와 df6을 연결
# 기본적으로 axis=0 (행 방향)으로 연결
concatenated = pd.concat([df5, df6])

# 연결된 DataFrame 출력
print("\nConcatenated DataFrame:")
print(concatenated)
# 출력 예시:
#      A    B    C    D
# 1   A1   B1   C1  NaN
# 2   A2   B2   C2  NaN
# 3  NaN   B3   C3    D3
# 4  NaN   B4   C4    D4

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [24]:
print(df5)
print(df6)
print(pd.concat([df5, df6], join = 'inner'))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [25]:
print(df5)
print(df6)
print(pd.concat([df5, df6], join_axes = [df5.columns])) # 최신 pandassms join_axes 지원 안된다.

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


TypeError: concat() got an unexpected keyword argument 'join_axes'

In [26]:
# df1 DataFrame 출력
print(df1)  # df1의 전체 내용을 콘솔에 출력

# df2 DataFrame 출력
print(df2)  # df2의 전체 내용을 콘솔에 출력

# df1에 df2를 추가하여 새로운 DataFrame 생성 및 출력
print(df1.append(df2))  # df1의 아래에 df2를 행 방향으로 추가하여 병합한 결과를 출력

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


  print(df1.append(df2))
