다른 열값이 있는 경우

In [1]:
import pandas as pd

# 두 데이터프레임 생성 (예시)
data1 = {
    '기준일시': ['2022-04-01', '2022-04-02', '2022-04-03'],
    '열1': [10, 20, 30],
    '열2': [100, 200, 300],
    '열3': ['A', 'B', 'C']
}
df1 = pd.DataFrame(data1)

data2 = {
    '기준일시': ['2022-04-01', '2022-04-02', '2022-04-03'],
    '열1': [10, 20, 40],
    '열2': [100, 200, 300],
    '열3': ['A', 'B', 'D']
}
df2 = pd.DataFrame(data2)

# '기준일시'를 기준으로 두 데이터프레임 조인
merged = pd.merge(df1, df2, on='기준일시', suffixes=('_df1', '_df2'))

# 다른 열 값이 있는지 확인하는 함수
def check_different(row):
    cols = row.index[1:]
    return any(row[col] != row[col.replace('_df1', '_df2')] for col in cols)

# apply를 사용하여 다른 열 값이 있는 행들 추출
different_values = merged[merged.apply(check_different, axis=1)]

# 결과 출력
if not different_values.empty:
    print("다른 열 값이 있는 행들:")
    print(different_values)


다른 열 값이 있는 행들:
         기준일시  열1_df1  열2_df1 열3_df1  열1_df2  열2_df2 열3_df2
2  2022-04-03      30     300      C      40     300      D


절대값 차이 1 넘는 경우

In [8]:
# 두 데이터프레임 생성 (예시)
data1 = {
    '기준일시': ['2022-04-01', '2022-04-02', '2022-04-03'],
    '현재수요': [100, 200, 300]
}
df1 = pd.DataFrame(data1)

data2 = {
    '기준일시': ['2022-04-01', '2022-04-02', '2022-04-03'],
    '현재수요': [100, 250, 301]
}
df2 = pd.DataFrame(data2)

# '기준일시'를 기준으로 두 데이터프레임 조인
merged = pd.merge(df1, df2, on='기준일시', suffixes=('_df1', '_df2'))

# 현재수요값의 차이 계산
merged['차이'] = merged['현재수요_df2'] - merged['현재수요_df1']

# 차이의 절대값이 1 이상인 행 추출
difference_over_1 = merged[abs(merged['차이']) >= 1]

# 결과 출력
print("차이의 절대값이 1 이상인 행들:")
print(difference_over_1)

차이의 절대값이 1 이상인 행들:
         기준일시  현재수요_df1  현재수요_df2  차이
1  2022-04-02       200       250  50
2  2022-04-03       300       301   1


outer로 합치기

In [4]:
import pandas as pd

# 첫번째 데이터프레임 생성 (예시)
data1 = {
    '기준일시': ['2022-04-01', '2022-04-02', '2022-04-03'],
    '현재수요': [100, 200, 300]
}
df1 = pd.DataFrame(data1)

# 두번째 데이터프레임 생성 (예시)
data2 = {
    '기준일시': ['2022-04-02', '2022-04-03', '2022-04-04'],
    '현재수요': [150, 250, 350]
}
df2 = pd.DataFrame(data2)

# 첫번째 데이터프레임을 기준으로 두 데이터프레임 합치기
merged = pd.merge(df1, df2, on='기준일시', how='outer', suffixes=('_df1', '_df2'))

# 같은 값이 있는 경우 첫번째 데이터프레임의 값으로 채우기
merged['현재수요'] = merged['현재수요_df1'].combine_first(merged['현재수요_df2'])

# 기준일시 열과 불필요한 열 제거
merged.drop(['현재수요_df1', '현재수요_df2'], axis=1, inplace=True)

# 결과 출력
print(merged)


         기준일시   현재수요
0  2022-04-01  100.0
1  2022-04-02  200.0
2  2022-04-03  300.0
3  2022-04-04  350.0
