In [4]:
import pandas as pd
import sys

# 1. 파일 이름 정의
file1 = 'second_final_data.csv'
file2 = '../common_events_matched_proceed.csv'
output_file = 'second_final_data.csv'

# 2. 중복 식별 기준이 될 4개 컬럼
dedup_keys = ['Year', 'Month', 'latitude', 'longitude']

try:
    # 3. 두 개의 CSV 파일 로드
    df1 = pd.read_csv(file1)
    df2 = pd.read_csv(file2)

    print(f"--- 1번 파일 '{file1}' 로드 ---")
    print(f"  - 행 수: {len(df1)}")
    print(f"  - 컬럼: {df1.columns.tolist()}")

    print(f"\n--- 2번 파일 '{file2}' 로드 ---")
    print(f"  - 행 수: {len(df2)}")
    print(f"  - 컬럼: {df2.columns.tolist()}")

    # 4. 두 데이터프레임 합치기 (Concatenate)
    combined_df = pd.concat([df1, df2], ignore_index=True)

    original_total_count = len(combined_df)

    print(f"\n--- 1, 2번 파일 병합 완료 ---")
    print(f"  - 병합 후 총 행 수: {original_total_count}")

    # 5. 'Year', 'Month', 'latitude', 'longitude' 4개 컬럼 기준으로 중복 제거
    #    keep='first' : 중복된 경우, 'Origin_data.csv' (df1)에 있던 것을 유지
    df_final = combined_df.drop_duplicates(subset=dedup_keys, keep='first')

    final_count = len(df_final)
    removed_count = original_total_count - final_count

    # 6. 결과 보고
    print("\n--- 4개 키 기준 중복 제거 완료 ---")
    print(f"  - 병합 후 총 행 수: {original_total_count}")
    print(f"  - 중복으로 제거된 행 수: {removed_count}")
    print(f"  - 최종 남은 행 수: {final_count}")

    # 7. 새 CSV 파일로 저장
    df_final.to_csv(output_file, index=False, encoding='utf-8-sig')
    print(f"\n[성공] 중복이 제거된 최종 데이터가 '{output_file}'로 저장되었습니다.")

except FileNotFoundError as e:
    print(f"[오류] 파일 중 하나를 찾을 수 없습니다: {e.filename}", file=sys.stderr)
except KeyError as e:
    print(f"[오류] '{e}' 컬럼을 찾을 수 없습니다. (기준 컬럼이 파일에 있는지 확인)", file=sys.stderr)
except Exception as e:
    print(f"[오류] 데이터를 처리하는 중 오류가 발생했습니다: {e}", file=sys.stderr)

--- 1번 파일 'second_final_data.csv' 로드 ---
  - 행 수: 1135
  - 컬럼: ['magnitude', 'depth', 'latitude', 'longitude', 'Year', 'Month', 'is_ocean', 'is_steep_slope', 'horizontal_count_1y_full', 'vertical_count_1y_full', 'tsunami']

--- 2번 파일 '../common_events_matched_proceed.csv' 로드 ---
  - 행 수: 91
  - 컬럼: ['magnitude', 'depth', 'latitude', 'longitude', 'Year', 'Month', 'is_ocean', 'is_steep_slope', 'horizontal_count_1y_full', 'vertical_count_1y_full', 'tsunami']

--- 1, 2번 파일 병합 완료 ---
  - 병합 후 총 행 수: 1226

--- 4개 키 기준 중복 제거 완료 ---
  - 병합 후 총 행 수: 1226
  - 중복으로 제거된 행 수: 66
  - 최종 남은 행 수: 1160

[성공] 중복이 제거된 최종 데이터가 'second_final_data.csv'로 저장되었습니다.
