In [5]:
import pandas as pd

def check_duplicates(input_path="../data/metadata/raw/", 
                     input_name="metadata.csv", 
                     subset_columns=['name', 'version', 'rubygems_version'], 
                     output_path="../data/metadata/raw/", 
                     output_name="checked_metadata.csv", 
                     duplicates_output_path="../data/metadata/raw/duplicate_metadata.csv"):
    """
    메타데이터 파일에서 중복된 행을 확인하고 처리한 후 결과를 저장하는 함수.
    
    :param input_path: 데이터 파일이 저장된 입력 경로 (기본값: "../data/metadata/raw/")
    :param input_name: 입력 파일 이름 (기본값: "metadata.csv")
    :param subset_columns: 중복을 확인할 열들의 리스트 (기본값: ['name', 'version', 'rubygems_version'])
    :param output_path: 중복 제거된 데이터를 저장할 경로 (기본값: "../data/metadata/raw/")
    :param output_name: 중복 제거된 데이터를 저장할 파일 이름 (기본값: "checked_metadata.csv")
    :param duplicates_output_path: 중복된 데이터를 저장할 경로 (기본값: "../data/metadata/raw/duplicate_metadata.csv")
    """
    # 데이터 읽기
    df = pd.read_csv(input_path + input_name)

    # 중복된 행을 찾아 출력 및 DataFrame으로 저장
    duplicates = df[df.duplicated(subset=subset_columns, keep=False)]
    if not duplicates.empty:
        print("중복된 행의 정보:")
        print(duplicates[subset_columns])
        
        # 중복된 행을 별도의 파일로 저장
        duplicates.to_csv(duplicates_output_path, index=False)
        print(f"중복된 메타데이터가 {duplicates_output_path}에 저장되었습니다.")
    else:
        print("중복된 행이 없습니다.")

    # 중복된 행을 제거
    df_checked = df.drop_duplicates(subset=subset_columns, keep='first')

    # 중복 제거 전/후 행 개수 확인
    print(f"중복 제거 전 데이터프레임 크기: {df.shape}")
    print(f"중복 제거 후 데이터프레임 크기: {df_checked.shape}")

    # 중복 제거된 데이터를 새로운 파일로 저장
    df_checked.to_csv(output_path + output_name, index=False)
    print(f"중복 제거된 데이터가 {output_path + output_name}에 저장되었습니다.")

# 함수 호출 예시 (기본값으로 실행)
check_duplicates()

중복된 행의 정보:
                  name                version rubygems_version
178     active-support   {'version': '5.2.0'}         2.6.14.1
326     aloha_analyser   {'version': '0.6.2'}            3.0.3
463          auto-cron  {'version': '0.1.16'}            3.0.3
471        awesome-bot  {'version': '1.18.0'}            3.0.3
527  blockchain_wallet   {'version': '0.0.7'}            3.0.3
..                 ...                    ...              ...
851          ruby_nmap   {'version': '0.9.3'}            3.0.3
854    simple_captcha2   {'version': '0.2.3'}            2.7.3
855           TacoBell   {'version': '0.1.0'}            3.0.3
856          unixCrypt   {'version': '1.3.0'}            3.0.3
857         unix_crypt   {'version': '1.3.0'}            3.0.3

[68 rows x 3 columns]
중복된 메타데이터가 ../data/metadata/raw/duplicate_metadata.csv에 저장되었습니다.
중복 제거 전 데이터프레임 크기: (860, 30)
중복 제거 후 데이터프레임 크기: (826, 30)
중복 제거된 데이터가 ../data/metadata/raw/checked_metadata.csv에 저장되었습니다.
