In [4]:
import pandas as pd

# CSV 파일 경로 (필요에 따라 경로 수정)
file1 = 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/video_categories_with_top.csv'
file2 = 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/pos_tagged_data_with_category.csv'

# 두 CSV 파일 읽기
df1 = pd.read_csv(file1)
df2 = pd.read_csv(file2)

# 각 파일의 videoID 집합 생성
videoIDs1 = set(df1['videoID'])
videoIDs2 = set(df2['videoID'])

# file1에는 있는데 file2에는 없는 videoID와 file2에는 있는데 file1에는 없는 videoID 계산
only_in_file1 = videoIDs1 - videoIDs2
only_in_file2 = videoIDs2 - videoIDs1

# 결과 DataFrame 생성 (어느 파일에만 존재하는지 정보도 추가)
df_missing_file1 = pd.DataFrame({'videoID': list(only_in_file1), 'source': 'file1'})
df_missing_file2 = pd.DataFrame({'videoID': list(only_in_file2), 'source': 'file2'})

# 두 DataFrame을 합침
df_missing = pd.concat([df_missing_file1, df_missing_file2], ignore_index=True)

# 결과 CSV 파일 경로 설정
output_file = 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/missing_videoIDs.csv'

# 결과 DataFrame이 비어 있는지 확인
if df_missing.empty:
    print("모든 videoID가 양쪽 파일에 존재합니다. 결과 파일은 비어 있습니다.")
else:
    # 결과 CSV 파일로 저장
    df_missing.to_csv(output_file, index=False)
    print("비교 결과, 한쪽 파일에만 존재하는 videoID가 '{}' 파일에 저장되었습니다.".format(output_file))

모든 videoID가 양쪽 파일에 존재합니다. 결과 파일은 비어 있습니다.


In [6]:
import pandas as pd

def save_duplicate_videoid_rows(df, output_path, videoid_col='videoID'):
    """
    주어진 DataFrame에서 videoID가 중복되어 나타나는 행들을 찾고,
    중복된 행의 총 개수를 출력한 후, 결과를 CSV 파일로 저장하는 함수입니다.
    
    Parameters:
        df (pd.DataFrame): 분석할 DataFrame
        output_path (str): 중복 행들을 저장할 CSV 파일 경로
        videoid_col (str): videoID가 저장된 컬럼명 (기본값: 'videoID')
    """
    # videoID 컬럼 기준으로 중복된 모든 행 찾기 (keep=False: 모든 중복 행 표시)
    dup_rows = df[df.duplicated(subset=videoid_col, keep=False)]
    
    # 중복된 행의 총 개수
    count_dup = dup_rows.shape[0]
    
    print(f"중복된 videoID를 가진 총 {count_dup} 행이 있습니다.")
    
    # 중복된 행들을 CSV 파일로 저장
    dup_rows.to_csv(output_path, index=False)
    print(f"중복된 행들이 '{output_path}'에 저장되었습니다.")

# 예시 사용법: pos_tagged_data_with_category.csv 파일 읽고 함수 실행
if __name__ == "__main__":
    # 파일 경로에 맞게 CSV 파일 읽기
    df_pos = pd.read_csv('C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/pos_tagged_data_with_category.csv')
    
    # 중복된 videoID 행을 저장할 파일 경로 설정
    output_file = 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/duplicate_videoIDs.csv'
    
    # 함수 실행
    save_duplicate_videoid_rows(df_pos, output_file, videoid_col='videoID')


중복된 videoID를 가진 총 202 행이 있습니다.
중복된 행들이 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/duplicate_videoIDs.csv'에 저장되었습니다.


In [7]:
import pandas as pd

# 파일 경로에 맞게 CSV 파일 읽기
input_file = 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/pos_tagged_data_with_category.csv'
df = pd.read_csv(input_file)

# videoID 컬럼을 기준으로 중복 제거 (첫번째 행만 남김)
df_unique = df.drop_duplicates(subset='videoID', keep='first')

# 중복 제거된 데이터프레임의 행 개수 출력
print(f"원본 행 개수: {df.shape[0]}, 중복 제거 후 행 개수: {df_unique.shape[0]}")

# 결과 CSV 파일로 저장
output_file = 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/pos_tagged_data_with_category_unique.csv'
df_unique.to_csv(output_file, index=False)
print(f"중복된 videoID가 제거된 파일이 '{output_file}'에 저장되었습니다.")


원본 행 개수: 101537, 중복 제거 후 행 개수: 101436
중복된 videoID가 제거된 파일이 'C:/Users/hp/Desktop/Bootcamp/PROJECT_OTT_AARRR/pos_tagged_data_with_category_unique.csv'에 저장되었습니다.
