In [2]:
import pandas as pd
import ast  # 문자열 리스트를 실제 리스트로 변환하기 위해 필요

# CSV 파일 불러오기
df = pd.read_csv("data_listed.csv")

# '매출액' 리스트를 변환하고 합산
def calculate_total_sales(sales_str):
    try:
        sales_list = ast.literal_eval(sales_str)  # 문자열 → 리스트 변환
        return sum(sales_list)
    except:
        return 0  # 오류 발생 시 0 반환

# '총매출액' 컬럼 생성
df['총매출액'] = df['매출액'].apply(calculate_total_sales)

# 총매출액 컬럼을 '매출액' 바로 뒤로 이동
cols = df.columns.tolist()
매출액_idx = cols.index('매출액')
# '총매출액' 위치 재조정
cols.insert(매출액_idx + 1, cols.pop(cols.index('총매출액')))
df = df[cols]

# 결과 저장
df.to_csv("data_add_sales.csv", index=False, encoding='utf-8-sig')

In [3]:
# 누적매출액 열 제거

import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv("data_add_sales.csv")

# '누적매출액' 열 제거 (존재할 경우에만)
if '누적매출액' in df.columns:
    df = df.drop(columns=['누적매출액'])

# 업데이트된 데이터 저장
df.to_csv("data_add_sales.csv", index=False, encoding='utf-8-sig')

In [11]:
# 장르가 빈 영화 개수 확인

import pandas as pd

# CSV 불러오기
df = pd.read_csv("data_add_sales.csv")

# 장르가 비어 있거나 공백인 경우 찾기
missing_genre = df['장르'].isna() | (df['장르'].astype(str).str.strip() == '')

# 출력 행 수 제한 해제
pd.set_option('display.max_rows', None)

# 장르가 없는 영화 수 출력
print("장르가 없는 영화 수:", missing_genre.sum())

# 영화 제목 전체 출력
print("장르가 없는 영화 제목 목록:")
print(df.loc[missing_genre, '영화명'])

장르가 없는 영화 수: 0
장르가 없는 영화 제목 목록:
Series([], Name: 영화명, dtype: object)


In [8]:
# 콤마 뒤 공백 제거

import pandas as pd

# CSV 불러오기
df = pd.read_csv("data_add_sales.csv")

# 콤마 뒤 공백 제거: ", 액션" → ",액션"
df['장르'] = df['장르'].astype(str).str.replace(r',\s+', ',', regex=True)

# 저장
df.to_csv("data_add_sales.csv", index=False, encoding='utf-8-sig')

In [12]:
import os

# 기존 파일명과 새 파일명
old_name = 'data_add_sales.csv'
new_name = 'final_data.csv'

# 파일 이름 변경
if os.path.exists(old_name):
    os.rename(old_name, new_name)
    print(f"{old_name} → {new_name} 으로 파일명이 변경되었습니다.")
else:
    print(f"{old_name} 파일이 존재하지 않습니다.")

data_add_sales.csv → final_data.csv 으로 파일명이 변경되었습니다.
