In [39]:
import pandas as pd
PATH = "~/temp/movie/dt=20240101"
df = pd.read_parquet(PATH)

len(df)

130

In [57]:
df.groupby(['multiMovieYn', 'repNationCd'], dropna=False, observed=False) \
.size() \
.reset_index(name='count')

Unnamed: 0,multiMovieYn,repNationCd,count
0,N,F,0
1,N,K,0
2,N,,20
3,Y,F,0
4,Y,K,0
5,Y,,20
6,,F,30
7,,K,30
8,,,30


In [31]:
print(df.columns)

Index(['rnum', 'rank', 'rankInten', 'rankOldAndNew', 'movieCd', 'movieNm',
       'openDt', 'salesAmt', 'salesShare', 'salesInten', 'salesChange',
       'salesAcc', 'audiCnt', 'audiInten', 'audiChange', 'audiAcc', 'scrnCnt',
       'showCnt', 'multiMovieYn', 'repNationCd'],
      dtype='object')


In [32]:
print(df.dtypes)

rnum                int64
rank                int64
rankInten           int64
rankOldAndNew      object
movieCd            object
movieNm            object
openDt             object
salesAmt            int64
salesShare        float64
salesInten          int64
salesChange       float64
salesAcc           object
audiCnt             int64
audiInten           int64
audiChange        float64
audiAcc             int64
scrnCnt             int64
showCnt             int64
multiMovieYn     category
repNationCd      category
dtype: object


In [6]:
def col_drop_movie_data(df):
    df = df.copy()  # ✅ 원본과 독립적인 복사본 생성

    # ✅ 필요 없는 컬럼 제거
    cols_to_drop = [
        'rnum', 'rank', 'rankInten', 'rankOldAndNew', 'openDt',
        'salesShare', 'salesInten', 'salesChange', 'salesAcc',
        'audiInten', 'audiChange', 'audiAcc',
        'scrnCnt', 'showCnt'
    ]
    
    # ✅ df에 있는 컬럼만 제거 (혹시 일부 컬럼이 없을 경우 대비)
    df.drop(columns=[col for col in cols_to_drop if col in df.columns], inplace=True)
    return df

In [7]:
df_copies = col_drop_movie_data(df)
df_copies

Unnamed: 0,movieCd,movieNm,salesAmt,audiCnt,multiMovieYn,repNationCd
0,20203702,노량: 죽음의 바다,2893509165,290717,,
1,20212866,서울의 봄,2666429137,262422,,
2,20236146,신차원! 짱구는 못말려 더 무비 초능력 대결전 ~날아라 수제김밥~,565417320,58239,,
3,20235735,아쿠아맨과 로스트 킹덤,507984981,49368,,
4,20235596,트롤: 밴드 투게더,273538754,28988,,
...,...,...,...,...,...,...
125,20202247,싱글 인 서울,1903007,212,,K
126,20228560,너와 나,2625839,192,,K
127,20235697,엔시티 네이션 : 투 더 월드 인 시네마,1364000,69,,K
128,20232077,어른 김장하,214000,31,,K


In [60]:
for _, row in df.iterrows():
    if pd.isna(row['multiMovieYn']):
        print(f"{row['movieCd']}")

20203702
20212866
20236146
20235735
20235596
20234673
20235290
20234114
20236045
20235980
20203702
20212866
20236146
20235735
20235596
20234673
20235290
20234114
20236045
20235980
20203702
20212866
20236146
20235735
20235596
20234673
20235290
20234114
20236045
20235980
20236146
20235735
20235596
20234114
20236045
20235980
20236080
20233299
20235923
20235693
20236146
20235735
20235596
20234114
20236045
20235980
20236080
20233299
20235923
20235693
20236146
20235735
20235596
20234114
20236045
20235980
20236080
20233299
20235923
20235693
20203702
20212866
20234673
20235290
20190324
20202247
20228560
20235697
20232077
20227525
20203702
20212866
20234673
20235290
20190324
20202247
20228560
20235697
20232077
20227525
20203702
20212866
20234673
20235290
20190324
20202247
20228560
20235697
20232077
20227525


In [61]:
r = df[df['movieCd'] == '20203702'][['movieCd', 'movieNm', 'multiMovieYn', 'repNationCd']]
# pdm add -dG note tabulate
print(r.to_markdown())

|     |   movieCd | movieNm           | multiMovieYn   | repNationCd   |
|----:|----------:|:------------------|:---------------|:--------------|
|   0 |  20203702 | 노량: 죽음의 바다 | nan            | nan           |
|  10 |  20203702 | 노량: 죽음의 바다 | nan            | nan           |
|  20 |  20203702 | 노량: 죽음의 바다 | nan            | nan           |
|  30 |  20203702 | 노량: 죽음의 바다 | N              | nan           |
|  40 |  20203702 | 노량: 죽음의 바다 | N              | nan           |
| 100 |  20203702 | 노량: 죽음의 바다 | nan            | K             |
| 110 |  20203702 | 노량: 죽음의 바다 | nan            | K             |
| 120 |  20203702 | 노량: 죽음의 바다 | nan            | K             |


In [62]:
print(f"🛑 multiMovieYn NaN 개수: {df_copies['multiMovieYn'].isna().sum()}")
print(f"🛑 repNationCd NaN 개수: {df_copies['repNationCd'].isna().sum()}")
print(f"🛑 multiMovieYn & repNationCd NaN 개수: {df_copies[df_copies['multiMovieYn'].isna() & df_copies['repNationCd'].isna()].shape[0]}")

🛑 multiMovieYn NaN 개수: 90
🛑 repNationCd NaN 개수: 70
🛑 multiMovieYn & repNationCd NaN 개수: 30


In [38]:
import pandas as pd

# ✅ 1️⃣ 데이터 로드
PATH = "~/temp/movie/dt=20240101"
df = pd.read_parquet(PATH)

# ✅ 2️⃣ 중복 제거 전 NaN 개수 확인
print(f"🛑 중복 제거 전 repNationCd NaN 개수: {df['repNationCd'].isna().sum()}")

# ✅ 3️⃣ multiMovieYn, repNationCd 결측치 채우기 (같은 movieCd 내에서)
df['multiMovieYn'] = df.groupby('movieCd')['multiMovieYn'].ffill().bfill()
df['repNationCd'] = df.groupby('movieCd')['repNationCd'].ffill().bfill()

# ✅ 4️⃣ 중복 제거 (NaN이 있는 행을 우선 유지)
df_unique = df.sort_values(by=['repNationCd'], na_position='first') \
              .drop_duplicates(subset=['movieCd'], keep='first')

# ✅ 5️⃣ 중복 제거 후 NaN 개수 확인
df_unique_na = df_unique[df_unique['repNationCd'].isna()]
print(f"✅ 중복 제거 후 repNationCd NaN 개수: {df_unique_na.shape[0]}")
print(df_unique_na[['movieCd', 'movieNm', 'repNationCd']].to_markdown())

# ✅ 6️⃣ unique한 영화 개수 확인
unique_movie_count = df_unique['movieCd'].nunique()
print(f"🎬 Unique한 영화 개수: {unique_movie_count} 편")

# ✅ 7️⃣ 관객수 기준으로 rnum, rank 생성
df_unique = df_unique.sort_values(by='audiCnt', ascending=False)
df_unique['rnum'] = range(1, len(df_unique) + 1)
df_unique['rank'] = df_unique['rnum']

# ✅ 8️⃣ Top 3, Bottom 3 영화 출력
top_3_movies = df_unique.head(3)['movieNm'].tolist()
bottom_3_movies = df_unique.tail(3)['movieNm'].tolist()

print(f"🏆 Top 3 영화: {top_3_movies}")
print(f"🏅 Bottom 3 영화: {bottom_3_movies}")


🛑 중복 제거 전 repNationCd NaN 개수: 70
✅ 중복 제거 후 repNationCd NaN 개수: 0
| movieCd   | movieNm   | repNationCd   |
|-----------|-----------|---------------|
🎬 Unique한 영화 개수: 25 편
🏆 Top 3 영화: ['노량: 죽음의 바다', '서울의 봄', '신차원! 짱구는 못말려 더 무비 초능력 대결전 ~날아라 수제김밥~']
🏅 Bottom 3 영화: ['엔시티 네이션 : 투 더 월드 인 시네마', '어른 김장하', '교토에서 온 편지']


In [48]:
# 1️⃣ 결측치 채우기 전에 개수를 먼저 확인
rep_na_count_before = df['repNationCd'].isna().sum()
multi_na_count_before = df['multiMovieYn'].isna().sum()
both_na_count_before = df[df['multiMovieYn'].isna() & df['repNationCd'].isna()].shape[0]

print(f"❌ BEFORE: multiMovieYn NaN 개수: {multi_na_count_before}")
print(f"❌ BEFORE: repNationCd NaN 개수: {rep_na_count_before}")
print(f"❌ BEFORE: multiMovieYn & repNationCd NaN 개수: {both_na_count_before}")

# 2️⃣ NaN 채우기 (groupby로 같은 movieCd 내에서 채우기)
df['multiMovieYn'] = df.groupby('movieCd')['multiMovieYn'].ffill().bfill()
df['repNationCd'] = df.groupby('movieCd')['repNationCd'].ffill().bfill()

# 3️⃣ 결측치 채운 후 다시 개수 확인
rep_na_count_after = df['repNationCd'].isna().sum()
multi_na_count_after = df['multiMovieYn'].isna().sum()
both_na_count_after = df[df['multiMovieYn'].isna() & df['repNationCd'].isna()].shape[0]

print(f"✅ AFTER: multiMovieYn NaN 개수: {multi_na_count_after}")
print(f"✅ AFTER: repNationCd NaN 개수: {rep_na_count_after}")
print(f"✅ AFTER: multiMovieYn & repNationCd NaN 개수: {both_na_count_after}")


❌ BEFORE: multiMovieYn NaN 개수: 90
❌ BEFORE: repNationCd NaN 개수: 70
❌ BEFORE: multiMovieYn & repNationCd NaN 개수: 30
✅ AFTER: multiMovieYn NaN 개수: 5
✅ AFTER: repNationCd NaN 개수: 0
✅ AFTER: multiMovieYn & repNationCd NaN 개수: 0


In [49]:
df_original = pd.read_parquet(PATH)  # 데이터 처음 로드
print(df_original['repNationCd'].isna().sum())  # 🔍 원본 데이터에서 NaN 개수 확인


70


In [50]:
# ✅ ffill().bfill() 적용 전 NaN 개수 확인
print(f"🛑 ffill.bfill 적용 전 repNationCd NaN 개수: {df['repNationCd'].isna().sum()}")

# ✅ 같은 movieCd 내에서 NaN 채우기
df['repNationCd'] = df.groupby('movieCd')['repNationCd'].ffill().bfill()

# ✅ 적용 후 NaN 개수 확인
print(f"✅ ffill.bfill 적용 후 repNationCd NaN 개수: {df['repNationCd'].isna().sum()}")


🛑 ffill.bfill 적용 전 repNationCd NaN 개수: 0
✅ ffill.bfill 적용 후 repNationCd NaN 개수: 0


In [51]:
import pandas as pd

# ✅ 1️⃣ 데이터 로드
PATH = "~/temp/movie/dt=20240101"
df = pd.read_parquet(PATH)

# ✅ 2️⃣ 컬럼 확인
print("📌 DataFrame 컬럼 목록:", df.columns.tolist())

# ✅ 3️⃣ movieCd 기준 unique한 영화 개수 확인
unique_movie_count = df['movieCd'].nunique()
print(f"🎬 Unique한 영화 개수: {unique_movie_count} 편")

# ✅ 4️⃣ multiMovieYn, repNationCd 결측치 채우기 (같은 movieCd 내에서)
df['multiMovieYn'] = df.groupby('movieCd')['multiMovieYn'].ffill().bfill()
df['repNationCd'] = df.groupby('movieCd')['repNationCd'].ffill().bfill()

# ✅ 5️⃣ NaN 개수 확인
multi_na_count = df['multiMovieYn'].isna().sum()
rep_na_count = df['repNationCd'].isna().sum()
both_na_count = df[df['multiMovieYn'].isna() & df['repNationCd'].isna()].shape[0]

print(f"❓ multiMovieYn NaN 개수: {multi_na_count}")
print(f"❓ repNationCd NaN 개수: {rep_na_count}")
print(f"❓ multiMovieYn & repNationCd NaN 개수: {both_na_count}")

# ✅ 6️⃣ 중복 제거 시 첫 번째 값 유지 (NaN이 있는 경우 삭제되지 않게)
df_unique = df.sort_values(by=['repNationCd'], na_position='first') \
              .drop_duplicates(subset=['movieCd'], keep='first')

# ✅ 7️⃣ 중복 제거 후 NaN 개수 확인
df_unique_na = df_unique[df_unique['repNationCd'].isna()]
print(f"✅ 중복 제거 후 repNationCd NaN 개수: {df_unique_na.shape[0]}")
print(df_unique_na[['movieCd', 'movieNm', 'repNationCd']].to_markdown())

# ✅ 8️⃣ 관객수 기준으로 rnum, rank 생성
df_unique = df_unique.sort_values(by='audiCnt', ascending=False)
df_unique['rnum'] = range(1, len(df_unique) + 1)
df_unique['rank'] = df_unique['rnum']

# ✅ 9️⃣ 관객수 기준으로 Top 3, Bottom 3 영화 출력
top_3_movies = df_unique.head(3)['movieNm'].tolist()
bottom_3_movies = df_unique.tail(3)['movieNm'].tolist()

print(f"🏆 Top 3 영화: {top_3_movies}")
print(f"🏅 Bottom 3 영화: {bottom_3_movies}")


📌 DataFrame 컬럼 목록: ['rnum', 'rank', 'rankInten', 'rankOldAndNew', 'movieCd', 'movieNm', 'openDt', 'salesAmt', 'salesShare', 'salesInten', 'salesChange', 'salesAcc', 'audiCnt', 'audiInten', 'audiChange', 'audiAcc', 'scrnCnt', 'showCnt', 'multiMovieYn', 'repNationCd']
🎬 Unique한 영화 개수: 25 편
❓ multiMovieYn NaN 개수: 5
❓ repNationCd NaN 개수: 0
❓ multiMovieYn & repNationCd NaN 개수: 0
✅ 중복 제거 후 repNationCd NaN 개수: 0
| movieCd   | movieNm   | repNationCd   |
|-----------|-----------|---------------|
🏆 Top 3 영화: ['노량: 죽음의 바다', '서울의 봄', '신차원! 짱구는 못말려 더 무비 초능력 대결전 ~날아라 수제김밥~']
🏅 Bottom 3 영화: ['엔시티 네이션 : 투 더 월드 인 시네마', '어른 김장하', '교토에서 온 편지']


In [52]:
print(f"🔍 fill 적용 전 repNationCd NaN 개수: {df['repNationCd'].isna().sum()}")


🔍 fill 적용 전 repNationCd NaN 개수: 0


In [53]:
df['repNationCd'] = df.groupby('movieCd')['repNationCd'].ffill().bfill()

print(f"✅ fill 적용 후 repNationCd NaN 개수: {df['repNationCd'].isna().sum()}")
print("📌 repNationCd 데이터 타입:", df['repNationCd'].dtype)
print("🔍 repNationCd에 포함된 고유 값:", df['repNationCd'].unique())

✅ fill 적용 후 repNationCd NaN 개수: 0
📌 repNationCd 데이터 타입: category
🔍 repNationCd에 포함된 고유 값: ['F', 'K']
Categories (2, object): ['F', 'K']


In [54]:
df_na = df[df['repNationCd'].isna()]
print(df_na[['movieCd', 'movieNm', 'repNationCd']].to_markdown())


| movieCd   | movieNm   | repNationCd   |
|-----------|-----------|---------------|


In [27]:
import pandas as pd
PATH = "~/temp/movie/dt=20240101"
df = pd.read_parquet(PATH)

len(df)

130

In [28]:
def col_drop_movie_data(df):
    df = df.copy()  # ✅ 원본과 독립적인 복사본 생성

    # ✅ 필요 없는 컬럼 제거
    cols_to_drop = [
        'rnum', 'rank', 'rankInten', 'rankOldAndNew', 'openDt',
        'salesShare', 'salesInten', 'salesChange', 'salesAcc',
        'audiInten', 'audiChange', 'audiAcc',
        'scrnCnt', 'showCnt'
    ]
    
    # ✅ df에 있는 컬럼만 제거 (혹시 일부 컬럼이 없을 경우 대비)
    df.drop(columns=[col for col in cols_to_drop if col in df.columns], inplace=True)
    return df

In [34]:
import pandas as pd

# 데이터 로드
PATH = "~/temp/movie/dt=20240101"
df = pd.read_parquet(PATH)

# 필요 없는 컬럼 제거 (최종 정리)
def merge_data(df):
    df = df.copy()  # 원본과 독립적인 복사본 생성
    cols_to_drop = [
        'rnum', 'rank', 'rankInten', 'rankOldAndNew', 'openDt',
        'salesShare', 'salesInten', 'salesChange', 'salesAcc',
        'audiInten', 'audiChange', 'audiAcc',
        'scrnCnt', 'showCnt'
    ]
    df.drop(columns=[col for col in cols_to_drop if col in df.columns], inplace=True)
    return df

df_copies = col_drop_movie_data(df)

# NaN 개수 확인 (처리 전)
multi_na_count_before = df_copies['multiMovieYn'].isna().sum()
rep_na_count_before = df_copies['repNationCd'].isna().sum()
both_na_count_before = df_copies[df_copies['multiMovieYn'].isna() & df_copies['repNationCd'].isna()].shape[0]

# `repNationCd`가 NaN인 경우 유지하도록 보완된 NaN 채우기 로직
def fill_if_not_all_nan(series):
    """해당 movieCd 내에 NaN이 아닌 값이 하나라도 있으면 채우고, 전부 NaN이면 유지"""
    return series.ffill().bfill() if series.notna().any() else series

df_copies['multiMovieYn'] = df_copies.groupby('movieCd')['multiMovieYn'].transform(fill_if_not_all_nan)

#  `repNationCd`는 NaN이 있으면 그대로 유지하면서, 참조할 수 있는 값이 있으면 채우도록 조정
df_copies['repNationCd'] = df_copies.groupby('movieCd')['repNationCd'].transform(lambda x: x.ffill().bfill() if x.notna().any() else x)

# 중복 제거 (단, `repNationCd`가 NaN인 경우 제거되지 않도록 조정)
df_unique = df_copies.sort_values(by=['repNationCd'], na_position='first') \
                     .drop_duplicates(subset=['movieCd'], keep='first')

# `repNationCd`가 NaN인 경우 기존 데이터에서 유지
df_nan_only = df_copies[df_copies['repNationCd'].isna()]
df_unique = pd.concat([df_unique, df_nan_only]).drop_duplicates(subset=['movieCd'], keep='first')

# NaN 개수 확인 (처리 후)
multi_na_count_after = df_unique['multiMovieYn'].isna().sum()
rep_na_count_after = df_unique['repNationCd'].isna().sum()
both_na_count_after = df_unique[df_unique['multiMovieYn'].isna() & df_unique['repNationCd'].isna()].shape[0]


grouped_df = df_unique.groupby(['multiMovieYn', 'repNationCd'], dropna=False, observed=False) \
                      .size() \
                      .reset_index(name='count')

# NaN 개수 변화 출력
print(f"🛑 multiMovieYn NaN 개수 (처리 전 → 후): {multi_na_count_before} → {multi_na_count_after}")
print(f"🛑 repNationCd NaN 개수 (처리 전 → 후): {rep_na_count_before} → {rep_na_count_after}")
print(f"🛑 multiMovieYn & repNationCd NaN 개수 (처리 전 → 후): {both_na_count_before} → {both_na_count_after}")
 

🛑 multiMovieYn NaN 개수 (처리 전 → 후): 90 → 5
🛑 repNationCd NaN 개수 (처리 전 → 후): 70 → 5
🛑 multiMovieYn & repNationCd NaN 개수 (처리 전 → 후): 30 → 0


In [68]:
def fn_merge_data(ds_nodash):
    import pandas as pd
    import os

    PATH = os.path.expanduser(f"~/data/movies/dailyboxoffice/dt={ds_nodash}")
    if not os.path.exists(PATH):
        print(f"데이터 파일 없음: {PATH}")
        return

    df = pd.read_parquet(PATH)

    df.drop(columns=[
        'rnum', 'rank', 'rankInten', 'rankOldAndNew', 'openDt',
        'salesShare', 'salesInten', 'salesChange', 'salesAcc',
        'audiInten', 'audiChange', 'audiAcc',
        'scrnCnt', 'showCnt'
    ], inplace=True, errors='ignore')

    def fill_if_not_all_nan(series):
        return series.ffill().bfill() if series.notna().any() else series

    df['multiMovieYn'] = df.groupby('movieCd')['multiMovieYn'].transform(fill_if_not_all_nan)
    df['repNationCd'] = df.groupby('movieCd')['repNationCd'].transform(lambda x: x.ffill().bfill() if x.notna().any() else x)

    df_unique = df.sort_values(by=['repNationCd'], na_position='first') \
                  .drop_duplicates(subset=['movieCd'], keep='first')

    df_nan_only = df[df['repNationCd'].isna()]
    df_unique = pd.concat([df_unique, df_nan_only]).drop_duplicates(subset=['movieCd'], keep='first')

    print(df_unique.groupby(['multiMovieYn', 'repNationCd'], dropna=False, observed=False).size().reset_index(name='count'))


In [70]:
jaebal =  fn_merge_data(df)

데이터 파일 없음: /home/wsl/data/movies/dailyboxoffice/dt=     rnum  rank  rankInten rankOldAndNew   movieCd  \
0       1     1          0           OLD  20203702   
1       2     2          0           OLD  20212866   
2       3     3          0           OLD  20236146   
3       4     4          0           OLD  20235735   
4       5     5          0           OLD  20235596   
..    ...   ...        ...           ...       ...   
125     6     6          2           OLD  20202247   
126     7     7         -1           OLD  20228560   
127     8     8          1           OLD  20235697   
128     9     9          6           OLD  20232077   
129    10    10          3           OLD  20227525   

                                  movieNm      openDt    salesAmt  salesShare  \
0                              노량: 죽음의 바다  2023-12-20  2893509165        38.8   
1                                   서울의 봄  2023-11-22  2666429137        35.8   
2    신차원! 짱구는 못말려 더 무비 초능력 대결전 ~날아라 수제김밥~  2023-12-22   5

In [32]:
import pandas as pd

def merge_df(dt: str, base_path: str):
    path = f"{base_path}/dt={dt}"
    df = pd.read_parquet(path)

    # 불필요한 컬럼 삭제
    df.drop(columns=['rank', 'rnum', 'rankInten', 'salesShare'], errors='ignore', inplace=True)

    # 결측치 처리: 해당 movieCd 내에서 NaN이 아닌 값이 있으면 채우기
    def resolve_value(series):
        return series.dropna().unique()[0] if series.dropna().any() else None

    param_cols = ["multiMovieYn", "repNationCd"]
    agg_dict = {col: "first" for col in df.columns if col not in param_cols}
    agg_dict.update({col: resolve_value for col in param_cols})

    # 그룹화 및 병합
    df_grouped = df.groupby("movieCd", dropna=False).agg(agg_dict).reset_index()

    # 관객 수 기준 정렬 및 순위 생성
    df_sorted = df_grouped.sort_values(by='audiCnt', ascending=False).reset_index(drop=True)
    df_sorted["rnum"] = df_sorted.index + 1
    df_sorted["rank"] = df_sorted["rnum"]

    # 저장
    save_path = f"/Users/joon/swcamp4/data/movies/merge/dailyboxoffice/dt={dt}"
    df_sorted.to_parquet(save_path)

    return df_sorted


In [21]:
print(df.columns)

Index(['rnum', 'rank', 'rankInten', 'rankOldAndNew', 'movieCd', 'movieNm',
       'openDt', 'salesAmt', 'salesShare', 'salesInten', 'salesChange',
       'salesAcc', 'audiCnt', 'audiInten', 'audiChange', 'audiAcc', 'scrnCnt',
       'showCnt', 'multiMovieYn', 'repNationCd'],
      dtype='object')


In [33]:
df_result

Unnamed: 0,movieCd,movieNm,salesAmt,audiCnt,multiMovieYn,repNationCd
0,20236146,신차원! 짱구는 못말려 더 무비 초능력 대결전 ~날아라 수제김밥~,565417320,58239,Unknown,Unknown
72,20236080,류이치 사카모토: 오퍼스,31686950,3001,Unknown,Unknown
71,20236045,"바다 탐험대 옥토넛 어보브 앤 비욘드: 버드, 옥토경보를 울려라!",53094530,6471,Unknown,Unknown
70,20234114,괴물,92381680,8710,Unknown,Unknown
69,20235098,나폴레옹,4056567,540,Unknown,Unknown
68,20190324,3일의 휴가,28109697,3295,Unknown,Unknown
67,20235980,말하고 싶은 비밀,38025184,3765,Unknown,Unknown
66,20235290,도티와 영원의 탑,100024717,10704,Unknown,Unknown
65,20234673,뽀로로 극장판 슈퍼스타 대모험,113680587,11586,Unknown,Unknown
64,20235596,트롤: 밴드 투게더,273538754,28988,Unknown,Unknown


In [37]:
import pandas as pd
import os

def merge_df(dt: str, base_path: str):
    path = f"{base_path}/dt={dt}"
    df = pd.read_parquet(path)

    # ✅ 필요 없는 컬럼 제거
    cols_to_drop = ['rank', 'rnum', 'rankInten', 'salesShare']
    df.drop(columns=[col for col in cols_to_drop if col in df.columns], inplace=True)

    # ✅ NaN 채우기: 값이 있는 경우만 forward/backward fill 적용
    def resolve_value(series):
        return series.ffill().bfill() if series.notna().any() else series

    param_cols = ["multiMovieYn", "repNationCd"]
    df[param_cols] = df.groupby("movieCd")[param_cols].transform(resolve_value)

    # ✅ movieCd 기준으로 중복 제거 (단, repNationCd NaN이 유지되도록 처리)
    df_unique = df.sort_values(by=['repNationCd'], na_position='first') \
                  .drop_duplicates(subset=['movieCd'], keep='first')

    # ✅ repNationCd가 NaN인 경우 기존 데이터 유지
    df_nan_only = df[df['repNationCd'].isna()]
    df_unique = pd.concat([df_unique, df_nan_only]).drop_duplicates(subset=['movieCd'], keep='first')

    # ✅ audiCnt 기준으로 정렬 후 rank 생성
    df_unique = df_unique.sort_values(by='audiCnt', ascending=False).reset_index(drop=True)
    df_unique["rnum"] = df_unique.index + 1
    df_unique["rank"] = df_unique["rnum"]

    # ✅ 결과 저장
    save_path = f"home/wsl/data/movies/merge/dailyboxoffice/dt={dt}"
    df_unique.to_parquet(save_path)

    return df_unique


In [38]:
df_result = merge_df("20240101", "~/temp/movie")

OSError: Cannot save file into a non-existent directory: 'home/wsl/data/movies/merge/dailyboxoffice'

In [None]:
def test_merge_df():
    PATH = "~/data/movies/dailyboxoffice/dt=20240101"
    df = pd.read_parquet(PATH)
    assert len(df) == 50
    
    df1 = fill_na_with_column(df,'multiMovieYn')
    assert df1['multiMovieYn'].isna().sum() == 5
    
    df2 = fill_na_with_column(df,'repNationCd')
    assert df2['repNationCd'].isna().sum() == 5
    
    drop_cols = ['salesShare','rnum','salesChange','rank','rankInten']
    unique_df = generate_unique(df = df2, drop_columns = drop_columns)
    assert len(unique_df) == 25