# EDA 미니 프로젝트

## 1) 기본 설정 세팅

In [52]:
# (선택) 라이브러리 설치가 안 될 때만 실행
# !pip install pandas matplotlib seaborn

In [53]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 2) 한글 폰트 설정 (Windows)

In [54]:
import matplotlib
import matplotlib.font_manager as fm

# Windows 기본 폰트 경로 예시 (환경에 따라 폰트 파일명은 다를 수 있음)
font_path = "C:\\Windows\\Fonts\\H2GTRM.TTF"
font_prop = fm.FontProperties(fname=font_path)
font_name = font_prop.get_name()

matplotlib.rc('font', family=font_name)
plt.rc('axes', unicode_minus=False)  # 음수 기호 깨짐 방지

## 3) 데이터셋 로드

In [55]:
movie_df = pd.read_csv('./data/merged_56_utf8.csv')
movie_df.head()

Unnamed: 0,NO,MOVIE_NM,DRCTR_NM,MAKR_NM,INCME_CMPNY_NM,DISTB_CMPNY_NM,OPN_DE,MOVIE_TY_NM,MOVIE_STLE_NM,NLTY_NM,TOT_SCRN_CO,SALES_PRICE,VIEWNG_NMPR_CO,SEOUL_SALES_PRICE,SEOUL_VIEWNG_NMPR_CO,GENRE_NM,GRAD_NM,MOVIE_SDIV_NM
0,1.0,남산의 부장들,우민호,(주)하이브미디어코프,,(주)쇼박스,20200122,개봉영화,장편,한국,1659,41223596650,4750104,9851448590,1113402,드라마,15세이상관람가,일반영화
1,2.0,다만 악에서 구하소서,홍원찬,(주)하이브미디어코프,,(주)씨제이이엔엠,20200805,개봉영화,장편,한국,1998,38554527990,4352669,8906277620,984042,범죄,15세이상관람가,일반영화
2,3.0,반도,연상호,(주)영화사레드피터,,(주)넥스트엔터테인먼트월드(NEW),20200715,개봉영화,장편,한국,2575,33071341280,3812080,8005831840,895163,액션,15세이상관람가,일반영화
3,4.0,히트맨,최원섭,베리굿스튜디오(주),,롯데컬처웍스(주)롯데엔터테인먼트,20200122,개봉영화,장편,한국,1122,20614278000,2406232,4072414720,472840,코미디,15세이상관람가,일반영화
4,5.0,테넷,크리스토퍼 놀란,,워너브러더스 코리아(주),워너브러더스 코리아(주),20200826,개봉영화,장편,미국,2228,18396929850,1992214,6615682400,677442,액션,12세이상관람가,일반영화


In [56]:
movie_df.info()

<class 'pandas.DataFrame'>
RangeIndex: 12472 entries, 0 to 12471
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   NO                    11877 non-null  float64
 1   MOVIE_NM              11877 non-null  str    
 2   DRCTR_NM              10125 non-null  str    
 3   MAKR_NM               5023 non-null   str    
 4   INCME_CMPNY_NM        4651 non-null   str    
 5   DISTB_CMPNY_NM        11876 non-null  str    
 6   OPN_DE                11875 non-null  str    
 7   MOVIE_TY_NM           11877 non-null  str    
 8   MOVIE_STLE_NM         11877 non-null  str    
 9   NLTY_NM               11877 non-null  str    
 10  TOT_SCRN_CO           11472 non-null  str    
 11  SALES_PRICE           5382 non-null   str    
 12  VIEWNG_NMPR_CO        10019 non-null  str    
 13  SEOUL_SALES_PRICE     8229 non-null   str    
 14  SEOUL_VIEWNG_NMPR_CO  10380 non-null  str    
 15  GENRE_NM              11842 no

In [57]:
movie_df.describe()

Unnamed: 0,NO
count,11877.0
mean,251.233224
std,411.393013
min,1.0
25%,54.0
50%,109.0
75%,195.0
max,1985.0


## 4) 데이터 전처리 (중복 제거 → 필요한 컬럼만 추출)

**중복 제거는 컬럼을 줄이기 전에 수행**하는 것이 안전하다.

(컬럼을 먼저 줄이면 "원래 다른 데이터"가 같아 보일 수 있음)

### 4-1) 중복 여부 확인 및 제거

In [58]:
# 모든 컬럼 기준 중복 여부 확인
dup_mask = movie_df.duplicated(keep=False)
movie_df.loc[dup_mask].head()

Unnamed: 0,NO,MOVIE_NM,DRCTR_NM,MAKR_NM,INCME_CMPNY_NM,DISTB_CMPNY_NM,OPN_DE,MOVIE_TY_NM,MOVIE_STLE_NM,NLTY_NM,TOT_SCRN_CO,SALES_PRICE,VIEWNG_NMPR_CO,SEOUL_SALES_PRICE,SEOUL_VIEWNG_NMPR_CO,GENRE_NM,GRAD_NM,MOVIE_SDIV_NM
3400,1.0,모가디슈,류승완,"(주)덱스터스튜디오,(주)외유내강,(주)필름케이",,롯데컬처웍스(주)롯데엔터테인먼트,2021-07-,개봉영화,장편,한국,,,,,,액션,15세이상관람가,일반영화
3404,5.0,보스 베이비 2,톰 맥그라스,,유니버설픽쳐스인터내셔널 코리아(유),유니버설픽쳐스인터내셔널 코리아(유),2021-07-,개봉영화,장편,미국,,,,,,애니메이션,전체관람가,일반영화
3446,47.0,나는 나대로 혼자서 간다,오키타 슈이치,,(주)영화사 진진,(주)영화사 진진,2021-07-,개봉영화,장편,일본,23.0,,,,,드라마,12세이상관람가,독립/예술영화
3453,54.0,더 퍼지: 포에버,에베라도 발레리오 구트,,유니버설픽쳐스인터내셔널 코리아(유),유니버설픽쳐스인터내셔널 코리아(유),2021-07-,개봉영화,장편,미국,52.0,,,,,스릴러,청소년관람불가,일반영화
3745,1.0,모가디슈,류승완,"(주)덱스터스튜디오,(주)외유내강,(주)필름케이",,롯데컬처웍스(주)롯데엔터테인먼트,2021-07-,개봉영화,장편,한국,,,,,,액션,15세이상관람가,일반영화


In [59]:
# 중복 제거 (처음 나온 행만 남기기)
movie_df = movie_df.drop_duplicates(keep='first')

### 4-2) 필요한 컬럼만 선택
- `VIEWNG_NMPR_CO`: 관람인원수
- `DISTB_CMPNY_NM`: 유통회사명(배급사)
- `GENRE_NM`: 장르명
- `NLTY_NM`: 국적명
- `OPN_DE`: 개봉일자

In [60]:
movie_df = movie_df[['VIEWNG_NMPR_CO', 'DISTB_CMPNY_NM', 'GENRE_NM', 'NLTY_NM', 'OPN_DE']]
movie_df.head()

Unnamed: 0,VIEWNG_NMPR_CO,DISTB_CMPNY_NM,GENRE_NM,NLTY_NM,OPN_DE
0,4750104,(주)쇼박스,드라마,한국,20200122
1,4352669,(주)씨제이이엔엠,범죄,한국,20200805
2,3812080,(주)넥스트엔터테인먼트월드(NEW),액션,한국,20200715
3,2406232,롯데컬처웍스(주)롯데엔터테인먼트,코미디,한국,20200122
4,1992214,워너브러더스 코리아(주),액션,미국,20200826


In [61]:
movie_df.info()

<class 'pandas.DataFrame'>
Index: 11855 entries, 0 to 12471
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   VIEWNG_NMPR_CO  10019 non-null  str  
 1   DISTB_CMPNY_NM  11853 non-null  str  
 2   GENRE_NM        11819 non-null  str  
 3   NLTY_NM         11854 non-null  str  
 4   OPN_DE          11852 non-null  str  
dtypes: str(5)
memory usage: 555.7 KB


## 5) `OPN_DE` 컬럼 이슈 진단

목표: `OPN_DE`를 분석에 쓰기 쉬운 형태로 만들기 위해 **정규화(문자열 정리)** 후 **datetime 변환**을 수행한다.

확인 결과:
- 일부 값이 `YYYYMMDD.0` 처럼 `.0`가 붙어 있음 (데이터 로딩 과정에서 float로 들어온 흔적)
- 일부 값은 `NaN` (개봉일자 없음)
- 일부 값은 `YYYY-MM-` 형태 (연-월만 있고 날짜가 비어 있음)

### 5-1) 결측치(NaN) 개수 확인

In [62]:
nan_count = movie_df['OPN_DE'].isna().sum()
print("NaN count:", nan_count)

NaN count: 3


### 5-2) 8자리(YYYYMMDD)가 아닌 값 찾기
- 날짜가 `YYYYMMDD`(8자리 숫자) 형식인지 정규식으로 검증

In [63]:
# (주의) NaN이 있으면 str.match가 에러/의도와 다를 수 있으므로 astype(str)로 안전 처리
mask_not_yyyymmdd = ~movie_df['OPN_DE'].astype(str).str.match(r'^\d{8}$')
movie_df.loc[mask_not_yyyymmdd, 'OPN_DE'].head(20)

3182    20210526.0
3183    20210603.0
3184    20210616.0
3185    20210519.0
3186    20210623.0
3187    20210623.0
3188    20210617.0
3189    20210609.0
3190    20210617.0
3191    20210127.0
3192    20210526.0
3193    20210610.0
3194    20210630.0
3195    20210630.0
3196    20210603.0
3197    20210602.0
3198    20210616.0
3199    20210526.0
3200    20210603.0
3201    20210519.0
Name: OPN_DE, dtype: str

In [64]:
print("Not YYYYMMDD count:", mask_not_yyyymmdd.sum())

Not YYYYMMDD count: 5269


### 5-3) `.0`가 포함된 값 확인

In [65]:
mask_dot0 = movie_df['OPN_DE'].astype(str).str.contains(r'\.0', regex=True)
movie_df.loc[mask_dot0, 'OPN_DE'].head(20)

print(".0 포함 count:", mask_dot0.sum())

.0 포함 count: 1145


## 6) `OPN_DE` 문자열 정제 함수 정의 (datetime 변환은 별도로 수행)

정책:
1. `OPN_DE`가 없는 영화는 **drop** (현재 3개뿐이라 데이터 손실 영향이 작음)
2. `YYYYMMDD.0` → `YYYYMMDD`로 정리
3. `YYYY-MM-` → 날짜가 없으므로 **해당 월의 1일(01)** 을 부여하여 `YYYYMM01`로 통일
4. 나머지 케이스도 일관되게 처리하기 위해 **숫자만 남기고**, 길이에 따라 day를 보정
   - 6자리(YYYYMM)면 '01' 붙여 8자리로
   - 4자리(YYYY)면 '0101' 붙여 8자리로 (방어적 처리)

반환:
- `OPN_DE`는 최종적으로 **문자열 'YYYYMMDD'** 형태로 유지 (dtype 변환은 다음 단계에서)

In [66]:
def clean_date_string(df, col='OPN_DE'):
    df = df.copy()

    # 1) 결측치 제거
    df = df.dropna(subset=[col])

    # 2) 문자열로 통일 + 공백 제거
    s = df[col].astype(str).str.strip()

    # 3) 'YYYY-MM-' -> 'YYYY-MM-01' 로 먼저 보정 (월만 있는 케이스)
    #    예: '2021-07-' -> '2021-07-01'
    s = s.str.replace(r'^(\d{4})-(\d{2})-$', r'\1-\2-01', regex=True)

    # 4) '.0' 제거 (끝에 붙은 소수점 흔적 제거)
    #    예: '20210609.0' -> '20210609'
    s = s.str.replace(r'\.0$', '', regex=True)

    # 5) 숫자만 남기기
    #    예: '2021-07-01' -> '20210701'
    s = s.str.replace(r'\D', '', regex=True)

    # 6) 길이 보정 (방어적 처리)
    #    - 6자리(YYYYMM) -> YYYYMM01
    mask_6 = (s.str.len() == 6)
    s.loc[mask_6] = s.loc[mask_6] + '01'

    #    - 4자리(YYYY) -> YYYY0101
    mask_4 = (s.str.len() == 4)
    s.loc[mask_4] = s.loc[mask_4] + '0101'

    # 7) 최종 8자리만 사용 (혹시 더 길어지는 경우 방지)
    s = s.str[:8]

    df[col] = s
    return df

## 7) 정제 함수 적용 (아직 문자열 상태)

In [67]:
movie_df = clean_date_string(movie_df)

movie_df['OPN_DE'].head(10)

0    20200122
1    20200805
2    20200715
3    20200122
4    20200826
5    20191219
6    20200624
7    20200729
8    20200929
9    20200108
Name: OPN_DE, dtype: str

## 8) datetime 변환 (별도 단계)
- `YYYYMMDD` 문자열을 `datetime64[ns]`로 변환
- 변환 실패 케이스는 `NaT`로 처리 (errors='coerce')

In [68]:
movie_df['OPN_DE'] = pd.to_datetime(movie_df['OPN_DE'], format='%Y%m%d', errors='coerce')

movie_df.info()

<class 'pandas.DataFrame'>
Index: 11852 entries, 0 to 12471
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   VIEWNG_NMPR_CO  10017 non-null  str           
 1   DISTB_CMPNY_NM  11851 non-null  str           
 2   GENRE_NM        11817 non-null  str           
 3   NLTY_NM         11852 non-null  str           
 4   OPN_DE          11752 non-null  datetime64[us]
dtypes: datetime64[us](1), str(4)
memory usage: 555.6 KB


## 9) 최종 검증
- `NaT` 개수 확인 (정제/변환 후에도 비정상 값이 있었는지 체크)

In [69]:
print("NaT count after conversion:", movie_df['OPN_DE'].isna().sum())

NaT count after conversion: 100


In [70]:
bad = movie_df.loc[movie_df['OPN_DE'].isna(), ['OPN_DE']]
bad

Unnamed: 0,OPN_DE
12272,NaT
12273,NaT
12274,NaT
12275,NaT
12276,NaT
...,...
12367,NaT
12368,NaT
12369,NaT
12370,NaT


In [71]:
movie_df = movie_df.dropna(subset=['OPN_DE'])

In [72]:
print("NaT count after conversion:", movie_df['OPN_DE'].isna().sum())

NaT count after conversion: 0


In [73]:
movie_df.info()

<class 'pandas.DataFrame'>
Index: 11752 entries, 0 to 12471
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   VIEWNG_NMPR_CO  9917 non-null   str           
 1   DISTB_CMPNY_NM  11751 non-null  str           
 2   GENRE_NM        11717 non-null  str           
 3   NLTY_NM         11752 non-null  str           
 4   OPN_DE          11752 non-null  datetime64[us]
dtypes: datetime64[us](1), str(4)
memory usage: 550.9 KB


since our main column is the view count, i want to remove the records that does not have the view count info.

In [74]:
movie_df = movie_df.dropna(subset=['VIEWNG_NMPR_CO'])
movie_df.info()

<class 'pandas.DataFrame'>
Index: 9917 entries, 0 to 12471
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   VIEWNG_NMPR_CO  9917 non-null   str           
 1   DISTB_CMPNY_NM  9916 non-null   str           
 2   GENRE_NM        9886 non-null   str           
 3   NLTY_NM         9917 non-null   str           
 4   OPN_DE          9917 non-null   datetime64[us]
dtypes: datetime64[us](1), str(4)
memory usage: 464.9 KB


since VIEWNG_NMPR_CO is string type, I will convert it into integer dtype

'VIEWNG_NMPR_CO' is composite with data in the integer format, data that ends with .0, data that includes commas

In [75]:
mask_not_int = ~movie_df['VIEWNG_NMPR_CO'].str.match(r'^\d+$')
movie_df.loc[mask_not_int, 'VIEWNG_NMPR_CO']

3244     975.0
3245     955.0
3246     946.0
3247     919.0
3248     878.0
         ...  
11935    1,504
11936    1,385
11937    1,348
11938    1,152
11939    1,112
Name: VIEWNG_NMPR_CO, Length: 6002, dtype: str

In [76]:
mask_not_int.sum()

np.int64(6002)

In [77]:
mask_not_valid = ~movie_df['VIEWNG_NMPR_CO'].astype(str).str.match(
    r'^\d+(\.0)?$'
)

movie_df.loc[mask_not_valid, 'VIEWNG_NMPR_CO']

10872    5,005,372
10873    1,403,363
10874      902,841
10875      430,033
10876      187,566
           ...    
11935        1,504
11936        1,385
11937        1,348
11938        1,152
11939        1,112
Name: VIEWNG_NMPR_CO, Length: 767, dtype: str

In [78]:
def clean_view_count(df, col='VIEWNG_NMPR_CO'):
    df = df.copy()

    # 1. 콤마 제거 및 문자열 변환
    # .astype(str)로 통일한 뒤 콤마를 빈 문자열로 바꿉니다.
    clean_s = df[col].astype(str).str.replace(',', '', regex=False)

    # 2. 숫자로 변환 (pd.to_numeric)
    # '1234.0' -> 1234.0 (float)
    # '1234' -> 1234 (int/float)
    # 변환 불가능한 값은 NaN 처리 (errors='coerce')
    df[col] = pd.to_numeric(clean_s, errors='coerce')

    # 3. 결측치 처리 및 정수형 변환
    # 소수점(.0)이 있었던 데이터는 float으로 먼저 인식되므로,
    # 최종적으로 다시 정수(int)로 형변환을 해줘야 합니다.
    df = df.dropna(subset=[col])
    df[col] = df[col].astype(long if 'long' in str(df[col].dtype) else 'int64')

    return df

# 적용
movie_df = clean_view_count(movie_df)

# 확인
print(movie_df['VIEWNG_NMPR_CO'].dtype)
print(movie_df['VIEWNG_NMPR_CO'].head())

int64
0    4750104
1    4352669
2    3812080
3    2406232
4    1992214
Name: VIEWNG_NMPR_CO, dtype: int64


In [79]:
# 1. 실제 Null(NaN) 값 확인
null_count = movie_df['VIEWNG_NMPR_CO'].isna().sum()

# 2. 관람객 수가 0인 데이터 확인 (의미 없는 데이터일 가능성)
zero_count = (movie_df['VIEWNG_NMPR_CO'] == 0).sum()

# 3. 요약 보고서 출력
print(f"1. NaN(결측치) 개수: {null_count}개")
print(f"2. '0' 데이터 개수 : {zero_count}개")
print(f"3. 전체 데이터 개수 : {len(movie_df)}개")

# 4. 만약 '0'인 데이터가 있다면 샘플 확인 (선택 사항)
if zero_count > 0:
    print(movie_df[movie_df['VIEWNG_NMPR_CO'] == 0].head())

1. NaN(결측치) 개수: 0개
2. '0' 데이터 개수 : 0개
3. 전체 데이터 개수 : 9917개


In [80]:
movie_df.info()

<class 'pandas.DataFrame'>
Index: 9917 entries, 0 to 12471
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   VIEWNG_NMPR_CO  9917 non-null   int64         
 1   DISTB_CMPNY_NM  9916 non-null   str           
 2   GENRE_NM        9886 non-null   str           
 3   NLTY_NM         9917 non-null   str           
 4   OPN_DE          9917 non-null   datetime64[us]
dtypes: datetime64[us](1), int64(1), str(3)
memory usage: 464.9 KB


upto here, I finish dealing with 'VIEWNG_NMPR_CO' and 'OPN_DE'

now i need to change the other 3 which are categorical variables

i will deal with 'DISTB_CMPNY_NM' first

In [81]:
# 1. 가장 빈도수가 높은 배급사 명칭 상위 30개 확인
print("--- 빈도수 상위 30개 배급사 명칭 ---")
print(movie_df['DISTB_CMPNY_NM'].value_counts().head(30))

# 2. 주요 키워드별 명칭 확인 (KOFIC 표 기준)
# 예: '씨제이'가 포함된 모든 명칭을 찾아 중복을 제거하고 출력
keywords = ['씨제이', 'CJ', '롯데', '넥스트', 'NEW', '쇼박스', '플러스엠', '워너', '디즈니', '유니버설']

print("\n--- 주요 키워드 포함 명칭 리스트 ---")
for kw in keywords:
    matches = movie_df[movie_df['DISTB_CMPNY_NM'].str.contains(kw, na=False, case=False)]['DISTB_CMPNY_NM'].unique()
    print(f"[{kw}] 관련 명칭들 ({len(matches)}종류):")
    print(matches[:5]) # 너무 많을 수 있으니 5개만 출력
    print("-" * 30)

--- 빈도수 상위 30개 배급사 명칭 ---
DISTB_CMPNY_NM
(주)영진크리에이티브            1107
(주)영화사가을                427
(주)라온컴퍼니플러스             270
(주)가온콘텐츠                237
(주)샤이커뮤니케이션즈            221
(주)도키엔터테인먼트             191
(주)씨맥스커뮤니케이션즈           162
(유)조이앤시네마               149
유니버설픽쳐스인터내셔널 코리아(유)     129
(주)코빈커뮤니케이션즈            124
(주)넥스트엔터테인먼트월드(NEW)     119
(주)영화사 진진               119
씨제이 씨지브이(CJ CGV)(주)     119
월트디즈니컴퍼니코리아 유한책임회사      116
롯데컬처웍스(주)롯데엔터테인먼트       115
(주)픽쳐레스크                111
(주)디스테이션                109
(주)엣나인필름                101
케이엘 픽쳐스                 101
주식회사 루믹스미디어             101
스마일컨텐츠                   99
(주)씨제이이엔엠                98
워너브러더스 코리아(주)            95
(주)트리플픽쳐스                93
와이드 릴리즈(주)               92
(주)영화사히트                 91
(주)팝엔터테인먼트               89
(주)미디어캐슬                 89
(주)드림팩트엔터테인먼트            87
판씨네마(주)                  86
Name: count, dtype: int64

--- 주요 키워드 포함 명칭 리스트 ---
[씨제이] 관련 명칭들 (25종류):
<StringArray>
[               '(주)씨제이이엔엠',    

In [82]:
# 1. 배급사 컬럼의 순수 결측치(NaN) 개수 확인
nan_count = movie_df['DISTB_CMPNY_NM'].isna().sum()
print(nan_count)

1


In [83]:
# 2. 빈 문자열('') 또는 공백만 있는 문자열(' ') 개수 확인
# strip()을 사용하여 눈에 보이지 않는 공백도 찾아냅니다.
empty_str_count = (movie_df['DISTB_CMPNY_NM'].astype(str).str.strip() == '').sum()
print(empty_str_count)

0


'DISTB_CMPNY_NM'에서 NaN 개수 하나라 제거

In [84]:
# 결측치를 처리하고, 콤마로 연결된 공동 배급사 중 메인(첫번째)만 남긴 뒤 불필요한 수식어를 제거하는 단계입니다.
def cmpny_base_cleaning(df, col='DISTB_CMPNY_NM'):
    df = df.copy()

    # 1. 결측치(NaN)를 빈 문자열('')로 채움
    df['DIST_CLEAN'] = df[col].fillna('')

    # 2. 콤마(,) 기준 첫 번째 배급사만 추출
    df['DIST_CLEAN'] = df['DIST_CLEAN'].str.split(',').str[0]

    # 3. 'NEW' 표기 및 (주), 주식회사 등 법인 수식어 제거
    df['DIST_CLEAN'] = (
        df['DIST_CLEAN']
        .str.replace(r'\(NEW\)|NEW', '', regex=True, case=False)
        .str.replace(r'\(주\)|주식회사|\(유\)|유한책임회사', '', regex=True)
        .str.strip()
    )

    return df

movie_df = cmpny_base_cleaning(movie_df)

In [85]:
movie_df['DIST_CLEAN'].unique()

array(['쇼박스', '씨제이이엔엠', '넥스트엔터테인먼트월드', '롯데컬처웍스롯데엔터테인먼트', '워너브러더스 코리아',
       '유니버설픽쳐스인터내셔널 코리아', '메가박스중앙플러스엠', '에이스메이커무비웍스',
       '소니픽쳐스엔터테인먼트코리아극장배급지점', '스마일이엔티', '누리픽쳐스', '월트디즈니컴퍼니코리아', '리틀빅픽쳐스',
       'CGV아트하우스', '제이앤씨미디어그룹', '올스타엔터테인먼트', '이놀미디어', '키위미디어그룹', '홈초이스',
       '영화사 그램', '그린나래미디어', 'CGV ICECON', '이수C&E', '트리플픽쳐스', '씨제이포디플렉스',
       'TCO더콘텐츠온', '드림팩트엔터테인먼트', '오드', '영화사 빅', '애니플러스', '팝엔터테인먼트',
       '키다리이엔티', '영화특별시에스엠씨', '미디어캐슬', '라이크콘텐츠', '싸이더스', '판씨네마',
       '스톰픽쳐스코리아', '영화사 진진', '디스테이션', '와이드 릴리즈', '찬란', '빅웨이브시네마',
       '예지림엔터테인먼트', '영화사오원', '팬엔터테인먼트', '박수엔터테인먼트', '버킷스튜디오', '삼백상회',
       '퍼스트런', '엣나인필름', '대교 미디어콘텐츠사업본부', '알토미디어', '스마트스터디', '중헌홀딩스',
       '(재)CBS', '블루필름웍스', '동우에이앤이', '다자인소프트', '슈아픽처스', '영화제작전원사',
       '비싸이드 픽쳐스', '미로스페이스', '영화사 안다미로', '콘텐츠판다', 'THE 픽쳐스', '스튜디오 보난자',
       '케이티하이텔', '더쿱', '하준사', '에이썸엔터테인먼트', '률필름', '㈜인디스토리', '커넥트픽쳐스',
       'M&M 인터내셔널', '에이원엔터테인먼트', '마노엔터테인먼트', '아이 엠', '라온컴퍼니플러스', '그노스',
       '디오시네마', '영화사 풀', '티캐스트', 

In [99]:
def merge_dist_name(name):
    if pd.isna(name) or not str(name).strip():
        return name

    s = str(name).strip()

    # 연속 공백 정리 (re 없이)
    s = ' '.join(s.split())

    # CJ ENM
    if ('씨제이이엔엠' in s) or ('CJ ENM' in s) or ('씨제이' in s and '이엔엠' in s):
        return 'CJ ENM'

    # CJ CGV 계열
    if ('CGV' in s) or ('씨지브이' in s):
        return 'CJ CGV'

    # CJ 4DPLEX
    if '포디플렉스' in s or '4DPLEX' in s:
        return 'CJ 4DPLEX'

    # 롯데컬처웍스
    if '롯데컬처웍스' in s:
        return '롯데컬처웍스'

    # 플러스엠 / 메가박스
    if ('메가박스중앙' in s) or ('플러스엠' in s):
        return '플러스엠'

    # 디즈니 / 유니버설 / 소니
    if ('월트디즈니' in s) or ('디즈니컴퍼니코리아' in s):
        return '월트디즈니'

    if '유니버설픽쳐스' in s:
        return '유니버설픽쳐스'

    if '소니픽쳐스' in s:
        return '소니픽쳐스'

    # 워너
    if '워너브러더스' in s:
        return '워너브러더스'

    # 영화사 띄어쓰기 차이
    compact = s.replace(' ', '')
    if compact in ['영화사빅', '영화사진진']:
        return compact

    # 더쿱 / 무비다이브 / 모쿠슈라
    if '더쿱' in compact:
        return '더쿱'
    if '무비다이브' in compact:
        return '무비다이브'
    if '모쿠슈라' in compact:
        return '모쿠슈라'

    return s

movie_df['DIST_MERGED'] = movie_df['DIST_CLEAN'].apply(merge_dist_name)



In [100]:
movie_df

Unnamed: 0,VIEWNG_NMPR_CO,DISTB_CMPNY_NM,GENRE_NM,NLTY_NM,OPN_DE,DIST_CLEAN,DIST_MERGED,DIST_TOP30
0,4750104,(주)쇼박스,드라마,한국,2020-01-22,쇼박스,쇼박스,기타
1,4352669,(주)씨제이이엔엠,범죄,한국,2020-08-05,씨제이이엔엠,CJ ENM,CJ ENM
2,3812080,(주)넥스트엔터테인먼트월드(NEW),액션,한국,2020-07-15,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드
3,2406232,롯데컬처웍스(주)롯데엔터테인먼트,코미디,한국,2020-01-22,롯데컬처웍스롯데엔터테인먼트,롯데컬처웍스,롯데컬처웍스
4,1992214,워너브러더스 코리아(주),액션,미국,2020-08-26,워너브러더스 코리아,워너브러더스,워너브러더스
...,...,...,...,...,...,...,...,...
12467,445,메가박스중앙(주) 플러스엠 엔터테인먼트,범죄,한국,2025-04-16,메가박스중앙 플러스엠 엔터테인먼트,플러스엠,플러스엠
12468,430,(주)박수엔터테인먼트,애니메이션,미국,2025-04-10,박수엔터테인먼트,박수엔터테인먼트,기타
12469,424,(주)넥스트엔터테인먼트월드(NEW),드라마,일본,2023-11-29,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드
12470,405,씨제이 씨지브이(CJ CGV)(주),애니메이션,한국,2025-01-01,씨제이 씨지브이(CJ CGV),CJ CGV,CJ CGV


In [101]:
name_count_df = (
    movie_df['DIST_MERGED']
    .value_counts()
    .reset_index()
    .rename(columns={
        'index': 'DIST_MERGED',
        'DIST_MERGED': 'MOVIE_COUNT'
    })
)

name_count_df

Unnamed: 0,MOVIE_COUNT,count
0,영진크리에이티브,1108
1,영화사가을,427
2,라온컴퍼니플러스,270
3,가온콘텐츠,237
4,샤이커뮤니케이션즈,221
...,...,...
395,컬츠인큐티에프,1
396,열공영화제작소,1
397,에이유앤씨,1
398,모꼬지,1


In [102]:
# 배급사별 영화 편수 집계
dist_count = movie_df['DIST_MERGED'].value_counts()

# 상위 30개 배급사 리스트
top30_dist = dist_count.head(30).index.tolist()

In [103]:
movie_df['DIST_TOP30'] = movie_df['DIST_MERGED'].apply(
    lambda x: x if x in top30_dist else '기타'
)

In [97]:
movie_df['DIST_TOP30'].value_counts()

DIST_TOP30
기타             4618
영진크리에이티브       1108
영화사가을           427
라온컴퍼니플러스        270
가온콘텐츠           237
샤이커뮤니케이션즈       221
CJ CGV          193
도키엔터테인먼트        191
씨맥스커뮤니케이션즈      162
조이앤시네마          150
롯데컬처웍스          141
영화사진진           137
넥스트엔터테인먼트월드     131
유니버설픽쳐스         129
코빈커뮤니케이션즈       124
플러스엠            116
월트디즈니           116
드림팩트엔터테인먼트      115
디스테이션           115
와이드 릴리즈         114
엣나인필름           111
픽쳐레스크           111
찬란              105
케이엘 픽쳐스         101
루믹스미디어          101
CJ ENM           99
스마일컨텐츠           99
워너브러더스           95
제이앤씨미디어그룹        95
트리플픽쳐스           93
팝엔터테인먼트          92
Name: count, dtype: int64

In [98]:
movie_df

Unnamed: 0,VIEWNG_NMPR_CO,DISTB_CMPNY_NM,GENRE_NM,NLTY_NM,OPN_DE,DIST_CLEAN,DIST_MERGED,DIST_TOP30
0,4750104,(주)쇼박스,드라마,한국,2020-01-22,쇼박스,쇼박스,기타
1,4352669,(주)씨제이이엔엠,범죄,한국,2020-08-05,씨제이이엔엠,CJ ENM,CJ ENM
2,3812080,(주)넥스트엔터테인먼트월드(NEW),액션,한국,2020-07-15,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드
3,2406232,롯데컬처웍스(주)롯데엔터테인먼트,코미디,한국,2020-01-22,롯데컬처웍스롯데엔터테인먼트,롯데컬처웍스,롯데컬처웍스
4,1992214,워너브러더스 코리아(주),액션,미국,2020-08-26,워너브러더스 코리아,워너브러더스,워너브러더스
...,...,...,...,...,...,...,...,...
12467,445,메가박스중앙(주) 플러스엠 엔터테인먼트,범죄,한국,2025-04-16,메가박스중앙 플러스엠 엔터테인먼트,플러스엠,플러스엠
12468,430,(주)박수엔터테인먼트,애니메이션,미국,2025-04-10,박수엔터테인먼트,박수엔터테인먼트,기타
12469,424,(주)넥스트엔터테인먼트월드(NEW),드라마,일본,2023-11-29,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드,넥스트엔터테인먼트월드
12470,405,씨제이 씨지브이(CJ CGV)(주),애니메이션,한국,2025-01-01,씨제이 씨지브이(CJ CGV),CJ CGV,CJ CGV


In [104]:
movie_df.info()

<class 'pandas.DataFrame'>
Index: 9917 entries, 0 to 12471
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   VIEWNG_NMPR_CO  9917 non-null   int64         
 1   DISTB_CMPNY_NM  9916 non-null   str           
 2   GENRE_NM        9886 non-null   str           
 3   NLTY_NM         9917 non-null   str           
 4   OPN_DE          9917 non-null   datetime64[us]
 5   DIST_CLEAN      9917 non-null   object        
 6   DIST_MERGED     9917 non-null   str           
 7   DIST_TOP30      9917 non-null   str           
dtypes: datetime64[us](1), int64(1), object(1), str(5)
memory usage: 697.3+ KB


finally now deal with Genre

In [105]:
movie_df['GENRE_NM'].unique()

<StringArray>
[     '드라마',       '범죄',       '액션',      '코미디',     '어드벤처',      '판타지',
     '미스터리',       '사극',      '스릴러',   '공포(호러)',    '애니메이션',   '멜로/로맨스',
       '공연',    '다큐멘터리',       'SF',       '전쟁',      '뮤지컬',       '가족',
       '기타',  '성인물(에로)',        nan, '서부극(웨스턴)']
Length: 22, dtype: str

In [108]:
movie_df['GENRE_NM'].isna().sum()

np.int64(31)

In [109]:
movie_df['GENRE_NM'] = movie_df['GENRE_NM'].fillna('미상')

**장르 결측치 처리 기준 (GENRE_NM)**

`GENRE_NM` 컬럼의 결측치(NaN)는 단순히 값이 없다는 기술적 상태를 의미할 뿐, 해당 영화가 실제로 장르가 없거나 특정 장르에 속하지 않는다는 의미를 명확히 전달하지 못한다.

본 분석에서는 장르 결측치가 다음과 같은 이유로 발생했을 가능성을 고려하였다.

- 장르 정보가 존재했으나 데이터 수집 또는 입력 과정에서 누락되었을 가능성
- 복합 장르·특수 상영·비정형 콘텐츠 등으로 장르 분류가 명확하지 않아 비워졌을 가능성

이처럼 결측치의 의미가 불확실한 상태에서 NaN을 그대로 유지할 경우, 장르별 집계나 시각화 과정에서 해당 영화들이 자동으로 제외되어 분석 대상에서 의도치 않게 누락될 수 있다.

따라서 장르 정보가 제공되지 않았다는 사실을 명시적으로 드러내고, 분석 과정에서 동일한 하나의 범주로 일관되게 처리하기 위해 `GENRE_NM`의 결측치를 **‘미상’**으로 대체하였다.

In [110]:
movie_df['GENRE_NM'].unique()

<StringArray>
[     '드라마',       '범죄',       '액션',      '코미디',     '어드벤처',      '판타지',
     '미스터리',       '사극',      '스릴러',   '공포(호러)',    '애니메이션',   '멜로/로맨스',
       '공연',    '다큐멘터리',       'SF',       '전쟁',      '뮤지컬',       '가족',
       '기타',  '성인물(에로)',       '미상', '서부극(웨스턴)']
Length: 22, dtype: str

In [111]:
movie_df['GENRE_NM'].value_counts()

GENRE_NM
멜로/로맨스      2263
드라마         2079
성인물(에로)     1703
애니메이션        829
다큐멘터리        596
액션           588
코미디          285
공연           284
공포(호러)       263
스릴러          175
범죄           147
기타           138
미스터리         106
SF            92
판타지           90
전쟁            64
어드벤처          58
가족            55
뮤지컬           41
미상            31
사극            23
서부극(웨스턴)       7
Name: count, dtype: int64

In [112]:
movie_df.info()

<class 'pandas.DataFrame'>
Index: 9917 entries, 0 to 12471
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   VIEWNG_NMPR_CO  9917 non-null   int64         
 1   DISTB_CMPNY_NM  9916 non-null   str           
 2   GENRE_NM        9917 non-null   str           
 3   NLTY_NM         9917 non-null   str           
 4   OPN_DE          9917 non-null   datetime64[us]
 5   DIST_CLEAN      9917 non-null   object        
 6   DIST_MERGED     9917 non-null   str           
 7   DIST_TOP30      9917 non-null   str           
dtypes: datetime64[us](1), int64(1), object(1), str(5)
memory usage: 697.3+ KB


In [113]:
movie_df['NLTY_NM'].unique()

<StringArray>
[      '한국',       '미국',       '영국',      '프랑스',       '일본',       '대만',
       '중국',       '홍콩',      '벨기에',      '스페인',      '러시아',    '우크라이나',
     '이탈리아',       '기타',       '독일',       '호주',      '캐나다',     '네덜란드',
     '아일랜드',      '폴란드',     '노르웨이',      '브라질',      '헝가리',      '덴마크',
      '핀란드',      '스위스',    '슬로바키아',     '불가리아',       '태국',      '스웨덴',
       '터키',      '필리핀',      '멕시코',    '크로아티아',   '우즈베키스탄',     '포르투갈',
    '오스트리아',      '모로코',    '아르헨티나',     '이스라엘',     '뉴질랜드', '남아프리카공화국',
     '우루과이',      '베트남',    '카자흐스탄',    '에스토니아',      '이집트',    '아이슬란드',
    '인도네시아',       '인도',       '체코',       '몽고',       '이란',    '말레이시아']
Length: 54, dtype: str

In [114]:
movie_df['NLTY_NM'].value_counts()

NLTY_NM
한국          4289
일본          2749
미국          1258
프랑스          272
영국           239
중국           173
기타           129
독일           118
이탈리아         110
캐나다           87
러시아           76
스페인           70
홍콩            62
호주            44
헝가리           25
대만            24
노르웨이          21
네덜란드          16
폴란드           15
핀란드           14
아일랜드          13
덴마크           12
벨기에           10
우크라이나          7
브라질            7
베트남            7
인도             7
멕시코            5
오스트리아          5
태국             4
필리핀            4
포르투갈           4
모로코            4
아르헨티나          4
이스라엘           4
스위스            3
터키             3
카자흐스탄          3
이란             3
우즈베키스탄         2
몽고             2
슬로바키아          1
불가리아           1
스웨덴            1
크로아티아          1
뉴질랜드           1
남아프리카공화국       1
우루과이           1
에스토니아          1
이집트            1
아이슬란드          1
인도네시아          1
체코             1
말레이시아          1
Name: count, dtype: int64

# !!! 여기까지