# 필요한 라이브러리 설치 (환경 설정 단계)

In [1]:
# numpy(수학 계산용 라이브러리) 삭제 - 특정 버전의 설치를 위해 기존 버전 제거
!pip uninstall numpy -y

Found existing installation: numpy 1.23.5
Uninstalling numpy-1.23.5:
  Successfully uninstalled numpy-1.23.5


In [2]:
# numpy를 특정 버전(1.23.5)으로 설치 - 호환성 문제 해결을 위해 필요
!pip install numpy==1.23.5

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting numpy==1.23.5
  Downloading numpy-1.23.5-cp310-cp310-win_amd64.whl.metadata (2.3 kB)
Downloading numpy-1.23.5-cp310-cp310-win_amd64.whl (14.6 MB)
   ---------------------------------------- 0.0/14.6 MB ? eta -:--:--
   ----- ---------------------------------- 1.8/14.6 MB 11.2 MB/s eta 0:00:02
   ------------ --------------------------- 4.5/14.6 MB 12.2 MB/s eta 0:00:01
   ------------------ --------------------- 6.8/14.6 MB 12.0 MB/s eta 0:00:01
   ------------------------ --------------- 8.9/14.6 MB 11.5 MB/s eta 0:00:01
   --------------------------- ------------ 10.2/14.6 MB 11.4 MB/s eta 0:00:01
   ------------------------------ --------- 11.0/14.6 MB 9.2 MB/s eta 0:00:01
   -------------------------------- ------- 11.8/14.6 MB 8.4 MB/s eta 0:00:01
   ------------------------------------- -- 13.6/14.6 MB 8.5 MB/s eta 0:00:01
   ---------------------------------------- 14.6/14.6 MB 8.7 MB/s eta 0:00:

In [3]:
# pandas(데이터 분석 라이브러리) 설치 - 데이터를 표 형태로 다루기 위해 필요
!pip install --trusted-host=pypi.org --trusted-host=files.pythonhosted.org pandas

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


In [4]:
# selenium(웹 브라우저 자동화 라이브러리) 설치 - 웹 데이터 크롤링 자동화에 필요
!pip install selenium

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


In [5]:
# openpyxl 설치 - 엑셀 파일 읽기/쓰기 지원
!pip install openpyxl

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


In [6]:
# requests 설치 - 인터넷에서 데이터 요청 및 다운로드에 필요
!pip install requests

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


In [7]:
from selenium import webdriver  # 웹 브라우저 자동화를 위한 라이브러리
from bs4 import BeautifulSoup  # HTML 구조 분석을 위한 라이브러리
from selenium.webdriver.common.by import By  # HTML 요소 검색에 사용
from selenium.webdriver.chrome.options import Options  # 크롬 브라우저 설정
import time  # 코드 실행 중 대기를 위한 라이브러리
import pandas as pd  # 데이터 정리 및 분석을 위한 라이브러리
import requests  # HTTP 요청을 위한 라이브러리

# 엑셀 데이터 읽기 (2024년 개봉 영화 데이터)

In [8]:
# 다운로드 받을 파일 URL
url = "https://github.com/gyeongnamit/movie_data_collector/raw/refs/heads/main/KOBIS_boxoffice_2024.xlsx"

# 저장할 파일 이름
output_file = "KOBIS_boxoffice_2024.xlsx"

# 파일 다운로드
try:
    #지정한 URL에서 데이터를 요청합니다.
    response = requests.get(url)
    #HTTP 요청이 성공했는지 확인합니다. 실패하면 예외를 발생시킵니다.
    response.raise_for_status()  # 요청에 실패한 경우 예외 발생
    #바이너리 쓰기 모드로 파일을 열고, 다운로드한 내용을 저장합니다.
    with open(output_file, "wb") as file:
        file.write(response.content)
    print(f"파일이 성공적으로 다운로드되었습니다: {output_file}")
except Exception as e:
    print(f"파일 다운로드 중 오류가 발생했습니다: {e}")

파일이 성공적으로 다운로드되었습니다: KOBIS_boxoffice_2024.xlsx


In [9]:
#최신 영화 박스 리스트 조회
#kobis 에서 2022년~2024년 박스리스트를 다운 받았습니다.
# pandas를 사용해 엑셀 파일 읽기
movie_2024 = pd.read_excel('KOBIS_boxoffice_2024.xlsx')

In [10]:
# 데이터 확인
movie_2024

Unnamed: 0,순위,영화명,개봉일,매출액,매출액.1,누적매출액,관객수,누적관객수,스크린수,상영횟수,대표국적,국적,제작사,배급사,등급,장르,감독,배우
0,,,NaT,,점유율,,,,,,,,,,,,,
1,1,파묘,2024-02-22,1.151566e+11,0.102,1.151566e+11,11914680.0,11914680.0,2367.0,364903.0,한국,한국,(주)쇼박스,(주)쇼박스,15세이상관람가,"미스터리,공포(호러)",장재현,"최민식,김고은,유해진,이도현,김재철,김민준,김병오,전진기,박정자,박지일,이종구,이영..."
2,2,범죄도시4,2024-04-24,1.100500e+11,0.097,1.100500e+11,11502779.0,11502779.0,2980.0,375434.0,한국,한국,"주식회사 빅펀치픽쳐스,(주)홍필름,(주)비에이엔터테인먼트","주식회사 에이비오엔터테인먼트,플러스엠 엔터테인먼트",15세이상관람가,"액션,범죄",허명행,"김무열,박지환,이동휘,마동석,곽자형,이범수,김민재,이지훈,이주빈,김도건,김지훈,현봉..."
3,3,인사이드 아웃 2,2024-06-12,8.450928e+10,0.075,8.450928e+10,8799013.0,8799013.0,2619.0,331341.0,미국,미국,"월트 디즈니 픽쳐스,픽사 애니메이션 스튜디오",월트디즈니컴퍼니코리아 유한책임회사,전체관람가,애니메이션,켈시 만,"에이미 포엘러,토니 헤일"
4,4,베테랑2,2024-09-13,7.247389e+10,0.064,7.247389e+10,7525322.0,7525322.0,2691.0,279663.0,한국,한국,(주)외유내강,(주)씨제이이엔엠,15세이상관람가,"액션,범죄",류승완,"황정민,정해인,장윤주,정만식,신승환,오달수,오대환,김시후,안보현,진경,권해효,변홍준..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3386,4044,헬리오폴리스,NaT,0.000000e+00,0,4.740000e+05,0.0,158.0,1.0,1.0,기타,기타,,,,기타,자파르 가셈,
3387,4044,황산벌,2003-10-17,0.000000e+00,0,4.186750e+07,0.0,5665.0,1.0,2.0,한국,한국,(주)씨네월드,(주)씨네월드,15세관람가,코미디,이준익,"박중훈,정진영,오지명,김병철,김선아,김윤태,이문식,조대은,김만수,김현두,나수원,조철..."
3388,4044,회오리 바람,2010-02-25,0.000000e+00,0,1.668050e+07,0.0,2275.0,1.0,1.0,한국,한국,(주)모쿠슈라,(주)영화사 진진,15세이상관람가,"드라마,멜로/로맨스",장건재,"서준영,권혁풍,한나,김호,신동주,조용선,김한나,최현성,박지완,안석범,하현수,백승진,..."
3389,4044,휘파람의 노래: 시벨,NaT,0.000000e+00,0,0.000000e+00,0.0,0.0,1.0,1.0,터키,터키,,,,드라마,기욤 조바네티,


# 결측치 처리 (데이터 정리)

In [11]:
# 데이터에서 결측치(빈 값)가 있는 행 제거
movie_2024.dropna(axis=0, inplace=True)

In [12]:
# 정리된 데이터 출력
movie_2024

Unnamed: 0,순위,영화명,개봉일,매출액,매출액.1,누적매출액,관객수,누적관객수,스크린수,상영횟수,대표국적,국적,제작사,배급사,등급,장르,감독,배우
1,1,파묘,2024-02-22,1.151566e+11,0.102,1.151566e+11,11914680.0,11914680.0,2367.0,364903.0,한국,한국,(주)쇼박스,(주)쇼박스,15세이상관람가,"미스터리,공포(호러)",장재현,"최민식,김고은,유해진,이도현,김재철,김민준,김병오,전진기,박정자,박지일,이종구,이영..."
2,2,범죄도시4,2024-04-24,1.100500e+11,0.097,1.100500e+11,11502779.0,11502779.0,2980.0,375434.0,한국,한국,"주식회사 빅펀치픽쳐스,(주)홍필름,(주)비에이엔터테인먼트","주식회사 에이비오엔터테인먼트,플러스엠 엔터테인먼트",15세이상관람가,"액션,범죄",허명행,"김무열,박지환,이동휘,마동석,곽자형,이범수,김민재,이지훈,이주빈,김도건,김지훈,현봉..."
3,3,인사이드 아웃 2,2024-06-12,8.450928e+10,0.075,8.450928e+10,8799013.0,8799013.0,2619.0,331341.0,미국,미국,"월트 디즈니 픽쳐스,픽사 애니메이션 스튜디오",월트디즈니컴퍼니코리아 유한책임회사,전체관람가,애니메이션,켈시 만,"에이미 포엘러,토니 헤일"
4,4,베테랑2,2024-09-13,7.247389e+10,0.064,7.247389e+10,7525322.0,7525322.0,2691.0,279663.0,한국,한국,(주)외유내강,(주)씨제이이엔엠,15세이상관람가,"액션,범죄",류승완,"황정민,정해인,장윤주,정만식,신승환,오달수,오대환,김시후,안보현,진경,권해효,변홍준..."
5,5,파일럿,2024-07-31,4.320408e+10,0.038,4.320408e+10,4718036.0,4718036.0,1956.0,203283.0,한국,한국,"쇼트케이크(주),(주)무비락",롯데컬처웍스(주)롯데엔터테인먼트,12세이상관람가,코미디,김한결,"조정석,이주명,한선화,신승호,오민애,김지현,서재희,박다온,현봉식,서현철,유재석,조세..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3371,4044,파이란,2001-04-28,0.000000e+00,0,1.340227e+07,0.0,1380.0,1.0,2.0,한국,한국,튜브픽쳐스(주),"(주)영화사오원,(주)튜브엔터테인먼트",15세관람가,드라마,송해성,"최민식,장백지,김수현,김지영,손병호,송현영,김해곤,김민희,정종현,공형진,지대한,손진..."
3376,4044,퍼펙트 게임,2011-12-21,0.000000e+00,0,1.122041e+10,0.0,1507085.0,1.0,1.0,한국,한국,"(주)동아수출공사,밀리언 스토리,(주)다세포클럽",롯데쇼핑㈜롯데엔터테인먼트,12세이상관람가,드라마,박희곤,"조승우,양동근,최정원,임지훈,김동희,허형규,박용규,신준호,최지훈,조찬형,차현우,한준..."
3384,4044,헌트,2022-08-10,0.000000e+00,0,4.460246e+10,0.0,4352513.0,1.0,1.0,한국,한국,"(주)아티스트스튜디오,(주)사나이픽처스",플러스엠 엔터테인먼트,15세이상관람가,"액션,드라마",이정재,"장재혁,이상혁,오동훈,이지영,이정재,정우성,전혜진,허성태,고윤정,김종수,정만식,임형..."
3387,4044,황산벌,2003-10-17,0.000000e+00,0,4.186750e+07,0.0,5665.0,1.0,2.0,한국,한국,(주)씨네월드,(주)씨네월드,15세관람가,코미디,이준익,"박중훈,정진영,오지명,김병철,김선아,김윤태,이문식,조대은,김만수,김현두,나수원,조철..."


# 데이터 컬럼명 확인 및 정리

In [13]:
#컬럼명 조회
movie_2024.columns

Index(['순위', '영화명', '개봉일', '매출액 ', '매출액', '누적매출액 ', '관객수 ', '누적관객수 ', '스크린수 ',
       '상영횟수 ', '대표국적 ', '국적 ', '제작사 ', '배급사 ', '등급 ', '장르 ', '감독 ', '배우 '],
      dtype='object')

In [14]:
#컬럼명의 공백 제거
movie_2024.columns = [    column.strip()   for column    in movie_2024.columns]

In [15]:
# 정리된 컬럼명 출력
movie_2024.columns

Index(['순위', '영화명', '개봉일', '매출액', '매출액', '누적매출액', '관객수', '누적관객수', '스크린수',
       '상영횟수', '대표국적', '국적', '제작사', '배급사', '등급', '장르', '감독', '배우'],
      dtype='object')

# 필요한 데이터 선택 (영화명, 감독, 배우, 누적관객수)

In [16]:
#영화명 감독 배우 조회 
movie_2024.loc[1,["영화명","감독","배우","누적관객수"]]

영화명                                                     파묘
감독                                                     장재현
배우       최민식,김고은,유해진,이도현,김재철,김민준,김병오,전진기,박정자,박지일,이종구,이영...
누적관객수                                           11914680.0
Name: 1, dtype: object

# 데이터 프레임 인덱스 재설정

In [17]:
#데이터 프레임 인덱스 재 설정
movie_2024.reset_index(drop=True, inplace=True)

In [18]:
# 재설정된 데이터 출력
movie_2024

Unnamed: 0,순위,영화명,개봉일,매출액,매출액.1,누적매출액,관객수,누적관객수,스크린수,상영횟수,대표국적,국적,제작사,배급사,등급,장르,감독,배우
0,1,파묘,2024-02-22,1.151566e+11,0.102,1.151566e+11,11914680.0,11914680.0,2367.0,364903.0,한국,한국,(주)쇼박스,(주)쇼박스,15세이상관람가,"미스터리,공포(호러)",장재현,"최민식,김고은,유해진,이도현,김재철,김민준,김병오,전진기,박정자,박지일,이종구,이영..."
1,2,범죄도시4,2024-04-24,1.100500e+11,0.097,1.100500e+11,11502779.0,11502779.0,2980.0,375434.0,한국,한국,"주식회사 빅펀치픽쳐스,(주)홍필름,(주)비에이엔터테인먼트","주식회사 에이비오엔터테인먼트,플러스엠 엔터테인먼트",15세이상관람가,"액션,범죄",허명행,"김무열,박지환,이동휘,마동석,곽자형,이범수,김민재,이지훈,이주빈,김도건,김지훈,현봉..."
2,3,인사이드 아웃 2,2024-06-12,8.450928e+10,0.075,8.450928e+10,8799013.0,8799013.0,2619.0,331341.0,미국,미국,"월트 디즈니 픽쳐스,픽사 애니메이션 스튜디오",월트디즈니컴퍼니코리아 유한책임회사,전체관람가,애니메이션,켈시 만,"에이미 포엘러,토니 헤일"
3,4,베테랑2,2024-09-13,7.247389e+10,0.064,7.247389e+10,7525322.0,7525322.0,2691.0,279663.0,한국,한국,(주)외유내강,(주)씨제이이엔엠,15세이상관람가,"액션,범죄",류승완,"황정민,정해인,장윤주,정만식,신승환,오달수,오대환,김시후,안보현,진경,권해효,변홍준..."
4,5,파일럿,2024-07-31,4.320408e+10,0.038,4.320408e+10,4718036.0,4718036.0,1956.0,203283.0,한국,한국,"쇼트케이크(주),(주)무비락",롯데컬처웍스(주)롯데엔터테인먼트,12세이상관람가,코미디,김한결,"조정석,이주명,한선화,신승호,오민애,김지현,서재희,박다온,현봉식,서현철,유재석,조세..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
523,4044,파이란,2001-04-28,0.000000e+00,0,1.340227e+07,0.0,1380.0,1.0,2.0,한국,한국,튜브픽쳐스(주),"(주)영화사오원,(주)튜브엔터테인먼트",15세관람가,드라마,송해성,"최민식,장백지,김수현,김지영,손병호,송현영,김해곤,김민희,정종현,공형진,지대한,손진..."
524,4044,퍼펙트 게임,2011-12-21,0.000000e+00,0,1.122041e+10,0.0,1507085.0,1.0,1.0,한국,한국,"(주)동아수출공사,밀리언 스토리,(주)다세포클럽",롯데쇼핑㈜롯데엔터테인먼트,12세이상관람가,드라마,박희곤,"조승우,양동근,최정원,임지훈,김동희,허형규,박용규,신준호,최지훈,조찬형,차현우,한준..."
525,4044,헌트,2022-08-10,0.000000e+00,0,4.460246e+10,0.0,4352513.0,1.0,1.0,한국,한국,"(주)아티스트스튜디오,(주)사나이픽처스",플러스엠 엔터테인먼트,15세이상관람가,"액션,드라마",이정재,"장재혁,이상혁,오동훈,이지영,이정재,정우성,전혜진,허성태,고윤정,김종수,정만식,임형..."
526,4044,황산벌,2003-10-17,0.000000e+00,0,4.186750e+07,0.0,5665.0,1.0,2.0,한국,한국,(주)씨네월드,(주)씨네월드,15세관람가,코미디,이준익,"박중훈,정진영,오지명,김병철,김선아,김윤태,이문식,조대은,김만수,김현두,나수원,조철..."


# 크롤링 결과 저장을 위한 데이터 프레임 생성

In [19]:
#영화 정보를 저장할 데이터 프레임 선언
movie_df = pd.DataFrame(columns=["title","director","actor","box_office","synopsis","poster","open_date","degree","genre","country","movie_time"])

In [20]:
# 빈 데이터 프레임 출력
movie_df 

Unnamed: 0,title,director,actor,box_office,synopsis,poster,open_date,degree,genre,country,movie_time


In [21]:
# 크롬 브라우저 옵션 설정
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)  # 브라우저 자동 닫힘 방지

driver = webdriver.Chrome(options=chrome_options)  # 크롬 드라이버 실행

# 네이버 영화 검색 페이지 열기
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EC%98%81%ED%99%94'
driver.implicitly_wait(10)  # 페이지 로딩 대기 시간 10초 설정
driver.get(url)  # URL 접속
time.sleep(1)  # 1초 대기

In [22]:
#2024년 영화 정보 행의 수 리턴
len(movie_2024)

528

In [23]:
#2024년 영화 정보 행의 수 대입
n_row = len(movie_2024)
n_row

528

In [24]:
#2024년 영화 정보 행의 수 만큼 반복
for index in range(n_row):
    #영화명 리턴
    movie = movie_2024.loc[index,"영화명"]
    #감독 리턴
    director = movie_2024.loc[index,"감독"]
    #배우 리턴
    actor = movie_2024.loc[index,"배우"]
    #관객수 리턴
    box_office = movie_2024.loc[index,"누적관객수"]
    
    #id 속성이 nx_query 인 객체(검색창)를 search_box에 대입
    # 검색창 요소 찾기
    search_box = driver.find_element(By.ID, 'nx_query')
    #기존에 입력한 메시지 삭제
    search_box.clear()
    
    #1초 대기
    time.sleep(1)
    #id 속성이 nx_query인 객체(검색창)에 영화 영화 제목 입력
    search_box.send_keys('영화 ', movie)
    
    #클래스 속성이 bt_search인 객체 (검색 버튼) 리턴
    search_button = driver.find_element(By.CLASS_NAME,'bt_search')
    #버튼 클릭
    search_button.click()
    #1초 대기
    time.sleep(1)
    
    try:
                
        #클래스 속성이 tab_list인 객체 (정보 카테고리 탭)리턴
        tab_list = driver.find_element(By.CLASS_NAME, 'tab_list')
        #클래스 속성이 tab _tab (클래스 속성이 tab _tab )  인 객체들 (여러개) 중 인덱스 1인 객체 (두 번째 탭 선택) 리턴
        tab = tab_list.find_elements(By.CSS_SELECTOR,".tab._tab")[1]
        #선택한 탭 클릭
        tab.click()
        #1초 대기
        time.sleep(1)
        
        #HTML 페이지 소스를 가져옵니다.
        html = driver.page_source
        #페이지의 정보를 추출 할 soup 객체 생성
        soup = BeautifulSoup(html, 'html.parser')
    
        # 영화 제목 수집
        #클래스 속성이 area_text_title인 객체(영화제목) 의 문자열 리턴
        title = soup.select_one(".area_text_title").text
        #print("title=",title)
        
        # 영화 포스터 URL 수집
        #클래스 속성이 detail_info인 객체 리턴
        detail_info = soup.select_one(".detail_info")
        #클래스 속성이 detail_info인 객체에 포함된 객체 중 클래스 속성이 _img인 객체 리턴
        img = detail_info.select_one("._img")
        #src 속성의 값 (영화 포스터의 url) 리턴
        poster = img['src']
        #영화 포스터의 url 출력
        #print("poster=",poster)
        
        # 영화의 세부 정보를 수집 (개봉일, 등급, 장르, 국가, 상영시간)
        #클래스 속성이 info txt_4 (2개 클래스 적용) 인 객체 리턴
        info_group = soup.select_one(".info.txt_4")
        #dd 엘레먼트 리턴 (여러개)
        dd_list = info_group.select("dd")
        #0번째 dd의 문자열 리턴 (개봉일)
        open_date = dd_list[0].text
        #print("open_date=",open_date)
        
        #1번째 dd의 문자열 리턴 (등급)
        degree = dd_list[1].text
        #print("degree=",degree)
        
        #2번째 dd의 문자열 리턴 (장르)
        genre = dd_list[2].text
        #print("genre=",genre)
        
        #3번째 dd의 문자열 리턴 (국가)
        country = dd_list[3].text
        #print("country=",country)
        
        #4번째 dd의 문자열 리턴 (상영시간)
        movie_time = dd_list[4].text
        #print("movie_time=",movie_time)
     
        #클래스 속성이 text _content_text (2개 클래스 적용) 인 객체 문자열(줄거리) 리턴
        synopsis = soup.select_one(".text._content_text").text
        #print("synopsis=",synopsis)

        #행 추가
        movie_df.loc[len(movie_df)] = {
                                        "title":title,
                                        "poster":poster,
                                         "box_office":box_office,   
                                         "synopsis":synopsis,   
                                         "director":director,
                                         "actor":actor,
                                         "open_date":open_date,"degree":degree,
                                         "genre":genre,"country":country,
                                         "movie_time":movie_time
                                        }
                           
    except Exception as e:
        print("=" * 100)
        print("exeption=",e)
        print("=" * 100)

exeption= Message: no such element: Unable to locate element: {"method":"css selector","selector":".tab_list"}
  (Session info: chrome=131.0.6778.205); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
	GetHandleVerifier [0x00007FF6637AFB05+28789]
	(No symbol) [0x00007FF6637186E0]
	(No symbol) [0x00007FF6635B592A]
	(No symbol) [0x00007FF66360930E]
	(No symbol) [0x00007FF6636095FC]
	(No symbol) [0x00007FF6636528A7]
	(No symbol) [0x00007FF66362F47F]
	(No symbol) [0x00007FF66364F654]
	(No symbol) [0x00007FF66362F1E3]
	(No symbol) [0x00007FF6635FA938]
	(No symbol) [0x00007FF6635FBAA1]
	GetHandleVerifier [0x00007FF663AE933D+3410093]
	GetHandleVerifier [0x00007FF663AFE7DD+3497293]
	GetHandleVerifier [0x00007FF663AF2A73+3448803]
	GetHandleVerifier [0x00007FF663877BBB+848171]
	(No symbol) [0x00007FF663723C3F]
	(No symbol) [0x00007FF66371F6E4]
	(No symbol) [0x00007FF66371F87D]
	(No symbol)

In [25]:
#크롤링한 정보를 파일로 저장
movie_df.to_csv("movie_2024.csv", index=False,encoding="utf-8-sig")