In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from tqdm import tqdm
import ipywidgets as widgets
import time
from bs4 import BeautifulSoup
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import re
from selenium.webdriver.support.ui import Select

In [2]:
import pandas as pd
import numpy as np

In [4]:
options = webdriver.ChromeOptions()

prefs = {"download.default_directory" : "/home/lim/dev_ws/eda/data", "download.prompt_for_download":False}
options.add_experimental_option("prefs", prefs)

url = "https://www.kobis.or.kr/kobis/business/stat/boxs/findYearlyBoxOfficeList.do"
driver = webdriver.Chrome(service=Service("/home/lim/dev_ws/eda/driver/chromedriver"), options=options)

driver.get(url)
driver.set_window_size(1800, 1300)

In [9]:
year = driver.find_element(By.ID, "sSearchYearFrom")
years = []
years_list = year.find_elements(By.TAG_NAME, "option")
for yearly in years_list:
    yearly = yearly.get_attribute("value")
    years.append(yearly)
years = years[9:]
years

['2013',
 '2014',
 '2015',
 '2016',
 '2017',
 '2018',
 '2019',
 '2020',
 '2021',
 '2022',
 '2023',
 '2024']

In [10]:
year.send_keys(years[-1])

In [11]:
movie_names = []
page = driver.page_source
soup = BeautifulSoup(page, "html.parser")
movies = soup.find("table", "tbl_comm th_sort")
moviesList = movies.find_all("span", class_="ellip per90")
for movie in moviesList:
    movie = movie.find("a").text
    movie_names.append(movie)

movie_names

['파묘',
 '범죄도시4',
 '인사이드 아웃 2',
 '베테랑2',
 '파일럿',
 '웡카',
 '모아나 2',
 '소방관',
 '탈주',
 '듄: 파트2',
 '에이리언: 로물루스',
 '데드풀과 울버린',
 '위키드',
 '핸섬가이즈',
 '하이재킹',
 '쿵푸팬더4',
 '베놈: 라스트 댄스',
 '시민덕희',
 '퓨리오사: 매드맥스 사가',
 '슈퍼배드 4',
 '하얼빈',
 '외계+인 2부',
 '위시',
 '서울의 봄',
 '사랑의 하츄핑',
 '그녀가 죽었다',
 '건국전쟁',
 '노량: 죽음의 바다',
 '히든페이스',
 '댓글부대',
 '글래디에이터 Ⅱ',
 '혹성탈출: 새로운 시대',
 '대도시의 사랑법',
 '청설',
 '명탐정 코난: 100만 달러의 펜타그램',
 '극장판 하이큐!! 쓰레기장의 결전',
 '행복의 나라',
 '탈출: 프로젝트 사일런스',
 '와일드 로봇',
 '보통의 가족',
 '원더랜드',
 '트위스터스',
 '조커: 폴리 아 되',
 '아마존 활명수',
 '콰이어트 플레이스: 첫째 날',
 '설계자',
 '고질라 X 콩: 뉴 엠파이어',
 '빅토리',
 '귀멸의 칼날: 인연의 기적, 그리고 합동 강화 훈련으로',
 '무파사: 라이온 킹']

In [12]:
movie_viewers = []
movieL = driver.find_elements(By.ID, "td_audiAcc")
for movie in movieL:
    movie_viewers.append(movie.text)

movie_viewers

['11,914,716',
 '11,502,779',
 '8,799,013',
 '7,525,339',
 '4,718,036',
 '3,531,717',
 '3,238,576',
 '2,983,233',
 '2,561,872',
 '2,019,129',
 '2,002,033',
 '1,977,010',
 '1,971,872',
 '1,776,995',
 '1,774,150',
 '1,771,738',
 '1,763,723',
 '1,715,064',
 '1,606,378',
 '1,562,001',
 '1,481,814',
 '1,430,121',
 '1,403,486',
 '1,273,640',
 '1,239,064',
 '1,237,103',
 '1,173,927',
 '1,135,516',
 '1,008,846',
 '972,991',
 '909,478',
 '907,155',
 '879,096',
 '801,345',
 '753,606',
 '744,521',
 '710,620',
 '689,603',
 '682,036',
 '650,336',
 '625,908',
 '620,240',
 '612,831',
 '606,612',
 '552,619',
 '525,369',
 '510,370',
 '508,467',
 '497,320',
 '494,680']

In [13]:
movie_genre = []
for movie in tqdm(movie_names):
    print(movie)
    link = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.LINK_TEXT, movie)))
    link.click()

    page = driver.page_source
    soup = BeautifulSoup(page, "html.parser")

    for dt in soup.find_all("dt", text="요약정보"):
        dd = dt.find_next("dd")  # Get the associated <dd> element
        if dd:
            # Extract and clean the genre information
            raw_text = dd.get_text(separator="|").strip()  # Use '|' as separator for clarity
            parts = raw_text.split("|")  # Split by '|'
            genre_parts = [part.strip() for part in parts if "," in part]  # Filter parts with commas (genres)
            for genre in genre_parts:
                # Further split by commas to separate multiple genres
                movie_genre.extend([g.strip() for g in genre.split(",")])
                genres = [
                    '미스터리', '공포(호러)', '액션', '범죄', '판타지', '드라마', 'SF', 
                    '코미디', '뮤지컬', '애니메이션', '스릴러', '어드벤처', '사극', '멜로/로맨스'
                ]

                movie_genre = [item for item in movie_genre if item in genres]

    close = driver.find_element(By.CLASS_NAME, "close")
    close.click()

movie_genre, len(movie_genre)

  0%|          | 0/50 [00:00<?, ?it/s]

파묘


  for dt in soup.find_all("dt", text="요약정보"):
  2%|▏         | 1/50 [00:03<02:30,  3.06s/it]

범죄도시4


  4%|▍         | 2/50 [00:05<02:03,  2.58s/it]

인사이드 아웃 2


  6%|▌         | 3/50 [00:06<01:31,  1.94s/it]

베테랑2


  8%|▊         | 4/50 [00:09<01:43,  2.25s/it]

파일럿


 10%|█         | 5/50 [00:11<01:44,  2.33s/it]

웡카


 12%|█▏        | 6/50 [00:13<01:28,  2.02s/it]

모아나 2


 14%|█▍        | 7/50 [00:14<01:14,  1.74s/it]

소방관


 16%|█▌        | 8/50 [00:15<01:11,  1.70s/it]

탈주


 18%|█▊        | 9/50 [00:18<01:17,  1.89s/it]

듄: 파트2


 20%|██        | 10/50 [00:19<01:09,  1.74s/it]

에이리언: 로물루스


 22%|██▏       | 11/50 [00:20<01:03,  1.62s/it]

데드풀과 울버린


 24%|██▍       | 12/50 [00:22<00:57,  1.52s/it]

위키드


 26%|██▌       | 13/50 [00:23<00:52,  1.41s/it]

핸섬가이즈


 28%|██▊       | 14/50 [00:24<00:50,  1.40s/it]

하이재킹


 30%|███       | 15/50 [00:27<01:03,  1.80s/it]

쿵푸팬더4


 32%|███▏      | 16/50 [00:29<01:00,  1.77s/it]

베놈: 라스트 댄스


 34%|███▍      | 17/50 [00:31<00:59,  1.79s/it]

시민덕희


 36%|███▌      | 18/50 [00:32<00:58,  1.82s/it]

퓨리오사: 매드맥스 사가


 38%|███▊      | 19/50 [00:34<00:54,  1.75s/it]

슈퍼배드 4


 40%|████      | 20/50 [00:36<00:50,  1.69s/it]

하얼빈


 42%|████▏     | 21/50 [00:37<00:49,  1.70s/it]

외계+인 2부


 44%|████▍     | 22/50 [00:41<01:07,  2.42s/it]

위시


 46%|████▌     | 23/50 [00:43<00:59,  2.22s/it]

서울의 봄


 48%|████▊     | 24/50 [00:47<01:07,  2.61s/it]

사랑의 하츄핑


 50%|█████     | 25/50 [00:49<01:00,  2.42s/it]

그녀가 죽었다


 52%|█████▏    | 26/50 [00:50<00:53,  2.21s/it]

건국전쟁


 54%|█████▍    | 27/50 [00:52<00:43,  1.91s/it]

노량: 죽음의 바다


 56%|█████▌    | 28/50 [00:56<00:56,  2.57s/it]

히든페이스


 58%|█████▊    | 29/50 [00:58<00:54,  2.58s/it]

댓글부대


 60%|██████    | 30/50 [01:01<00:50,  2.51s/it]

글래디에이터 Ⅱ


 62%|██████▏   | 31/50 [01:02<00:39,  2.09s/it]

혹성탈출: 새로운 시대


 64%|██████▍   | 32/50 [01:03<00:33,  1.86s/it]

대도시의 사랑법


 66%|██████▌   | 33/50 [01:06<00:34,  2.05s/it]

청설


 68%|██████▊   | 34/50 [01:08<00:32,  2.05s/it]

명탐정 코난: 100만 달러의 펜타그램


 70%|███████   | 35/50 [01:09<00:29,  1.95s/it]

극장판 하이큐!! 쓰레기장의 결전


 72%|███████▏  | 36/50 [01:11<00:26,  1.90s/it]

행복의 나라


 74%|███████▍  | 37/50 [01:13<00:23,  1.82s/it]

탈출: 프로젝트 사일런스


 76%|███████▌  | 38/50 [01:16<00:28,  2.37s/it]

와일드 로봇


 78%|███████▊  | 39/50 [01:18<00:23,  2.15s/it]

보통의 가족


 80%|████████  | 40/50 [01:20<00:20,  2.09s/it]

원더랜드


 82%|████████▏ | 41/50 [01:22<00:19,  2.15s/it]

트위스터스


 84%|████████▍ | 42/50 [01:24<00:15,  1.99s/it]

조커: 폴리 아 되


 86%|████████▌ | 43/50 [01:26<00:13,  1.89s/it]

아마존 활명수


 88%|████████▊ | 44/50 [01:28<00:11,  1.91s/it]

콰이어트 플레이스: 첫째 날


 90%|█████████ | 45/50 [01:29<00:08,  1.79s/it]

설계자


 92%|█████████▏| 46/50 [01:31<00:06,  1.75s/it]

고질라 X 콩: 뉴 엠파이어


 94%|█████████▍| 47/50 [01:32<00:04,  1.58s/it]

빅토리


 96%|█████████▌| 48/50 [01:34<00:03,  1.68s/it]

귀멸의 칼날: 인연의 기적, 그리고 합동 강화 훈련으로


 98%|█████████▊| 49/50 [01:35<00:01,  1.48s/it]

무파사: 라이온 킹


100%|██████████| 50/50 [01:36<00:00,  1.93s/it]


(['미스터리',
  '공포(호러)',
  '액션',
  '범죄',
  '액션',
  '범죄',
  '판타지',
  '드라마',
  '공포(호러)',
  'SF',
  '액션',
  '코미디',
  'SF',
  '판타지',
  '뮤지컬',
  '범죄',
  '액션',
  '애니메이션',
  '액션',
  '코미디',
  '액션',
  'SF',
  '스릴러',
  '애니메이션',
  '액션',
  '어드벤처',
  '코미디',
  '미스터리',
  '스릴러',
  '사극',
  '액션',
  '범죄',
  '드라마',
  '액션',
  '사극',
  '액션',
  'SF',
  '드라마',
  '멜로/로맨스',
  '액션',
  '어드벤처',
  '드라마',
  '범죄',
  '드라마',
  '뮤지컬',
  '범죄',
  '드라마',
  '액션',
  '어드벤처',
  'SF'],
 50)

In [80]:
movie_names = []
movie_viewers = []
movie_genre = []
movie_years = []
movieG = []

options = webdriver.ChromeOptions()

prefs = {"download.default_directory" : "/home/lim/dev_ws/eda/data", "download.prompt_for_download":False}
options.add_experimental_option("prefs", prefs)

url = "https://www.kobis.or.kr/kobis/business/stat/boxs/findYearlyBoxOfficeList.do"
driver = webdriver.Chrome(service=Service("C:/Users/AAA/.vscode/workspace/AddInEdu/driver/chromedriver-win64/chromedriver.exe"), options=options)

driver.get(url)
driver.set_window_size(1800, 1300)

year_dropdown = driver.find_element(By.ID, "sSearchYearFrom")
select = Select(year_dropdown)  # Use Select to interact with the dropdown
years_list = select.options  # Get all options in the dropdown

years = []
for option in years_list:
    years.append(option.get_attribute("value"))

# Limit to the last few years (example: from the 10th year onward)
years = years[9:]
years = years[:2]
# Loop through the years and perform scraping
for yearly in tqdm(years):
    year_dropdown = driver.find_element(By.ID, "sSearchYearFrom")
    select = Select(year_dropdown)  # Re-initialize the Select object
    
    driver.execute_script("window.scrollTo(0, 0)")
    select.select_by_value(yearly)  # Select the year from the dropdown
    
    # Click the "show" button to load the data
    show = driver.find_element(By.CLASS_NAME, "wrap_btn")
    show.click()
    time.sleep(1)

    movieN = []
    # Wait for the page to load and parse it
    page = driver.page_source
    soup = BeautifulSoup(page, "html.parser")
    movies = soup.find("table", "tbl_comm th_sort")
    moviesList = movies.find_all("span", class_="ellip per90")
    for movie in moviesList:
        movie = movie.find("a").text
        movie_names.append(movie)
        movieN.append(movie)
        movie_years.append(yearly)
    
    movieL = driver.find_elements(By.ID, "td_audiAcc")
    for movie in movieL:
        movie_viewers.append(movie.text)

    for movie in tqdm(movieN):
        movieG = []
        link = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.LINK_TEXT, movie)))
        link.click()

        page = driver.page_source
        soup = BeautifulSoup(page, "html.parser")

        dt = soup.find("dt", text="요약정보")
        if dt:
            dd = dt.find_next("dd")  # Get the associated <dd> element
            if dd:
                # Extract and clean the genre information
                raw_text = dd.get_text(separator="|").strip()  # Use '|' as separator for clarity
                parts = raw_text.split("|")  # Split by '|'
                genre_parts = [part.strip() for part in parts if "," in part]  # Filter parts with commas (genres)
                for genre in genre_parts:
                    # Further split by commas to separate multiple genres
                    movieG.extend([g.strip() for g in genre.split(",")])
                    # Filter only recognized genres
                    genres = [                print(parts)
                        '미스터리', '공포(호러)', '액션', '범죄', '판타지', '드라마', 'SF', 
                        '코미디', '뮤지컬', '애니메이션', '스릴러', '어드벤처', '사극', '멜로/로맨스'
                    ]
                    current_movie_genres = [item for item in movieG if item in genres]
                    print(current_movie_genres)
                movie_genre.append(current_movie_genres)
            else:
                # If no <dd> found, append an empty list
                movie_genre.append([])
        else:
            # If no "요약정보" section, append an empty list
            movie_genre.append([])

        close = driver.find_element(By.CLASS_NAME, "close")
        close.click()

len(movie_names), len(movie_viewers), len(movie_genre), len(movie_years)

  dt = soup.find("dt", text="요약정보")


['장편 ', ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t                       \t\n\t                       \t\t\t코미디,\n\t                       \t\n\t                       \t\t\t드라마\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t127분 0초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                           \t\t\t15세이상관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t                        \t한국\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t', '\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\



['장편 ', ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t                       \t\n\t                       \t\t\tSF,\n\t                       \t\n\t                       \t\t\t액션\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t125분 46초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                           \t\t\t15세이상관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t                        \t한국,\n\t                        \n\t                        \t체코\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t', '']
['SF', '액션']
['SF', '액션']




['장편 ', ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t                       \t\n\t                       \t\t\t사극,\n\t                       \t\n\t                       \t\t\t드라마\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t139분 40초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                           \t\t\t15세이상관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t                        \t한국\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t', '\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\



['장편 ', ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t                       \t\n\t                       \t\t\t액션,\n\t                       \t\n\t                       \t\t\t어드벤처,\n\t                       \t\n\t                       \t\t\tSF\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t130분 22초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\t\t\n                           \t\t\t12세이상관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t                        \t미국\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t', '']
['액션', '어드벤처', 'SF']




['장편 ', ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t                       \t\n\t                       \t\t\t액션\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t120분 0초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                           \t\t\t15세이상관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t                        \t한국,\n\t                        \n\t                        \t독일\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t', '\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\



['장편 ', ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t                       \t\n\t                       \t\t\t액션,\n\t                       \t\n\t                       \t\t\t코미디,\n\t                       \t\n\t                       \t\t\t드라마\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t123분 47초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                           \t\t\t15세이상관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t', '\n\t\t\t\t\t\t\t\n\t                        \t한국\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t', '\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\

 12%|█▏        | 6/50 [00:10<01:19,  1.80s/it]
  0%|          | 0/2 [00:12<?, ?it/s]


KeyboardInterrupt: 

In [75]:
len(movie_names), len(movie_viewers), len(movie_genre), len(movie_years)

(100, 100, 100, 100)

In [16]:
movie_genre, len(movie_genre)

(['미스터리',
  '공포(호러)',
  '액션',
  '범죄',
  '액션',
  '범죄',
  '판타지',
  '드라마',
  '공포(호러)',
  'SF',
  '액션',
  '코미디',
  'SF',
  '판타지',
  '뮤지컬',
  '범죄',
  '액션',
  '애니메이션',
  '액션',
  '코미디',
  '액션',
  'SF',
  '스릴러',
  '애니메이션',
  '액션',
  '어드벤처',
  '코미디',
  '미스터리',
  '스릴러',
  '사극',
  '액션',
  '범죄',
  '드라마',
  '액션',
  '사극',
  '액션',
  'SF',
  '드라마',
  '멜로/로맨스',
  '액션',
  '어드벤처',
  '드라마',
  '범죄',
  '드라마',
  '뮤지컬',
  '범죄',
  '드라마',
  '액션',
  '어드벤처',
  'SF'],
 50)

In [46]:
options = webdriver.ChromeOptions()

prefs = {"download.default_directory" : "/home/lim/dev_ws/eda/data", "download.prompt_for_download":False}
options.add_experimental_option("prefs", prefs)

url = "https://www.kobis.or.kr/kobis/business/stat/boxs/findYearlyBoxOfficeList.do"
driver = webdriver.Chrome(service=Service("C:/Users/AAA/.vscode/workspace/AddInEdu/driver/chromedriver-win64/chromedriver.exe"), options=options)

driver.get(url)
driver.set_window_size(1800, 1300)

year_dropdown = driver.find_element(By.ID, "sSearchYearFrom")
select = Select(year_dropdown)  # Use Select to interact with the dropdown
years_list = select.options  # Get all options in the dropdown

years = []
for option in years_list:
    years.append(option.get_attribute("value"))

# Limit to the last few years (example: from the 10th year onward)
years = years[9:]
years = years[6:]
# Loop through the years and perform scraping
for yearly in tqdm(years):
    year_dropdown = driver.find_element(By.ID, "sSearchYearFrom")
    select = Select(year_dropdown)  # Re-initialize the Select object
    
    driver.execute_script("window.scrollTo(0, 0)")
    select.select_by_value(yearly)  # Select the year from the dropdown
    print(yearly)
    
    # Click the "show" button to load the data
    show = driver.find_element(By.CLASS_NAME, "wrap_btn")
    show.click()

    movieN = []
    # Wait for the page to load and parse it
    page = driver.page_source
    soup = BeautifulSoup(page, "html.parser")
    movies = soup.find("table", "tbl_comm th_sort")
    moviesList = movies.find_all("span", class_="ellip per90")
    for movie in moviesList:
        movie = movie.find("a").text
        movie = movie.strip()
        movie_names.append(movie)
        movieN.append(movie)
        movie_years.append(yearly)
    
    movieL = driver.find_elements(By.ID, "td_audiAcc")
    for movie in movieL:
        movie_viewers.append(movie.text)

    for movie in tqdm(movieN):
        print(movie)
        WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.LINK_TEXT, movie))).click()

        page = driver.page_source
        soup = BeautifulSoup(page, "html.parser")

        for dt in soup.find_all("dt", text="요약정보"):
            dd = dt.find_next("dd")  # Get the associated <dd> element
            if dd:
                # Extract and clean the genre information
                raw_text = dd.get_text(separator="|").strip()  # Use '|' as separator for clarity
                parts = raw_text.split("|")  # Split by '|'
                genre_parts = [part.strip() for part in parts if "," in part]  # Filter parts with commas (genres)
                for genre in genre_parts:
                    # Further split by commas to separate multiple genres
                    movie_genre.extend([g.strip() for g in genre.split(",")])
                    genres = [
                        '미스터리', '공포(호러)', '액션', '범죄', '판타지', '드라마', 'SF', 
                        '코미디', '뮤지컬', '애니메이션', '스릴러', '어드벤처', '사극', '멜로/로맨스'
                    ]

                    movie_genre = [item for item in movie_genre if item in genres]

        close = driver.find_element(By.CLASS_NAME, "close")
        close.click()

len(movie_names), len(movie_viewers), len(movie_genre), len(movie_years)

  0%|          | 0/6 [00:00<?, ?it/s]

2019




극한직업


  for dt in soup.find_all("dt", text="요약정보"):


어벤져스: 엔드게임




겨울왕국 2




알라딘




기생충




엑시트




스파이더맨: 파 프롬 홈




백두산




캡틴 마블




조커




봉오동 전투




라이온 킹




나쁜 녀석들: 더 무비




82년생 김지영




분노의 질주: 홉스&쇼




토이 스토리 4




돈




악인전




가장 보통의 연애




말모이




증인




시동




블랙머니




터미네이터: 다크 페이트




사바하




타짜: 원 아이드 잭




신의 한 수: 귀수편




알리타: 배틀 엔젤




내안의 그놈




뺑반




변신




주먹왕 랄프 2: 인터넷 속으로




걸캅스




사자




아쿠아맨




드래곤 길들이기 3




나의 특별한 형제




어스




말레피센트 2




유열의 음악앨범




퍼펙트맨




포드 V 페라리




생일




힘을 내요, 미스터 리




항거:유관순 이야기




장사리 : 잊혀진 영웅들




마이펫의 이중생활 2




롱 리브 더 킹: 목포 영웅




쥬만지: 넥스트 레벨




존 윅 3: 파라벨룸


100%|██████████| 50/50 [01:17<00:00,  1.55s/it]
 17%|█▋        | 1/6 [01:19<06:38, 79.60s/it]

2020




남산의 부장들




다만 악에서 구하소서




반도




히트맨




테넷




백두산




#살아있다




강철비2: 정상회담




담보




닥터 두리틀




삼진그룹 영어토익반




정직한 후보




도굴




클로젯




오케이 마담




해치지않아




천문: 하늘에 묻는다




결백




1917




작은 아씨들




미드웨이




시동




지푸라기라도 잡고 싶은 짐승들




미스터 주: 사라진 VIP




인비저블맨




나쁜 녀석들: 포에버




국제수사




침입자




스타워즈: 라이즈 오브 스카이워커




스파이 지니어스




이웃사촌




온워드: 단 하루의 기적




소리도 없이




버즈 오브 프레이(할리 퀸의 황홀한 해방)




원더 우먼 1984




겨울왕국 2




오! 문희




그린랜드




위대한 쇼맨




런




뮬란




내가 죽던 날




기생충




신비아파트 극장판 하늘도깨비 대 요르문간드




프리즌 이스케이프




검객




조제




사라진 시간




밤쉘: 세상을 바꾼 폭탄선언




알라딘


100%|██████████| 50/50 [01:06<00:00,  1.32s/it]
 33%|███▎      | 2/6 [02:28<04:53, 73.35s/it]

2021




스파이더맨: 노 웨이 홈




모가디슈




이터널스




블랙 위도우




분노의 질주: 더 얼티메이트




싱크홀




극장판 귀멸의 칼날: 무한열차편




베놈 2: 렛 데어 비 카니지




소울




크루엘라




샹치와 텐 링즈의 전설




인질




듄




보이스




007 노 타임 투 다이




미나리




발신제한




보스 베이비 2




콰이어트 플레이스 2




랑종




유체이탈자




컨저링3: 악마가 시켰다




기적




고질라 VS. 콩




킹스맨: 퍼스트 에이전트




엔칸토: 마법의 세계




연애 빠진 로맨스




장르만 로맨스




미션 파서블




더 수어사이드 스쿼드




비와 당신의 이야기




서복




킬러의 보디가드 2




루카




자산어보




내일의 기억




라야와 마지막 드래곤




프리 가이




더 스파이




강릉




정글 크루즈




명탐정 코난: 비색의 탄환




캐시트럭




크루즈 패밀리: 뉴 에이지




이스케이프 룸 2: 노 웨이 아웃




극장판 포켓몬스터: 정글의 아이, 코코




극장판 짱구는 못말려: 격돌! 낙서왕국과 얼추 네 명의 용사들




매트릭스: 리저렉션




방법: 재차의




새해전야


100%|██████████| 50/50 [00:59<00:00,  1.19s/it]
 50%|█████     | 3/6 [03:30<03:25, 68.35s/it]

2022




범죄도시2




탑건: 매버릭




아바타: 물의 길




한산: 용의 출현




공조2: 인터내셔날




닥터 스트레인지: 대혼돈의 멀티버스




헌트




올빼미




쥬라기 월드: 도미니언




마녀(魔女) Part2. The Other One




토르: 러브 앤 썬더




미니언즈2




블랙 팬서: 와칸다 포에버




비상선언




스파이더맨: 노 웨이 홈




육사오(6/45)




헤어질 결심




외계+인 1부




영웅




해적: 도깨비 깃발




브로커




신비한 동물들과 덤블도어의 비밀




인생은 아름다워




더 배트맨




데시벨




정직한 후보2




씽2게더




극장판 짱구는 못말려: 수수께끼! 꽃피는 천하떡잎학교




블랙 아담




킹메이커




자백




언차티드




경관의 피




오늘 밤, 세계에서 이 사랑이 사라진다 해도




극장판 주술회전 0




압꾸정




극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미




이상한 나라의 수학자




명탐정 코난: 할로윈의 신부




동감




모비우스




늑대사냥




뽀로로 극장판 드래곤캐슬 대모험




특송




니 부모 얼굴이 보고 싶다




놉




리멤버




킹스맨: 퍼스트 에이전트




배드 가이즈




뜨거운 피


100%|██████████| 50/50 [01:20<00:00,  1.61s/it]
 67%|██████▋   | 4/6 [04:54<02:28, 74.32s/it]

2023




서울의 봄




범죄도시3




엘리멘탈




스즈메의 문단속




밀수




더 퍼스트 슬램덩크




가디언즈 오브 갤럭시: Volume 3




미션 임파서블: 데드 레코닝 PART ONE




콘크리트 유토피아




아바타: 물의 길




노량: 죽음의 바다




오펜하이머




슈퍼 마리오 브라더스




30일




그대들은 어떻게 살 것인가




존 윅 4




천박사 퇴마 연구소: 설경의 비밀




영웅




분노의 질주: 라이드 오어 다이




교섭




앤트맨과 와스프: 퀀텀매니아




잠




달짝지근해: 7510




드림




비공식작전




1947 보스톤




스파이더맨: 어크로스 더 유니버스




인디아나 존스: 운명의 다이얼




장화신은 고양이: 끝내주는 모험




명탐정코난: 흑철의 어영




트랜스포머: 비스트의 서막




대외비




극장판 짱구는 못말려: 동물소환 닌자 배꼽수비대




아쿠아맨과 로스트 킹덤




프레디의 피자가게




리바운드




더 마블스




귀공자




유령




인어공주




플래시




바비




신차원! 짱구는 못말려 더 무비 초능력 대결전 ~날아라 수제김밥~




귀멸의 칼날: 상현집결, 그리고 도공 마을로




더 문




오늘 밤, 세계에서 이 사랑이 사라진다 해도




3일의 휴가




소년들




타이타닉




타겟


100%|██████████| 50/50 [01:18<00:00,  1.58s/it]
 83%|████████▎ | 5/6 [06:15<01:16, 76.67s/it]

2024




파묘




범죄도시4




인사이드 아웃 2




베테랑2




파일럿




웡카




모아나 2




소방관




탈주




듄: 파트2




에이리언: 로물루스




데드풀과 울버린




위키드




핸섬가이즈




하이재킹




쿵푸팬더4




베놈: 라스트 댄스




시민덕희




퓨리오사: 매드맥스 사가




슈퍼배드 4




외계+인 2부




위시




서울의 봄




하얼빈




사랑의 하츄핑




그녀가 죽었다




건국전쟁




노량: 죽음의 바다




히든페이스




댓글부대




글래디에이터 Ⅱ




혹성탈출: 새로운 시대




대도시의 사랑법




청설




명탐정 코난: 100만 달러의 펜타그램




극장판 하이큐!! 쓰레기장의 결전




행복의 나라




탈출: 프로젝트 사일런스




와일드 로봇




보통의 가족




원더랜드




트위스터스




조커: 폴리 아 되




아마존 활명수




콰이어트 플레이스: 첫째 날




설계자




고질라 X 콩: 뉴 엠파이어




빅토리




귀멸의 칼날: 인연의 기적, 그리고 합동 강화 훈련으로




무파사: 라이온 킹


100%|██████████| 50/50 [01:06<00:00,  1.32s/it]
100%|██████████| 6/6 [07:23<00:00, 73.95s/it]


(600, 600, 915, 600)

In [47]:
len(movie_names), len(movie_viewers), len(movie_genre), len(movie_years)

(600, 600, 915, 600)

In [54]:
parts

['장편 ',
 ' \n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t일반영화\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t',
 '\n\t                       \t\n\t                       \t\t\t애니메이션\n\t                       \t\n                       \t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t',
 '\n\t\t\t\t\t\t\t117분 55초\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t',
 '\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\n                           \t\t\t전체관람가\n\t\t\t\t\t\t\t\t\n                          \t\n\t\t\t\t\t\t\n\n\t\t\t\t\t\t\n\t\t\t\t\t\t\t',
 '\n\t\t\t\t\t\t\t\n\t                        \t미국\n\t                        \n\t\t\t\t\t\t\n\t\t\t\t\t\t',
 '']

In [51]:
movie_names

['7번방의 선물',
 '설국열차',
 '관상',
 '아이언맨 3',
 '베를린',
 '은밀하게 위대하게',
 '변호인',
 '숨바꼭질',
 '더 테러 라이브',
 '감시자들',
 '월드 워 Z',
 '신세계',
 '박수건달',
 '스파이',
 '그래비티',
 '타워',
 '감기',
 '토르: 다크 월드',
 '레드: 더 레전드',
 '친구 2',
 '어바웃 타임',
 '나우 유 씨 미 : 마술사기단',
 '소원',
 '레미제라블',
 '퍼시픽 림',
 '화이: 괴물을 삼킨 아이',
 '컨저링',
 '맨 오브 스틸',
 '용의자',
 '호빗: 스마우그의 폐허',
 '몽타주',
 '터보',
 '연애의 온도',
 '지.아이.조 2',
 '분노의 질주: 더 맥시멈',
 '공범',
 '집으로 가는 길',
 '전설의 주먹',
 '파파로티',
 '스타트렉 다크니스',
 '라이프 오브 파이',
 '오블리비언',
 '위대한 개츠비',
 '다이하드: 굿 데이 투 다이',
 '런닝맨',
 '미스터 고',
 '결혼전야',
 '깡철이',
 '엘리시움',
 '더 웹툰: 예고살인',
 '명량',
 '겨울왕국',
 '인터스텔라',
 '해적: 바다로 간 산적',
 '수상한 그녀',
 '변호인',
 '국제시장',
 '트랜스포머: 사라진 시대',
 '군도: 민란의 시대',
 '엣지 오브 투모로우',
 '엑스맨: 데이즈 오브 퓨처 패스트',
 '어메이징 스파이더맨 2',
 '타짜-신의 손',
 '혹성탈출: 반격의 서막',
 '캡틴 아메리카: 윈터 솔져',
 '역린',
 '님아, 그 강을 건너지 마오',
 '신의 한 수',
 '끝까지 간다',
 '비긴 어게인',
 '드래곤 길들이기 2',
 '표적',
 '메이즈 러너',
 '호빗: 다섯 군대 전투',
 '나의 사랑 나의 신부',
 '논스톱',
 '인투 더 스톰',
 '노아',
 '남자가 사랑할 때',
 '루시',
 '용의자',
 '기술자들',
 '나를 찾아줘',
 '제보자',
 '피끓는 청춘',
 '두근두근 내 인생',
 '우아한 거짓말',
 '

In [50]:
movie_genre

['코미디',
 '드라마',
 'SF',
 '액션',
 '사극',
 '드라마',
 '액션',
 '어드벤처',
 'SF',
 '액션',
 '코미디',
 '드라마',
 '범죄',
 '범죄',
 '액션',
 '드라마',
 '스릴러',
 'SF',
 '액션',
 '어드벤처',
 '범죄',
 '액션',
 'SF',
 '드라마',
 '드라마',
 '어드벤처',
 '액션',
 '액션',
 '어드벤처',
 '판타지',
 '액션',
 '코미디',
 '범죄',
 '멜로/로맨스',
 '코미디',
 '범죄',
 '액션',
 '스릴러',
 '액션',
 'SF',
 '어드벤처',
 '액션',
 '스릴러',
 '공포(호러)',
 '스릴러',
 '액션',
 '스릴러',
 '어드벤처',
 '드라마',
 '판타지',
 '멜로/로맨스',
 '코미디',
 '액션',
 '어드벤처',
 'SF',
 '스릴러',
 '드라마',
 '드라마',
 '액션',
 '액션',
 'SF',
 '어드벤처',
 '어드벤처',
 '드라마',
 '액션',
 'SF',
 '드라마',
 '멜로/로맨스',
 '액션',
 '범죄',
 '스릴러',
 '액션',
 '코미디',
 '코미디',
 '드라마',
 '멜로/로맨스',
 '코미디',
 '드라마',
 '액션',
 'SF',
 '액션',
 '공포(호러)',
 '스릴러',
 '사극',
 '액션',
 '애니메이션',
 '어드벤처',
 '코미디',
 '뮤지컬',
 '판타지',
 '액션',
 'SF',
 '어드벤처',
 '사극',
 '액션',
 '액션',
 'SF',
 '액션',
 '판타지',
 'SF',
 '어드벤처',
 '액션',
 '판타지',
 '액션',
 '드라마',
 'SF',
 '스릴러',
 '액션',
 '어드벤처',
 'SF',
 '범죄',
 '액션',
 '액션',
 '스릴러',
 '범죄',
 '애니메이션',
 '액션',
 '어드벤처',
 '액션',
 '드라마',
 '액션',
 '미스터리',
 'SF',
 '스릴러',
 '어드벤처',
 '판타지',
 '멜로/로맨스',
 '코

In [49]:
data = {"Name" : movie_names, "Viewers" : movie_viewers, "Year" : movie_years}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,Name,Viewers,Year
0,7번방의 선물,12811206,2013
1,설국열차,9349993,2013
2,관상,9134238,2013
3,아이언맨 3,9001331,2013
4,베를린,7166290,2013
