In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
import pandas as pd
import time

URL = 'https://www.kinopoisk.ru/'

In [2]:
driver = webdriver.Chrome()
driver.get(URL)

In [3]:
# развернуть окно
driver.maximize_window()
time.sleep(1)

In [12]:
# закрыть рекламу
close_ad = driver.find_element(By.CLASS_NAME, 'styles_closeIcon__Zvc5W')
close_ad.click()

In [4]:
# переход к спискам фильмов
films_btn = driver.find_element(By.LINK_TEXT, 'Фильмы')
films_btn.click()
time.sleep(1)

In [6]:
# переход к фильмам по странам
countries = driver.find_element(By.LINK_TEXT, 'Страны')
countries.click()
time.sleep(1)

In [7]:
# выбор страны - США
us = driver.find_element(By.LINK_TEXT, 'США')
us.click()
time.sleep(1)

In [8]:
# выбор только фильмов
films = driver.find_element(By.LINK_TEXT, 'Фильмы')
films.click()
time.sleep(1)

In [9]:
# сортировка фильмов по количетсву оценок
order = driver.find_element(By.CLASS_NAME, 'styles_root__zUQ5a')
order.click()
driver.find_elements(By.CLASS_NAME, 'styles_title__RILeC')[1].click()
time.sleep(1)

In [10]:
# выбор всех фильмов
all_films_btn = driver.find_elements(By.CLASS_NAME, 'styles_title__skJ4z')[2]
all_films_btn.click()
time.sleep(1)

In [12]:
def parse_film_info(info: list) -> dict:
    '''
    Получает список с разными данным по фильму
    
    Parameters
    --------
    info: list
        вся информация по фильму
    
    Return
    --------
    dict
        словарь с нужными нам данными
    '''
    # словарь для данных (изначально None)
    film_info = {
        'year': None,
        'genre': None,
        'director': None,
        'age_rating': None,
        'budget': None,
        'box_office_usa': None,
        'box_office_world': None,
        'release_date': None,
        'duration': None
    }

    for idx in range(len(info)):
        if info[idx] == 'Год производства':
            film_info['year'] = info[idx + 1]
        elif info[idx] == 'Жанр':
            film_info['genre'] = info[idx + 1]
        elif info[idx] == 'Режиссер':
            film_info['director'] = info[idx + 1]
        elif info[idx] == 'Возраст':
            film_info['age_rating'] = info[idx + 1]
        elif info[idx] == 'Бюджет':
            film_info['budget'] = info[idx + 1]
        elif info[idx] == 'Сборы в США':
            film_info['box_office_usa'] = info[idx + 1]
        elif info[idx] == 'Сборы в мире':
            film_info['box_office_world'] = info[idx + 1].split('=')[0]
        elif info[idx] == 'Премьера в мире':
            film_info['release_date'] = info[idx + 1].split(',')[0]
        elif info[idx] == 'Время':
            film_info['duration'] = info[idx + 1].split(',')[0]

    return film_info

In [13]:
def get_links_from_main_page(idx: int) -> list:
    '''
    Получает ссылки фильмов на основной странице
    
    Parameters
    --------
    idx: int
        индекс фильма на странице
    
    Return
    --------
    pd.DataFrame
        датафрейм с полученными данными
    '''
    link = films[idx].find_element(
        By.CLASS_NAME,
        'base-movie-main-info_link__YwtP1').get_attribute('href')

    return pd.DataFrame([[link]], columns=df_cols_links)

In [14]:
def get_data_from_film_page(link: str) -> list:
    '''
    Получает данные по фильмам на странице фильма
    
    Parameters
    --------
    link: str
        ссылка на страницу фильма
    
    Return
    --------
    pd.DataFrame
        датафрейм с полученными данными
    '''
    driver.get(link)
    
    # если появилась капча, код засыпает на 30 секунд
    try:
        while True:
            capcha = driver.find_element(By.CLASS_NAME, 'CheckboxCaptcha-Anchor')
            time.sleep(30)
        
    except NoSuchElementException:
        pass
    
    finally:
        title = driver.find_element(By.CLASS_NAME, 'styles_title__65Zwx').text
        
        try:
            rating = driver.find_element(By.CLASS_NAME,
                                     'film-rating-value').text.split('\n')[0]
        except NoSuchElementException:
            rating = None
            
        film_info = driver.find_element(
            By.CSS_SELECTOR,
            'div[data-test-id="encyclopedic-table"]').text.split('\n')
        film_data = parse_film_info(film_info)
        cast = driver.find_element(By.CLASS_NAME,
                                   'film-crew-block').text.split('\n')[1:-1]

    return pd.DataFrame([[
        title, rating, film_data['year'], film_data['genre'],
        film_data['director'], film_data['age_rating'],
        film_data['release_date'], film_data['duration'], cast,
        film_data['budget'], film_data['box_office_usa'],
        film_data['box_office_world']
    ]],
                        columns=df_cols_film)

In [15]:
df_cols_links = ['link']
df_cols_film = [
    'title', 'rating', 'production_year', 'genre', 'director', 'age_rating',
    'release_date', 'duration', 'cast', 'budget', 'box_office_usa',
    'box_office_world'
]

df_links = pd.DataFrame(columns=df_cols_links)
df_film = pd.DataFrame(columns=df_cols_film)

In [16]:
# переход на 200 страницу
driver.get(
    'https://www.kinopoisk.ru/lists/movies/country--1/?b=films&sort=votes&page=764'
)

for _ in range(200):
    # списки фильмов
    films = driver.find_elements(By.CLASS_NAME, 'styles_root__ti07r')

    current_url = driver.current_url

    # добавление ссылок на фильмы в датафрейм
    for idx in range(len(films)):
        df_links_current_page = get_links_from_main_page(idx)
        df_links = pd.concat([df_links, df_links_current_page], axis=0)

    # добавление фильмов со страницы фильма в датафрейм
    for lnk in df_links.link.to_list()[-50:]:
        df_current_flm = get_data_from_film_page(lnk)
        df_film = pd.concat([df_film, df_current_flm], axis=0)

    driver.get(current_url)
    time.sleep(1)

    # переход на следующую страницу
    try:
        # кнопка для перехода на следующую страницу
        next_page_url = driver.find_element(
            By.CLASS_NAME, 'styles_end__aEsmB').get_attribute('href')
        driver.get(next_page_url)
        time.sleep(1)
    except NoSuchElementException:
        break

In [None]:
df_film.tail()

In [63]:
df_film.shape

(9150, 12)

In [41]:
df_264 = df_film

In [17]:
df_film.to_csv('kinopoisk_films564.csv', index=False)

In [18]:
df_film.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 0
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   title             10000 non-null  object
 1   rating            9989 non-null   object
 2   production_year   10000 non-null  object
 3   genre             10000 non-null  object
 4   director          10000 non-null  object
 5   age_rating        1035 non-null   object
 6   release_date      8568 non-null   object
 7   duration          10000 non-null  object
 8   cast              10000 non-null  object
 9   budget            1225 non-null   object
 10  box_office_usa    464 non-null    object
 11  box_office_world  34 non-null     object
dtypes: object(12)
memory usage: 1015.6+ KB
