# Сбор Данных

Для начала спарсим данные о 5000 фильмах с Кинопоиска.

In [2]:
import requests 
import json 
import time  

def fetch_movies(api_key, total=5000, per_request=250):
    "Основная функция, которая загружает нужное количество фильмов."
    collected_movies = []
    current_page = 1
    
    while len(collected_movies) < total:
        response = fetch_page(api_key, current_page, per_request)
        if not response:
            break
        
        collected_movies.extend(response)
        print(f"Загружено: {len(collected_movies)} фильмов")
        current_page += 1
        time.sleep(1)
    
    return collected_movies

def fetch_page(api_key, page, limit):
    "Функция делает запрос к API и получает данные о фильмах с одной страницы."
    url = 'https://api.kinopoisk.dev/v1.3/movie'
    headers = {"X-API-KEY": api_key}
    params = {
        'selectFields': 'name movieLength genres rating type votes year budget fees distributors premiere',
        'type': 'movie',
        'sortField': 'votes.kp',
        'sortType': '-1',
        'limit': limit,
        'page': page
    }
    
    response = requests.get(url, headers=headers, params=params)
    if response.status_code == 200:
        return response.json().get('docs', [])
    return []

def save_to_file(data, filename='data.json'):
    "Функция сохраняет список фильмов в JSON-файл."
    with open(filename, 'w', encoding='utf-8') as file:
        json.dump(data, file, indent=4, ensure_ascii=False)
    print(f"Всего сохранено фильмов: {len(data)}")

if __name__ == "__main__":
    API_KEY = "3VYHQQR-XJ8MCCK-MJVY232-H2CZ775"
    movies_list = fetch_movies(API_KEY)
    save_to_file(movies_list)




Загружено: 250 фильмов
Загружено: 500 фильмов
Загружено: 750 фильмов
Загружено: 1000 фильмов
Загружено: 1250 фильмов
Загружено: 1500 фильмов
Загружено: 1750 фильмов
Загружено: 2000 фильмов
Загружено: 2250 фильмов
Загружено: 2500 фильмов
Загружено: 2750 фильмов
Загружено: 3000 фильмов
Загружено: 3250 фильмов
Загружено: 3500 фильмов
Загружено: 3750 фильмов
Загружено: 4000 фильмов
Загружено: 4250 фильмов
Загружено: 4500 фильмов
Загружено: 4750 фильмов
Загружено: 5000 фильмов
Всего сохранено фильмов: 5000


Создадим датафрейм с данными:

In [3]:
print(type(movies_list))  # Должно быть list
print(len(movies_list))   # Должно быть 5000


<class 'list'>
5000


In [5]:
import pandas as pd
df = pd.json_normalize(movies_list) 
df.to_csv("movies_data_1.0", index=False, encoding="utf-8-sig")
df

Unnamed: 0,name,type,year,movieLength,genres,rating.kp,rating.imdb,rating.filmCritics,rating.russianFilmCritics,rating.await,...,fees.russia.currency,fees.usa.value,fees.usa.currency,fees.world.value,fees.world.currency,distributors.distributor,distributors.distributorRelease,fees.russia,fees.usa,fees.world
0,1+1,movie,2011,112.0,"[{'name': 'драма'}, {'name': 'комедия'}]",8.846,8.5,6.8,100.0000,,...,$,10198820.0,$,426588510.0,$,,,,,
1,Джентльмены,movie,2019,113.0,"[{'name': 'криминал'}, {'name': 'комедия'}, {'...",8.626,7.8,6.6,86.3636,,...,$,36471795.0,$,115171795.0,$,,,,,
2,Брат,movie,1997,96.0,"[{'name': 'драма'}, {'name': 'криминал'}, {'na...",8.338,7.8,7.6,0.0000,,...,,,,1362281.0,$,,,,,
3,Гнев человеческий,movie,2021,119.0,"[{'name': 'боевик'}, {'name': 'триллер'}]",7.668,7.1,6.3,72.2222,,...,$,27466489.0,$,103966489.0,$,,,,,
4,Волк с Уолл-стрит,movie,2013,180.0,"[{'name': 'драма'}, {'name': 'криминал'}, {'na...",8.033,8.2,7.8,77.4194,,...,$,116900694.0,$,392000694.0,$,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,Овечка Долли была злая и рано умерла,movie,2015,109.0,"[{'name': 'фантастика'}, {'name': 'комедия'}, ...",6.715,5.8,0.0,0.0000,,...,$,,,,,,,,,
4996,Орел и решка,movie,1995,82.0,"[{'name': 'комедия'}, {'name': 'мелодрама'}]",7.875,7.0,0.0,0.0000,,...,,,,,,,,,,
4997,Ничего себе поездочка,movie,2001,97.0,"[{'name': 'боевик'}, {'name': 'триллер'}, {'na...",6.927,6.6,6.6,0.0000,,...,,21974919.0,$,36642838.0,$,Гемини Киномир,Двадцатый Век Фокс СНГ,,,
4998,Американский огурчик,movie,2020,88.0,"[{'name': 'комедия'}, {'name': 'фантастика'}, ...",5.991,5.7,6.1,100.0000,,...,,,,499649.0,$,,,,,
