# Инициализация

In [233]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations

# Загрузка и анализ данных

In [106]:
data = pd.read_csv('movie_bd_v5.csv')

In [82]:
data.sample(2)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
883,tt0258000,48000000,196397415,Panic Room,Jodie Foster|Kristen Stewart|Forest Whitaker|D...,David Fincher,It was supposed to be the safest room in the h...,Trapped in their New York brownstone's panic r...,112,Crime|Drama|Thriller,Columbia Pictures Corporation|Hofflund/Polone|...,3/29/2002,6.4,2002
1746,tt0414055,25000000,74237563,Elizabeth: The Golden Age,Cate Blanchett|Clive Owen|Geoffrey Rush|Lauren...,Shekhar Kapur,Woman. Warrior. Queen.,This movie is a Sequel to the First Elizabeth ...,114,Drama|History|Romance,Universal Pictures|StudioCanal|Working Title F...,9/9/2007,6.4,2007


In [11]:
data.dtypes

imdb_id                         object
budget                           int64
revenue                          int64
original_title                  object
cast                            object
director                        object
tagline                         object
overview                        object
runtime                          int64
genres                          object
production_companies            object
release_date            datetime64[ns]
vote_average                   float64
release_year                     int64
dtype: object

In [12]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [38]:
answers = {} # создадим словарь для ответов

In [107]:
# Преобразуем release_date к типу данных datetime
data.release_date = pd.to_datetime(data.release_date)

# Добавим расчетный столбец: прибыль = сборы - бюджет
data['profit'] = data['revenue'] - data['budget']

In [234]:
def my_str_split(df, field):
    """Эта функция принимает на вход в качестве параметров 
       фрейм с данными и название поля, по которому нужно выполнить split.
       
       Возвращает новый фрейм с разделенными значениями в поле.
    """
    # Преобразуем строку в список 
    df[field] = df[field].apply(lambda x: x.split('|')) 

    # Размножим количество строк по каждому фильму на количество элементов в списке
    splitted_df = df.explode(field)
    
    return splitted_df

# 1. У какого фильма из списка самый большой бюджет?

In [40]:
# Решение
data[data['budget'] == data['budget'].max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000


In [41]:
# Ответ
answers['1'] = '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)' # +

# 2. Какой из фильмов самый длительный (в минутах)?

In [42]:
# Решение
data[data['runtime'] == data['runtime'].max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1157,tt0279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064


In [43]:
# Ответ
answers['2'] = '2. Gods and Generals (tt0279111)' # +

# 3. Какой из фильмов самый короткий (в минутах)?





In [44]:
# Решение
data[data['runtime'] == data['runtime'].min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
768,tt1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000


In [45]:
# Ответ
answers['3'] = '3. Winnie the Pooh (tt1449283)' # +

# 4. Какова средняя длительность фильмов?


In [46]:
# Решение
round(data['runtime'].mean(), 0)

110.0

In [53]:
# Ответ
answers['4'] = '2. 110' # +

# 5. Каково медианное значение длительности фильмов? 

In [48]:
# Решение
round(data['runtime'].median(), 0)

107.0

In [52]:
# Ответ
answers['5'] = '2. 107' # +

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [51]:
# Решение
data[data['profit'] == data['profit'].max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
239,tt0499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847


In [55]:
# Ответ
answers['6'] = '5. Avatar (tt0499549)' # +

# 7. Какой фильм самый убыточный? 

In [56]:
# Решение
data[data['profit'] == data['profit'].min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


In [57]:
# Ответ
answers['7'] = '5. The Lone Ranger (tt1210819)' # +

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [58]:
# Решение вариант 1
data[data['profit'] > 0].shape[0]

1478

In [59]:
# Решение вариант 2
len(data[data['profit'] > 0].index)

1478

In [61]:
# Решение вариант 3
len(data[data['revenue'] > data['budget']].index)

1478

In [62]:
# Ответ
answers['8'] = '1. 1478' # +

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [69]:
# Решение
data2008 = data[data['release_year'] == 2008] # сначала берем все фильмы, выпущенные в 2008 году
data2008[data2008['revenue'] == data2008['revenue'].max()] # потом получаем самый кассовый из них

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825


In [70]:
# Ответ
answers['9'] = '4. The Dark Knight (tt0468569)' # +

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [71]:
# Решение
years_list = [2012, 2013, 2014]

data_period = data[data['release_year'].isin(years_list)] # сначала берем все фильмы за период
data_period[data_period['profit'] == data_period['profit'].min()] # потом получаем самый убточный из них

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


In [72]:
# Ответ
answers['10'] = '5. The Lone Ranger (tt1210819)' # +

# 11. Какого жанра фильмов больше всего?

In [236]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new = data.copy(deep=True)

# Разбиваем значения в genres на разные строки
data_splitted_by_genre = my_str_split(data_new, 'genres')

# Сгруппируем, чтобы получить количество фильмов каждого жанра
films_by_genre = data_splitted_by_genre.groupby(['genres'])['imdb_id'].count().reset_index()
films_by_genre[films_by_genre['imdb_id'] == films_by_genre['imdb_id'].max()]

Unnamed: 0,genres,imdb_id
6,Drama,782


In [102]:
# Ответ
answers['11'] = '3. Drama' # +

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [237]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new1 = data.copy(deep=True)

# Отбираем фильмы, у которых есть прибыль
data_new1 = data_new1[data_new1['profit'] > 0]

# Разбиваем значения в genres на разные строки
data_splitted_by_genre1 = my_str_split(data_new1, 'genres')

# Сгруппируем, чтобы получить количество фильмов каждого жанра
films_by_genre1 = data_splitted_by_genre1.groupby(['genres'])['imdb_id'].count().reset_index()
films_by_genre1[films_by_genre1['imdb_id'] == films_by_genre1['imdb_id'].max()]

Unnamed: 0,genres,imdb_id
6,Drama,560


In [135]:
# Ответ
answers['12'] = '1. Drama' # +

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [238]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new2 = data.copy(deep=True)

# Разбиваем значения в director на разные строки
data_splitted_by_dir = my_str_split(data_new2, 'director')

# Группируем и считаем суммарные сборы по каждому режисеру
revenue_by_dir = data_splitted_by_dir.groupby(['director'])['revenue'].sum().reset_index()
revenue_by_dir[revenue_by_dir['revenue'] == revenue_by_dir['revenue'].max()]

Unnamed: 0,director,revenue
727,Peter Jackson,6490593685


In [122]:
# Ответ
answers['13'] = '5. Peter Jackson' # +

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [239]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new3 = data.copy(deep=True)

# Отбираем только фильмы, которые относятся к Action
data_new3 = data_new3[data_new3.genres.str.contains('Action', na=False)]

# Разбиваем значения в director на разные строки
data_splitted_by_dir1 = my_str_split(data_new3, 'director')

# Группируем и считаем количество фильмов по каждому режисеру
action_films_by_dir = data_splitted_by_dir1.groupby(['director'])['imdb_id'].count().reset_index()
action_films_by_dir[action_films_by_dir['imdb_id'] == action_films_by_dir['imdb_id'].max()]

Unnamed: 0,director,imdb_id
296,Robert Rodriguez,9


In [137]:
# Ответ
answers['14'] = '3. Robert Rodriguez' # +

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [240]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new4 = data.copy(deep=True)

# Берем фильмы за 2012 год
data_new4 = data_new4[data_new4['release_year'] == 2012][['imdb_id','revenue','cast']]

# Разбиваем значения в cast на разные строки
data_splitted_by_cast = my_str_split(data_new4, 'cast')

# Группируем и считаем суммарные сборы по каждому актеру
revenue_by_cast = data_splitted_by_cast.groupby(['cast'])['revenue'].sum().reset_index()
revenue_by_cast[revenue_by_cast['revenue'] == revenue_by_cast['revenue'].max()]

Unnamed: 0,cast,revenue
77,Chris Hemsworth,2027450773


In [144]:
# Ответ
answers['15'] = '3. Chris Hemsworth' # +

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [241]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new5 = data.copy(deep=True)

# Отбираем высокобюджетные фильмы (интересно, откуда я должна была понять сама, что это означает?)
data_new5 = data_new5[data_new5['budget'] > data_new5['budget'].mean()][['imdb_id','cast']]

# Разбиваем значения в cast на разные строки
data_splitted_by_cast1 = my_str_split(data_new5, 'cast')

# Группируем и считаем количество фильмов по каждому актеру
expensive_films_by_cast = data_splitted_by_cast1.groupby(['cast'])['imdb_id'].nunique().reset_index()
expensive_films_by_cast[expensive_films_by_cast['imdb_id'] == expensive_films_by_cast['imdb_id'].max()]

Unnamed: 0,cast,imdb_id
965,Matt Damon,18


In [149]:
# Ответ
answers['16'] = '3. Matt Damon' # +

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [242]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new6 = data.copy(deep=True)

# Отбираем фильмы, в которых снимался Николас Кейдж
data_new6 = data_new6[data_new6.cast.str.contains('Nicolas Cage', na=False)][['imdb_id', 'cast', 'genres']]

# Разбиваем значения в genres на разные строки
data_splitted_by_genre2 = my_str_split(data_new6, 'genres')

# Группируем и считаем количество фильмов по каждому актеру
films_by_genre = data_splitted_by_genre2.groupby(['genres'])['imdb_id'].nunique().reset_index()
films_by_genre[films_by_genre['imdb_id'] == films_by_genre['imdb_id'].max()]

Unnamed: 0,genres,imdb_id
0,Action,17


In [155]:
# Ответ
answers['17'] = '2. Action' # +

# 18. Самый убыточный фильм от Paramount Pictures

In [243]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new7 = data.copy(deep=True)

# Отбираем фильмы, где участвовала Paramount Pictures
data_new7 = data_new7[data_new7.production_companies.str.contains('Paramount Pictures', na=False)]

# Находим самый убыточный
data_new7[data_new7['profit'] == data_new7['profit'].min()] 

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
925,tt0267626,100000000,35168966,K-19: The Widowmaker,Harrison Ford|Liam Neeson|Peter Sarsgaard|Joss...,Kathryn Bigelow,Fate has found its hero.,When Russia's first nuclear submarine malfunct...,138,Thriller|Drama|History,Paramount Pictures|Intermedia Films|National G...,2002-07-19,6.0,2002,-64831034


In [162]:
# Ответ
answers['18'] = '1. K-19: The Widowmaker (tt0267626)' # +

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [165]:
# Решение
revenue_by_year = data.groupby(['release_year'])['revenue'].sum().reset_index()
revenue_by_year[revenue_by_year['revenue'] == revenue_by_year['revenue'].max()]

Unnamed: 0,release_year,revenue
15,2015,25449202382


In [166]:
# Ответ
answers['19'] = '5. 2015' # +

# 20. Какой самый прибыльный год для студии Warner Bros?

In [179]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new8 = data.copy(deep=True)

# Отбираем фильмы, где участвовала Warner Bros
data_new8 = data_new8[data_new8.production_companies.str.contains('Warner Bros', na=False)]

# Находим самый прибыльный
revenue_by_year1 = data_new8.groupby(['release_year'])['revenue'].sum().reset_index()
revenue_by_year1[revenue_by_year1['revenue'] == revenue_by_year1['revenue'].max()]

Unnamed: 0,release_year,revenue
14,2014,3243064519


In [170]:
# Ответ
answers['20'] = '1. 2014' # +

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [173]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new9 = data.copy(deep=True)

# Для каждой даты выпуска выделим месяц
data_new9['release_month'] = data_new9['release_date'].dt.month

# Группируем и считаем количество фильмов по каждому месяцу
films_by_month = data_new9.groupby(['release_month'])['imdb_id'].nunique().reset_index()
films_by_month[films_by_month['imdb_id'] == films_by_month['imdb_id'].max()]

Unnamed: 0,release_month,imdb_id
8,9,227


In [174]:
# Ответ
answers['21'] = '4. Сентябрь' # +

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [177]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new10 = data.copy(deep=True)

# Для каждой даты выпуска выделим месяц
data_new10['release_month'] = data_new10['release_date'].dt.month
summer = [6, 7, 8] # лето

summer_films = data_new10[data_new10['release_month'].isin(summer)]
summer_films.imdb_id.nunique()

450

In [178]:
# Ответ
answers['22'] = '2. 450' # +

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [244]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new11 = data.copy(deep=True)

# Для каждой даты выпуска выделим месяц
data_new11['release_month'] = data_new11['release_date'].dt.month

winter = [12, 1, 2] # зима
winter_films = data_new11[data_new11['release_month'].isin(winter)]

# Разбиваем значения в director на разные строки
data_splitted_by_dir2 = my_str_split(winter_films, 'director')

# Группируем и считаем количество фильмов на каждого режиссера
winter_films_by_dir = data_splitted_by_dir2.groupby(['director'])['imdb_id'].nunique().reset_index()
winter_films_by_dir[winter_films_by_dir['imdb_id'] == winter_films_by_dir['imdb_id'].max()]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,director,imdb_id
265,Peter Jackson,7


In [188]:
# Ответ
answers['23'] = '5. Peter Jackson' # 

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [245]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new12 = data.copy(deep=True)

# Считаем общее количество символов в названии каждого фильма
data_new12['title_length'] = data_new12['original_title'].apply(lambda x: len(x))
data_new12 = data_new12[['original_title', 'title_length', 'production_companies']]

# Разбиваем значения в production_companies на разные строки
data_splitted_by_comp = my_str_split(data_new12, 'production_companies')

# Далее группируем по компаниям и считаем среднюю длину названий всех фильмов
title_lenght_by_comp = data_splitted_by_comp.groupby(['production_companies'])['title_length'].mean().reset_index()
title_lenght_by_comp[title_lenght_by_comp['title_length'] == title_lenght_by_comp['title_length'].max()]

Unnamed: 0,production_companies,title_length
583,Four By Two Productions,83.0


In [212]:
# Ответ
answers['24'] = '5. Four By Two Productions' # 

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [246]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new13 = data.copy(deep=True)

# Сначала считаем общее количество символов в описании каждого фильма
data_new13['overview_length'] = data_new13['overview'].apply(lambda x: len(x))
data_new13 = data_new13[['overview', 'overview_length', 'production_companies']]

# Разбиваем значения в production_companies на разные строки
data_splitted_by_comp2 = my_str_split(data_new13, 'production_companies')

# Далее группируем по компаниям и считаем cреднюю длину названий всех фильмов
overview_lenght_by_comp = data_splitted_by_comp2.groupby(['production_companies'])['overview_length'].mean().reset_index()
overview_lenght_by_comp[overview_lenght_by_comp['overview_length'] == overview_lenght_by_comp['overview_length'].max()]

Unnamed: 0,production_companies,overview_length
1041,Midnight Picture Show,1000.0


In [213]:
# Ответ
answers['25'] = '3. Midnight Picture Show' # 

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 

In [250]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new14 = data.copy(deep=True)
data_new14 = data_new14[['original_title','vote_average']]

# Считаем фильмы, у которых рейтинг лучше, чем у 99% всех фильмов
best_votes = data_new14[data_new14['vote_average'] > data_new14['vote_average'].quantile(.99)]
best_votes.sort_values(by = ['vote_average'], ascending = False).reset_index()[['original_title']]

Unnamed: 0,original_title
0,The Dark Knight
1,Inside Out
2,Room
3,Interstellar
4,The Imitation Game
5,Guardians of the Galaxy
6,Gone Girl
7,The Grand Budapest Hotel
8,Inception
9,The Pianist


In [224]:
# Ответ
answers['26'] = '1. Inside Out, The Dark Knight, 12 Years a Slave' # 

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [256]:
# Решение

# Сначала скопируем датафрейм, чтобы работать с ним независимо от исходного
data_new15 = data.copy(deep=True)
data_new15 = data_new15[['original_title', 'cast']]

# Получим список списков актеров
actors_list = data_new15.cast.str.split('|').tolist()
pairs_list = []

for i in actors_list:
    for j in combinations(i, 2):
        pairs_list.append(' & '.join(sorted(j)))

pairs_list = pd.DataFrame(pairs_list)
pairs_list.columns = ['actors_pairs']
pairs_list.actors_pairs.value_counts().head(10)

Daniel Radcliffe & Emma Watson        8
Daniel Radcliffe & Rupert Grint       8
Emma Watson & Rupert Grint            8
Helena Bonham Carter & Johnny Depp    6
Ben Stiller & Owen Wilson             6
Paul Walker & Vin Diesel              5
Kristen Stewart & Taylor Lautner      5
Adam Sandler & Kevin James            5
Hugh Jackman & Ian McKellen           5
Kristen Stewart & Robert Pattinson    5
Name: actors_pairs, dtype: int64

In [230]:
# Ответ
answers['27'] = '5. Daniel Radcliffe & Rupert Grint' # 

# Submission

In [257]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '2. Gods and Generals (tt0279111)',
 '3': '3. Winnie the Pooh (tt1449283)',
 '4': '2. 110',
 '5': '2. 107',
 '6': '5. Avatar (tt0499549)',
 '7': '5. The Lone Ranger (tt1210819)',
 '8': '1. 1478',
 '9': '4. The Dark Knight (tt0468569)',
 '10': '5. The Lone Ranger (tt1210819)',
 '11': '3. Drama',
 '13': '5. Peter Jackson',
 '14': '3. Robert Rodriguez',
 '12': '1. Drama',
 '15': '3. Chris Hemsworth',
 '16': '3. Matt Damon',
 '17': '2. Action',
 '18': '1. K-19: The Widowmaker (tt0267626)',
 '19': '5. 2015',
 '20': '1. 2014',
 '21': '4. Сентябрь',
 '22': '2. 450',
 '23': '5. Peter Jackson',
 '24': '5. Four By Two Productions',
 '25': '3. Midnight Picture Show',
 '26': '1. Inside Out, The Dark Knight, 12 Years a Slave',
 '27': '5. Daniel Radcliffe & Rupert Grint'}

In [258]:
# и убедиться что ни чего не пропустил)
len(answers)

27