In [62]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations

In [63]:
data = pd.read_csv('D:\projects\skillfactory\movie_bd_v5.csv')

In [64]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


In [65]:
data.info() # Получим информацию о колонках датасета.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1889 entries, 0 to 1888
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   imdb_id               1889 non-null   object 
 1   budget                1889 non-null   int64  
 2   revenue               1889 non-null   int64  
 3   original_title        1889 non-null   object 
 4   cast                  1889 non-null   object 
 5   director              1889 non-null   object 
 6   tagline               1889 non-null   object 
 7   overview              1889 non-null   object 
 8   runtime               1889 non-null   int64  
 9   genres                1889 non-null   object 
 10  production_companies  1889 non-null   object 
 11  release_date          1889 non-null   object 
 12  vote_average          1889 non-null   float64
 13  release_year          1889 non-null   int64  
dtypes: float64(1), int64(4), object(9)
memory usage: 206.7+ KB


In [66]:
data.loc[data.duplicated(subset=['imdb_id'],keep=False)] # Проверим, есть ли дупликаты строк.

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year


# Предобработка

In [67]:
answers = {} # Создадим словарь для ответов.

data['profit'] = data['revenue'] - data['budget'] # Создадим новый столбец для рассчета прибыли фильма.
# The time given in the dataset is in string format.
# So we need to change this in datetime format.
data['release_date'] = pd.to_datetime(data['release_date']) 
# Введем для красоты и удобства новый столбец с названиями месяцев.
data['month'] = data['release_date'].dt.strftime('%B')

def pairs(casts):
    '''Функция для проверки и подсчета совпадений значений из списков.'''
    pair_counter = Counter() # Сюда запишем счетчик пар объектов.
    for actor in casts:
        unique_tokens = sorted(actor) # Отсортируем списки по порядку.
        combos = combinations(unique_tokens, 2) # Переберем уникальные комбинации пар объектов.
        pair_counter += Counter(combos)
    return pair_counter

# 1. У какого фильма из списка самый большой бюджет?

In [68]:
# Оставим одну строку из ДФ, отфильтровав по искомому значению, и посмотрим, что это за фильм.
max_budget = data[data['budget'] == data['budget'].max()]
display (max_budget)
answers['1'] = '5. Pirates of the Caribbean: On Stranger Tides'  # +

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000,May


ВАРИАНТ 2

In [69]:
# Метод nlargest вернет значения от максимума.
max_budget = data.nlargest(1, 'budget')
display (max_budget)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000,May


ВАРИАНТ 3

In [70]:
# Найдем индексную позицию названия фильма по максимальному значению бюджета.
max_budget = data.loc[data['budget'].idxmax()]['original_title']
display (max_budget)

'Pirates of the Caribbean: On Stranger Tides'

# 2. Какой из фильмов самый длительный (в минутах)?

In [71]:
max_runtime = data[(data['runtime'] == data['runtime'].max())]
display (max_runtime)
answers['2'] = '2. Gods and Generals'  # +

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
1157,tt0279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064,February


ВАРИАНТ 2

In [72]:
max_runtime = data.nlargest(1, 'runtime')
display (max_runtime)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
1157,tt0279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064,February


ВАРИАНТ 3

In [73]:
max_runtime = data.loc[data['runtime'].idxmax()]['original_title']
display (max_runtime)

'Gods and Generals'

# 3. Какой из фильмов самый короткий (в минутах)?





In [74]:
min_runtime = data[data['runtime'] == data['runtime'].min()]
display (min_runtime)
answers['3'] = '3. Winnie the Pooh'  # +

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
768,tt1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000,April


ВАРИАНТ 2

In [75]:
# Метод nsmallest вернет нам значения от минимума.
min_runtime = data.nsmallest(1, 'runtime')
display (min_runtime)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
768,tt1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000,April


ВАРИАНТ 3

In [76]:
# Найдем индексную позицию названия фильма по минимальному значению длительности.
max_runtime = data.loc[data['runtime'].idxmin()]['original_title']
display (max_runtime)

'Winnie the Pooh'

# 4. Какова средняя длительность фильмов?


In [77]:
mean_runtime = data['runtime'].mean()
display (mean_runtime)
answers['4'] = '2. 110'  # +

109.6585494970884

# 5. Каково медианное значение длительности фильмов? 

In [78]:
median_runtime = data['runtime'].median()
display (median_runtime)
answers['5'] = '1. 107'  # +

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget)

In [79]:
max_profit = data.loc[data['profit'].idxmax()]['original_title']
display (max_profit)
answers['6'] = '5. Avatar'  # +

'Avatar'

ВАРИАНТ 2

In [80]:
max_profit = data.nlargest(3, 'profit')
display (max_profit)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
239,tt0499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847,December
3,tt2488496,200000000,2068178225,Star Wars: The Force Awakens,Harrison Ford|Mark Hamill|Carrie Fisher|Adam D...,J.J. Abrams,Every generation has a story.,Thirty years after defeating the Galactic Empi...,136,Action|Adventure|Science Fiction|Fantasy,Lucasfilm|Truenorth Productions|Bad Robot,2015-12-15,7.5,2015,1868178225,December
0,tt0369610,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,Colin Trevorrow,The park is open.,Twenty-two years after the events of Jurassic ...,124,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,2015-06-09,6.5,2015,1363528810,June


# 7. Какой фильм самый убыточный? 

In [81]:
min_profit = data.loc[data['profit'].idxmin()]['original_title']
display (min_profit)
answers['7'] = '5. The Lone Ranger'  # +

'The Lone Ranger'

ВАРИАНТ 2

In [82]:
min_profit = data.nsmallest(3, 'profit') # Даже не знал о таких фильмах.
display (min_profit)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090,July
1616,tt0318974,145000000,25819961,The Alamo,Dennis Quaid|Billy Bob Thornton|Jason Patric|P...,John Lee Hancock,You will never forget,Based on the 1836 standoff between a group of ...,137,Western|History|War,Imagine Entertainment|Touchstone Pictures,2004-04-07,5.9,2004,-119180039,April
809,tt1305591,150000000,38992758,Mars Needs Moms,Seth Green|Joan Cusack|Dan Fogler|Breckin Meye...,Simon Wells,Mom needs a little space.,"When Martians suddenly abduct his mom, mischie...",88,Adventure|Animation|Family,Walt Disney Animation Studios,2011-03-09,5.5,2011,-111007242,March


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [83]:
# Отфильтруем ДФ по фильмам, получившим прибыль и посчитаем сколько их.
positive_profit = len(data[data['profit'] > 0]) 
display (positive_profit)
answers['8'] = '1. 1478'  # +

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [84]:
films_2008 = data[data['release_year'] == 2008] # В новом фрейме оставим только фильмы, снятые в 2008 году.
best_revenue_2008 = films_2008.loc[films_2008['revenue'].idxmax()]['original_title']
display (best_revenue_2008)
answers['9'] = '4. The Dark Knight'

'The Dark Knight'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [85]:
films_12_14 = data.query('2012 <= release_year <= 2014') # Отфильтруем данные по годам.
bad_profit_12_14 = films_12_14.nsmallest(1, 'profit')
display (bad_profit_12_14)
answers['10'] = '5. The Lone Ranger'  # +

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090,July


# 11. Какого жанра фильмов больше всего?

In [86]:
# Сделаем списки по жанрам.
sep_genres = data['genres'].apply(lambda x: [item for elem in [x.split('|')] for item in elem])
genres_list = sum(sep_genres, []) # Создадим общий список для всех повторений жанров.
# Применим класс Counter для подсчета количества повторений жанров, отсортированных по убыванию.
count_genres = Counter(genres_list).most_common(5) 
display(count_genres)
answers['11'] = '3. Drama'  # +

[('Drama', 782),
 ('Comedy', 683),
 ('Thriller', 596),
 ('Action', 582),
 ('Adventure', 415)]

ВАРИАНТ 2

In [87]:
# Выделим каждый жанр по отдельности, сделав копии строк.
single_genres = (data.assign(genres = data['genres'].str.split('|')).explode('genres').reset_index(drop=True))
# Посчитаем количество фильмов, отмеченных каждым жанром.
sum_genres = single_genres['genres'].value_counts()
display (sum_genres.head())

Drama        782
Comedy       683
Thriller     596
Action       582
Adventure    415
Name: genres, dtype: int64

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [88]:
genres_profit = data.query('profit > 0') # Отфильтруем фильмы по прибыли
sep_genres = genres_profit['genres'].apply(lambda x: [item for elem in [x.split('|')] for item in elem])
genres_list = sum(sep_genres, [])
count_genres = Counter(genres_list).most_common(1)
display(count_genres)
answers['12'] = '1. Drama'  # +

[('Drama', 560)]

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [89]:
# Разделим режиссеров.
single_genres = (data.assign(director = data['director'].str.split('|')).explode('director').reset_index(drop=True))
# Сгруппируем данные по столбцу "director" и отсортируем по убыванию суммы кассовых сборов.
max_revenue = single_genres.groupby(['director'])['revenue'].sum().sort_values(ascending=False)
display (max_revenue.head(1))
answers['13'] = '5. Peter Jackson'  # +

director
Peter Jackson    6490593685
Name: revenue, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [90]:
# Ограничим датафрейм строками, включающими жанр "Action".
action = data[data.genres.str.contains ("Action", na=False)]
action = action['director'].apply(lambda x: [item for elem in [x.split('|')] for item in elem])
action_list = sum(action, [])
action_count = Counter(action_list).most_common(5)
display (action_count)
answers['14'] = '3. Robert Rodriguez'  # +

[('Robert Rodriguez', 9),
 ('Michael Bay', 7),
 ('Paul W.S. Anderson', 7),
 ('Antoine Fuqua', 6),
 ('Ridley Scott', 6)]

ВАРИАНТ 2

In [91]:
action = data[data.genres.str.contains ("Action", na=False)]
directors = (action.assign(director = action['director'].str.split('|')).explode('director').reset_index(drop=True))
more_action = directors['director'].value_counts()
display (more_action.head())

Robert Rodriguez      9
Michael Bay           7
Paul W.S. Anderson    7
Antoine Fuqua         6
Ridley Scott          6
Name: director, dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [92]:
# Отфильтруем фрейм по 2012 году.
films_2012 = data.query('release_year == 2012')
# Выделим каждого актера по отдельности и создадим новые строки.
individual = (films_2012.assign(cast = films_2012['cast'].str.split('|')).explode('cast').reset_index(drop=True))
# Посчитаем сумму кассовых сборов в фильмах, где участвовал каждый актер.
best_revenue = individual.groupby(['cast'])['revenue'].sum().sort_values(ascending=False)
display (best_revenue.head(1))
answers['15'] = '3. Chris Hemsworth'  # +

cast
Chris Hemsworth    2027450773
Name: revenue, dtype: int64

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [93]:
mean_budget = data['budget'].mean()  # Посчитаем среднее арифметическое всех бюджетов.
# Разделим актеров.
individual_actor = (data.assign(cast = data['cast'].str.split('|')).explode('cast').reset_index(drop=True))
# Выделим актеров, снимавшихся в фильмах с бюджетом выше среднего.
demanded = individual_actor.loc[(individual_actor['budget'] > mean_budget)]
# Посчитаем, сколько картин было отмечено присутствием каждого актера.
best_demanded = demanded['cast'].value_counts()
display (best_demanded.head(3))
answers['16'] = '3. Matt Damon'  # +

Matt Damon        18
Adam Sandler      17
Angelina Jolie    16
Name: cast, dtype: int64

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [94]:
# Разделим актеров по отдельным строкам.
individual_actor = (data.assign(cast = data['cast'].str.split('|')).explode('cast').reset_index(drop=True))
# Оставим фильмы только с Николасом.
nicolas = individual_actor[individual_actor['cast'] == 'Nicolas Cage']
# Разделим жанры по отдельным строкам.
genres_nic = (nicolas.assign(genres = nicolas['genres'].str.split('|')).explode('genres').reset_index(drop=True))
# Посчитаем количество жанров.
genres_count = genres_nic['genres'].value_counts()
display (genres_count)
answers['17'] = '2. Action'  # +

Action             17
Thriller           15
Drama              12
Crime              10
Fantasy             8
Adventure           7
Comedy              6
Science Fiction     4
Animation           3
Family              3
Mystery             3
History             2
War                 1
Horror              1
Romance             1
Name: genres, dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [95]:
# Выделим компании по отдельным строкам.
companies = (data.assign(production_companies = data['production_companies'].str.split('|'))
             .explode('production_companies').reset_index(drop = True))
# Оставим только фильмы, снятые Paramount Pictures.
paramount = companies[companies['production_companies'] == 'Paramount Pictures']
# Найдем самый убыточный фильм.
loss_film = paramount.nsmallest(1, 'profit')
display (loss_film)
answers['18'] = '2. K-19: The Widowmaker (tt0267626)'  # +

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
2998,tt0267626,100000000,35168966,K-19: The Widowmaker,Harrison Ford|Liam Neeson|Peter Sarsgaard|Joss...,Kathryn Bigelow,Fate has found its hero.,When Russia's first nuclear submarine malfunct...,138,Thriller|Drama|History,Paramount Pictures,2002-07-19,6.0,2002,-64831034,July


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [96]:
# Сгруппируем данные по годам и отсортируем по суммам кассовых сборов.
best_year = data.groupby(['release_year'])['revenue'].sum().sort_values(ascending=False)
display (best_year.head(1))
answers['19'] = '5. 2015'  # +

release_year
2015    25449202382
Name: revenue, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [97]:
# Найдем все компании от студии Warner Bros.
warner = data[data.production_companies.str.contains("Warner Bros", na=False)]
# Сгруппируем суммарную прибыль по годам.
best_year_warner = warner.groupby(['release_year'])['profit'].sum().sort_values(ascending=False)
display(best_year_warner.head())
answers['20'] = '1. 2014'  # +

release_year
2014    2295464519
2007    2201675217
2008    2134595031
2010    1974712985
2011    1871393682
Name: profit, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [98]:
# Сгруппируем данные по месяцам и посчитаем количество фильмов за каждый месяц.
# Для месяцев создан новый столбец в предобработке.
impact_month = data['month'].value_counts()
display(impact_month)
answers['21'] = '4. Сентябрь'  # +

September    227
December     190
October      186
August       161
March        156
April        149
June         147
November     146
July         142
May          140
February     135
January      110
Name: month, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [99]:
# Продолжим работать с серией impact_month (продублируем).
impact_month = data['month'].value_counts()
# Просуммируем значения из летних месяцев.
impact_summer = impact_month['June'] + impact_month['July'] + impact_month['August']
display (impact_summer)
answers['22'] = '2. 450'  # +

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [100]:
# Сделаем новый фрейм, отсортированный по зимним месяцам.
winter = data[(data['month'] == 'December') | (data['month'] == 'January') | (data['month'] == 'February')]
# Разделим режиссеров.
directors = (winter.assign(director = winter['director'].str.split('|')).explode('director').reset_index(drop=True))
# Посчитаем количество фильмов, в которых работал режиссер.
best_winter_director = directors.groupby(['director'])['imdb_id'].count().sort_values(ascending=False)
display (best_winter_director.head(3))
answers['23'] = '5. Peter Jackson'  # +

director
Peter Jackson        7
Steven Soderbergh    6
Clint Eastwood       6
Name: imdb_id, dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [101]:
# Разделим компании по отдельности
companies = (data.assign(production_companies = data['production_companies'].str.split('|'))
             .explode('production_companies').reset_index(drop = True))
# Сделаем новый столбец с количеством символов из названия
title = companies.assign(title=lambda x: x['original_title'].str.len())
# Сгруппируем компании по убыванию средних значений количества символов.
long_title = title.groupby(['production_companies'])['title'].mean().sort_values(ascending=False)
display (long_title.head())
answers['24'] = '5. Four By Two Productions'  # +

production_companies
Four By Two Productions      83.0
Jim Henson Company, The      59.0
Dos Corazones                47.0
Museum Canada Productions    46.0
Polsky Films                 46.0
Name: title, dtype: float64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [102]:
companies = (data.assign(production_companies = data['production_companies'].str.split('|'))
             .explode('production_companies').reset_index(drop = True))
# Сделаем новый столбец с подсчетом количества слов из столбца с описанием.
companies['story'] = companies.overview.apply(lambda x: len(str(x).split(' ')))
mean_words = companies.groupby(['production_companies'])['story'].mean().sort_values(ascending=False)
display (mean_words.head())
answers['25'] = '3. Midnight Picture Show'  # +

production_companies
Midnight Picture Show               175.0
Room 9 Entertainment                161.0
Heineken Branded Entertainment      161.0
98 MPH Productions                  159.0
Brookwell-McNamara Entertainment    156.0
Name: story, dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [103]:
# Найдем 1% от количества всех фильмов
total = len(data.index) / 100
# Выведем таблицу с 1% лучших по рейтингу.
percent_one = data.nlargest(int(total), 'vote_average')
display (percent_one)
answers['26'] = '1. Inside Out, The Dark Knight, 12 Years a Slave'  # +

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825,July
9,tt2096673,175000000,853708609,Inside Out,Amy Poehler|Phyllis Smith|Richard Kind|Bill Ha...,Pete Docter,Meet the little voices inside your head.,"Growing up can be a bumpy road, and it's no ex...",94,Comedy|Animation|Family,Walt Disney Pictures|Pixar Animation Studios|W...,2015-06-09,8.0,2015,678708609,June
34,tt3170832,6000000,35401758,Room,Brie Larson|Jacob Tremblay|Joan Allen|Sean Bri...,Lenny Abrahamson,Love knows no boundaries,Jack is a young boy of 5 years old who has liv...,117,Drama|Thriller,Element Pictures|No Trace Camping|A24|Duperele...,2015-10-16,8.0,2015,29401758,October
118,tt0816692,165000000,621752480,Interstellar,Matthew McConaughey|Jessica Chastain|Anne Hath...,Christopher Nolan,Mankind was born on Earth. It was never meant ...,Interstellar chronicles the adventures of a gr...,169,Adventure|Drama|Science Fiction,Paramount Pictures|Legendary Pictures|Warner B...,2014-11-05,8.0,2014,456752480,November
125,tt2084970,14000000,233555708,The Imitation Game,Benedict Cumberbatch|Keira Knightley|Matthew G...,Morten Tyldum,The true enigma was the man who cracked the code.,Based on the real life story of legendary cryp...,113,History|Drama|Thriller|War,Black Bear Pictures|Bristol Automotive,2014-11-14,8.0,2014,219555708,November
119,tt2015381,170000000,773312399,Guardians of the Galaxy,Chris Pratt|Zoe Saldana|Dave Bautista|Vin Dies...,James Gunn,All heroes start somewhere.,"Light years from Earth, 26 years after being a...",121,Action|Science Fiction|Adventure,Marvel Studios|Moving Picture Company (MPC)|Bu...,2014-07-30,7.9,2014,603312399,July
128,tt2267998,61000000,369330363,Gone Girl,Ben Affleck|Rosamund Pike|Carrie Coon|Neil Pat...,David Fincher,You don't know what you've got 'til it's...,With his wife's disappearance having become th...,145,Mystery|Thriller|Drama,Twentieth Century Fox Film Corporation|Regency...,2014-10-01,7.9,2014,308330363,October
138,tt2278388,30000000,174600318,The Grand Budapest Hotel,Ralph Fiennes|Tony Revolori|F. Murray Abraham|...,Wes Anderson,A perfect holiday without leaving home.,The Grand Budapest Hotel tells of a legendary ...,99,Comedy|Drama,Fox Searchlight Pictures|Scott Rudin Productio...,2014-02-26,7.9,2014,144600318,February
370,tt1375666,160000000,825500000,Inception,Leonardo DiCaprio|Joseph Gordon-Levitt|Ellen P...,Christopher Nolan,Your mind is the scene of the crime.,"Cobb, a skilled thief who commits corporate es...",148,Action|Thriller|Science Fiction|Mystery|Adventure,Legendary Pictures|Warner Bros.|Syncopy,2010-07-14,7.9,2010,665500000,July
872,tt0253474,35000000,120072577,The Pianist,Adrien Brody|Thomas Kretschmann|Frank Finlay|M...,Roman Polanski,Music was his passion. Survival was his master...,The Pianist is a film adapted from the biograp...,150,Drama|War,Bac Films|Canal+Polska|Heritage Films|Studio B...,2002-09-24,7.9,2002,85072577,September


# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [104]:
# Подготовим серию данных по актерам.
sep_cast = data['cast'].apply(lambda x: [item for elem in [x.split('|')] for item in elem])
# Прогоним фукнцию pairs (из предобработки) для подсчета пар актеров.
partner = pairs(sep_cast).most_common(10)
display (partner)
answers['27'] = '1. Daniel Radcliffe & Rupert Grint'  # +

[(('Daniel Radcliffe', 'Emma Watson'), 8),
 (('Daniel Radcliffe', 'Rupert Grint'), 8),
 (('Emma Watson', 'Rupert Grint'), 8),
 (('Ben Stiller', 'Owen Wilson'), 6),
 (('Helena Bonham Carter', 'Johnny Depp'), 6),
 (('Paul Walker', 'Vin Diesel'), 5),
 (('Adam Sandler', 'Kevin James'), 5),
 (('Hugh Jackman', 'Ian McKellen'), 5),
 (('Kristen Stewart', 'Robert Pattinson'), 5),
 (('Kristen Stewart', 'Taylor Lautner'), 5)]

# Submission

In [105]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '5. Pirates of the Caribbean: On Stranger Tides',
 '2': '2. Gods and Generals',
 '3': '3. Winnie the Pooh',
 '4': '2. 110',
 '5': '1. 107',
 '6': '5. Avatar',
 '7': '5. The Lone Ranger',
 '8': '1. 1478',
 '9': '4. The Dark Knight',
 '10': '5. The Lone Ranger',
 '11': '3. Drama',
 '12': '1. Drama',
 '13': '5. Peter Jackson',
 '14': '3. Robert Rodriguez',
 '15': '3. Chris Hemsworth',
 '16': '3. Matt Damon',
 '17': '2. Action',
 '18': '2. K-19: The Widowmaker (tt0267626)',
 '19': '5. 2015',
 '20': '1. 2014',
 '21': '4. Сентябрь',
 '22': '2. 450',
 '23': '5. Peter Jackson',
 '24': '5. Four By Two Productions',
 '25': '3. Midnight Picture Show',
 '26': '1. Inside Out, The Dark Knight, 12 Years a Slave',
 '27': '1. Daniel Radcliffe & Rupert Grint'}

In [106]:
# и убедиться что ни чего не пропустил)
len(answers)

27