In [90]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter #вид словаря, который позволяет нам считать количество неизменяемых объектов
from itertools  import combinations #библиотека итераторов, в частности combinations позволяет составлять все комбинации данных 
                                    #пример: combinations('ABCD', 2) --> AB AC AD BC BD CD, где 2 - длина комбинации

In [103]:
movie = pd.read_csv('movie_bd_v5.csv')
movie.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
119,tt2015381,170000000,773312399,Guardians of the Galaxy,Chris Pratt|Zoe Saldana|Dave Bautista|Vin Dies...,James Gunn,All heroes start somewhere.,"Light years from Earth, 26 years after being a...",121,Action|Science Fiction|Adventure,Marvel Studios|Moving Picture Company (MPC)|Bu...,7/30/2014,7.9,2014
153,tt1490017,60000000,469160692,The Lego Movie,Will Arnett|Elizabeth Banks|Craig Berry|Alison...,Phil Lord|Christopher Miller,The story of a nobody who saved everybody.,"An ordinary Lego mini-figure, mistakenly thoug...",100,Adventure|Fantasy|Animation|Comedy|Action,Village Roadshow Pictures|DC Comics|Vertigo En...,2/6/2014,7.5,2014
817,tt0993842,30000000,63782078,Hanna,Saoirse Ronan|Eric Bana|Vicky Krieps|Cate Blan...,Joe Wright,Adapt or die.,A 16-year-old girl raised by her father to be ...,111,Action|Thriller|Adventure,Focus Features|Neunte Babelsberg Film|Focus Fe...,4/7/2011,6.5,2011
129,tt2713180,68000000,211817906,Fury,Brad Pitt|Shia LaBeouf|Logan Lerman|Michael Pe...,David Ayer,War never ends quietly.,Last months of World War II in April 1945. As ...,135,War|Drama|Action,Columbia Pictures|QED International|Crave Film...,10/15/2014,7.4,2014
833,tt1214962,17000000,12355798,Seeking Justice,Nicolas Cage|Guy Pearce|January Jones|Jennifer...,Roger Donaldson,Vengeance always has a price,"After his wife is assaulted, a husband enlists...",105,Action|Drama|Thriller,Endgame Entertainment|Maguire Entertainment|Ra...,9/2/2011,5.9,2011


In [None]:
movie.describe()

# Предобработка

In [108]:
answers = {}

movie['profit'] = movie['revenue'] - movie['budget'] #вычисляем прибыль

movie['release_date'] = pd.to_datetime(movie['release_date']).dt.month #с помощью pd.to_datetime....dt.month переводим дату 'release_date'
                                                                #в формат месяцев, где 1 - январь, 2 - февраль, .. 12 - декабрь

def splitstring (string):          #функция для разложения серии датафрейма на составные элементы по разделителю '|'
    result = string.str.split('|') #например "Action|Adventure|Science Fiction|Thriller" раскладывается на 
    return result                  # [Action, Adventure, Science Fiction, Thriller] 

# 1. У какого фильма из списка самый большой бюджет?

In [138]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides' # '+'

In [99]:
movie[movie.budget == movie.budget.max()].original_title.unique()

array(['Pirates of the Caribbean: On Stranger Tides'], dtype=object)

# 2. Какой из фильмов самый длительный (в минутах)?

In [139]:
answers['2'] = 'Gods and Generals' # '+'

In [None]:
movie[movie.runtime == movie.runtime.max()].original_title.unique()

# 3. Какой из фильмов самый короткий (в минутах)?

In [140]:
answers['3'] = 'Winnie the Pooh' # '+'

In [100]:
movie[movie.runtime == movie.runtime.min()].original_title.unique()

array(['Winnie the Pooh'], dtype=object)

# 4. Какова средняя длительность фильмов?

In [141]:
answers['4'] = '110' # '+'

In [102]:
round(movie.runtime.mean())

110

# 5. Каково медианное значение длительности фильмов? 

In [142]:
answers['5'] = '107' # '+'

In [105]:
round(movie.runtime.median())

107

# 6. Какой самый прибыльный фильм?

In [143]:
answers['6'] = 'Avatar' # '+'

In [109]:
movie[movie['profit'] == movie['profit'].max()].original_title.unique()

array(['Avatar'], dtype=object)

# 7. Какой фильм самый убыточный?

In [144]:
answers['7'] = 'The Lone Ranger' # '+'

In [111]:
movie[movie['profit'] == movie['profit'].min()].original_title.unique()

array(['The Lone Ranger'], dtype=object)

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [145]:
answers['8'] = '1478' # '+'

In [113]:
len(movie[movie['revenue'] > movie['budget']].value_counts())

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [146]:
answers['9'] = 'The Dark Knight' # '+'

In [115]:
max_release = movie[(movie['release_year'] == 2008)].revenue.max()
movie[(movie.revenue == max_release) & (movie['release_year'] == 2008)].original_title.unique()

array(['The Dark Knight'], dtype=object)

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?

In [147]:
answers['10'] = 'The Lone Ranger' # '-'

In [166]:
movie_years = movie.query('release_year in ["2012", "2013", "2014"]')
profit_min = movie_years[(movie_years.profit == movie_years.profit.min())].original_title.unique()
profit_min

array(['The Lone Ranger'], dtype=object)

# 11. Какого жанра фильмов больше всего?

In [148]:
answers['11'] = 'Drama' # '+'

In [118]:
movie['all_genres'] = splitstring(movie['genres'])
all_genres = Counter(movie['all_genres'].sum()).most_common(1)# метод most_common([n]) - возвращает n наиболее 
                                                              #часто встречающихся элементов, в порядке убывания
all_genres

[('Drama', 782)]

ВАРИАНТ 2

In [119]:
max_genres = Counter(movie.genres.str.split('|').sum()).most_common(1)
max_genres

[('Drama', 782)]

# 12. Фильмы какого жанра чаще всего становятся прибыльными?

In [149]:
answers['12'] = 'Drama' # '+'

In [121]:
profit_movies = movie.copy() #здесь и далее делаем копию основного датафрейма, чтобы можно было восставновить первоначальные данные
profit_movies = movie.query('profit > 0')
max_profit = Counter(profit_movies.genres.str.split('|').sum()).most_common(1) 
max_profit

[('Drama', 560)]

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [150]:
answers['13'] = 'Peter Jackson' # '+'

In [123]:
max_director = movie.groupby(['director'])['revenue'].sum().sort_values(ascending=False)
max_director.head(1)

director
Peter Jackson    6490593685
Name: revenue, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [151]:
answers['14'] = 'Robert Rodriguez' # '+'

In [43]:
action_movie = movie.copy()
action_movie = action_movie[action_movie.genres.str.contains("Action", na=False)]
action_movie['all_director'] = splitstring(action_movie['director'])
action_director = Counter(action_movie.all_director.sum()).most_common(1)
action_director

[('Robert Rodriguez', 9)]

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году?

In [152]:
answers['15'] = 'Chris Hemsworth' # '+'

In [49]:
movie2012 = movie.copy()
movie2012 = movie2012.query('release_year == 2012')
movie2012['all_actor'] = splitstring(movie2012['cast'])
movie2012_explode = movie2012.explode('all_actor') # DataFrame.explode(self, column: Union[str, Tuple]) - разбивает серию на строки, 
                                                   #при этом реплицируя (дублируя) строку и ее индекс
max_revenue = movie2012_explode[(movie2012_explode.revenue == movie2012_explode.revenue.max())].all_actor.unique()
max_revenue

array(['Robert Downey Jr.', 'Chris Evans', 'Mark Ruffalo',
       'Chris Hemsworth', 'Scarlett Johansson'], dtype=object)

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [153]:
answers['16'] = 'Matt Damon' # '+'

In [52]:
mov_high_budget = movie.copy()
mov_high_budget = mov_high_budget.query('budget > budget.mean()')
mov_high_budget = Counter(splitstring(mov_high_budget['cast']).sum()).most_common(1)
mov_high_budget

[('Matt Damon', 18)]

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage?

In [154]:
answers['17'] = 'Action' # '+'

In [55]:
movie_cage = movie.copy()
movie_cage_only = movie_cage[movie_cage['cast'].str.contains("Nicolas Cage", na = False)]
genres_cage = Counter(splitstring(movie_cage_only['genres']).sum()).most_common(1)
genres_cage

[('Action', 17)]

# 18. Самый убыточный фильм от Paramount Pictures

In [155]:
answers['18'] = 'K-19: The Widowmaker' # '+'

In [60]:
production = movie.copy()
production = production[production['production_companies'].str.contains("Paramount Pictures", na = False)]
min_profit = production[production.profit == production.profit.min()].original_title.unique()
min_profit

array(['K-19: The Widowmaker'], dtype=object)

ВАРИАНТ 2

In [62]:
production = movie.copy()
production = production[production['production_companies'].str.contains("Paramount Pictures", na = False)]
profit_min = production.groupby(['original_title'])['profit'].sum().sort_values(ascending=True)
profit_min.head(1)

original_title
K-19: The Widowmaker   -64831034
Name: profit, dtype: int64

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [156]:
answers['19'] = '2015' # '+'

In [64]:
revenue_year = movie.copy()
revenue_year = revenue_year.groupby(['release_year'])['revenue'].sum().sort_values(ascending=False)
revenue_year.head(1)

release_year
2015    25449202382
Name: revenue, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [157]:
answers['20'] = '2014' # '+'

In [67]:
revenue_warn = movie.copy()
revenue_warn = revenue_warn[revenue_warn['production_companies'].str.contains("Warner Bros", na = False)]
max_profit_warn = revenue_warn.groupby(['release_year'])['profit'].sum().sort_values(ascending=False)
max_profit_warn.head(1)

release_year
2014    2295464519
Name: profit, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [158]:
answers['21'] = 'Сентябрь' # '+'

In [72]:
release_month = movie['release_date'].value_counts()
release_month.head(1)

9    227
Name: release_date, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)


In [159]:
answers['22'] = '450' # '+'

In [74]:
release_month = movie['release_date'].value_counts()
release_summer = release_month[6] + release_month[7] + release_month[8]
release_summer

450

# 23. Для какого режиссера зима – самое продуктивное время года?

In [160]:
answers['23'] = 'Peter Jackson' # '+'

In [79]:
movie_winter = movie.query('release_date in[1, 2, 12]')
director_winter = Counter(splitstring(movie_winter['director']).sum()).most_common(3)
director_winter

[('Peter Jackson', 7), ('Clint Eastwood', 6), ('Steven Soderbergh', 6)]

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [161]:
answers['24'] = 'Four By Two Productions' # '+'

In [81]:
movie_title = movie.copy()
movie_title['len_title'] = movie_title.original_title.str.len()
movie_title[(movie_title['len_title'] == movie_title.len_title.max())].production_companies.unique()

array(['Twentieth Century Fox Film Corporation|Four By Two Productions'],
      dtype=object)

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [162]:
answers['25'] = 'Midnight Picture Show' # '+'

In [83]:
movie_overview = movie.copy()
movie_overview['totalwords'] = movie_overview['overview'].str.split().str.len()
movie_overview[(movie_overview['totalwords'] == movie_overview.totalwords.max())].production_companies.unique()

array(['Lions Gate Films|Lakeshore Entertainment|GreeneStreet Films|Midnight Picture Show'],
      dtype=object)

# 26. Какие фильмы входят в 1 процент лучших по рейтингу?

In [163]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave' # '+'

In [85]:
movie_raiting = movie.copy()
raiting_1per = movie_raiting[(movie_raiting.vote_average > (np.percentile(movie_raiting['vote_average'], 99)))]
vote_1per = raiting_1per.groupby(['original_title'])['vote_average'].max().sort_values(ascending=False)
vote_1per

original_title
The Dark Knight                                  8.1
The Imitation Game                               8.0
Room                                             8.0
Interstellar                                     8.0
Inside Out                                       8.0
The Wolf of Wall Street                          7.9
The Pianist                                      7.9
The Lord of the Rings: The Return of the King    7.9
The Grand Budapest Hotel                         7.9
Memento                                          7.9
Inception                                        7.9
Guardians of the Galaxy                          7.9
Gone Girl                                        7.9
12 Years a Slave                                 7.9
Name: vote_average, dtype: float64

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?

In [164]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint' # '+'

In [94]:
movie_cast = movie.copy()
movie_cast['all_actors'] = splitstring(movie_cast['cast'])
movie_cast['all_actors_couple'] = movie_cast.all_actors.apply(lambda x: list(combinations(x, 2)))
actors_couple = movie_cast.explode('all_actors_couple')
action_couple_top = (actors_couple.all_actors_couple).value_counts()
action_couple_top

(Daniel Radcliffe, Rupert Grint)                  8
(Daniel Radcliffe, Emma Watson)                   8
(Rupert Grint, Emma Watson)                       7
(Ben Stiller, Owen Wilson)                        6
(Johnny Depp, Helena Bonham Carter)               6
                                                 ..
(Dwayne Johnson, Chris Marquette)                 1
(Jake Gyllenhaal, Melissa Leo)                    1
(Christopher Mintz-Plasse, Bobb'e J. Thompson)    1
(Skandar Keynes, Liam Neeson)                     1
(Eddie Murphy, Clifton Powell)                    1
Name: all_actors_couple, Length: 18121, dtype: int64

In [167]:
answers

{'7': 'The Lone Ranger',
 '8': '1478',
 '9': 'The Dark Knight',
 '11': 'Drama',
 '10': 'The Dark Knight',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker',
 '1': 'Pirates of the Caribbean: On Stranger Tides',
 '2': 'Gods and Generals',
 '3': 'Winnie the Pooh',
 '4': '110',
 '5': '107',
 '6': 'Avatar',
 '19': '2015',
 '20': '2014',
 '21': 'Сентябрь',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [168]:
len(answers)

27