In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations, chain

In [3]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1653,tt0338325,20000000,16605763,Paparazzi,Cole Hauser|Robin Tunney|Dennis Farina|Daniel ...,Paul Abascal,One good shot deserves another.,A rising Hollywood actor decides to take perso...,84,Action|Drama|Thriller,20th Century Fox,9/3/2004,5.9,2004
702,tt0844286,20000000,5530764,The Brothers Bloom,Rachel Weisz|Adrien Brody|Mark Ruffalo|Rinko K...,Rian Johnson,They'd never let the truth come between them.,The Brothers Bloom are the best con men in the...,114,Adventure|Comedy|Drama|Romance,The Weinstein Company|Summit Entertainment|End...,9/9/2008,6.8,2008
1156,tt0299930,54000000,7266209,Gigli,Ben Affleck|Jennifer Lopez|Justin Bartha|Laini...,Martin Brest,Life doesn't play by the rules.,Gigli is ordered to kidnap the psychologically...,121,Drama,City Light Films|Revolution Studios|Casey Silv...,8/1/2003,3.8,2003
141,tt2170439,42000000,106645357,Horrible Bosses 2,Jason Bateman|Jason Sudeikis|Charlie Day|Jenni...,Sean Anders,New Crime. Same Tools.,"Dale, Kurt and Nick decide to start their own ...",108,Comedy,New Line Cinema|BenderSpink|RatPac Entertainment,11/26/2014,6.1,2014
550,tt0202470,57000000,16991902,Rock Star,Mark Wahlberg|Jennifer Aniston|Jason Flemyng|D...,Stephen Herek,The story of a wanna be who got to be.,Rock Star tells the story of Chris Cole and a ...,105,Music|Drama|Comedy,Warner Bros. Pictures|Bel Air Entertainment,9/4/2001,5.9,2001


In [4]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [5]:
def splitting(col):
    ''' Создание копии датасета, разделение данных в колонке col по "|"
    с расширением датасета путём добавления разделённых данных в новые строки.

    '''
    data2 = data.copy()
    data2[col] = data2[col].str.split('|')
    data2 = data2.explode(col)
    return data2


answers = {} # Создадим словарь для ответов

# Преобразуем дату в формат datetime
data['release_date'] = pd.to_datetime(data['release_date'])

# Добавим месяц релиза в датасет
data['release_month'] = data['release_date'].dt.month

data['profit'] = data['revenue'] - data['budget'] # Добавим колонку profit

# Датасеты с разделёнными актёрами, жанрами, киностудиями и режиссёрами
casts = splitting('cast')
genres = splitting('genres')
companies = splitting('production_companies')
directors = splitting('director')


# 1. У какого фильма из списка самый большой бюджет?

In [6]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)'

In [7]:
# Все 4 варианта подходят для решения аналогичных задач

In [8]:
data[data['budget'] == data['budget'].max()][['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
723,Pirates of the Caribbean: On Stranger Tides,tt1298650


ВАРИАНТ 2

In [9]:
(data.sort_values('budget', ascending=False).head(1)
 [['original_title', 'imdb_id']])

Unnamed: 0,original_title,imdb_id
723,Pirates of the Caribbean: On Stranger Tides,tt1298650


ВАРИАНТ 3

In [10]:
(data.groupby(['original_title', 'imdb_id'])
 ['budget'].max().sort_values(ascending=False).head(1))

original_title                               imdb_id  
Pirates of the Caribbean: On Stranger Tides  tt1298650    380000000
Name: budget, dtype: int64

ВАРИАНТ 4

In [11]:
data.nlargest(1, 'budget')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
723,Pirates of the Caribbean: On Stranger Tides,tt1298650


# 2. Какой из фильмов самый длительный (в минутах)?

In [12]:
answers['2'] = 'Gods and Generals (tt0279111)'

In [13]:
data.nlargest(1, 'runtime')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
1157,Gods and Generals,tt0279111


# 3. Какой из фильмов самый короткий (в минутах)?





In [14]:
answers['3'] = 'Winnie the Pooh (tt1449283)'

In [15]:
data.nsmallest(1, 'runtime')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
768,Winnie the Pooh,tt1449283


# 4. Какова средняя длительность фильмов?


In [16]:
answers['4'] = '110'

In [17]:
round(data['runtime'].mean(), 0)

110.0

# 5. Каково медианное значение длительности фильмов? 

In [18]:
answers['5'] = '107'

In [19]:
round(data['runtime'].median(), 0)

107.0

# 6. Какой самый прибыльный фильм?

In [20]:
answers['6'] = 'Avatar (tt0499549)'

In [21]:
data.nlargest(1, 'profit')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
239,Avatar,tt0499549


# 7. Какой фильм самый убыточный? 

In [22]:
answers['7'] = 'The Lone Ranger (tt1210819)'

In [23]:
data.nsmallest(1, 'profit')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
1245,The Lone Ranger,tt1210819


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [24]:
answers['8'] = '1478'

In [25]:
data[data['profit'] > 0]['original_title'].count()

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [26]:
answers['9'] = 'The Dark Knight (tt0468569)'

In [27]:
data_2008 = data.query('release_year == 2008')
data_2008.nlargest(1, 'revenue')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
599,The Dark Knight,tt0468569


# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?

In [28]:
answers['10'] = 'The Lone Ranger (tt1210819)'

In [29]:
data_2014 = data.query('(release_year>=2012) & (release_year<=2014)')
data_2014.nsmallest(1, 'profit')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
1245,The Lone Ranger,tt1210819



# 11. Какого жанра фильмов больше всего?

In [30]:
answers['11'] = 'Drama'

In [31]:
Counter(data['genres'].str.split('|').sum()).most_common(1)

[('Drama', 782)]

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [32]:
answers['12'] = 'Drama'

In [33]:
profit_movies = data.query('profit > 0')
Counter(profit_movies['genres'].str.split('|').sum()).most_common(1)

[('Drama', 560)]

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [34]:
answers['13'] = 'Peter Jackson'

In [35]:
data.groupby('director')['revenue'].sum().nlargest(1)

director
Peter Jackson    6490593685
Name: revenue, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [36]:
answers['14'] = 'Robert Rodriguez'

In [37]:
(directors[directors['genres'].str.contains('Action')]
 ['director'].value_counts())

Robert Rodriguez       9
Paul W.S. Anderson     7
Michael Bay            7
Ridley Scott           6
Antoine Fuqua          6
                      ..
Motonori Sakakibara    1
Donald Petrie          1
Phillip Noyce          1
Jonathan Lynn          1
Trey Parker            1
Name: director, Length: 364, dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [38]:
answers['15'] = 'Chris Hemsworth'

In [39]:
data_2012 = casts.query('release_year == 2012')
data_2012.groupby('cast')['revenue'].sum().nlargest(1)

cast
Chris Hemsworth    2027450773
Name: revenue, dtype: int64

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [40]:
answers['16'] = 'Matt Damon'

In [41]:
hight_budget = casts[casts['budget'] > casts['budget'].mean()]
hight_budget.groupby('cast')['budget'].count().nlargest(1)

cast
Matt Damon    18
Name: budget, dtype: int64

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [42]:
answers['17'] = 'Action'

In [43]:
genres[genres['cast'].str.contains('Nicolas Cage')]['genres'].value_counts()

Action             17
Thriller           15
Drama              12
Crime              10
Fantasy             8
Adventure           7
Comedy              6
Science Fiction     4
Animation           3
Mystery             3
Family              3
History             2
Horror              1
War                 1
Romance             1
Name: genres, dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [44]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)'

In [45]:
Paramount = companies.query('production_companies == "Paramount Pictures"')
Paramount.nsmallest(1, 'profit')[['original_title', 'imdb_id']]

Unnamed: 0,original_title,imdb_id
925,K-19: The Widowmaker,tt0267626


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [46]:
answers['19'] = '2015'

In [47]:
data.groupby('release_year')['revenue'].sum().nlargest(1)

release_year
2015    25449202382
Name: revenue, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [48]:
answers['20'] = '2014'

In [49]:
Warner = data[data['production_companies'].str.contains('Warner Bros')]
Warner.groupby('release_year')['revenue'].sum().nlargest(1)

release_year
2014    3243064519
Name: revenue, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [50]:
answers['21'] = 'Сентябрь'

In [51]:
pivot = data.pivot_table(
       values=['original_title'],
       index=['release_year'],
       columns=['release_month'],
       aggfunc='count',
       fill_value=0,
       margins=True
)
pivot.loc['All'].sort_values(ascending=False)

                release_month
original_title  All              1889
                9                 227
                12                190
                10                186
                8                 161
                3                 156
                4                 149
                6                 147
                11                146
                7                 142
                5                 140
                2                 135
                1                 110
Name: All, dtype: int64

ВАРИАНТ 2

In [52]:
data.groupby('release_month')['original_title'].count().nlargest(1)

release_month
9    227
Name: original_title, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [53]:
answers['22'] = '450'

In [54]:
(data.query('(release_month<9) & (release_month>5)')
 ['original_title'].value_counts().sum())

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [55]:
answers['23'] = 'Peter Jackson'

In [56]:
pivot = data.loc[data['release_month'].isin([1, 2, 12])].pivot_table(
       values=['original_title'],
       index=['release_month'],
       columns=['director'],
       aggfunc='count',
       fill_value=0,
       margins=True
)
pivot.loc['All'].sort_values(ascending=False)

                director                           
original_title  All                                    435
                Peter Jackson                            7
                Clint Eastwood                           6
                Steven Soderbergh                        6
                Adam Shankman                            4
                                                      ... 
                Matt Bettinelli-Olpin|Tyler Gillett      1
                Matt Reeves                              1
                Matthew O'Callaghan                      1
                Matthew Vaughn                           1
                Aaron Seltzer|Jason Friedberg            1
Name: All, Length: 333, dtype: int64

ВАРИАНТ 2

In [57]:
winter = data.query('(release_month<3) | (release_month==12)')
winter.groupby('director')['original_title'].count().nlargest(1)

director
Peter Jackson    7
Name: original_title, dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [58]:
answers['24'] = 'Four By Two Productions'

In [59]:
companies['len_title'] = companies['original_title'].apply(lambda x: len(x))
companies.groupby('production_companies')['len_title'].mean().nlargest(1)

production_companies
Four By Two Productions    83.0
Name: len_title, dtype: float64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [60]:
answers['25'] = 'Midnight Picture Show'

In [62]:
# Разделил строку с помощью "\", потому что при заключении кода в скобки
# он отказывается работать: ошибка invalid syntax с указанием на "=".
companies['len_overview'] = \
 companies['overview'].apply(lambda x: len(x.split(' ')))
companies.groupby('production_companies')['len_overview'].mean().nlargest(1)

production_companies
Midnight Picture Show    175.0
Name: len_overview, dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [63]:
answers['26'] = 'The Dark Knight, Inside Out, 12 Years a Slave'

In [64]:
(data[data['vote_average'] >= data.groupby('original_title')['vote_average'].
 sum().quantile(0.99)][['original_title', 'vote_average']].
 sort_values('vote_average', ascending=False))

Unnamed: 0,original_title,vote_average
599,The Dark Knight,8.1
9,Inside Out,8.0
34,Room,8.0
118,Interstellar,8.0
125,The Imitation Game,8.0
370,Inception,7.9
1191,12 Years a Slave,7.9
1183,The Wolf of Wall Street,7.9
1081,The Lord of the Rings: The Return of the King,7.9
872,The Pianist,7.9


# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [65]:
answers['27'] = 'Daniel Radcliffe, Rupert Grint'

In [66]:
data['cast_split'] = data['cast'].str.split('|')
data['comb'] = data['cast_split'].apply(lambda x: list(combinations(x, 2)))
together = list(chain(*data['comb'].tolist()))
Counter(together).most_common(1)

[(('Daniel Radcliffe', 'Rupert Grint'), 8)]

# Submission

In [67]:
# Ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': '110',
 '5': '107',
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': '2015',
 '20': '2014',
 '21': 'Сентябрь',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'The Dark Knight, Inside Out, 12 Years a Slave',
 '27': 'Daniel Radcliffe, Rupert Grint'}

In [68]:
# Общее количество вопросов
len(answers)

27