In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import itertools
import calendar
from collections import Counter


In [2]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)


Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
656,tt0430922,28000000,92380927,Role Models,Seann William Scott|Paul Rudd|Elizabeth Banks|...,David Wain,They're about to get more than they plea-barga...,Two salesmen trash a company truck on an energ...,99,Comedy,Universal Pictures|Internationale Filmprodukti...,2/3/2008,6.3,2008
467,tt1470023,10000000,6110000,MacGruber,Will Forte|Kristen Wiig|Val Kilmer|Ryan Philli...,Jorma Taccone,He's the ultimate tool.,Ex-special operative MacGruber (Forte) is call...,90,Action|Adventure|Comedy,Relativity Media,5/21/2010,5.2,2010
275,tt1127180,30000000,90842646,Drag Me to Hell,Alison Lohman|Justin Long|Lorna Raver|Dileep R...,Sam Raimi,"Christine Brown has a good job, a great boyfri...",After denying a woman the extension she needs ...,99,Horror|Thriller,Universal Pictures|Ghost House Pictures|Mandat...,3/15/2009,6.1,2009
714,tt1175491,25100000,29506464,W.,Josh Brolin|Elizabeth Banks|Ellen Burstyn|Ioan...,Oliver Stone,A life misunderestimated.,"Whether you love him or hate him, there is no ...",131,Drama|History,Ixtlan Productions|Emperor Motion Pictures|Glo...,10/17/2008,5.6,2008
1888,tt0163676,15000000,5217498,The In Crowd,Susan Ward|Lori Heuring|Matthew Settle|Nathan ...,Mary Lambert,What would you do to get in?,A mentally disturbed young woman takes a job a...,105,Thriller,Warner Bros. Pictures,7/19/2000,5.2,2000


In [3]:
data.describe()


Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [4]:
answers = {}  # словарь для ответов

# предобработки колонок
# колонка прибыли
data['profit'] = data['revenue'] - data['budget']
# смена типа release_date на to_datetime
data['release_date'] = pd.to_datetime(data['release_date'])
# колонка месяцев
data['month'] = data['release_date'].dt.month


# функции
# sptit и explode колонки dataFrame
def split_explode(df, *columns):  # передаем dataFrame и колонку или колонки
    for column in columns:  # перебераем колонки
        df[column] = df[column].str.split('|')  # разделяем по знаку
        df = df.explode(column)  # разбиваем на строки
    
    return df


# специализированные dataFrame
# фильмы по жанрам
genres_df = data.copy()
genres_df = split_explode(genres_df, 'genres')
# фильмы по актерам
cast_df = data.copy()
cast_df = split_explode(cast_df, 'cast')
# фильмы по производителям
company_df = data.copy()
company_df = split_explode(company_df, 'production_companies')


# 1. У какого фильма из списка самый большой бюджет?

In [5]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)'


In [6]:
data[data['budget'] == data['budget'].max()][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
723,Pirates of the Caribbean: On Stranger Tides,tt1298650


# 2. Какой из фильмов самый длительный (в минутах)?

In [7]:
answers['2'] = 'Gods and Generals (tt0279111)'


In [8]:
data[data['runtime'] == data['runtime'].max()][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
1157,Gods and Generals,tt0279111


# 3. Какой из фильмов самый короткий (в минутах)?

In [9]:
answers['3'] = 'Winnie the Pooh (tt1449283)'


In [10]:
data[data['runtime'] == data['runtime'].min()][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
768,Winnie the Pooh,tt1449283


# 4. Какова средняя длительность фильмов?

In [11]:
answers['4'] = 110


In [12]:
round(data.runtime.mean())


110

# 5. Каково медианное значение длительности фильмов?

In [13]:
answers['5'] = 107


In [14]:
round(data.runtime.median())


107

# 6. Какой самый прибыльный фильм?

In [15]:
answers['6'] = 'Avatar (tt0499549)'


In [16]:
data[data['profit'] == data['profit'].max()][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
239,Avatar,tt0499549


# 7. Какой фильм самый убыточный?

In [17]:
answers['7'] = 'The Lone Ranger (tt1210819)'


In [18]:
data[data['profit'] == data['profit'].min()][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
1245,The Lone Ranger,tt1210819


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [19]:
answers['8'] = '1478'


In [20]:
data[data['profit'] > 0]['imdb_id'].count()


1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [21]:
answers['9'] = 'The Dark Knight (tt0468569)'


In [22]:
data[data['profit'] == data[data['release_year'] ==
                            2008].profit.max()][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
599,The Dark Knight,tt0468569


# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?

In [23]:
answers['10'] = 'The Lone Ranger (tt1210819)'


In [24]:
f = data[(data['release_year'] >= 2012) &
         (data['release_year'] <= 2014)].profit.min()
data[data['profit'] == f][['original_title', 'imdb_id']]


Unnamed: 0,original_title,imdb_id
1245,The Lone Ranger,tt1210819


# 11. Какого жанра фильмов больше всего?

In [25]:
answers['11'] = 'Drama'


#### первый способ

In [26]:
genres_df1 = data.copy()
genres_df1['genres'] = genres_df1['genres'].apply(lambda x: x.split('|'))
genres_df1 = genres_df1.explode('genres')
genres_df1['genres'].mode()


0    Drama
dtype: object

#### второй способ

In [27]:
genres_df2 = data.copy()
genres_df2 = split_explode(genres_df2, 'genres')
genres_df2['genres'].mode()


0    Drama
dtype: object

# 12. Фильмы какого жанра чаще всего становятся прибыльными?

In [28]:
answers['12'] = 'Drama'


In [29]:
genres_df[genres_df['profit'] > 0]['genres'].mode()


0    Drama
dtype: object

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [30]:
answers['13'] = 'Peter Jackson'


In [31]:
data.groupby(['director'])['profit'].sum().sort_values(ascending=False).head(1)


director
Peter Jackson    5202593685
Name: profit, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [32]:
answers['14'] = 'Robert Rodriguez'


In [33]:
df14 = data.copy()
df14 = split_explode(df14, 'director', 'genres')
df14[df14['genres'] == 'Action']['director'].mode()


0    Robert Rodriguez
dtype: object

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году?

In [34]:
answers['15'] = 'Chris Hemsworth'


In [35]:
df15 = data[data['release_year'] == 2012].copy()
df15 = split_explode(df15, 'cast')
df15.groupby(['cast'])['profit'].sum().sort_values(ascending=False).head(1)


cast
Chris Hemsworth    1542450773
Name: profit, dtype: int64

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [36]:
answers['16'] = 'Matt Damon'


In [37]:
cast_df[cast_df['budget'] > cast_df['budget'].mean()]['cast'].mode()


0    Matt Damon
dtype: object

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage?

In [38]:
answers['17'] = 'Action'


In [39]:
df17 = data.copy()
df17 = split_explode(df17, 'cast', 'genres')
df17[df17['cast'] == 'Nicolas Cage']['genres'].mode()


0    Action
dtype: object

# 18. Самый убыточный фильм от Paramount Pictures

In [40]:
answers['18'] = 'K-19: The Widowmaker'


In [41]:
pc = 'Paramount Pictures'
company_df[company_df['production_companies'] ==
           pc][['original_title', 'profit']].sort_values(['profit']).head(1)


Unnamed: 0,original_title,profit
925,K-19: The Widowmaker,-64831034


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [42]:
answers['19'] = '2015'


In [43]:
data.groupby(['release_year'])['profit'].sum().sort_values(
    ascending=False).head(1)


release_year
2015    18668572378
Name: profit, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [44]:
answers['20'] = '2014'


In [45]:
df20 = data.copy()
df20 = df20[df20['production_companies'].str.contains('Warner')]
df20.groupby(['release_year'])['profit'].sum().sort_values(
    ascending=False).head(1)


release_year
2014    2295464519
Name: profit, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [46]:
answers['21'] = 'September'


In [47]:
df21 = data.copy()
df21['month'] = df21['month'].apply(lambda x: calendar.month_name[x])
df21.groupby(['month'])['imdb_id'].count().sort_values(
    ascending=False).head(1)


month
September    227
Name: imdb_id, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [48]:
answers['22'] = '450'


In [49]:
len(data[data['month'].isin([6,7,8])])


450

# 23. Для какого режиссера зима – самое продуктивное время года?

In [50]:
answers['23'] = 'Peter Jackson'


In [51]:
df23 = data[data['month'].isin([12, 1, 2])].copy()
df23 = split_explode(df23, 'director')
df23.groupby(['director'])['imdb_id'].count().sort_values(
    ascending=False).head(1)


director
Peter Jackson    7
Name: imdb_id, dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [52]:
answers['24'] = 'Four By Two Productions'


In [53]:
df24 = company_df.copy()
df24['len_title'] = df24['original_title'].apply(lambda x: len(x))
df24.groupby(['production_companies'])['len_title'].mean().sort_values(
    ascending=False).head(1)


production_companies
Four By Two Productions    83.0
Name: len_title, dtype: float64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [54]:
answers['25'] = 'Midnight Picture Show'


In [55]:
df25 = company_df.copy()
df25['len_overview'] = df25['overview'].apply(lambda x: len(x))
df25.groupby(['production_companies'])['len_overview'].mean().sort_values(
    ascending=False).head(1)


production_companies
Midnight Picture Show    1000.0
Name: len_overview, dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу?

In [56]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'


In [57]:
df26 = data.copy()
f = np.percentile(df26['vote_average'], 99)
df26[df26['vote_average'] >= f].sort_values(
    ['vote_average'], ascending=False)[['original_title', 'vote_average']]


Unnamed: 0,original_title,vote_average
599,The Dark Knight,8.1
9,Inside Out,8.0
34,Room,8.0
118,Interstellar,8.0
125,The Imitation Game,8.0
370,Inception,7.9
1191,12 Years a Slave,7.9
1183,The Wolf of Wall Street,7.9
1081,The Lord of the Rings: The Return of the King,7.9
872,The Pianist,7.9


# 27. Какие актеры чаще всего снимаются в одном фильме вместе?

In [58]:
answers['27'] = 'Daniel Radcliffe, Rupert Grint'


In [59]:
df27 = cast_df.copy()
df27 = df27.groupby(['imdb_id'])['cast'].agg(
    lambda x: list(itertools.combinations(sorted(x), 2)))
df27 = df27.explode('cast')
df27.mode()


0     (Daniel Radcliffe, Emma Watson)
1    (Daniel Radcliffe, Rupert Grint)
2         (Emma Watson, Rupert Grint)
dtype: object

# Submission

In [62]:
answers


{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': 110,
 '5': 107,
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker',
 '19': '2015',
 '20': '2014',
 '21': 'September',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe, Rupert Grint'}

In [63]:
len(answers)


27