In [88]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations

In [89]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(1)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1153,tt0313542,60000000,80154140,Runaway Jury,John Cusack|Gene Hackman|Dustin Hoffman|Rachel...,Gary Fleder,Trials are too important to be decided by juries.,A juror on the inside and a woman on the outsi...,127,Drama|Thriller,Regency Enterprises|Epsilon Motion Pictures|Ne...,10/9/2003,6.8,2003


In [90]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [125]:
def split_values(column): 
    """Splits values in column by separator and returns Series"""
    return pd.Series(column.str.cat(sep='|').split('|'))


answers = {} # create a dictionary for answers

"""split data"""
directors = split_values(data['director']).value_counts()
companies = split_values(data['production_companies']).value_counts()

# change format in datetime
data.loc[:,'release_date'] = pd.to_datetime(data['release_date'])

# add a new columns
data.loc[:, 'release_month'] = data['release_date'].dt.month_name()
data.loc[:,'profit'] = data['revenue'] - data['budget']

# 1. У какого фильма из списка самый большой бюджет?

In [143]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650) '

In [37]:
data[data.budget == data.budget.max()][['imdb_id', 'original_title']]

Unnamed: 0,imdb_id,original_title
723,tt1298650,Pirates of the Caribbean: On Stranger Tides


ВАРИАНТ 2

In [39]:
data.sort_values('budget')[['imdb_id', 'original_title']].tail(1)

Unnamed: 0,imdb_id,original_title
723,tt1298650,Pirates of the Caribbean: On Stranger Tides


# 2. Какой из фильмов самый длительный (в минутах)?

In [144]:
answers['2'] = 'Gods and Generals (tt0279111)'

In [40]:
data.sort_values('runtime')[['imdb_id','original_title']].tail(1)

Unnamed: 0,imdb_id,original_title
1157,tt0279111,Gods and Generals


# 3. Какой из фильмов самый короткий (в минутах)?





In [145]:
answers['3'] = 'Winnie the Pooh (tt1449283)'

In [41]:
data.sort_values('runtime')[['imdb_id','original_title', 'runtime']].head(1)

Unnamed: 0,imdb_id,original_title,runtime
768,tt1449283,Winnie the Pooh,63


# 4. Какова средняя длительность фильмов?


In [146]:
answers['4'] = '110'

In [42]:
round(data['runtime'].mean())

110

# 5. Каково медианное значение длительности фильмов? 

In [147]:
answers['5'] = '107'

In [43]:
round(data['runtime'].median())

107

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [148]:
answers['6'] = 'Avatar (tt0499549)'

In [44]:
data.sort_values('profit')[['imdb_id', 'original_title', 'profit']].tail(1)

Unnamed: 0,imdb_id,original_title,profit
239,tt0499549,Avatar,2544505847


# 7. Какой фильм самый убыточный? 

In [149]:
answers['7'] = 'The Lone Ranger (tt1210819)'

In [45]:
data.sort_values('profit')[['imdb_id', 'original_title', 'profit']].head(1)

Unnamed: 0,imdb_id,original_title,profit
1245,tt1210819,The Lone Ranger,-165710090


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [150]:
answers['8'] = '1478'

In [46]:
len(data.query('revenue > budget'))

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [151]:
answers['9'] = 'The Dark Knight (tt0468569)'

In [47]:
data.query('release_year == 2008').sort_values('revenue')[['imdb_id','original_title', 'revenue']].tail(1)

Unnamed: 0,imdb_id,original_title,revenue
599,tt0468569,The Dark Knight,1001921825


# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [152]:
answers['10'] = 'The Lone Ranger (tt1210819) '

In [48]:
data.query('2012 <= release_year <= 2014').sort_values('profit')[['imdb_id', 'original_title', 'profit']].head(1)

Unnamed: 0,imdb_id,original_title,profit
1245,tt1210819,The Lone Ranger,-165710090


# 11. Какого жанра фильмов больше всего?

In [153]:
answers['11'] = 'Drama'

In [66]:
split_values(data.genres).value_counts().head(1)

Drama    782
dtype: int64

ВАРИАНТ 2

In [67]:
genres = data['genres'].map(lambda x : x.split('|')).sum()
Counter(genres).most_common(1)

[('Drama', 782)]

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [154]:
answers['12'] = 'Drama'

In [68]:
split_values(data.query('profit > 0')['genres'] ).value_counts().head(1)

Drama    560
dtype: int64

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [155]:
answers['13'] = 'Peter Jackson'

In [93]:
for name in directors.index:    
    directors[name] = data['revenue'][data['director'].map(lambda x : True if name in x else False)].sum()

directors.sort_values(ascending=False).head(1)

Peter Jackson    6490593685
dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [156]:
answers['14'] = 'Robert Rodriguez'

In [94]:
df = data[data['genres'].str.contains('Action')]['director']
split_values(df).value_counts().head(1)

Robert Rodriguez    9
dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [157]:
answers['15'] = 'Chris Hemsworth'

In [96]:
df_12 = data.query('release_year == 2012')
cast_12 = split_values(df_12['cast']).value_counts()

for name in cast_12.index:
    cast_12[name] = df_12['revenue'][df_12['cast'].str.contains(name)].sum()

cast_12.sort_values(ascending=False).head(1)

Chris Hemsworth    2027450773
dtype: int64

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [158]:
answers['16'] = 'Matt Damon '

In [98]:
split_values( data.query('budget > budget.mean()')['cast'] ) \
    .value_counts().head(1)

Matt Damon    18
dtype: int64

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [159]:
answers['17'] = 'Action'

In [99]:
genres_Cage = data[data['cast'].str.contains('Nicolas Cage')]['genres']
split_values(genres_Cage).value_counts().head(1)

Action    17
dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [161]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)'

In [100]:
data[data['production_companies'].str.contains('Paramount Pictures')] \
    .sort_values('profit')[['imdb_id', 'original_title']].head(1)

Unnamed: 0,imdb_id,original_title
925,tt0267626,K-19: The Widowmaker


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [162]:
answers['19'] = '2015'

In [101]:
data.groupby('release_year')['revenue'].agg('sum') \
    .sort_values(ascending=False).head(1)

release_year
2015    25449202382
Name: revenue, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [163]:
answers['20'] = '2014'

In [102]:
df = data[data['production_companies'].str.contains('Warner Bros')]
df.groupby(['release_year'])['revenue'].sum().sort_values().tail(1)

release_year
2014    3243064519
Name: revenue, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [164]:
answers['21'] = 'Сентябрь'

In [126]:
data.groupby('release_month')['imdb_id'].agg('count').sort_values().tail(1)

release_month
September    227
Name: imdb_id, dtype: int64

Вариант 2

In [127]:
months = pd.Series(['Jan ', 'Feb', 'Mar ', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'], index=['01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12'])
release_month = data['release_date'].map(lambda x : months[str(x).split('-')[1]])

pd.pivot_table(data, index=release_month, values=['original_title'], aggfunc='count') \
    .sort_values('original_title', ascending=False).head(1)

Unnamed: 0_level_0,original_title
release_date,Unnamed: 1_level_1
Sep,227


# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [165]:
answers['22'] = '450'

In [129]:
df = data.query('release_month == ("June", "July", "August")')
df.groupby('release_month')['imdb_id'].agg('count').sum()

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [166]:
answers['23'] = 'Peter Jackson'

In [130]:
df = data.query('release_month == ("December", "January", "February")')

for name in directors.index:    
    directors[name] = df['imdb_id'][df['director'].map(lambda x : True if name in x else False)].count()

directors.sort_values(ascending=False).head(1)

Peter Jackson    7
dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [167]:
answers['24'] = 'Four By Two Productions'

In [131]:
data.loc[:, 'title_length'] = data['original_title'].map(lambda x : len(x))

for name in companies.index:
    companies[name] = data['title_length'][data['production_companies'].map(lambda x : True if name in x else False)].mean()

companies.sort_values(ascending=False).head(1)

Four By Two Productions    83
dtype: int64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [168]:
answers['25'] = 'Midnight Picture Show'

In [133]:
data.loc[:, 'overview_words'] = data['overview'].map(lambda x : len(x.split()))

for name in companies.index:
    companies[name] = data['overview_words'][data['production_companies'].map(lambda x : True if name in x else False)].mean()

companies.sort_values(ascending=False).head(1)

Midnight Picture Show    175
dtype: int64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [169]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'

In [134]:
top = data['vote_average'].quantile(0.99)
data.query('vote_average > @top')[['original_title', 'vote_average']]

Unnamed: 0,original_title,vote_average
9,Inside Out,8.0
34,Room,8.0
118,Interstellar,8.0
119,Guardians of the Galaxy,7.9
125,The Imitation Game,8.0
128,Gone Girl,7.9
138,The Grand Budapest Hotel,7.9
370,Inception,7.9
599,The Dark Knight,8.1
872,The Pianist,7.9


# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [170]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint'

In [139]:
cast = data['cast'].str.split("|")
cast_pairs = cast.map(lambda x : list(combinations(x,2))).sum()

pd.Series(cast_pairs).str.join(' & ')\
    .value_counts().sort_values(ascending=False).head(5)

Daniel Radcliffe & Emma Watson        8
Daniel Radcliffe & Rupert Grint       8
Rupert Grint & Emma Watson            7
Ben Stiller & Owen Wilson             6
Johnny Depp & Helena Bonham Carter    6
dtype: int64

ВАРИАНТ 2

In [140]:
def cast_pairs(x):
    lst = []
    for i in range(0, len(x)-1):
        for j in range(i+1, len(x)):
            lst.append(x[i] + " & " + x[j])
    return lst

cast = data['cast'].str.split('|')\
    .map(lambda x : cast_pairs(x)).sum()

sorted(Counter(cast).items(), key=lambda x:x[1], reverse=True)[:5]

[('Daniel Radcliffe & Rupert Grint', 8),
 ('Daniel Radcliffe & Emma Watson', 8),
 ('Rupert Grint & Emma Watson', 7),
 ('Ben Stiller & Owen Wilson', 6),
 ('Johnny Depp & Helena Bonham Carter', 6)]

# Submission

In [171]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650) ',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': '110',
 '5': '107',
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819) ',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon ',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': '2015',
 '20': '2014',
 '21': 'Сентябрь',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [129]:
len(answers)

27