In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from datetime import datetime
import itertools

In [2]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1427,tt0294870,40000000,31670620,Rent,Anthony Rapp|Adam Pascal|Rosario Dawson|Jesse ...,Chris Columbus,No day but today.,This rock opera tells the story of one year in...,135,Comedy|Drama|Music|Romance,Columbia Pictures|1492 Pictures|Revolution Stu...,11/23/2005,6.5,2005
954,tt0168786,12500000,23367586,Antwone Fisher,Derek Luke|Malcolm David Kelley|Cory Hodges|De...,Denzel Washington,Antwone Fisher is at war... with himself.,A sailor prone to violent outbursts is sent to...,120,Drama|Romance,Fox Searchlight,12/19/2002,6.6,2002
1441,tt0458352,35000000,326551094,The Devil Wears Prada,Meryl Streep|Anne Hathaway|Emily Blunt|Stanley...,David Frankel,Meet Andy Sachs. A million girls would kill to...,The Devil Wears Prada is about a young journal...,109,Comedy|Drama|Romance,Twentieth Century Fox Film Corporation|Dune En...,6/30/2006,7.0,2006
461,tt0808510,48000000,112462508,Tooth Fairy,Dwayne Johnson|Stephen Merchant|Ashley Judd|Ju...,Michael Lembeck,You can't handle the tooth.,When minor-league hockey player Derek Thompson...,101,Comedy|Family|Fantasy,Dune Entertainment|Dune Entertainment III|Twen...,1/14/2010,5.2,2010
1790,tt0775539,13000000,75511123,Stomp the Yard,Columbus Short|Meagan Good|Ne-Yo|Darrin Henson...,Sylvain White,He will challenge their traditions. Their trad...,"After the death of his younger brother, a trou...",114,Drama|Music,Rainforest Films,5/16/2007,6.1,2007


In [3]:
display(data.describe())
display(data.info())

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1889 entries, 0 to 1888
Data columns (total 14 columns):
imdb_id                 1889 non-null object
budget                  1889 non-null int64
revenue                 1889 non-null int64
original_title          1889 non-null object
cast                    1889 non-null object
director                1889 non-null object
tagline                 1889 non-null object
overview                1889 non-null object
runtime                 1889 non-null int64
genres                  1889 non-null object
production_companies    1889 non-null object
release_date            1889 non-null object
vote_average            1889 non-null float64
release_year            1889 non-null int64
dtypes: float64(1), int64(4), object(9)
memory usage: 206.7+ KB


None

# Предобработка

In [4]:
answers = {} # создадим словарь для ответов

# тут другие ваши предобработки колонок например:

#the time given in the dataset is in string format.
#So we need to change this in datetime format
# ...

In [5]:
# Дополнительный столбец: прибыль от фильма
data['profit'] = data['revenue'] - data['budget']

In [6]:
# Выборки за 2008 и 2012 годы
data_2008 = data[data.release_year==2008]
data_2012 = data[data.release_year==2012]

In [7]:
# Выборки за период с 2012 по 2014 годы
data_2012_2014 = data[
    (data.release_year>=2012) 
    & (data.release_year<=2014)
]

In [8]:
# Счетчик жанров
genres_counter = Counter()
for genres in data.genres:
    for genre in genres.split('|'):
        genres_counter[genre] += 1

In [9]:
# Счетчик жанров, с которых была получена прибыль 
genres_profit_counter = Counter()
for _, row in data.iterrows():
    if row.profit > 0:
        for genre in row.genres.split('|'):
            genres_profit_counter[genre] += 1

In [10]:
# Суммарные кассовые сборы фильмов по режисерам
director_revenue_total = Counter()
for _, row in data.iterrows():
    for director in row.director.split('|'):
        director_revenue_total[director] += row.revenue

In [11]:
# Счетчи режисеров, снявших Action
director_action_counter = Counter()
for _, row in data.iterrows():
    if "Action" in row.genres:
        for director in row.director.split('|'):
            director_action_counter[director] += 1

In [12]:
# Суммарные кассовые сборы фильмов по актерам за 2012
actor_revenue_total_2012 = Counter()
for _, row in data_2012.iterrows():
    for actor in row.cast.split('|'):
        actor_revenue_total_2012[actor] += row.revenue

In [13]:
# Выборка высокобюджетных фильмов
data_high_budget = data[data.budget>data.budget.mean()]

In [14]:
# Счетчи высокобюджетных фильмов по актерам 
actor_high_budget = Counter()
for cast in data_high_budget.cast:
    for actor in cast.split('|'):
        actor_high_budget[actor] += 1

In [15]:
# Счетчики жанров фильмов по актерам
actor_genre_counter = {}
for _, row in data.iterrows():
    for actor in row.cast.split('|'):
        actor_genre_counter[actor] = actor_genre_counter.setdefault(actor, Counter())
        for genre in row.genres.split('|'):
            actor_genre_counter[actor][genre] += 1

In [16]:
# Выборка фильмов с участием Paramount Pictures
data_pp = data[data.production_companies.str.contains('Paramount Pictures')]

In [17]:
# Выборка фильмов с участием Warner Bros
data_wb = data[data.production_companies.str.contains('Warner Bros')]

In [18]:
# Дополнительные столбцы: полная дата релиза, масяц релиза, сезон года
data['release_date_dt'] = data.release_date.apply(lambda d: datetime.strptime(d, "%m/%d/%Y"))
data['release_month'] = data.release_date_dt.apply(lambda d: datetime.strftime(d, "%B"))

In [19]:
# Дополнительный столбец: сезон года
def get_season(date):
    month_num = int(datetime.strftime(date, "%-m"))
    if month_num in (3,4,5):
        return 'Spring'
    elif month_num in (6,7,8):
        return 'Summer'
    elif month_num in (9,10,11):
        return 'Fall'
    else:
        return 'Winter'

data['release_date_season'] = data.release_date_dt.apply(get_season)

In [20]:
# Счетчки фильмов по сезонам и режисерам
season_director_counter = {}
for _, row in data.iterrows():
    season = row.release_date_season
    season_director_counter[season] = season_director_counter.setdefault(season, Counter())
    for actor in row.director.split('|'):
        season_director_counter[season][actor] += 1

In [21]:
# Дополнительные столбецы: длина названия и число слов в описании
data['original_title_length'] = data.original_title.apply(
    lambda text: len(text)
)
data['overview_words'] = data.overview.apply(
    lambda text: len(text.split())
)

In [22]:
# Длины названий и средние длины названий по студиям
prodcomp_title_len = {}
prodcomp_title_len_mean = {}

# Число слов в описании и среднее число слов в описании по студиям
prodcomp_overview_words = {}
prodcomp_overview_words_mean = {}

# Заполняем словари длин названий (prodcomp_title_len) и числа слов описания (prodcomp_overview_words)
for _, row in data.iterrows():
    for prod_comp in row.production_companies.split('|'):
        prodcomp_title_len[prod_comp] = prodcomp_title_len.setdefault(prod_comp, [])
        prodcomp_title_len[prod_comp].append(row.original_title_length)
        
        prodcomp_overview_words[prod_comp] = prodcomp_overview_words.setdefault(prod_comp, [])
        prodcomp_overview_words[prod_comp].append(row.overview_words)

# Cредние длины названий по студиям (prodcomp_title_len_mean)
for prod_comp, lengthes in prodcomp_title_len.items():
    prodcomp_title_len_mean[prod_comp] = sum(lengthes)/len(lengthes)

# Среднее число слов в описании по студиям (prodcomp_overview_words_mean)
for prod_comp, words in prodcomp_overview_words.items():
    prodcomp_overview_words_mean[prod_comp] = sum(words)/len(words)

In [23]:
# Счетчик пар акторов, снимающихся вместе
actor_pairs = Counter()
for cast in data.cast:
    actors = cast.split('|')
    pairs = [' & '.join(c) for c in itertools.combinations(actors, 2)]
    for pair in pairs:
        actor_pairs[pair] += 1

# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [24]:
budget_max = data[data.budget==data.budget.max()]
budget_max[['imdb_id', 'original_title']]

Unnamed: 0,imdb_id,original_title
723,tt1298650,Pirates of the Caribbean: On Stranger Tides


In [25]:
# в словарь вставляем номер вопроса и ваш ответ на него
# Пример: 
# answers['1'] = '2. Spider-Man 3 (tt0413300)'
# запишите свой вариант ответа
answers['1'] = '5. {} ({})'.format(budget_max.iloc[0]['original_title'], budget_max.iloc[0]['imdb_id'])
# если ответили верно, можете добавить комментарий со значком "+"

In [26]:
answers['1']

'5. Pirates of the Caribbean: On Stranger Tides (tt1298650)'

# 2. Какой из фильмов самый длительный (в минутах)?

In [27]:
runtime_max = data[data.runtime==data.runtime.max()]
runtime_max[['imdb_id', 'original_title']]

Unnamed: 0,imdb_id,original_title
1157,tt0279111,Gods and Generals


In [28]:
# думаю логику работы с этим словарем вы уже поняли, 
# по этому не буду больше его дублировать
answers['2'] = '2. {} ({})'.format(runtime_max.iloc[0]['original_title'], runtime_max.iloc[0]['imdb_id'])

In [29]:
answers['2']

'2. Gods and Generals (tt0279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [30]:
runtime_min = data[data.runtime==data.runtime.min()]
runtime_min[['imdb_id', 'original_title']]

Unnamed: 0,imdb_id,original_title
768,tt1449283,Winnie the Pooh


In [31]:
answers['3'] = '3. {} ({})'.format(runtime_min.iloc[0]['original_title'], runtime_min.iloc[0]['imdb_id'])

In [32]:
answers['3']

'3. Winnie the Pooh (tt1449283)'

# 4. Какова средняя длительность фильмов?


In [33]:
answers['4'] = '2. {}'.format(round(data.runtime.mean()))

In [34]:
answers['4']

'2. 110'

# 5. Каково медианное значение длительности фильмов? 

In [35]:
answers['5'] = '1. {}'.format(round(data.runtime.median()))

In [36]:
answers['5']

'1. 107'

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [37]:
profit_max = data[data.profit==data.profit.max()]
profit_max[['imdb_id', 'original_title', 'profit']]

Unnamed: 0,imdb_id,original_title,profit
239,tt0499549,Avatar,2544505847


In [38]:
answers['6'] = '5. {} ({})'.format(profit_max.iloc[0]['original_title'], profit_max.iloc[0]['imdb_id'])

In [39]:
answers['6']

'5. Avatar (tt0499549)'

# 7. Какой фильм самый убыточный? 

In [40]:
profit_min = data[data.profit==data.profit.min()]
profit_min[['imdb_id', 'original_title', 'profit']]

Unnamed: 0,imdb_id,original_title,profit
1245,tt1210819,The Lone Ranger,-165710090


In [41]:
answers['7'] = '5. {} ({})'.format(profit_min.iloc[0]['original_title'], profit_min.iloc[0]['imdb_id'])

In [42]:
answers['7']

'5. The Lone Ranger (tt1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [43]:
answers['8'] = '1. {}'.format(len(data[data.profit>0].index))

In [44]:
answers['8']

'1. 1478'

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [45]:
profit_max_2008 = data_2008[data_2008.profit==data_2008.profit.max()]
profit_max_2008[['imdb_id', 'original_title', 'profit', 'revenue']]

Unnamed: 0,imdb_id,original_title,profit,revenue
599,tt0468569,The Dark Knight,816921825,1001921825


In [46]:
answers['9'] = '4. {} ({})'.format(
    profit_max_2008.iloc[0]['original_title'],
    profit_max_2008.iloc[0]['imdb_id']
)

In [47]:
answers['9']

'4. The Dark Knight (tt0468569)'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [48]:
profit_min_2012_2014 = data_2012_2014[data_2012_2014.profit==data_2012_2014.profit.min()]
profit_min_2012_2014[['imdb_id', 'original_title', 'profit', 'revenue']]

Unnamed: 0,imdb_id,original_title,profit,revenue
1245,tt1210819,The Lone Ranger,-165710090,89289910


In [49]:
answers['10'] = '5. {} ({})'.format(
    profit_min_2012_2014.iloc[0]['original_title'],
    profit_min_2012_2014.iloc[0]['imdb_id']
)

In [50]:
answers['10']

'5. The Lone Ranger (tt1210819)'

# 11. Какого жанра фильмов больше всего?

In [51]:
genres_counter.most_common()[:1]

[('Drama', 782)]

ВАРИАНТ 2

In [52]:
answers['11'] = '3. ' + genres_counter.most_common()[0][0]

In [53]:
answers['11']

'3. Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [54]:
genres_profit_counter.most_common()[:1]

[('Drama', 560)]

In [55]:
answers['12'] = '1. ' + genres_profit_counter.most_common()[0][0]

In [56]:
answers['12']

'1. Drama'

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [57]:
director_revenue_total.most_common()[:1]

[('Peter Jackson', 6490593685)]

ВАРИАНТ 2

In [58]:
data.groupby('director')['revenue'].sum().sort_values(ascending=False).head(1)

director
Peter Jackson    6490593685
Name: revenue, dtype: int64

In [59]:
answers['13'] = '5. ' + director_revenue_total.most_common()[0][0]

In [60]:
answers['13']

'5. Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [61]:
director_action_counter.most_common()[:1]

[('Robert Rodriguez', 9)]

In [62]:
answers['14'] = '3. ' + director_action_counter.most_common()[0][0]

In [63]:
answers['14']

'3. Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [64]:
actor_revenue_total_2012.most_common()[:1]

[('Chris Hemsworth', 2027450773)]

In [65]:
answers['15'] = '3. ' + actor_revenue_total_2012.most_common()[0][0]

In [66]:
answers['15']

'3. Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [67]:
actor_high_budget.most_common()[:1]

[('Matt Damon', 18)]

In [68]:
answers['16'] = '3. ' + actor_high_budget.most_common()[0][0]

In [69]:
answers['16']

'3. Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [70]:
actor_genre_counter['Nicolas Cage'].most_common()[:1]

[('Action', 17)]

In [71]:
answers['17'] = '2. ' + actor_genre_counter['Nicolas Cage'].most_common()[0][0]

In [72]:
answers['17']

'2. Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [73]:
pp_profit_min = data_pp[data_pp.profit==data_pp.profit.min()]
pp_profit_min[['imdb_id', 'original_title', 'profit']]

Unnamed: 0,imdb_id,original_title,profit
925,tt0267626,K-19: The Widowmaker,-64831034


In [74]:
answers['18'] = '1. {} ({})'.format(
    pp_profit_min.iloc[0]['original_title'],
    pp_profit_min.iloc[0]['imdb_id']
)

In [75]:
answers['18']

'1. K-19: The Widowmaker (tt0267626)'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [76]:
profit_year = data.groupby('release_year')['profit'].sum().sort_values(ascending=False).head(1)
profit_year

release_year
2015    18668572378
Name: profit, dtype: int64

In [77]:
answers['19'] = '5. {}'.format(profit_year.index[0])

In [78]:
answers['19']

'5. 2015'

# 20. Какой самый прибыльный год для студии Warner Bros?

In [79]:
profit_year_wb = data_wb.groupby('release_year')['profit'].sum().sort_values(ascending=False).head(1)
profit_year_wb

release_year
2014    2295464519
Name: profit, dtype: int64

In [80]:
answers['20'] = '1. {}'.format(profit_year_wb.index[0])

In [81]:
answers['20']

'1. 2014'

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [82]:
count_release_month = data.groupby('release_month')['original_title'].count().sort_values(ascending=False)
count_release_month

release_month
September    227
December     190
October      186
August       161
March        156
April        149
June         147
November     146
July         142
May          140
February     135
January      110
Name: original_title, dtype: int64

In [83]:
answers['21'] = '4. ' + count_release_month.index[0]

In [84]:
answers['21']

'4. September'

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [85]:
answers['22'] = '2. {}'.format(
    count_release_month['June'] + count_release_month['July'] + count_release_month['August']
)

In [86]:
answers['22']

'2. 450'

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [87]:
season_director_counter['Winter'].most_common()[:1]

[('Peter Jackson', 7)]

In [88]:
answers['23'] = '5. ' + season_director_counter['Winter'].most_common()[0][0]

In [89]:
answers['23']

'5. Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [90]:
longest_title_prod = sorted(prodcomp_title_len_mean.items(), key=lambda i: i[1], reverse=True)[:1]
longest_title_prod

[('Four By Two Productions', 83.0)]

In [91]:
answers['24'] = '5. ' + longest_title_prod[0][0]

In [92]:
answers['24']

'5. Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [93]:
longest_over_words_prod = sorted(prodcomp_overview_words_mean.items(), key=lambda i: i[1], reverse=True)[:1]
longest_over_words_prod

[('Midnight Picture Show', 175.0)]

In [94]:
answers['25'] = '3. ' + longest_over_words_prod[0][0]

In [95]:
answers['25']

'3. Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [96]:
options = {
    1: set(['Inside Out', 'The Dark Knight', '12 Years a Slave']),
    2: set(['BloodRayne', 'The Adventures of Rocky & Bullwinkle']),
    3: set(['Batman Begins', 'The Lord of the Rings: The Return of the King', 'Upside Down']),
    4: set(['300, Lucky Number Slevin', 'Kill Bill: Vol. 1']),
    5: set(['Upside Down', 'Inside Out', 'Iron Man']),
}

In [97]:
vote_average_1p = data[data.vote_average>np.percentile(data.vote_average, 99)]

In [98]:
suitable_options = {}
titles_1p = set(vote_average_1p['original_title'].values)
for id, movies in options.items():
    check = titles_1p & movies
    if len(check) == len(movies):
        suitable_options[id] = movies

In [99]:
suitable_options

{1: {'12 Years a Slave', 'Inside Out', 'The Dark Knight'}}

In [100]:
answers['26'] = '1. ' + ', '.join(suitable_options[1])

In [101]:
answers['26']

'1. Inside Out, 12 Years a Slave, The Dark Knight'

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [102]:
actor_pairs.most_common()[:1]

[('Daniel Radcliffe & Rupert Grint', 8)]

In [103]:
answers['27'] = '5. ' + actor_pairs.most_common()[0][0]

In [104]:
answers['27']

'5. Daniel Radcliffe & Rupert Grint'

# Submission

In [105]:
# в конце можно посмотреть свои ответы к каждому вопросу
for id in sorted(answers, key=lambda x: int(x)):
    print('{}: {}'.format(id, answers[id]))

1: 5. Pirates of the Caribbean: On Stranger Tides (tt1298650)
2: 2. Gods and Generals (tt0279111)
3: 3. Winnie the Pooh (tt1449283)
4: 2. 110
5: 1. 107
6: 5. Avatar (tt0499549)
7: 5. The Lone Ranger (tt1210819)
8: 1. 1478
9: 4. The Dark Knight (tt0468569)
10: 5. The Lone Ranger (tt1210819)
11: 3. Drama
12: 1. Drama
13: 5. Peter Jackson
14: 3. Robert Rodriguez
15: 3. Chris Hemsworth
16: 3. Matt Damon
17: 2. Action
18: 1. K-19: The Widowmaker (tt0267626)
19: 5. 2015
20: 1. 2014
21: 4. September
22: 2. 450
23: 5. Peter Jackson
24: 5. Four By Two Productions
25: 3. Midnight Picture Show
26: 1. Inside Out, 12 Years a Slave, The Dark Knight
27: 5. Daniel Radcliffe & Rupert Grint


In [106]:
# и убедиться что ни чего не пропустил)
len(answers)

27