In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from datetime import datetime, date

In [2]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1219,tt1204975,28000000,134402450,Last Vegas,Robert De Niro|Morgan Freeman|Michael Douglas|...,Jon Turteltaub,It's going to be legendary,Three sixty-something friends take a break fro...,105,Comedy,Laurence Mark Productions|CBS Films|Outlaw Sin...,10/31/2013,6.4,2013
1378,tt0433383,7000000,54600000,"Good Night, and Good Luck.",David Strathairn|Jeff Daniels|Alex Borstein|Ro...,George Clooney,They took on the Government with nothing but t...,"The story of journalist, Edward R Murrow's sta...",93,Drama|History,Warner Independent Pictures (WIP)|Section Eigh...,9/16/2005,6.4,2005
364,tt1285309,10000000,7022728,The Joneses,David Duchovny|Demi Moore|Amber Heard|Benjamin...,Derrick Borte,"They're not just living the American dream, th...",A seemingly perfect family moves into a suburb...,96,Comedy|Drama,Echo Lake Productions|Premiere Picture,9/13/2009,6.0,2009
1210,tt1538403,60000000,90565421,The Mortal Instruments: City of Bones,Lily Collins|Jamie Campbell Bower|Kevin Zegers...,Harald Zwart,You have been chosen,"In New York City, Clary Fray, a seemingly ordi...",130,Action|Adventure|Drama|Mystery|Romance,Constantin Film Produktion|Don Carmody Product...,8/21/2013,6.2,2013
733,tt1219289,27000000,161849455,Limitless,Bradley Cooper|Robert De Niro|Abbie Cornish|An...,Neil Burger,What if a pill could make you rich and powerful?,A paranoia-fueled action thriller about an uns...,105,Thriller|Mystery|Science Fiction,Rogue Pictures|Relativity Media|Virgin Produce...,3/8/2011,7.0,2011


In [3]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [4]:
answers = {} # создадим словарь для ответов

# Добавим столбец profit (прибыль).
# Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма:
# (прибыль = сборы - бюджет). В нашем датасете это будет (profit = revenue - budget) 
data['profit'] = data.revenue - data.budget

# Изменим тип столбца release_date с str на date.
data.release_date = data.release_date.apply(
    lambda release_date: datetime.strptime(release_date, '%m/%d/%Y').date())


def print_extended_title_of(movie):
    "Prints the movie's title along with its DataDrame index and IMDB ID."""
    print(f'{str(movie.index[0])}. {movie.original_title.values[0]} ({movie.imdb_id.values[0]})')


def extract_column_values_as_set(column: str, from_dataset) -> set:
    """Extract column values joined by '|' as a set."""
    disjoined_values = from_dataset[column].apply(lambda items: items.split('|')).values
    combined_into_one_list = sum(disjoined_values, [])
    return set(combined_into_one_list)


def count_movies_of_each_genre(from_dataset, to_genres_series):
    """Count movies of each genre."""
    for movie_counter in range(from_dataset.imdb_id.count()):
        genres = from_dataset.genres.iloc[movie_counter].split('|')
        for genre in genres:
             to_genres_series[genre] += 1


def average_title_length(dataset, production_company: str) -> float:
    """Calculate average movie title's symbol count."""
    titles_lengths = [len(title) for title in dataset.original_title[
        dataset.production_companies.str.contains(production_company, na=False)]]
    titles_count = len(titles_lengths)
    total_titles_length = sum(titles_lengths)
    return round(total_titles_length / titles_count) if titles_count > 0 else 0.0


def average_overview_word_count(dataset, production_company: str) -> float:
    """Calculate average movie overview's word count."""
    overviews_word_counts = [len(overview.split()) for overview in dataset.overview[
        dataset.production_companies.str.contains(production_company, na=False)]]
    overview_count = len(overviews_word_counts)
    total_overviews_word_count = sum(overviews_word_counts)
    return round(total_overviews_word_count / overview_count) if overview_count > 0 else 0.0


# Для ответа на вопросы нам понадобятся также парочка наборов уникальных значений.
unique_actors = extract_column_values_as_set(column='cast', from_dataset=data)
unique_genres = extract_column_values_as_set(column='genres', from_dataset=data)
unique_production_companies = extract_column_values_as_set(column='production_companies', from_dataset=data)

# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [5]:
# в словарь вставляем номер вопроса и ваш ответ на него
# Пример: 
answers['1'] = '2. Spider-Man 3 (tt0413300)'
# запишите свой вариант ответа
answers['1'] = '723. Pirates of the Caribbean: On Stranger Tides (tt1298650)' # +
# если ответили верно, можете добавить комментарий со значком "+"

In [6]:
# тут пишем ваш код для решения данного вопроса:
max_budget_movie = data[data.budget == data.budget.max()]

print_extended_title_of(max_budget_movie)

723. Pirates of the Caribbean: On Stranger Tides (tt1298650)


ВАРИАНТ 2

In [7]:
# можно добавлять разные варианты решения

# 2. Какой из фильмов самый длительный (в минутах)?

In [8]:
# думаю логику работы с этим словарем вы уже поняли, 
# по этому не буду больше его дублировать
answers['2'] = '1157. Gods and Generals (tt0279111)' # +

In [9]:
max_runtime_movie = data[data.runtime == data.runtime.max()]

print_extended_title_of(max_runtime_movie)

1157. Gods and Generals (tt0279111)


# 3. Какой из фильмов самый короткий (в минутах)?





In [10]:
answers['3'] = '768. Winnie the Pooh (tt1449283)' # +

In [11]:
min_runtime_movie = data[data.runtime == data.runtime.min()]

print_extended_title_of(min_runtime_movie)

768. Winnie the Pooh (tt1449283)


# 4. Какова средняя длительность фильмов?


In [12]:
answers['4'] = '110' # +

In [13]:
round(data.runtime.mean())

110

# 5. Каково медианное значение длительности фильмов? 

In [14]:
answers['5'] = '107' # +

In [15]:
data.runtime.median()

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [16]:
# лучше код получения столбца profit вынести в Предобработку что в начале
answers['6'] = '239. Avatar (tt0499549)' # +

In [17]:
max_profit_movie = data[data.profit == data.profit.max()]

print_extended_title_of(max_profit_movie)

239. Avatar (tt0499549)


# 7. Какой фильм самый убыточный? 

In [18]:
answers['7'] = '1245. The Lone Ranger (tt1210819)' # +

In [19]:
min_profit_movie = data[data.profit == data.profit.min()]

print_extended_title_of(min_profit_movie)

1245. The Lone Ranger (tt1210819)


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [20]:
answers['8'] = '1478' # +

In [21]:
data.query('profit > 0').imdb_id.count()

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [22]:
answers['9'] = '599. The Dark Knight (tt0468569)' # +

In [23]:
max_profit_2008 = data[data.release_year == 2008].profit.max()

max_profit_2008_movie = data[data.profit == max_profit_2008]

print_extended_title_of(max_profit_2008_movie)

599. The Dark Knight (tt0468569)


# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [24]:
answers['10'] = '1245. The Lone Ranger (tt1210819)' # +

In [25]:
min_profit_2012_2014 = data.query('2012 <= release_year <= 2014').profit.min()

min_profit_2012_2014_movie = data[data.profit == min_profit_2012_2014]

print_extended_title_of(min_profit_2012_2014_movie)

1245. The Lone Ranger (tt1210819)


# 11. Какого жанра фильмов больше всего?

In [26]:
# эту задачу тоже можно решать разными подходами, попробуй реализовать разные варианты
# если будешь добавлять функцию - выноси ее в предобработку что в начале
answers['11'] = 'Drama' # +

In [27]:
genre_to_frequency = {
    genre:data.genres[data.genres.str.contains(genre, na=False)].count()
    for genre in unique_genres
}
        
max(genre_to_frequency, key=genre_to_frequency.get)

'Drama'

ВАРИАНТ 2

In [28]:
genre_to_frequency = pd.Series(data=0, index=unique_genres, name='genres')

count_movies_of_each_genre(from_dataset=data, to_genres_series=genre_to_frequency)

genre_to_frequency.sort_values(ascending=False).index[0]

'Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [29]:
answers['12'] = 'Drama' # +

In [30]:
positive_profit_movies = data[data.profit > 0]

genre_to_profit = {
    genre:positive_profit_movies.genres[positive_profit_movies.genres.str.contains(genre, na=False)].count()
    for genre in unique_genres
}

max(genre_to_profit, key=genre_to_profit.get)

'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [31]:
answers['13'] = 'Peter Jackson' # +

In [32]:
data.groupby(data.director).revenue.sum().sort_values(ascending=False).index[0]

'Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [33]:
answers['14'] = 'Robert Rodriguez' # +

In [34]:
data[
    data.genres.str.match('Action', na=False)
].groupby(data.director).genres.count().sort_values(ascending=False).index[0]

'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [35]:
answers['15'] = 'Chris Hemsworth' # +

In [36]:
movies_2012 = data[data.release_year == 2012]

actor_to_revenue_2012 = {
    actor:movies_2012.revenue[movies_2012.cast.str.contains(actor, na=False)].sum()
    for actor in unique_actors
}

max(actor_to_revenue_2012, key=actor_to_revenue_2012.get)

'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [37]:
answers['16'] = 'Matt Damon' # +

In [39]:
actor_to_high_budget_movies_count = {
    actor:data.imdb_id[data.cast.str.contains(actor, na=False) & (data.budget > data.budget.mean())].count()
    for actor in unique_actors
}

max(actor_to_high_budget_movies_count, key=actor_to_high_budget_movies_count.get)

'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [40]:
answers['17'] = 'Action' # +

In [41]:
movies_with_nicolas_cage = data[data.cast.str.contains('Nicolas Cage', na=False)]

genres_to_movies_with_nicolas_cage = {
    genre:movies_with_nicolas_cage.genres[movies_with_nicolas_cage.genres.str.contains(genre, na=False)].count()
    for genre in unique_genres
}

max(genres_to_movies_with_nicolas_cage, key=genres_to_movies_with_nicolas_cage.get)

'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [42]:
answers['18'] = '925. K-19: The Widowmaker (tt0267626)' # +

In [43]:
paramount_movies = data[data.production_companies.str.contains('Paramount Pictures', na=False)]

most_unprofitable = paramount_movies[paramount_movies.profit == paramount_movies.profit.min()]

print_extended_title_of(most_unprofitable)

925. K-19: The Widowmaker (tt0267626)


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [44]:
answers['19'] = '2015' # +

In [45]:
data.groupby(data.release_year).revenue.sum().sort_values(ascending=False).index[0]

2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [46]:
answers['20'] = '2014' # +

In [47]:
data[
    data.production_companies.str.contains('Warner Bros', na=False)
].groupby(data.release_year).profit.sum().sort_values(ascending=False).index[0]

2014

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [48]:
answers['21'] = '9' # +

In [49]:
months = (month for month in range(1, 13))

months_to_movies_count = {
    month:[date.month for date in data.release_date].count(month)
    for month in months
}

max(months_to_movies_count, key=months_to_movies_count.get)

9

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [50]:
answers['22'] = '450' # +

In [51]:
len([date.month for date in data.release_date if date.month in (6, 7, 8)])

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [52]:
answers['23'] = 'Peter Jackson' # +

In [53]:
winter_movies = data[[True if date.month in (12, 1, 2) else False for date in data.release_date]]

winter_movies.groupby(winter_movies.director).imdb_id.count().sort_values(ascending=False).index[0]

'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [54]:
answers['24'] = 'Four By Two Productions' # +

In [55]:
production_companies_to_average_title_length = {
    production_company:average_title_length(data, production_company)
    for production_company in unique_production_companies
}

max(production_companies_to_average_title_length, key=production_companies_to_average_title_length.get)

  return func(self, *args, **kwargs)


'Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [56]:
answers['25'] = 'Midnight Picture Show' # +

In [57]:
production_companies_to_average_overview_word_count = {
    production_company:average_overview_word_count(data, production_company)
    for production_company in unique_production_companies
}

max(production_companies_to_average_overview_word_count, key=production_companies_to_average_overview_word_count.get)

'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [58]:
answers['26'] = 'The Dark Knight, Interstellar, The Imitation Game, Inside Out, Room, The Wolf of Wall Street, Gone Girl, 12 Years a Slave, Guardians of the Galaxy, The Lord of the Rings: The Return of the King, Memento, Inception, The Pianist, The Grand Budapest Hotel, Her, Spotlight, Big Hero 6, The Fault in Our Stars, The Lord of the Rings: The Two Towers' # +

In [59]:
', '.join(data.sort_values(by='vote_average', ascending=False).head(round(len(data)/100)).original_title)

'The Dark Knight, Interstellar, The Imitation Game, Inside Out, Room, The Wolf of Wall Street, Gone Girl, 12 Years a Slave, Guardians of the Galaxy, The Lord of the Rings: The Return of the King, Memento, Inception, The Pianist, The Grand Budapest Hotel, Her, Spotlight, Big Hero 6, The Fault in Our Stars, The Lord of the Rings: The Two Towers'

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [60]:
answers['27'] = "('Daniel Radcliffe', 'Rupert Grint')" # +

In [61]:
actors_to_their_movies = {
    actor:data[data.cast.str.contains(actor, na=False)].index
    for actor in unique_actors
}

actors_to_their_casts = {
    actor:sum([actors.split('|') for actors in [data.iloc[index].cast for index in my_idx]], [])
    for (actor,my_idx) in actors_to_their_movies.items()
}

pairs_of_actors = {
    tuple(sorted([actor_1, actor_2]))
    for actor_1 in unique_actors
    for actor_2 in unique_actors
    if actor_1 != actor_2
}

pairs_of_actors_to_frequency = {
    pair_of_actors:actors_to_their_casts[pair_of_actors[0]].count(pair_of_actors[1])
    for pair_of_actors in pairs_of_actors
}

sorted(pairs_of_actors_to_frequency, key=pairs_of_actors_to_frequency.get, reverse=True)[0:5]

[('Daniel Radcliffe', 'Emma Watson'),
 ('Emma Watson', 'Rupert Grint'),
 ('Daniel Radcliffe', 'Rupert Grint'),
 ('Helena Bonham Carter', 'Johnny Depp'),
 ('Ben Stiller', 'Owen Wilson')]

ВАРИАНТ 2

# Submission

In [62]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '723. Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '1157. Gods and Generals (tt0279111)',
 '3': '768. Winnie the Pooh (tt1449283)',
 '4': '110',
 '5': '107',
 '6': '239. Avatar (tt0499549)',
 '7': '1245. The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': '599. The Dark Knight (tt0468569)',
 '10': '1245. The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': '925. K-19: The Widowmaker (tt0267626)',
 '19': '2015',
 '20': '2014',
 '21': '9',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'The Dark Knight, Interstellar, The Imitation Game, Inside Out, Room, The Wolf of Wall Street, Gone Girl, 12 Years a Slave, Guardians of the Galaxy, The Lord of the Rings: The Return of the King, Memento, Inception, The Pianist, The Grand Budapest Hotel, Her, Spotlight, Big Hero 6, The Fault 

In [63]:
# и убедиться что ни чего не пропустил)
len(answers)

27