In [454]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [455]:
data = pd.read_csv('movie_bd_v5.csv')

# Предобработка

In [456]:
answers = {} # создадим словарь для ответов

# Понадобится дополнительная колонка 'profit' в датасете
# (прибыль = сборы - бюджет)
data['profit'] = data['revenue'] - data['budget']

## 1. У какого фильма из списка самый большой бюджет?

In [457]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)' #+

In [458]:
# найдём фильм с самым большим бюджетом и его id
max_budget_films = data[ data.budget == data.budget.max()].original_title
id = data[ data.budget == data.budget.max()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(max_budget_films) ):
    print(f'{ max_budget_films.iloc[i] } ({ id.iloc[i] })')

Pirates of the Caribbean: On Stranger Tides (tt1298650)


## 2. Какой из фильмов самый длительный (в минутах)?

In [459]:
answers['2'] = 'Gods and Generals (tt0279111)' #+

In [460]:
# найдём самый длинный фильм и его id
max_runtime_films = data[ data.runtime == data.runtime.max()].original_title
id = data[ data.runtime == data.runtime.max()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(max_runtime_films) ):
    print( f'{max_runtime_films.iloc[i]} ({id.iloc[i]})' )

Gods and Generals (tt0279111)


## 3. Какой из фильмов самый короткий (в минутах)?

In [461]:
answers['3'] = 'Winnie the Pooh (tt1449283)' #+

In [462]:
# найдём самый короткий фильм и его id
min_runtime_films = data[ data.runtime == data.runtime.min()].original_title
id = data[ data.runtime == data.runtime.min()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(min_runtime_films) ):
    print( f'{min_runtime_films.iloc[i]} ({id.iloc[i]})' )

Winnie the Pooh (tt1449283)


## 4. Какова средняя длительность фильмов?


In [463]:
answers['4'] = '110' #+

In [464]:
round(data.runtime.mean())

110

## 5. Каково медианное значение длительности фильмов? 

In [465]:
answers['5'] = '107' #+

In [466]:
round(data.runtime.median())

107

## 6. Какой самый прибыльный фильм?

In [467]:
answers['6'] = 'Avatar (tt0499549)' #+

In [468]:
# найдём самый прибыльный фильм и его id
max_profit_films = data[ data.profit == data.profit.max()].original_title
id = data[ data.profit == data.profit.max()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(max_profit_films) ):
    print( f'{max_profit_films.iloc[i]} ({id.iloc[i]})' )

Avatar (tt0499549)


## 7. Какой фильм самый убыточный? 

In [469]:
answers['7'] = 'The Lone Ranger (tt1210819)' #+

In [470]:
# найдём самый убыточный фильм и его id
min_profit_films = data[ data.profit == data.profit.min()].original_title
id = data[ data.profit == data.profit.min()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(min_profit_films) ):
    print( f'{min_profit_films.iloc[i]} ({id.iloc[i]})' )

The Lone Ranger (tt1210819)


## 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [471]:
answers['8'] = '1478' #+

In [472]:
# оставим в датасете только строки, где сборы выше бюджета и посмотрим длину
len( data[ data.revenue > data.budget] )

1478

## 9. Какой фильм оказался самым кассовым в 2008 году?

In [473]:
answers['9'] = 'The Dark Knight (tt0468569)' #+

In [474]:
# создадим датасет с фильмами 2008 года
df = data[ data.release_year == 2008]

# найдём самый кассовый фильм и его id
max_revenue_films = df[ df.revenue == df.revenue.max()].original_title
id = df[ df.revenue == df.revenue.max()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(max_revenue_films) ):
    print( f'{max_revenue_films.iloc[i]} ({id.iloc[i]})' )

The Dark Knight (tt0468569)


## 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [475]:
answers['10'] = 'The Lone Ranger (tt1210819)' #+

In [476]:
# создадим датасет с фильмами за период с 2012 по 2014 г. (включительно)
df = data[ (data.release_year >= 2012) & (data.release_year <= 2014) ]

# найдём самый убыточный фильм и его id
mp = df[ df.profit == df.profit.min()].original_title
id = df[ df.profit == df.profit.min()].imdb_id 

# возможно их несколько, напечатаем все
for i in range( len(mp) ):
    print( f'{mp.iloc[i]} ({id.iloc[i]})' )

The Lone Ranger (tt1210819)


## 11. Какого жанра фильмов больше всего?

In [477]:
answers['11'] = 'Drama' #+

#### последовательность шагов

In [478]:
# получаем серию со списком жанров каждого фильма
df = data['genres']
# каждый элемент (str) может содержать много жанров разделённых "|"
# превращаем str ---> list, в качестве разделителя используем "|"
df = df.str.split('|')
# разбиваем, что бы в каждой строке было по одному жанру
df = df.explode()
# финальный подсчёт
df.value_counts().head(3)

Drama       782
Comedy      683
Thriller    596
Name: genres, dtype: int64

#### финальный код

In [479]:
data['genres'].str.split('|').explode().value_counts().head(3)

Drama       782
Comedy      683
Thriller    596
Name: genres, dtype: int64

## 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [480]:
answers['12'] = 'Drama' #+

In [481]:
# здесь всё то же самое, что и в предыдущем вопросе
# только дополнительно оставляем только фильмы с profit > 0
data[data.profit > 0]['genres'].str.split('|').explode().value_counts().head(3)

Drama       560
Comedy      551
Thriller    446
Name: genres, dtype: int64

## 13. У какого режиссера самые большие суммарные кассовые сборы?

In [482]:
answers['13'] = 'Peter Jackson' #+

In [483]:
# скопируем датасет
df = data.copy()

# у некоторых фильмов несколько режиссёров, разделённых символом '|'
# модифицируем датасет, что бы в каждой строке было по одному режисёру
df['director'] = df['director'].str.split('|')
df = df.explode('director')

# сгруппируем, что бы по строкам были режиссёры и сумма кассовых сборов
df.groupby(['director'])['revenue'].sum().sort_values(ascending=False).head(3)

director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Name: revenue, dtype: int64

## 14. Какой режиссер снял больше всего фильмов в стиле Action?

In [484]:
answers['14'] = 'Robert Rodriguez' #+

In [485]:
# создадим датасет, оставив только фильмы  в стиле Action
df = data[data['genres'].str.contains('Action')]

# так как у некоторых фильмов есть несколько режиссёров
# то разобьем их , что бы в каждой строке было по одному режиссёру
df['director'].str.split('|').explode().value_counts().head(3)

Robert Rodriguez      9
Paul W.S. Anderson    7
Michael Bay           7
Name: director, dtype: int64

## 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [486]:
answers['15'] = 'Chris Hemsworth' #+

In [487]:
df = data.copy()
# создадим датасет, оставив только фильмы  2012 года
df = df[df.release_year == 2012]

# в каждой строке у нас много актеров, разделённых символом '|'
df.cast = df.cast.str.split('|')

# разобъём их, что бы в каждой строке было по одному актёру
df = df.explode('cast')

# сгруппируем в таблицу: актёр - сумма кассовых сборов
df.groupby('cast').revenue.sum().sort_values(ascending=False).head(3)

cast
Chris Hemsworth    2027450773
Denis Leary        1629460639
Anne Hathaway      1522851057
Name: revenue, dtype: int64

## 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [488]:
answers['16'] = 'Matt Damon' #+

In [489]:
df = data.copy()
# создадим датасет, оставив только фильмы с бюджетом выше среднего
df = df[df.budget > df.budget.mean()]

# в каждой строке у нас много актеров, разделённых символом '|'
# разобъём их, что бы в каждой строке было по одному актёру
df.cast = df.cast.str.split('|')
df = df.explode('cast')

# сгруппируем в таблицу актёр - количество высокобюджетных фильмов
df.groupby('cast').imdb_id.count().sort_values(ascending=False).head(3)

cast
Matt Damon        18
Adam Sandler      17
Angelina Jolie    16
Name: imdb_id, dtype: int64

## 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [490]:
answers['17'] = 'Action' #+

In [491]:
df = data.copy()
# создадим датасет, оставив только фильмы, где снимался Nicolas Cage
df = df[df.cast.str.contains('Nicolas Cage')]

# в каждой строке у нас много жанров, разделённых символом '|'
# разобъём их, что бы в каждой строке было по одному жанру
df.genres = df.genres.str.split('|')
df = df.explode('genres') 

# сгруппируем в таблицу жанр - количество фильмов
df.groupby('genres').imdb_id.count().sort_values(ascending=False).head(3)


genres
Action      17
Thriller    15
Drama       12
Name: imdb_id, dtype: int64

## 18. Самый убыточный фильм от Paramount Pictures

In [492]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)' #+

In [493]:
# создадим датасет, оставив только фильмы, где участвовала Paramount Pictures
df = data[data.production_companies.str.contains('Paramount Pictures')]

#  и найдём самый убыточный фильм и его id
bad_films = df[df.profit == df.profit.min()].original_title
id = df[df.profit == df.profit.min()].imdb_id

# возможно их несколько, напечатаем все
for i in range( len(bad_films) ):
    print(f'{ bad_films.iloc[i] } ({ id.iloc[i] })')
   

K-19: The Widowmaker (tt0267626)


## 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [494]:
answers['19'] = '2015' #+

In [495]:
# сгруппируем в таблицу: год - сумма сборов
data.groupby(['release_year']).revenue.sum().sort_values(ascending=False).head(3)

release_year
2015    25449202382
2014    23405862953
2013    23213799791
Name: revenue, dtype: int64

## 20. Какой самый прибыльный год для студии Warner Bros?

In [496]:
answers['20'] = '2014' #+

In [497]:
# создадим датасет, оставив только фильмы, где участвовала Paramount Pictures
df = data[data.production_companies.str.contains('Warner Bros')]

# сгруппируем в таблицу: год - сумма сборов
df.groupby(['release_year']).profit.sum().sort_values(ascending=False).head(3)

release_year
2014    2295464519
2007    2201675217
2008    2134595031
Name: profit, dtype: int64

## 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [498]:
answers['21'] = '9' #+

In [499]:
df = data.copy()

# в release_date хранится  месяц/день/год , разделённые символом '/'
# разобьём его на список и оставим только первый элемент, то есть месяц
df.release_date = df.release_date.apply(lambda x: str(x).split('/')[0])

# и теперь сгрупируем в таблицу:  месяц - количество фильмов
df.groupby(['release_date']).imdb_id.count().sort_values(ascending=False).head(3)

release_date
9     227
12    190
10    186
Name: imdb_id, dtype: int64

## 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [500]:
answers['22'] = '450' #+

In [501]:
df = data.copy()

# в release_date хранится  месяц/день/год , разделённые символом '/'
# разобьём его на список и оставим только первый элемент, то есть месяц
df.release_date = df.release_date.apply(lambda x: str(x).split('/')[0])

# оставим в датасете только фильмы, вышедшие в 6, 7 и 8 месяц
df = df[df.release_date.isin(['6', '7', '8']) ]

#  и посмотрим, сколько id есть в датасете
#  можно просто посмотреть длину датасета len(df)
df.imdb_id.count()

450

## 23. Для какого режиссера зима – самое продуктивное время года? 

In [502]:
answers['23'] = 'Peter Jackson' #+

In [503]:
df = data.copy()

# в release_date хранится  месяц/день/год , разделённые символом '/'
# разобьём его на список и оставим только первый элемент, то есть месяц
df.release_date = df.release_date.apply(lambda x: str(x).split('/')[0])

# оставим в датасете только фильмы, вышедшие в 12, 1 и 2 месяц
df = df[df.release_date.isin(['12', '1', '2'])]

# у некоторых фильмов несколько режиссеров, разделённых символом '|'
# разобъём их, что бы в каждой строке было по одному режиссёру
df.director = df.director.str.split('|')
df = df.explode('director')

# и теперь сгрупируем в таблицу: режиссер - количество фильмов
df.groupby(['director']).imdb_id.count().sort_values(ascending=False).head(3)

director
Peter Jackson        7
Steven Soderbergh    6
Clint Eastwood       6
Name: imdb_id, dtype: int64

## 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [504]:
answers['24'] = 'Four By Two Productions' #+

In [505]:
df = data.copy()

# добавим к датасету колонку, где будет записана длина названия фильма в буквах
df['title_lenght'] = df['original_title'].str.len()

# так как в создании многих фильмов участвовали разные студии
# разобъем их по отдельным строкам
df['production_companies'] = df['production_companies'].str.split('|')
df = df.explode('production_companies')

#  и сгруппируем в таблицу: студия - средняя длина названия
df.groupby('production_companies')['title_lenght'].mean().sort_values(ascending=False).head(3)

production_companies
Four By Two Productions    83.0
Jim Henson Company, The    59.0
Dos Corazones              47.0
Name: title_lenght, dtype: float64

## 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [506]:
answers['25'] = 'Midnight Picture Show' #+

In [507]:
df = data.copy()

# добавим к датасету колонку, где будет записана длина описания фильма в словах
# split() разбивает предложение на список слов и мы используем длину этого списка
df['overview_len'] =  df['overview'].apply(lambda x: len(str(x).split()))

# так как в создании многих фильмов участвовали разные студии
# разобъем их по отдельным строкам
df['production_companies'] = df['production_companies'].str.split('|')
df = df.explode('production_companies')

#  и сгруппируем в таблицу: студия - средняя длина описания
df.groupby('production_companies')['overview_len'].mean().sort_values(ascending=False).head(3)

production_companies
Midnight Picture Show             175.0
Room 9 Entertainment              161.0
Heineken Branded Entertainment    159.0
Name: overview_len, dtype: float64

## 26. Какие фильмы входят в 1 процент лучших по рейтингу? 

In [508]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave' #+

In [509]:
df = data.copy()

# с помощью quantile найдём границу, отделяющую 
# 99% от последнего процента по всем числовым параметрам
border = df.quantile(0.99, numeric_only=True)

# оставим в датасете только фильмы, чей рейтинг выше этой границы 
df = df[df['vote_average'] > border['vote_average']]

# и выведем все названия фильмов
df['original_title']

9                                          Inside Out
34                                               Room
118                                      Interstellar
119                           Guardians of the Galaxy
125                                The Imitation Game
128                                         Gone Girl
138                          The Grand Budapest Hotel
370                                         Inception
599                                   The Dark Knight
872                                       The Pianist
1081    The Lord of the Rings: The Return of the King
1183                          The Wolf of Wall Street
1191                                 12 Years a Slave
1800                                          Memento
Name: original_title, dtype: object

## 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [510]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint' #+

Воспользуемся итератором **combinations()** из библиотеки **itertools**       
Итератор выдаст все неповторяющиеся комбинации, сотоящие из двух элементов       
из списка, который мы ему дадим.     
А давать ему мы будем список актёров, полученных с помощью *data.cast[i].split('|')*   
из всех строк датасета     

Подсчет будет производится с помощью счётчика **Counter()**     
из библиотеки **collections**


In [511]:
from itertools import combinations

# здесь будет вестись подсчёт
pairs = Counter()

# проходим по всем фильмам
for i in range(len(data)):
    # по всем комбинациям пар актёров из фильма
    for j in combinations(data.cast[i].split('|'), 2):
        # если этой пары нет, то она добавится в pairs со значением = 1
        # если уже есть в списке, то её значение увеличится на 1
        pairs[j] += 1
        
#  всего получилось 18121 пар
# напечатаем только 3 самые частые пары 
pairs.most_common(3)


[(('Daniel Radcliffe', 'Rupert Grint'), 8),
 (('Daniel Radcliffe', 'Emma Watson'), 8),
 (('Rupert Grint', 'Emma Watson'), 7)]

# Submission

In [512]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': '110',
 '5': '107',
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': '2015',
 '20': '2014',
 '21': '9',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [513]:
# и убедиться что ни чего не пропустил)
len(answers)

27