# Считывание датафрейма из файла

In [None]:
import numpy as np
import pandas as pd
import datetime as dt
from itertools import combinations

data = pd.read_csv('movie_bd_v5.csv')
data.sample(1)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1380,tt0399146,32000000,60740827,A History of Violence,Viggo Mortensen|Maria Bello|Heidi Hayes|Ashton...,David Cronenberg,Tom Stall had the perfect life... until he bec...,An average family is thrust into the spotlight...,96,Drama|Thriller|Crime,New Line Cinema|DC Comics|BenderSpink,9/23/2005,6.7,2005


# Предобработка

In [None]:
answers = {}  # создадим словарь для ответов

# здесь исправляется странное поведение Google Colab,
# когда колонка release_date считывается то как timestamp,
# то как string

if type(data.release_date[0]) == str:
    data.release_date = data.release_date.apply(
        lambda x: dt.datetime.strptime(x, '%m/%d/%Y')) 

# добавляем колонку прибыли от проката 'profit'
data['profit'] = data.revenue - data.budget

# добавляем колонку месяца релиза фильма - 'month'
data['month'] = data.release_date.apply(lambda x: x.month)

# словарь для сопоставления номера месяца и его названия на русском
# для 21-го вопроса
months = {
    1: 'январь',
    2: 'февраль',
    3: 'март',
    4: 'апрель',
    5: 'май',
    6: 'июнь',
    7: 'июль',
    8: 'август',
    9: 'сентябрь',
   10: 'октябрь',
   11: 'ноябрь',
   12: 'декабрь'
}

# добавлям к датафейму столбец с кол-вом символов в названии фильма
data['ot_length'] = data.original_title.apply(len)

# функция принимает строку, возвращает количество слов
# в строке разделенных пробелами
def word_count(s):
    return len(s.split(' '))

# добавлям к датафейму столбец с количеством слов в описании фильма
# для 25-го вопроса
data['words_in_overview'] = data.overview.apply(word_count)

# the time given in the dataset is in string format. - "That my dear Balin, is not entirely true"
# So we need to change this in datetime format

# 1. У какого фильма из списка самый большой бюджет?

In [None]:
title1 = data[data.budget == data.budget.max()].original_title.iloc[0]
id1 = data[data.budget == data.budget.max()].imdb_id.iloc[0]
print(title1 + ' (' + id1 + ')')

Pirates of the Caribbean: On Stranger Tides (tt1298650)


In [None]:
answers['01'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)'

ВАРИАНТ 2

In [None]:
title1 = data.query('budget == budget.max()').original_title.iloc[0]
id1 = data.query('budget == budget.max()').imdb_id.iloc[0]
print(title1 + ' (' + id1 + ')')

Pirates of the Caribbean: On Stranger Tides (tt1298650)


# 2. Какой из фильмов самый длительный (в минутах)?

In [None]:
data_filtered2a = data[data.runtime == data.runtime.max()]

title2a = data_filtered2a.original_title.iloc[0]
id2a = data_filtered2a.imdb_id.iloc[0]

print(title2a + ' (' + id2a + ')')

Gods and Generals (tt0279111)


ВАРИАНТ 2

In [None]:
data_filtered2b = data.query('runtime == runtime.max()')

title2b = data_filtered2b.original_title.iloc[0] 
id2b = data_filtered2b.imdb_id.iloc[0]

print(title2b + ' (' + id2b + ')')

Gods and Generals (tt0279111)


In [None]:
answers['02'] = 'Gods and Generals (tt0279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [None]:
data_filtered3a = data[data.runtime == data.runtime.min()]

title3a = data_filtered3a.original_title.iloc[0]
id3a = data_filtered3a.imdb_id.iloc[0]

print(title3a + ' (' + id3a + ')')


Winnie the Pooh (tt1449283)


ВАРИАНТ 2

In [None]:
data_filtered3b = data.query('runtime == runtime.min()')

title3b = data_filtered3b.original_title.iloc[0] 
id3b = data_filtered3b.imdb_id.iloc[0]

print(title3b + ' (' + id3b + ')')

Winnie the Pooh (tt1449283)


In [None]:
answers['03'] = 'Winnie the Pooh (tt1449283)'

# 4. Какова средняя длительность фильмов?


In [None]:
print (round(data.runtime.mean()))


110


In [None]:
answers['04'] = '110'

# 5. Каково медианное значение длительности фильмов? 

In [None]:
print (round(data.runtime.median()))


107


In [None]:
answers['05'] = '107'

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [None]:
data_filtered6 = data.query("profit == profit.max()")
title6 = data_filtered6.original_title.iloc[0]
id6 = data_filtered6.imdb_id.iloc[0]

print(title6 + ' (' + id6 + ')')

Avatar (tt0499549)


In [None]:
answers['06'] = 'Avatar (tt0499549)'

# 7. Какой фильм самый убыточный? 

In [None]:
data_filtered7 = data.query("profit == profit.min()")
title7 = data_filtered7.original_title.iloc[0]
id7 = data_filtered7.imdb_id.iloc[0]

print(title7 + ' (' + id7 + ')')


The Lone Ranger (tt1210819)


In [None]:
answers['07'] = 'The Lone Ranger (tt1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [None]:
data_filtered8 = data.query("profit > 0")
print(len(data_filtered8))


1478


In [None]:
answers['08'] = 1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [None]:
data_2008 = data.query(
    "release_year == 2008").query("revenue == revenue.max()")

print(data_2008.original_title.iloc[0] + ' (' +
      data_2008.imdb_id.iloc[0] + ')'
)


The Dark Knight (tt0468569)


In [None]:
answers['09'] = 'The Dark Knight'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [None]:
data_filtered10 = data.query(
    "(release_year >= 2012) & (release_year <= 2014)"
    ).query("profit == profit.min()")

print(
    data_filtered10.original_title.iloc[0] + ' (' + 
    data_filtered10.imdb_id.iloc[0] + ')'
)


The Lone Ranger (tt1210819)


In [None]:
answers['10'] = 'The Lone Ranger (tt1210819)'

# 11. Какого жанра фильмов больше всего?

In [None]:
data11 = data.copy()

data11.genres = data11.genres.str.split('|', expand=False)
data11 = data11.explode('genres')

genres_pvt11 = data11.pivot_table (values = ['imdb_id'],
index=['genres'],
aggfunc='count',
fill_value=0,
margins=True)

print(genres_pvt11['imdb_id'].
      sort_values(ascending = False).index[1])

Drama


In [None]:
answers['11'] = 'Drama'

# 12. Какого жанра среди прибыльных фильмов больше всего?

In [None]:
# убираем из датафрейма неприбыльные фильмы
data_profitable = data[ data.profit > 0 ].copy()

# получаем датафрейм с разбивкой по отдельным жанрам
data_profitable.genres = data_profitable.genres.str.split('|', expand=False)
data_profitable = data_profitable.explode('genres')

# вывод результата
print(
data_profitable.groupby( 
    by='genres'
    ).count()['imdb_id'].sort_values(ascending=False).index[0]
)


Drama


In [None]:
answers['12'] = 'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [None]:
data13 = data.copy()

# разбиваем датафрейм по отдельным режиссерам
# на случай, если у фильма более одного режиссера
data13.director = data13.director.str.split('|', expand=False)
data_expl13 = data.explode('director')

gp13 = data_expl13.groupby(by='director').sum()['profit']

# вывод результата
print (gp13[gp13 == gp13.max()].index[0])

Peter Jackson


In [None]:
answers['13'] = 'Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [None]:
data14 = data.copy()

data14.director = data14.director.str.split('|', expand=False)
data14 = data14.explode('director')

data14.genres = data14.genres.str.split('|', expand=False)
data14 = data14.explode('genres')

pvt14 = data14.pivot_table (values = ['imdb_id'],
index = ['genres'],
columns = ['director'],
aggfunc = 'count',
fill_value = 0,
margins = False
)

max_action = pvt14.loc["Action"]
print(max_action[max_action == max_action.max()].index[0][1])

Robert Rodriguez


In [None]:
answers['14'] = 'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году?

In [None]:
data15 = data.copy()

data15.cast = data15.cast.str.split('|', expand=False)
data15 = data15.explode('cast')

data15 = data15[
                          data15.release_year == 2012
                          ].groupby
    data15[data15.revenue == data15.revenue.max()].index[0]
)


Chris Hemsworth


In [None]:
answers['15'] = 'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [None]:
data_expl16 = data.copy()

data_expl16.cast = data_expl16.cast.str.split('|', expand=False)
data_expl16 = data_expl16.explode('cast')

data_expl16 = data_expl16[data_expl16.budget > data_expl16.budget.mean()]
print(data_expl16['cast'].value_counts().index[0])


Matt Damon


In [None]:
answers['16'] = 'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage?

In [None]:
data_expl17 = data.copy()

data_expl17.cast = data_expl17.cast.str.split('|', expand=False)
data_expl17 = data_expl17.explode('cast')

data_expl17.genres = data_expl17.genres.str.split('|', expand=False)
data_expl17 = data_expl17.explode('genres')

se17 = data_expl17[
               data_expl17.cast == 'Nicolas Cage'
                ].groupby(by='genres').count().imdb_id
print(se17[se17==se17.max()].index[0])


Action


In [None]:
answers['17'] = 'Action'


# 18. Самый убыточный фильм от Paramount Pictures

In [None]:
data_expl18 = data.copy()

data_expl18.production_companies = data_expl18.production_companies.str.split(
    '|', expand=False)
data_expl18 = data_expl18.explode('production_companies')
 
data_expl18 = data_expl18[data_expl18.production_companies == 'Paramount Pictures']
df18 = data_expl18[data_expl18.profit == 
                             data_expl18.profit.min()]
title18 = df18['original_title'].values[0]
id18 = df18['imdb_id'].values[0]
 
print( title18 + ' (' + id18 + ')')

K-19: The Widowmaker (tt0267626)


In [None]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [None]:
se19 = data.groupby(by='release_year').sum().revenue
se19[se19 == se19.max()].index[0]

2015

In [None]:
answers['19'] = 2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [None]:
data20 = data.copy()

data20.production_companies = data20.production_companies.str.split(
    '|', expand=False )

data20 = data20.explode(
    'production_companies')

se20 = data20[
              data20.production_companies.str.contains('Warner Bros')
              ].groupby(by='release_year').sum().profit

print (se20[se20 == se20.max()].index[0])

2014


In [None]:
answers['20'] = 2015

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [None]:
data21 = data.copy()

data21.groupby(by='month').count()

print (months[data.month.value_counts().index[0]])


сентябрь


In [None]:
answers['21'] = 'сентябрь'

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [None]:
data22 = data.copy()

data22['month'] = data22.release_date.apply(lambda x: x.month)

data22[(data22.month >= 6) & (data22.month <= 8)]['imdb_id'].nunique()

450

In [None]:
answers['22'] = 450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [None]:
data23 = data.copy()

data23['month'] = data23.release_date.apply(lambda x: x.month)

data23.director = data23.director.str.split('|', expand=False)
data23 = data23.explode('director')

print(
    data23[(data23.month == 12) |
              (data23.month <= 2)]['director'].value_counts().index[0]
)

Peter Jackson


In [None]:
answers['23'] = 'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [None]:
data24 = data.copy()

data24.production_companies = data24.production_companies.str.split(
    '|', expand=False)
data24 = data24.explode('production_companies')

print(data24.groupby(
    'production_companies').mean().ot_length.sort_values(
        ascending=False).index[0]
      )

Four By Two Productions


In [None]:
answers['24'] = 'Four By Two Productions'

# 25. Описание фильмов какой студии
# в среднем самые длинные по количеству слов?

In [None]:
data25 = data.copy()

data25.production_companies = data25.production_companies.str.split(
    '|', expand=False
    )
data25 = data25.explode('production_companies')

print(data25.groupby(
    'production_companies').mean().words_in_overview.sort_values(
        ascending=False).index[0])

Midnight Picture Show


In [None]:
answers['25'] = 'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу?
по vote_average

In [None]:
# задаем порог в процентах лучших фильмов по рейтингу
best_percentage = 1

# вычисляем соотв. порогу квантиль
best_percentage_quantile = data.vote_average.quantile(1 - best_percentage/100)

print (
    data[data.vote_average > best_percentage_quantile]['original_title'].values
)


['Inside Out' 'Room' 'Interstellar' 'Guardians of the Galaxy'
 'The Imitation Game' 'Gone Girl' 'The Grand Budapest Hotel' 'Inception'
 'The Dark Knight' 'The Pianist'
 'The Lord of the Rings: The Return of the King' 'The Wolf of Wall Street'
 '12 Years a Slave' 'Memento']


In [None]:
answers['26'] = ['Inside Out', 'The Dark Knight', '12 Years a Slave']

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [None]:
data27 = data.copy()

data27.cast = data27.cast.str.split('|', expand=False)

# в столбце 'cast' строка с актерским составом меняется на список из
# кортежей всевозможных пар актеров, игравших в данном фильме -
# так мы получаем пары актеров, игравших хотя бы в одном фильме вместе
data27.cast = data27.cast.apply(
    lambda actor: list(combinations(actor, 2)))

# разбиваем датафрейм по парам актеров
data_valid_pairs = data27.explode('cast')

# считаем, какая пара актеров встречается чаще всего
data_valid_pairs.groupby(
    by='cast'
    ).count()[
              'imdb_id'
                      ].sort_values(ascending=False).index[1]


('Daniel Radcliffe', 'Rupert Grint')

In [None]:
answers['27'] = ('Daniel Radcliffe', 'Rupert Grint')

# Submission

In [None]:
answers

{'01': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '02': 'Gods and Generals (tt0279111)',
 '03': 'Winnie the Pooh (tt1449283)',
 '04': '110',
 '05': '107',
 '06': 'Avatar (tt0499549)',
 '07': 'The Lone Ranger (tt1210819)',
 '08': 1478,
 '09': 'The Dark Knight',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': 2015,
 '20': 2015,
 '21': 'сентябрь',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': ['Inside Out', 'The Dark Knight', '12 Years a Slave'],
 '27': ('Daniel Radcliffe', 'Rupert Grint')}

In [None]:
# и убедиться что ни чего не пропустил)
len(answers)


27