In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations
import operator
import calendar

In [None]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1678,tt0486655,70000000,135560026,Stardust,Claire Danes|Charlie Cox|Michelle Pfeiffer|Rob...,Matthew Vaughn,This Summer A Star Falls. The Chase Begins.,In a countryside town bordering on a magical l...,127,Adventure|Fantasy|Romance|Family,Paramount Pictures|Ingenious Film Partners|Di ...,8/9/2007,7.0,2007
1733,tt0450385,25000000,94679598,1408,John Cusack|Samuel L. Jackson|Mary McCormack|J...,Mikael HÃ¥fstrÃ¶m,The only demons in room 1408 are those within ...,A man who specializes in debunking paranormal ...,104,Horror|Thriller,Dimension Films,7/12/2007,6.4,2007
153,tt1490017,60000000,469160692,The Lego Movie,Will Arnett|Elizabeth Banks|Craig Berry|Alison...,Phil Lord|Christopher Miller,The story of a nobody who saved everybody.,"An ordinary Lego mini-figure, mistakenly thoug...",100,Adventure|Fantasy|Animation|Comedy|Action,Village Roadshow Pictures|DC Comics|Vertigo En...,2/6/2014,7.5,2014
1759,tt0452625,25000000,59192128,Good Luck Chuck,Dane Cook|Jessica Alba|Dan Fogler|Ellia Englis...,Mark Helfrich,He has to break his curse before she breaks hi...,"Cursed since childhood, dentist Charlie Kagan ...",101,Comedy|Drama|Romance,Lionsgate|Karz Entertainment,9/21/2007,5.5,2007
146,tt1528100,140000000,268031828,Exodus: Gods and Kings,Christian Bale|Joel Edgerton|John Turturro|Aar...,Ridley Scott,"Once brothers, now enemies.",The defiant leader Moses rises up against the ...,153,Adventure|Drama|Action,Scott Free Productions|Chernin Entertainment|B...,12/3/2014,5.6,2014


In [None]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [None]:
answers = {} # создадим словарь для ответов

# добавим новые колонки
data['profit'] = data['revenue'] - data['budget']
data['release_month'] = data.release_date.apply(lambda x: int(x.split('/')[0]))
data['title_len'] = data.original_title.apply(lambda x: len(x))
data['descr_len'] = data.overview.apply(lambda x: len(x.split(' ')))

# функция для определения имени фильма из выборки
def get_film_name(films_dataset):
    film = films_dataset[['original_title', 'imdb_id']].values[0]
    return f'{film[0]} ({film[1]})'

# функция для получения словаря с количеством
def get_counts_dict(dataset, column, separator='|'):
    counts_dict = {}
    for row in dataset[column].str.split(separator):
        for value in row:
            if value not in counts_dict:
                counts_dict[value] = 1
            else:
                counts_dict[value] += 1
    return counts_dict

# функция для получения топового значения
def get_top_value(prepared_dict):
    # сортируем подготовленный словарь, возвращаем только текст из первой строки
    return sorted(
        prepared_dict.items(),
        key=operator.itemgetter(1),
        reverse=True
    )[0][0]



# 1. У какого фильма из списка самый большой бюджет?

In [None]:
answers['1'] = get_film_name(
    data[data.budget == data.budget.max()]
)

# 2. Какой из фильмов самый длительный (в минутах)?

In [None]:
answers['2'] = get_film_name(
    data[data.runtime == data.runtime.max()][['original_title', 'imdb_id']]
)

# 3. Какой из фильмов самый короткий (в минутах)?





In [None]:
answers['3'] = get_film_name(
    data[data.runtime == data.runtime.min()]
)

# 4. Какова средняя длительность фильмов?


In [None]:
answers['4'] = round(data.runtime.mean())

# 5. Каково медианное значение длительности фильмов? 

In [None]:
answers['5'] = data.runtime.median()

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [None]:
answers['6'] = get_film_name(
    data[data.profit == data.profit.max()]
)

# 7. Какой фильм самый убыточный? 

In [None]:
answers['7'] = get_film_name(
    data[data.profit == data.profit.min()]
)

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [None]:
answers['8'] = data[data.revenue > data.budget].count()[0]

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [None]:
part_data = data[data.release_year == 2008]
answers['9'] = get_film_name(
    part_data[part_data.revenue == part_data.revenue.max()]
)

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [None]:
part_data = data[(data.release_year >= 2012) & (data.release_year <= 2014)]
answers['10'] = get_film_name(
    part_data[part_data.profit == part_data.profit.min()]
)

# 11. Какого жанра фильмов больше всего?

In [None]:
# вариант 1 - перебор всех вариантов и запись их в словарь
genres_count = get_counts_dict(data, 'genres')

answers['11'] = get_top_value(genres_count)

In [None]:
# вариант 2 - получить новую таблицу, в каждой строке которой будет по жанру
# В качетсве ответа возьмём самый повторяемый вариант

answer_11 = pd.DataFrame(
    {'genre': np.concatenate(data.genres.str.split('|').values)}
).describe().loc['top'][0]

# убедимся, что полученный ответ совпадает с первым вариантом
assert answer_11 == answers['11'], 'Alternate answer is not equal to base answer'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [None]:
# создадим словарь с жанрами, сохраняя в него массив с прибылями
genres_profit = {}

for x in data[['genres', 'profit']].values:
    genres = x[0]
    profit = x[1]
    for genre in genres.split('|'):
        if genre not in genres_profit:
            genres_profit[genre] = []
        genres_profit[genre].append(profit)

# посчитаем среднюю прибыль по жанрам
genres_profit = {x: (sum(genres_profit[x]) / len(genres_profit[x])) for x in genres_profit}

# ответ на "Фильмы какого жанра чаще всего становятся прибыльными"
answers['12'] = get_top_value(genres_profit)  # Fantasy

# ответ на "Какого жанра среди прибыльных фильмов больше всего"
genres_count = get_counts_dict(data[data.profit > 0], 'genres')
answers['12'] = get_top_value(genres_count)  # Drama

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [None]:
answers['13'] = data.groupby(['director']).revenue.sum().sort_values(ascending=False).index[0]

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [None]:
directors = {}
answer_options = ['Ridley Scott', 'Guy Ritchie', 'Robert Rodriguez', 'Quentin Tarantino', 'Tony Scott']

for x in data[['genres', 'director']].values:
    genres = x[0]
    director = x[1]
    if 'Action' in x[0]:
      for d in answer_options:
        if d in x[1]:
          if d not in directors:
           directors[d] = 1
          else:
            directors[d] += 1

directors = sorted(
    directors.items(),
    key=operator.itemgetter(1),
    reverse=True
)

answers['14'] = directors[0][0]

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [None]:
part_data = data[data.release_year == 2012]
most_revenue_actors = part_data[part_data.revenue == part_data.revenue.max()].cast.values[0].split('|')
answer_options = ['Nicolas Cage', 'Tom Hardy', 'Chris Hemsworth', 'Jim Sturgess', 'Emma Stone']
answers['15'] = [x for x in most_revenue_actors if x in answer_options][0]

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов? (бюджет выше среднего)

In [None]:
actors = get_counts_dict(data[data.budget > data.budget.mean()], 'cast')
answers['16'] = get_top_value(actors)

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [None]:
genres = get_counts_dict(data[data['cast'].str.contains("Nicolas Cage")], 'genres')
answers['17'] = get_top_value(genres)

# 18. Самый убыточный фильм от Paramount Pictures

In [None]:
paramount_films = data[data['production_companies'].str.contains("Paramount Pictures")]
answers['18'] = get_film_name(
    paramount_films[paramount_films.profit == paramount_films.profit.min()]
)

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [None]:
sum_rev = data.pivot_table(values = 'revenue', index = 'release_year', fill_value=0, aggfunc = 'sum')
answers['19'] = sum_rev[sum_rev.revenue == sum_rev.revenue.max()].index[0]

# 20. Какой самый прибыльный год для студии Warner Bros?

In [None]:
warn_data = data[data['production_companies'].str.contains('Warner Bros')]
sum_rev = warn_data.pivot_table(values = 'revenue', index = 'release_year', fill_value=0, aggfunc = 'sum')
answers['20'] = sum_rev[sum_rev.revenue == sum_rev.revenue.max()].index[0]

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [None]:
month_pivot = data.pivot_table(columns = 'release_month', aggfunc = 'count').iloc[0]
answers['21'] = calendar.month_name[month_pivot.idxmax()]

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [None]:
answers['22'] = sum(
    data[
        data.release_month.isin([6, 7, 8])
    ].pivot_table(columns = 'release_month', aggfunc = 'count').iloc[0].values
)

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [None]:
winter_directors = data[(data['release_month'] <= 2) | (data['release_month'] == 12)]
winter_pivot = winter_directors.pivot_table(index='director', values='imdb_id', aggfunc = 'count')
answers['23'] = winter_pivot[winter_pivot['imdb_id'] == winter_pivot['imdb_id'].max()].index[0]

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [None]:
answers['24'] = data[data['title_len'] == data['title_len'].max()].production_companies.values[0].split('|')[-1]

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [None]:
answers['25'] = data[data['descr_len'] == data['descr_len'].max()].production_companies.values[0].split('|')[-1]

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [None]:
#Вариант 1 (так себе, потому что нужны глаза)
answer = []
answer_options = ['300', '12 Years a Slave', 'Batman Begins', 'BloodRayne', 'Inside Out', 'Iron Man', 'Kill Bill: Vol. 1', 'Lucky Number Slevin', 'The Adventures of Rocky & Bullwinkle', 'The Dark Knight', 'The Lord of the Rings: The Return of the King', 'Upside Down']
proc = int(len(data) * 0.01) #вычисляем, какое количество фильмов является 1 процентом от общего количества
best_rating = data.sort_values(by='vote_average', ascending=False)[0:proc].original_title.array #получаем список из 1 процента лучших фильмов
for i in best_rating:
  if i in answer_options:
    answer.append(i)

print (answer) #тут нужны глаза 8(
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'

#Вариант 2 (моя прелесть)
#Перебором. Берем каждый из представленных вариантов ответа, сплитуем из него фильмы, проверяем что все эти фильмы есть в ТОП-1%.
answers['26'] = ''
answer_options = ['Inside Out, The Dark Knight, 12 Years a Slave', 'BloodRayne, The Adventures of Rocky & Bullwinkle', 'Batman Begins, The Lord of the Rings: The Return of the King, Upside Down', '300, Lucky Number Slevin, Kill Bill: Vol. 1', 'Upside Down, Inside Out, Iron Man']
proc = int(len(data) * 0.01) #вычисляем, какое количество фильмов является 1 процентом от общего количества
best_rating = data.sort_values(by='vote_average', ascending=False)[0:proc].original_title.array #получаем список из 1 процента лучших фильмов

c=0                             #флаг для перебора ответов answer_options, если 0 то ответ верный, если 1 то не верный 
for i in answer_options: 
  for j in i.split(', '):       #перебираем каждый фильм в проверяемом варианте ответа
    if j not in best_rating:
      #next(i)
      c=1                       #если фильма нет в best_rating, то поднимаем флаг, выходим их внутреннего цикла
      break
  if c==0:
    answers['26'] = answers['26'] + i #если флаг не поднят, то все фильмы из рассматриваемого варианта ответа есть в ТОП-1%. answers['26']+i сделано для проверки на единственность ответа 
  c=0                           #опускаем флаг для проверки следующего варианта ответа

# не придумал как сделать без флага, если сможете - подскажите, пожалуйста. Хотел next(i) во внутреннем цикле лупануть (строка 24), но тут нам не BASIC, оказывается.
answers['26']


['The Dark Knight', 'Inside Out', '12 Years a Slave', 'The Lord of the Rings: The Return of the King']


'Inside Out, The Dark Knight, 12 Years a Slave'

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [None]:
# вариант 1 - проходим по всем актёрам в фильмах, сопоставляя пары в словаре и считая кол-во совпадений
cast_rel = {}
for actors in data.cast.str.split('|'):
    for actor_1 in actors:
        for actor_2 in actors:
            if actor_1 == actor_2:
                continue
            rel = f'{actor_1} & {actor_2}'
            if rel not in cast_rel:
                cast_rel[rel] = 0
            cast_rel[rel] += 1

answers['27'] = get_top_value(cast_rel)  # Daniel Radcliffe & Rupert Grint

In [None]:
# вариант 2

data_cast = pd.DataFrame({
    'cast': sorted(data.cast.str.split('|').values)
})

data_cast['pairs'] = data_cast.cast.apply(lambda x: combinations(x, 2))

f = [item for sublist in data_cast['pairs'].values for item in sublist]

answer_27 = ' & '.join(Counter(f).most_common()[1][0])

# убедимся, что полученный ответ совпадает с первым вариантом
assert answer_27 == answers['27'], 'Alternate answer is not equal to base answer'

# Submission

In [None]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': 2015,
 '2': 'Gods and Generals (tt0279111)',
 '20': 2014,
 '21': 'September',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': 110,
 '5': 107.0,
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': 1478,
 '9': 'The Dark Knight (tt0468569)'}

In [None]:
# и убедиться что ни чего не пропустил)
len(answers)

27