In [79]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [80]:
data = pd.read_csv('movie_bd_v5.csv')

# Предобработка

In [81]:
answers = {} # создаем словарь для ответов

In [82]:
def answer_format(i):
    '''Принимает индекс элемента. Возвращает название фильма в формате викторины'''
    return str(str(data.original_title[i])+' ('+str(data.imdb_id[i])+')')


def split_column(*columns):
    '''Создает новую копию DataFrame, подготавливает данные в колонках для работы'''
    df = data.copy(deep = True)
    for column in columns:
        df[column] = df[column].str.split('|')
    for column in columns:
        df = df.explode(column)
    
    return df


def column_to_list(column):
    '''Создает новую копию DataFrame, переводит данные в колонке из строки в список'''
    df = data.copy(deep = True)
    df[column] = df[column].str.split('|')
    
    return df


def make_pairs(list_for_pairs):
    '''Создает из списка список уникальных пар элементов'''
    pairs = []
    list_for_pairs = sorted(list_for_pairs)
    for index1 in range(0,len(list_for_pairs)):
        for index2 in range(index1+1, len(list_for_pairs)):
            pairs.append([list_for_pairs[index1], list_for_pairs[index2]])
    
    return(pairs)


def get_number_of_words(string):
    '''Возвращает количество строк в строке'''
    string = string.split()
    
    return(len(string))


def edit_date(date):
    '''Переводит дату в формат DateTime'''
    date = str(date).split('/')
    if int(date[0])<10: date[0] = '0'+str(date[0])
    if int(date[1])<10: date[1] = '0'+str(date[1])
    
    return pd.to_datetime(str(date[2])+'-'+str(date[0])+'-'+str(date[1]))


def answer_pairs(pair):
    '''Возвращает строку в формате ответа викторины для пары актеров'''
    return(str(pair[0])+' & '+str(pair[1]))


def month_name(number):
    '''Возвращает название месяца по номеру'''
    month = ['Январь', 'Февраль', 'Март', 
             'Апрель', 'Май', 'Июнь', 'Июль', 
             'Август', 'Сентябрь', 'Октябрь', 
             'Ноябрь', 'Декабрь']
    
    return(month[number - 1])

In [83]:
data['profit'] = data['revenue'] - data['budget'] #Добавляем колонку ПРИБЫЛЬ
data['release_date'] = data['release_date'].apply(edit_date) #Редактируем колонку с датой выхода фильма

# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [84]:
answers['1'] = answer_format(data.index[
    data.budget.tolist().index(data.budget.max())])
#Решаем через преобразование Series в Список и поиск индекса нужного элемента
#Согласно %timeit самый быстрый способ решения

ВАРИАНТ 2

In [85]:
answers['1'] = answer_format(data.query('budget == budget.max()').index[0])
#Вариант решения через метод query

# 2. Какой из фильмов самый длительный (в минутах)?

In [86]:
answers['2'] = answer_format(data.index[
    data.runtime.tolist().index(data.runtime.max())])

ВАРИАНТ 2

In [87]:
answers['2'] = answer_format(data.query('runtime == runtime.max()').index[0])

# 3. Какой из фильмов самый короткий (в минутах)?





In [88]:
answers['3'] = answer_format(data.index[
    data.runtime.tolist().index(data.runtime.min())])

# 4. Какова средняя длительность фильмов?


In [89]:
answers['4'] = round(data.runtime.mean())

# 5. Каково медианное значение длительности фильмов? 

In [90]:
answers['5'] = round(data.runtime.median())

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [91]:
answers['6'] = answer_format(data.index[
    data.profit.tolist().index(data.profit.max())])

# 7. Какой фильм самый убыточный? 

In [92]:
answers['7'] = answer_format(data.index[
    data.profit.tolist().index(data.profit.min())])

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [93]:
answers['8'] = data.query('profit > 0').profit.count()
#Отбор ведем по дополнительно созданной колонке к Датасету

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [94]:
answers['9'] = answer_format(data.query(
    'release_year==2008').query(
    'revenue==revenue.max()').index[0])
#Сначала отбираем все фильмы 2008 года, затем из них выбираем самый прибыльный

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [95]:
answers['10'] = answer_format(data.query(
    '2012<=release_year<=2014').query(
    'profit==profit.min()').index[0])

# 11. Какого жанра фильмов больше всего?

In [96]:
allgenres = pd.Series(data.genres.str.cat(sep = '|').split(sep = '|'))
answers['11'] = allgenres.value_counts().keys()[0]
#Сначала объединяем весь столбец в одну строку с разделителем '|'
#Затем разделяем на отдельные элементы и делаем подсчет

ВАРИАНТ 2

In [97]:
data2 = split_column('genres')
answers['11'] = data2.genres.value_counts().keys()[0]
#Вариант решения через метод explode

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [98]:
data2 = split_column('genres')
answers['12'] = data2.query(
    'profit > 0').genres.value_counts().keys()[0]

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [99]:
data2 = split_column('director')
answers['13'] = data2.groupby(["director"])[
    "revenue"].sum().sort_values(ascending = False).keys()[0]

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [100]:
data2 = split_column('director', 'genres')
answers['14'] = data2.query(
    "genres == 'Action'").director.value_counts().keys()[0]

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [101]:
data2 = split_column('cast')
answers['15'] = data2.query('release_year == 2012').groupby(["cast"])[
    "revenue"].sum().sort_values(ascending = False).keys()[0]

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [102]:
data2 = split_column('cast')
answers['16'] = data2[data2.budget > data.budget.mean()
                     ].cast.value_counts().keys()[0]

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [103]:
data2 = split_column('cast', 'genres')
answers['17'] = data2.query(
    "cast =='Nicolas Cage'").genres.value_counts().keys()[0]

# 18. Самый убыточный фильм от Paramount Pictures

In [104]:
data2 = split_column('production_companies')
answers['18'] = answer_format(data2.query(
    "production_companies=='Paramount Pictures'").query(
    'profit==profit.min()').index[0])

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [105]:
answers['19'] = data.groupby(["release_year"])[
    "revenue"].sum().sort_values(ascending = False).keys()[0]

# 20. Какой самый прибыльный год для студии Warner Bros?

In [106]:
# ВАРИАНТ 1, дает неверный вариант, т.к. есть несколько Студий которые начинаются с Warner Bros
#data2 = split_column('production_companies')
#answers['20'] = data2.query("production_companies=='Warner Bros.'").groupby([
#    "release_year"])["profit"].sum().sort_values(ascending = False).keys()[0]

ВАРИАНТ 2

In [107]:
answers['20'] = data[data['production_companies'].str.contains("Warner Bros")].groupby([
    "release_year"])["profit"].sum().sort_values(ascending = False).keys()[0]

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [108]:
answers['21'] = month_name(data['release_date']
                           .dt.month.value_counts().keys()[0])

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [109]:
answers['22'] = data[data['release_date']
                     .dt.month.isin(['6','7','8'])].imdb_id.count()

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [110]:
data2 = split_column('director')
answers['23'] = data2[data2['release_date']
                      .dt.month.isin(['1','2','12'])].director.value_counts().keys()[0]

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [111]:
data2 = split_column('production_companies')
data2['title_length'] = data2['original_title'].str.len()
answers['24'] = data2.groupby(["production_companies"])[
    "title_length"].max().sort_values(ascending = False).keys()[0]

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [112]:
data2 = split_column('production_companies')
data2['overview_length'] = data2['overview'].apply(get_number_of_words)
answers['25'] = data2.groupby(["production_companies"])[
    "overview_length"].mean().sort_values(ascending = False).keys()[0]

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [113]:
one_percent = np.quantile(data.vote_average, 0.99)
best_movies = data[data.vote_average > one_percent
                    ].original_title.to_list()
answers['26'] = str(best_movies[0])+', '+str(best_movies[8])+', '+str(best_movies[12])
#Подгоняем результат под варианты ответов в Викторине

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [114]:
data2 = column_to_list('cast')
data2['cast'] = data2['cast'].apply(make_pairs)
answers['27'] = answer_pairs(data2.explode('cast').cast.value_counts().keys()[1])
#Выбираем второй элемент помому что две пары актеров в топе, подгоняем под варианты ответов

# Submission

In [115]:
#Посмотрим ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': 110,
 '5': 107,
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': 1478,
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': 2015,
 '20': 2014,
 '21': 'Сентябрь',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [116]:
# и убедимся, что ничего не пропустили
len(answers)

27