In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.read_csv('movie_bd_v5.csv')

# Предобработка

In [3]:
# словарь для ответов
answers = {} 

# функция для получения названия фильма из строки датасета
def get_title(series):
    return series.original_title.iloc[0] + ' (' + series.imdb_id.iloc[0] + ')'

# функция для получения имени месяца по его номеру
def get_month_name(month_num):
    month_list = ['Январь', 'Фвраль', 'Март', 'Апрель', 'Май', 'Июнь', 
                  'Июль', 'Август', 'Сентябрь', 'Октябрь', 'Ноябрь', 'Декабрь']
    if (month_num >= 1 and month_num <= 12):
        return month_list[month_num-1]
    else:
        return 'Месяц не найден'
    
# функция для получения сезона по номеру месяца
def get_season(month_num):
    if month_num == 1 or month_num == 12 or month_num == 2:
        return 'Зима'
    elif month_num >= 3 and month_num <= 5:
        return 'Весна'
    elif month_num >= 6 and month_num <= 8:
        return 'Лето'
    elif month_num >= 9 and month_num <= 11:
        return 'Осень'
    else:
        return 'Ошибка'

    
# функции для обработки данных

'''Разделение строки со списком на отдельные строки'''
def expand_str(df, col_id, col_list, lim):
    serie_list = df[col_list].str.split(lim).explode() # столбец с разделенными значениями строк
    serie_id = df[col_id].str.split().explode()        # столбец с идентификаторами изначальных строк
    df_list = pd.DataFrame({col_list+'1': serie_list, col_id: serie_id}) 
    return df_list


# обработка данных
'''Добавим колонку для прибыли=сборы-бюджет'''
data['profit'] = data.revenue - data.budget

'''Добавим колонку для месяца выпуска фильмов'''
data['month'] = data.release_date.apply(lambda s: int(s.split('/')[0]))

'''Добавим колонку для сезона выпуска фильмов'''
data['season'] = data.month.apply(get_season)

'''Добавим колонку для количества символов в названии'''
data['title_len'] = data.original_title.apply(lambda s: len(s))

'''Добавим колонку для количества слов в описании'''
data['overview_len'] = data.overview.apply(lambda s: len(s.split()))

'''Создадим подчиненный датафрейм со списком жанров каждого фильма'''
data_genres  = expand_str(data, 'imdb_id', 'genres', '|')

'''Создадим подчиненный датафрейм со списком актеров каждого фильма'''
data_casts = expand_str(data, 'imdb_id', 'cast', '|')

'''Создадим подчиненный датафрейм со списком режиссеров каждого фильма'''
data_directors = expand_str(data, 'imdb_id', 'director', '|')

'''Создадим подчиненный датафрейм со списком киностудий каждого фильма'''
data_companies = expand_str(data, 'imdb_id', 'production_companies', '|')

'''Создадим объединения основной таблицы с подчиненными'''
joined_g = data.merge(data_genres, on='imdb_id', how='inner')
joined_d = data.merge(data_directors, on='imdb_id', how='inner')
joined_c = data.merge(data_casts, on='imdb_id', how='inner')
joined_com = data.merge(data_companies, on='imdb_id', how='inner')

# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [4]:
# в словарь вставляем номер вопроса и ваш ответ на него
# Пример: 
# answers['1'] = '2. Spider-Man 3 (tt0413300)'
# запишите свой вариант ответа

# '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)'
answers['1'] = '5. ' + get_title(data[data.budget==data.budget.max()])
# +

# если ответили верно, можете добавить комментарий со значком "+"

ВАРИАНТ 2

In [7]:
# можно добавлять разные варианты решения

# 2. Какой из фильмов самый длительный (в минутах)?

In [5]:
answers['2'] = '2. ' + get_title(data[data.runtime==data.runtime.max()])
# +

# 3. Какой из фильмов самый короткий (в минутах)?





In [6]:
answers['3'] = '3. ' + get_title(data[data.runtime==data.runtime.min()])
# +

# 4. Какова средняя длительность фильмов?


In [7]:
answers['4'] = '2. ' + str(round(data.runtime.mean()))
# +

# 5. Каково медианное значение длительности фильмов? 

In [8]:
answers['5'] = '1. ' + str(round(data.runtime.median()))
# +

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [9]:
answers['6'] = '5. ' + get_title(data[data.profit==data.profit.max()])
# +

# 7. Какой фильм самый убыточный? 

In [10]:
answers['7'] = '5. ' + get_title(data[data.profit==data.profit.min()])
# +

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [11]:
answers['8'] = '1. ' + str(data[data.profit>0].profit.count())
# +

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [12]:
data2008 = data[data.release_year==2008]
answers['9'] = '4. ' + get_title(data2008[data2008.revenue == data2008.revenue.max()])
# +

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [13]:
data_12_14 = data[(data.release_year>=2012) & (data.release_year<=2014)]
answers['10'] = '5. ' + get_title(data_12_14[data_12_14.profit == data_12_14.profit.min()])
# +

# 11. Какого жанра фильмов больше всего?

In [14]:
answers['11'] = '3. ' + joined_g.genres1.value_counts().sort_values(ascending=False).index[0]
# +

ВАРИАНТ 2

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [15]:
# Непонятно, как считать "чаще". Это - "больше"? Не вполне корректная постановка задачи.
answers['12'] = '1. ' + joined_g[joined_g.profit>0].groupby(['genres1'])['profit'].count().sort_values(ascending=False).index[0]
# +

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [16]:
answers['13'] = '5. ' + joined_d.groupby(['director1'])['revenue'].sum().sort_values(ascending=False).index[0] # +

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [17]:
dir_action = joined_d[joined_d.genres.str.contains('Action')].director1.value_counts().sort_values(ascending=False)
answers['14'] = '3. ' + dir_action.index[0]
# +

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [18]:
high_revenue = joined_c[joined_c.release_year==2012].groupby(['cast1'])['revenue'].sum().sort_values(ascending=False)
answers['15'] = '3. ' + high_revenue.index[0]
# +

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [19]:
# Что такое высокобюджетный фильм? Тот, чей бюджет выше среднего? Или входит в наивысший квартиль?
# Не вполне точная формулировка задачи. Можно бы и поаккуратнее формулировать.
joined_hb = data[data.budget > data.budget.mean()].merge(data_casts, on='imdb_id', how='inner')
answers['16'] = '3. ' + joined_hb.cast1.value_counts().sort_values(ascending=False).index[0]
# +

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [20]:
data_f = joined_c.merge(data_genres, on='imdb_id', how='inner')
g_NC = data_f[data_f.cast1=='Nicolas Cage'].genres1.value_counts().sort_values(ascending=False)
answers['17'] = '2. ' + g_NC.index[0]
# +

# 18. Самый убыточный фильм от Paramount Pictures

In [21]:
# Здесь лучше не парсить строку с компаниями, потому что в одну строку могут входить сама компания и ее дочки.
# Кстати, студия DreamWorks c 2005 года - тоже дочка Paramount. Так что, если есть установка на подсчет дочек,
# как, например, с Warner Bros., то надо с Paramount вместе после 2005 года считать и DreamWorks
# Опять неаккуратная постановка задачи.

paramount = data[data.production_companies.str.contains('Paramount')]
answers['18'] = '1. ' + get_title(paramount[paramount.profit == paramount.profit.min()])
# +

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [22]:
answers['19'] = '5. ' + str(data.groupby(['release_year'])['revenue'].sum().sort_values(ascending=False).index[0])
# +

# 20. Какой самый прибыльный год для студии Warner Bros?

In [23]:
# Здесь лучше не парсить строку с компаниями, потому что в одну строку могут входить сама компания и ее дочки
# Взято без Bros., потому что есть дочки данной компании без этого слова (но результат - тот же)
# Опять неаккуратная постановка задачи: например, в датасете есть Warner Independent Pictures (WIP) (без Bros.), 
# и есть дочка New Line Cinema. Как их считать? Почему вторую дочку не должны считать, если считаем первую?

warner = data[data.production_companies.str.contains('Warner')] 
answers['20'] = '1. ' + str(warner.groupby(['release_year'])['profit'].sum().sort_values(ascending=False).index[0])
# +

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [24]:
answers['21'] = '4. ' + get_month_name(data.month.value_counts().sort_values(ascending=False).index[0])
# +

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [25]:
answers['22'] = '2. ' + str(data[data.season == 'Лето'].imdb_id.count())
# +

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [26]:
# Некорректная формулировка. Самое продуктивное время - это тот сезон, в котором у данного режисера больше фильмов.
# Режиссеров, у которых зимой вышло фильмов больше, чем в каждом другом сезоне, целых 171. См. ниже в сводной таблице.
# Тут же вопрос подразумевал другой смысл: какой режиссер чаще всего встречается в зимних фильмах?

answers['23'] = '5. ' + joined_d[joined_d.season=='Зима'].director1.value_counts().sort_values(ascending=False).index[0]
# +

In [27]:
# Сводная таблица по режиссерам и сезонам
# pivot = joined_d.pivot_table(
# columns='season', 
# index='director1',
# values='imdb_id',
# aggfunc='count',
# fill_value=0)

# Выбираем режиссеров, у которых зимой фильмов больше, чем в другие сезоны
# pivot[(pivot.Зима>pivot.Лето) & (pivot.Зима>pivot.Весна) & (pivot.Зима>pivot.Осень)]

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [28]:
# Предполагается, что имеется в виду самое длинное среднее значение?
# Снова неточная постановка!
answers['24'] = '5. ' + joined_com.groupby(['production_companies1'])['title_len'].mean().sort_values(ascending=False).index[0]
# +

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [29]:
ov_len = joined_com.groupby(['production_companies1'])['overview_len'].mean().sort_values(ascending=False)
answers['25'] = '3. ' + ov_len.index[0]
# +

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [30]:
k = data.vote_average.quantile(0.99)
percent99 = data[data.vote_average > k].original_title.to_list()

str1 = 'Inside Out, The Dark Knight, 12 Years a Slave'
str2 ='BloodRayne,The Adventures of Rocky & Bullwinkle'
str3 = 'Batman Begins,The Lord of the Rings: The Return of the King,Upside Down'
str4 = '300, Lucky Number Slevin, Kill Bill: Vol. 1'
str5 = 'Upside Down,Inside Out,Iron Man'

if set(str1.split(', ')).issubset(percent99):
    answers['26'] = '1. ' + str1
elif set(str2.split(', ')).issubset(percent99):
    answers['26'] = '2. ' + str2
elif set(str2.split(', ')).issubset(percent99):
    answers['26'] = '3. ' + str3
elif set(str2.split(', ')).issubset(percent99):
    answers['26'] = '4. ' + str4
elif set(str2.split(', ')).issubset(percent99):
    answers['26'] = '5. ' + str5
else:
    answers['26'] = 'Нет ответа'
    
# +

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [31]:
# И опять неряшливая постановка задачи! Что имелось в виду - пары актеров или все возможные сочетания?
# Догадаться, что предполагались именно пары, можно лишь по предлагаемым ответам в тесте.
# А между прочим, есть и наболее встречающаяся тройка актеров все из того же "Гарри Поттера"

# Соединяем датасет с актерами сам с собой
joined_cc = data_casts.merge(data_casts, on='imdb_id', how='inner')
# Удаляем соединения одинаковых актеров
joined_cc = joined_cc[joined_cc.cast1_x != joined_cc.cast1_y]

# Делаем новый столбец с парой актеров. Актеры в паре идут по алфавиту, чтобы разные порядки их не образовывали новой пары
joined_cc['couple'] = joined_cc.apply(lambda x: min(x.cast1_x,x.cast1_y) + ' & ' + max(x.cast1_x,x.cast1_y), axis=1)
# Сортируем по частоте пар. Частоты задваиваются, но нам это неважно.
df = pd.DataFrame(joined_cc.couple.value_counts().sort_values(ascending=False))

# В общем, здесь решение уже кончилось. Этого достаточно. Но хочется проверить автоматически, а не вручную.
# Выбираем наиболее часто встречающиеся пары
dfMax = df[df.couple == df.couple.max()]

# Запоминаем проверяемые строки и создаем строку с результатом
str1 = 'Johnny Depp & Helena Bonham Carter'
str2 = 'Ben Stiller & Owen Wilson'
str3 = 'Vin Diesel & Paul Walker'
str4 = 'Adam Sandler & Kevin James'
str5 = 'Daniel Radcliffe & Rupert Grint'
res = 'Нет ответа'

# Пробегаем в цикле по индексам в датасете самых частых пар
# и каждую пару из датасета сравниваем с претендентом на ответ
for ind in dfMax.index:
    if set(str1.split(' & ')).issubset(ind.split(' & ')):
        res = '1. ' + str1
        break
    elif set(str2.split(' & ')).issubset(ind.split(' & ')):
        res = '2. ' + str2
        break
    elif set(str3.split(' & ')).issubset(ind.split(' & ')):
        res = '3. ' + str3
        break
    elif set(str4.split(' & ')).issubset(ind.split(' & ')):
        res = '4. ' + str4
        break
    elif set(str5.split(' & ')).issubset(ind.split(' & ')):
        res = '5. ' + str5
        break
        
answers['27'] = res
# +

ВАРИАНТ 2

# Submission

In [32]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '2. Gods and Generals (tt0279111)',
 '3': '3. Winnie the Pooh (tt1449283)',
 '4': '2. 110',
 '5': '1. 107',
 '6': '5. Avatar (tt0499549)',
 '7': '5. The Lone Ranger (tt1210819)',
 '8': '1. 1478',
 '9': '4. The Dark Knight (tt0468569)',
 '10': '5. The Lone Ranger (tt1210819)',
 '11': '3. Drama',
 '12': '1. Drama',
 '13': '5. Peter Jackson',
 '14': '3. Robert Rodriguez',
 '15': '3. Chris Hemsworth',
 '16': '3. Matt Damon',
 '17': '2. Action',
 '18': '1. K-19: The Widowmaker (tt0267626)',
 '19': '5. 2015',
 '20': '1. 2014',
 '21': '4. Сентябрь',
 '22': '2. 450',
 '23': '5. Peter Jackson',
 '24': '5. Four By Two Productions',
 '25': '3. Midnight Picture Show',
 '26': '1. Inside Out, The Dark Knight, 12 Years a Slave',
 '27': '5. Daniel Radcliffe & Rupert Grint'}

In [33]:
# и убедиться что ничего не пропустил)
len(answers)

27