In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
import itertools

In [2]:
data = pd.read_csv('movie_bd_v5.csv')

In [3]:
#data.sample(5)

In [4]:
#data.describe()

In [5]:
data.columns

Index(['imdb_id', 'budget', 'revenue', 'original_title', 'cast', 'director',
       'tagline', 'overview', 'runtime', 'genres', 'production_companies',
       'release_date', 'vote_average', 'release_year'],
      dtype='object')

# Предобработка

In [73]:
answers = {} # create a dictionary for answers


'''Creation of some additional columns.'''

data['profit'] = data.revenue - data.budget

data['release_month'] = data.release_date.apply(lambda s: int(s.split('/')[0]))

data['title_len'] = data.original_title.apply(len)

data['overview_len'] = data.overview.apply(lambda x: len(x.split(' ')))


'''Formating answer to "original_title (imdb_id)" - pattern.'''

def movie_answer (s):
    s = s[['original_title', 'imdb_id']].squeeze()
    return '{} ({})'.format(s[0], s[1])


'''Creation a series which includes all the elements of every cell.'''

def common_series (s):
    string = s.str.cat(sep='|')
    return pd.Series(string.split('|'))


'''Making a duplicate of information in single_info_cell (1) 
for according to the correspondent multi_info_cell (0).'''

def multi_cell(s):
    n = len(s[0].split('|'))
    s[1] = str(s[1])
    s[1] = s[1] + ('|' + s[1])*(n-1)
    return s


'''Making a data frame which consist all the elements of every cell 
of multi_column (first column) and correspondent information 
from single_column for every element (second column).'''

def multi_df(df, multi_col, single_col):
    df = df[[multi_col, single_col]]
    df = df.apply(multi_cell, axis = 1)
    d = {multi_col: common_series(df[multi_col]).tolist(), \
     single_col: common_series(df[single_col]).tolist()}
    return pd.DataFrame(data = d)


'''List of month russian names.'''

rus_months = ['Январь', 'Февраль', 'Март', 'Апрель', 'Май', 'Июнь',\
              'Июль', 'Август', 'Сентябрь', 'Октябрь', 'Ноябрь', 'Декабрь']

'''Constraction of actor pairs who took a part in common movie.'''

def all_pairs(s):
    all_cast = sorted(s.split('|'))
    pairs = list(itertools.combinations(all_cast,2))
    return pairs

# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [7]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)' # +

In [8]:
answer = data[data.budget == data.budget.max()]
movie_answer(answer)

'Pirates of the Caribbean: On Stranger Tides (tt1298650)'

ВАРИАНТ 2

In [9]:
answer = data[['original_title', 'imdb_id', 'budget']][data.budget == data.budget.max()]
movie_answer(answer)

'Pirates of the Caribbean: On Stranger Tides (tt1298650)'

# 2. Какой из фильмов самый длительный (в минутах)?

In [10]:
answers['2'] = 'Gods and Generals (tt0279111)' # +

In [11]:
answer = data[data.runtime == data.runtime.max()]
movie_answer(answer)

'Gods and Generals (tt0279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [12]:
answers['3'] = 'Winnie the Pooh (tt1449283)' # +

In [13]:
answer = data[data.runtime == data.runtime.min()]
movie_answer(answer)

'Winnie the Pooh (tt1449283)'

# 4. Какова средняя длительность фильмов?


In [14]:
answers['4'] = 110 # +

In [15]:
data.runtime.mean().round()

110.0

# 5. Каково медианное значение длительности фильмов? 

In [16]:
answers['5'] = 107 # +

In [17]:
data.runtime.median().round()

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [18]:
answers['6'] = 'Avatar (tt0499549)' # +

In [19]:
answer = data[data.profit == data.profit.max()]
movie_answer(answer)

'Avatar (tt0499549)'

# 7. Какой фильм самый убыточный? 

In [20]:
answers['7'] = 'The Lone Ranger (tt1210819)' # +

In [21]:
answer = data[data.profit == data.profit.min()]
movie_answer(answer)

'The Lone Ranger (tt1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [22]:
answers['8'] = 1478 # +

In [23]:
data[data.profit > 0].count()[0]

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [24]:
answers['9'] = 'The Dark Knight (tt0468569)' # +

In [25]:
answer = data[data.release_year == 2008]
answer = answer[answer.profit == answer.profit.max()]
movie_answer(answer)

'The Dark Knight (tt0468569)'

второй вариант

In [26]:
answer = data[data.release_year == 2008]
answer = answer.sort_values(['profit'], ascending = False).iloc[0]
movie_answer(answer)

'The Dark Knight (tt0468569)'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [27]:
answers['10'] = 'The Lone Ranger (tt1210819)' # +

In [28]:
answer = data[(data.release_year >= 2012) & (data.release_year <= 2014)]
answer = answer.sort_values(['profit']).iloc[0]
movie_answer(answer)

'The Lone Ranger (tt1210819)'

# 11. Какого жанра фильмов больше всего?

In [29]:
answers['11'] = 'Drama' # +

In [30]:
common_series(data.genres).value_counts().index[0]

'Drama'

ВАРИАНТ 2

In [31]:
genres_count = {}

for film in data.genres:
    for genre in film.split('|'):
        if genre in genres_count.keys():
            genres_count[genre] += 1
        else:
            genres_count[genre] = 1

s = pd.Series(genres_count)
s[s == s.max()].index

Index(['Drama'], dtype='object')

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [32]:
answers['12'] = 'Drama' # +

In [33]:
common_series(data[data.profit > 0].genres).value_counts().index[0]

'Drama'

# 13. У какого режиссёра самые большие суммарные кассовые сбооры?

In [34]:
answers['13'] = 'Peter Jackson' # +

In [35]:
df = multi_df(data, 'director','revenue')
df.revenue = pd.to_numeric(df.revenue)
df.groupby(['director'])['revenue'].sum().sort_values(ascending = False).index[0]

'Peter Jackson'

второй вариант

In [36]:
revenues = {}
df = data[['director','revenue']]

for s in df.iterrows():
    for d in s[1].director.split('|'):
        if d in revenues:
            revenues[d] += s[1].revenue
        else:
            revenues[d] = s[1].revenue

s = pd.Series(revenues)
s[s == s.max()].index

Index(['Peter Jackson'], dtype='object')

# 14. Какой режиссёр снял больше всего фильмов в стиле Action?

In [37]:
answers['14'] = 'Robert Rodriguez' # +

In [38]:
action_movies = data[data.genres.str.contains('Action')]
common_series(action_movies.director).value_counts().index[0]

'Robert Rodriguez'

# 15. Фильмы с каким актёром принесли самые высокие кассовые сборы в 2012 году? 

In [39]:
answers['15'] = 'Chris Hemsworth' # +

In [40]:
df = data[data.release_year == 2012][['cast','revenue']]

df = multi_df(df, 'cast','revenue')
df.revenue = pd.to_numeric(df.revenue)

df.groupby(['cast'])['revenue'].sum().sort_values(ascending = False).index[0]

'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [41]:
answers['16'] = 'Matt Damon' # +

In [42]:
s = data[data.budget > data.budget.mean()].cast
s = common_series(s)
s.value_counts().index[0]

'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [43]:
answers['17'] = 'Action' # +

In [44]:
s = data[data.cast.str.contains('Nicolas Cage')].genres
s = common_series(s)
s.value_counts().index[0]

'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [45]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)' # +

In [46]:
df = data[data.production_companies.str.contains('Paramount Pictures')]
movie_answer(df[df.profit == df.profit.min()])

'K-19: The Widowmaker (tt0267626)'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [47]:
answers['19'] = 2015 # +

In [48]:
df = data.groupby('release_year').revenue.sum()
df.sort_values(ascending = False).index[0]

2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [49]:
answers['20'] = 2014 # +

In [50]:
df = data[data.production_companies.str.contains('Warner Bros')]
df = df.groupby('release_year').revenue.sum()
df.sort_values(ascending = False).index[0]

2014

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [51]:
answers['21'] = 'Сентябрь' # +

In [74]:
s = data.release_month.value_counts()
rus_months[s.sort_values(ascending = False).index[0]-1]

'Сентябрь'

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [53]:
answers['22'] = 450 # +

In [54]:
data.release_month[(data.release_month == 6)|\
                   (data.release_month == 7)|\
                   (data.release_month == 8)].count()

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [55]:
answers['23'] = 'Peter Jackson' # +

In [56]:
s = data[(data.release_month == 1)|\
         (data.release_month == 2)|\
         (data.release_month == 12)].director
common_series(s).value_counts().sort_values(ascending = False).index[0]

'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [57]:
answers['24'] = 'Four By Two Productions' # +

In [58]:
df = multi_df(data, 'production_companies','title_len')
df.title_len = pd.to_numeric(df.title_len)

df.groupby(['production_companies'])['title_len'].mean().sort_values(ascending = False).index[0]

'Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [59]:
answers['25'] = 'Midnight Picture Show' # +

In [60]:
df = multi_df(data, 'production_companies', 'overview_len')
df.overview_len = pd.to_numeric(df.overview_len)

df.groupby(['production_companies'])['overview_len'].mean().sort_values(ascending = False).index[0]

'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [61]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave' # +

In [62]:
min_rating = np.quantile(data.vote_average, 0.99)
answer = data[data.vote_average >= min_rating].original_title.sort_values()

второй вариант

In [63]:
n = int(len(data)/100)+1 # ~1%
min_rating = data.vote_average.nlargest(n).sort_values().values[0]
answer = data[data.vote_average >= min_rating].original_title.sort_values()

In [64]:
answer

1191                                     12 Years a Slave
316                                              3 Idiots
124                                            Big Hero 6
1213                                   Dallas Buyers Club
1563                Eternal Sunshine of the Spotless Mind
128                                             Gone Girl
119                               Guardians of the Galaxy
1188                                                  Her
370                                             Inception
9                                              Inside Out
118                                          Interstellar
1800                                              Memento
283                                            Mr. Nobody
1205                                            Prisoners
34                                                   Room
28                                              Spotlight
599                                       The Dark Knight
177           

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [65]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint' # +

In [66]:
s = data.cast[data.cast.str.contains('|')]

s = s.apply(all_pairs).tolist()

pairs_count = {}
for movie in s:
    for pair in movie:
        if pair in pairs_count:
            pairs_count[pair] += 1
        else:
            pairs_count[pair] = 1

s = pd.Series(pairs_count)
s[s == s.max()].index

MultiIndex([('Daniel Radcliffe',  'Emma Watson'),
            ('Daniel Radcliffe', 'Rupert Grint'),
            (     'Emma Watson', 'Rupert Grint')],
           )

ВАРИАНТ 2

In [67]:
s = data.cast[data.cast.str.contains('|')]

s = s.apply(all_pairs).tolist()

pairs = []
for movie in s:
    for pair in movie:
        pairs.append(pair)

s = pd.Series(pairs).value_counts()
s[s == s.max()].index

Index([('Daniel Radcliffe', 'Rupert Grint'),
            ('Emma Watson', 'Rupert Grint'),
        ('Daniel Radcliffe', 'Emma Watson')],
      dtype='object')

# Submission

In [68]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': 110,
 '5': 107,
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': 1478,
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': 2015,
 '20': 2014,
 '21': 'Сентябрь',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [69]:
# и убедиться что ни чего не пропустил)
len(answers)

27