In [1]:
import numpy as np
import pandas as pd
from itertools import combinations

In [2]:
data = pd.read_csv('movie_bd_v5.xls')

# Предобработка

In [3]:
answers = {} # Создадим словарь для ответов
data['profit'] = data['revenue'] - data['budget'] # Создание столбца profit
data['release_date'] = pd.to_datetime(data['release_date']) # Даты
data['month'] = data['release_date'].dt.month # Месяцы
data['title_count'] = data['original_title'].apply(len) # длина названия
data['count_words'] = data['overview'].str.split(' ').apply(len) # слов в описании

# 1. У какого фильма из списка самый большой бюджет?

In [4]:
data[data.budget == data.budget.max()]['original_title']

723    Pirates of the Caribbean: On Stranger Tides
Name: original_title, dtype: object

In [5]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides'

# 2. Какой из фильмов самый длительный (в минутах)?

In [6]:
data[data.runtime == data.runtime.max()]['original_title']

1157    Gods and Generals
Name: original_title, dtype: object

In [7]:
answers['2'] = 'Gods and Generals'

# 3. Какой из фильмов самый короткий (в минутах)?

In [8]:
data[data.runtime == data.runtime.min()]['original_title']

768    Winnie the Pooh
Name: original_title, dtype: object

In [9]:
answers['3'] = 'Winnie the Pooh'

# 4. Какова средняя длительность фильмов?

In [10]:
round(data.runtime.mean())

110

In [11]:
answers['4'] = '110'

# 5. Каково медианное значение длительности фильмов? 

In [12]:
data.describe()['runtime']['50%']

107.0

In [13]:
answers['5'] = '107'

# 6. Какой самый прибыльный фильм?

In [14]:
data[data['profit'] == data['profit'].max()]['original_title']

239    Avatar
Name: original_title, dtype: object

In [15]:
answers['6'] = 'Avatar'

# 7. Какой фильм самый убыточный? 

In [16]:
data[data['profit'] == data['profit'].min()]['original_title']

1245    The Lone Ranger
Name: original_title, dtype: object

In [17]:
answers['7'] = 'The Lone Ranger'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [18]:
len(data[data['revenue'] > data['budget']])

1478

In [19]:
answers['8'] = '1478'

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [20]:
film_2008 = data[data['release_year'] == 2008] # 2008 год

In [21]:
film_2008[film_2008['revenue'] == film_2008['revenue'].max()]['original_title'] # оказался самым кассовым

599    The Dark Knight
Name: original_title, dtype: object

In [22]:
answers['9'] = 'The Dark Knight'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?

In [23]:
films = data[(data['release_year']>= 2012) & (data['release_year']<=2014)] # период с 2012 по 2014

In [24]:
films[films['profit'] == films['profit'].min()]['original_title'] # убыточный фильм

1245    The Lone Ranger
Name: original_title, dtype: object

In [25]:
answers['10'] = 'The Lone Ranger'

# 11. Какого жанра фильмов больше всего?

In [26]:
genres = data['genres'].str.cat(sep='|').split('|') # Список жанров

In [27]:
pd.Series(genres).value_counts().head(1)

Drama    782
dtype: int64

In [28]:
answers['11'] = 'Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [29]:
profit_film = data[data['profit'] > 0]

In [30]:
genres = profit_film['genres'].str.cat(sep='|').split('|')

In [31]:
pd.Series(genres).value_counts().head(1)

Drama    560
dtype: int64

In [32]:
answers['12'] = 'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [33]:
data.groupby(['director'])['revenue'].sum().sort_values(ascending=False).head(1)

director
Peter Jackson    6490593685
Name: revenue, dtype: int64

In [34]:
answers['13'] = 'Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [35]:
action = data[data.genres.map(lambda x: 'Action' in x)][['director']]
directors = action.director.str.cat(sep='|').split('|')
pd.Series(directors).value_counts().head(1)

Robert Rodriguez    9
dtype: int64

In [36]:
answers['14'] = 'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [37]:
films = data[data['release_year'] == 2012]

In [38]:
casts = set(films['cast'].str.cat(sep='|').split('|'))

In [39]:
pd.Series({x: sum(films[films.cast.str.contains(x)].revenue) for x in casts}).sort_values(ascending=False).head(1)

Chris Hemsworth    2027450773
dtype: int64

In [40]:
answers['15'] = 'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [41]:
casts = set(data['cast'].str.cat(sep='|').split('|'))

In [42]:
films = data[data['budget'] > data['budget'].mean()]

In [43]:
pd.Series(films['cast'].str.cat(sep='|').split('|')).value_counts().head(1)

Matt Damon    18
dtype: int64

In [44]:
answers['16'] = 'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [45]:
genres = data[data['cast'].str.contains('Nicolas Cage')].genres

In [46]:
pd.Series(genres.str.cat(sep='|').split('|')).value_counts().head(1)

Action    17
dtype: int64

In [47]:
answers['17'] = 'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [48]:
company = data[data['production_companies'].str.contains('Paramount Pictures')]

In [49]:
company[company['profit'] == company['profit'].min()].original_title

925    K-19: The Widowmaker
Name: original_title, dtype: object

In [50]:
answers['18'] = 'K-19: The Widowmaker'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [51]:
data.groupby('release_year').sum().sort_values('revenue', ascending=False).revenue.head()

release_year
2015    25449202382
2014    23405862953
2013    23213799791
2012    23079001687
2011    22676791872
Name: revenue, dtype: int64

In [52]:
answers['19'] = '2015'

# 20. Какой самый прибыльный год для студии Warner Bros?

In [53]:
company = data[data['production_companies'].str.contains('Warner Bros')]

In [54]:
company.groupby('release_year').sum().sort_values('profit', ascending=False).profit.head()

release_year
2014    2295464519
2007    2201675217
2008    2134595031
2010    1974712985
2011    1871393682
Name: profit, dtype: int64

In [55]:
answers['20'] ='2014'

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [56]:
data['month'].value_counts().sort_values(ascending=False).head(1)

9    227
Name: month, dtype: int64

In [57]:
answers['21'] = 'Сентябрь'

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [58]:
len(data[(data['month'] > 5) & (data['month'] < 9)])

450

In [59]:
answers['22'] = '450'

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [60]:
winter = data[(data['month'] == 12) | (data['month'] == 1) | (data['month'] == 2)]

In [61]:
directors = winter['director'].str.cat(sep='|').split('|')

In [62]:
pd.Series(directors).value_counts().head(1)

Peter Jackson    7
dtype: int64

In [63]:
answers['23'] = 'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [64]:
companies = set(data['production_companies'].str.cat(sep='|').split('|'))

In [65]:
pd.Series([data[data['production_companies'].str.contains(company)]['title_count'].mean() for company in companies], 
          index = companies).sort_values(ascending=False).head(1)

  return func(self, *args, **kwargs)


Four By Two Productions    83.0
dtype: float64

In [66]:
answers['24'] = 'Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [67]:
companies = set(data['production_companies'].str.cat(sep='|').split('|'))

In [68]:
pd.Series([data[data['production_companies'].str.contains(company)]['count_words'].mean() for company in companies], 
          index = companies).sort_values(ascending=False).head(1)

Midnight Picture Show    175.0
dtype: float64

In [69]:
answers['25'] = 'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 

In [70]:
data[['original_title', 'vote_average']].sort_values('vote_average', ascending=False).head(10)

Unnamed: 0,original_title,vote_average
599,The Dark Knight,8.1
118,Interstellar,8.0
125,The Imitation Game,8.0
9,Inside Out,8.0
34,Room,8.0
1183,The Wolf of Wall Street,7.9
128,Gone Girl,7.9
1191,12 Years a Slave,7.9
119,Guardians of the Galaxy,7.9
1081,The Lord of the Rings: The Return of the King,7.9


In [71]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?

In [72]:
casts = data[['cast']]
frequency = pd.Series()

for index, row in casts.iterrows():
    cast = sorted(row[0].split('|'))
    pairs = ['|'.join(pair) for pair in combinations(cast, 2)]
    for pair in pairs:
        if pair in frequency.index:
            frequency[pair] += 1
        else:
            frequency[pair] = 1

frequency.sort_values(ascending=False).head()

  


Emma Watson|Rupert Grint            8
Daniel Radcliffe|Rupert Grint       8
Daniel Radcliffe|Emma Watson        8
Helena Bonham Carter|Johnny Depp    6
Ben Stiller|Owen Wilson             6
dtype: int64

In [73]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint'

# Submission

In [74]:
answers # Вопрос: ответ

{'1': 'Pirates of the Caribbean: On Stranger Tides',
 '2': 'Gods and Generals',
 '3': 'Winnie the Pooh',
 '4': '110',
 '5': '107',
 '6': 'Avatar',
 '7': 'The Lone Ranger',
 '8': '1478',
 '9': 'The Dark Knight',
 '10': 'The Lone Ranger',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker',
 '19': '2015',
 '20': '2014',
 '21': 'Сентябрь',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [75]:
len(answers) # Количество ответов

27