In [86]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
import datetime as dt
import itertools as itt

In [128]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5) # Позволяет увидеть 5 случайных строк 

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1315,tt0434409,54000000,132511035,V for Vendetta,Natalie Portman|Hugo Weaving|Stephen Rea|Steph...,James McTeigue,People should not be afraid of their governmen...,In a world in which Great Britain has become a...,132,Action|Thriller|Fantasy,Studio Babelsberg|DC Comics|Virtual Studios|An...,12/11/2005,7.6,2005
473,tt0872230,25000000,19829957,My Soul to Take,Max Thieriot|John Magaro|Denzel Whitaker|Zena ...,Wes Craven,Only One Has The Power To Save Their Souls,A serial killer returns to his hometown to sta...,107,Drama|Horror|Mystery|Thriller,Relativity Media|Rogue,10/8/2010,5.2,2010
1272,tt2334873,18000000,97505481,Blue Jasmine,Cate Blanchett|Alec Baldwin|Sally Hawkins|Bobb...,Woody Allen,Blue Moon. I used to know the words. Now they'...,Jasmine French used to be on the top of the he...,98,Comedy|Drama,Perdido Productions,7/25/2013,6.9,2013
294,tt1144884,40000000,186167139,The Final Destination,Bobby Campo|Shantel VanSanten|Nick Zano|Haley ...,David R. Ellis,Rest In Pieces,After a young man's premonition of a deadly ra...,82,Horror|Mystery,New Line Cinema|Practical Pictures|Parallel Zide,8/26/2009,5.5,2009
1688,tt0469494,25000000,76181545,There Will Be Blood,Daniel Day-Lewis|Paul Dano|Dillon Freasier|Cia...,Paul Thomas Anderson,There Will Be Greed. There Will Be Vengeance.,"When ruthless oil prospector, Daniel Plainview...",158,Drama,Miramax Films|Ghoulardi Film Company|Paramount...,12/28/2007,7.8,2007


In [None]:
data.describe() 

# Предобработка

In [129]:

# Добавим новую колонку профита
data['profit'] = data.revenue - data.budget

# Добавим колонку месяца релиза
data["release_date"] = pd.to_datetime(data["release_date"])
data["month"] = data["release_date"].dt.month

# создадим столбец с длиной названия
data['title_length'] = data['original_title'].map(lambda x: len(x))

#создадим столбец с кол-вом слов описания
data.overview = data.overview.str.split(' ')
words_count = []
for i in data.overview:
  words_count.append(len(i))
data['overview_words_count'] = words_count

def stringtolist(string):
  '''Функция разделения строк в сериях'''

  """Позволяет разделить каждую строку в серии по определённому символу,
   который чаще всего встречается в данном датафрейме"""
    result = string.str.split('|')
    return result

# 1. У какого фильма из списка самый большой бюджет?

In [89]:
data[data.budget == data.budget.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,title_length
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000,5,43


# 2. Какой из фильмов самый длительный (в минутах)?

In [None]:
data[data.runtime == data.runtime.max()]

# 3. Какой из фильмов самый короткий (в минутах)?





In [None]:
data[data.runtime == data.runtime.min()]

# 4. Какова средняя длительность фильмов?


In [92]:
data.runtime.mean()

109.6585494970884

# 5. Каково медианное значение длительности фильмов? 

In [93]:
data.runtime.median()

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [95]:
data[data.profit == data.profit.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,title_length
239,tt0499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847,12,6


# 7. Какой фильм самый убыточный? 

In [None]:
data[data.profit == data.profit.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,7/3/2013,6.0,2013,-165710090


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [None]:
len(data[data.profit > 0])

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [97]:
maxrevenue = data[data.release_year == 2008].revenue.max()
data[(data.release_year == 2008) & (data.revenue == maxrevenue)]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,title_length
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825,7,15


# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [99]:
data[data.profit == data[(data.release_year < 2015)
 & (data.release_year > 2011)].profit.min()
 ]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,title_length
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090,7,15


# 11. Какого жанра фильмов больше всего?

In [100]:
Counter(data.genres.str.split('|').sum()).most_common(1)

[('Drama', 782)]

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [101]:
Counter(data[data.profit > 0].genres.str.split('|').sum()).most_common(1)

[('Drama', 560)]

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [102]:
data.groupby('director')['revenue'].agg(['sum']).sort_values('sum', ascending=False)

Unnamed: 0_level_0,sum
director,Unnamed: 1_level_1
Peter Jackson,6490593685
Christopher Nolan,4167548502
David Yates,4154295625
Michael Bay,3886938960
J.J. Abrams,3579169916
...,...
David MichÃ´d,2295423
Steven Shainberg,2281089
Paul Schrader,2062066
Keanu Reeves,2054941


# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [103]:
action_movies = data[data.genres.str.contains('Action', na=False)]
Counter(action_movies.director.str.split('|').sum()).most_common(1)

[('Robert Rodriguez', 9)]

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [15]:
maxrevenue = data[data.release_year == 2012].revenue.max()

Counter(data[(data.release_year == 2012)
 & (data.revenue == maxrevenue)].cast.str.split('|').sum()).most_common()


[('Robert Downey Jr.', 1),
 ('Chris Evans', 1),
 ('Mark Ruffalo', 1),
 ('Chris Hemsworth', 1),
 ('Scarlett Johansson', 1)]

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [105]:
Counter(data[data.budget > data.budget.mean()].cast.str.split('|').sum()).most_common(1)

[('Matt Damon', 18)]

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [106]:
Counter(data[data.cast.str.contains('Nicolas Cage', na=False)].genres.str.split('|').sum()).most_common(1)

[('Action', 17)]

# 18. Самый убыточный фильм от Paramount Pictures

In [29]:
data[(data.production_companies.str.contains('Paramount Pictures', na=False)) & (data.profit == -64831034)]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
925,tt0267626,100000000,35168966,K-19: The Widowmaker,Harrison Ford|Liam Neeson|Peter Sarsgaard|Joss...,Kathryn Bigelow,Fate has found its hero.,When Russia's first nuclear submarine malfunct...,138,Thriller|Drama|History,Paramount Pictures|Intermedia Films|National G...,7/19/2002,6.0,2002,-64831034


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [None]:

data.groupby('release_year')['revenue'].agg(['sum']).sort_values('sum', ascending=False)

# 20. Какой самый прибыльный год для студии Warner Bros?

In [None]:
wb_movies = data[data.production_companies.str.contains('Warner Bros', na=False)]
wb_movies.groupby('release_year')['revenue'].agg(['sum']).sort_values('sum', ascending=False)

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [43]:
data.month.value_counts()

9     227
12    190
10    186
8     161
3     156
4     149
6     147
11    146
7     142
5     140
2     135
1     110
Name: month, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [49]:
len(data[(data.month > 5) & (data.month < 9)])

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [75]:

data_23 = data[(data.month < 3) | (data.month == 12)]
Counter(data_23.director.str.split('|').sum()).most_common(1)

[('Peter Jackson', 7)]

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [73]:
companies = data['production_companies'].str.split('|').explode().unique() # получим список уникальных названий компаний
sum_gen = pd.Series(dtype='float64', index=companies) # создадим серию для хранения средних значений
# по всему датафрейму для каждой из компаний вычислим среднее значение для всех названий фильмов созданных компанией
for comp in companies:
    sum_gen[comp] = data['title_length'][data['production_companies'].map(lambda x: True if comp in x else False)].mean()
# получим топ-5
sum_gen.sort_values(ascending=False).head()

Four By Two Productions      83.0
Jim Henson Company, The      59.0
Dos Corazones                47.0
Museum Canada Productions    46.0
Polsky Films                 46.0
dtype: float64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [130]:
companies = data['production_companies'].str.split('|').explode().unique() # получим список уникальных названий компаний
sum_gen = pd.Series(dtype='float64', index=companies) # создадим серию для хранения средних значений

# по всему датафрейму для каждой из компаний вычислим среднее значение всех слов в описаниях созданных компанией
for comp in companies:
    sum_gen[comp] = data['overview_words_count'][data['production_companies'].map(lambda x: True if comp in x else False)].mean()
# получим топ-5
sum_gen.sort_values(ascending=False).head()

Midnight Picture Show               175.0
Heineken Branded Entertainment      161.0
Room 9 Entertainment                161.0
98 MPH Productions                  159.0
Brookwell-McNamara Entertainment    156.0
dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [None]:
# Сначала посмотрим с какой оценки начинаются лучшие фильмы
the_best_movis = data.vote_average.value_counts(normalize=True,
                                                sort=False, bins=100).tail(10)
data.loc[data['vote_average'] > the_best_movis.index[5].left]

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


ВАРИАНТ 2

In [71]:
data = pd.read_csv('movie_bd_v5.csv')
data['cast'] = stringtolist(data['cast'])
actor_pairs = []
for i in range(0, len(data)):
    for item in itt.combinations(data['cast'][i], 2):
        actor_pairs.append(item)
Counter(actor_pairs).most_common(1)

[(('Daniel Radcliffe', 'Rupert Grint'), 8)]