In [248]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from datetime import datetime
from itertools import combinations

In [249]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1889 entries, 0 to 1888
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   imdb_id               1889 non-null   object 
 1   budget                1889 non-null   int64  
 2   revenue               1889 non-null   int64  
 3   original_title        1889 non-null   object 
 4   cast                  1889 non-null   object 
 5   director              1889 non-null   object 
 6   tagline               1889 non-null   object 
 7   overview              1889 non-null   object 
 8   runtime               1889 non-null   int64  
 9   genres                1889 non-null   object 
 10  production_companies  1889 non-null   object 
 11  release_date          1889 non-null   object 
 12  vote_average          1889 non-null   float64
 13  release_year          1889 non-null   int64  
dtypes: float64(1), int64(4), object(9)
memory usage: 206.7+ KB


In [250]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [251]:
answers = {} # создадим словарь для ответов

# преобразование колонки release_date из строки в дату
data.release_date=data.release_date.apply(lambda x: datetime.strptime(x, "%m/%d/%Y"))

# под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. 
#(прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget)
data['profit']=data['revenue']-data['budget'] # Добавляем новый столбец profit

# функция для подсчёта слов в тексте
def count_w(x):
    list_of_lists = [] # пустой список для подсчёта слов
    for line in x: 
        line = line.split() # отделяем слово от строки
        list_of_lists.append(line) # добавляем слово в список
    return len(list_of_lists) # возвращаем кол-во списка

# 1. У какого фильма из списка самый большой бюджет?

In [252]:
# в словарь вставляем номер вопроса и ответ на него
answers['1'] = '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)'#+

In [253]:
# вариант решения №1. Поиск максимума в столбце budget (бюджет):
data[data.budget==data.budget.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000


ВАРИАНТ 2

In [254]:
# вариант решения №2. Фильтрация через query:
data.query('budget==budget.max()')

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000


# 2. Какой из фильмов самый длительный (в минутах)?

In [255]:
answers['2'] = '2. Gods and Generals (tt0279111)'#+

In [256]:
# вариант решения №1. поиск максимума в столбце runtime (продолжительность):
data[data.runtime==data.runtime.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1157,tt0279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064


In [257]:
# вариант решения №2:
data.query('runtime==runtime.max()')

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1157,tt0279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064


# 3. Какой из фильмов самый короткий (в минутах)?





In [258]:
answers['3'] = '3. Winnie the Pooh (tt1449283)'#+

In [259]:
# вариант решения №1. поиск минимума в столбце runtime (продолжительность):
data[data.runtime==data.runtime.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
768,tt1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000


In [260]:
# вариант решения №2:
data.query('runtime==runtime.min()')

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
768,tt1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000


# 4. Какова средняя длительность фильмов?


In [261]:
answers['4'] = '2. 110'#+

In [262]:
# находим среднее значение в колонке runtime (продолжительность):
data.runtime.mean()

109.6585494970884

# 5. Каково медианное значение длительности фильмов? 

In [263]:
answers['5'] = '1. 107' #+

In [264]:
# находим медианное значение в колонке runtime (продолжительность):
data.runtime.median()

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [265]:
answers['6'] = '5. Avatar (tt0499549)' #+

In [266]:
# вариант решения №1. Поиск максимума в столбце profit (прибыль/убытки):
data[data.profit==data.profit.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
239,tt0499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847


In [267]:
# вариант решения №2:
data.query('profit==profit.max()')

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
239,tt0499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847


# 7. Какой фильм самый убыточный? 

In [268]:
answers['7'] = '5. The Lone Ranger (tt1210819)' #+

In [269]:
# вариант решения №1. поиск минимума в столбце profit (прибыль/убытки):
data[data.profit==data.profit.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


In [270]:
# вариант решения №2:
data.query('profit==profit.min()')

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [271]:
answers['8'] = '1. 1478' #+

In [272]:
# подсчитываем количество строк, у которых сборы > бюджета:
data[data.revenue>data.budget].count()

imdb_id                 1478
budget                  1478
revenue                 1478
original_title          1478
cast                    1478
director                1478
tagline                 1478
overview                1478
runtime                 1478
genres                  1478
production_companies    1478
release_date            1478
vote_average            1478
release_year            1478
profit                  1478
dtype: int64

In [273]:
# вариант решения №2:
data.query('revenue>budget').count()

imdb_id                 1478
budget                  1478
revenue                 1478
original_title          1478
cast                    1478
director                1478
tagline                 1478
overview                1478
runtime                 1478
genres                  1478
production_companies    1478
release_date            1478
vote_average            1478
release_year            1478
profit                  1478
dtype: int64

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [274]:
answers['9'] = '4. The Dark Knight (tt0468569)' #+

In [275]:
# находим максимум в revenue (сборы) в выборке за 2008 год:
data[data['revenue']==data[data['release_year']==2008].revenue.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825


# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [276]:
answers['10'] = '5. The Lone Ranger (tt1210819)' #+

In [277]:
# находим минимум в profit (прибыль/убытки) в выборке за 2012-2014 года:
data[data['profit']==data[(data['release_year']>=2012)&(data['release_year']<=2014)].profit.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


# 11. Какого жанра фильмов больше всего?

In [278]:
answers['11'] = '3. Drama' #+

In [279]:
# разбиваем столбец genres на жанры, затем группируем их:
data['genres'].str.split('|').explode().value_counts()

Drama              782
Comedy             683
Thriller           596
Action             582
Adventure          415
Crime              315
Romance            308
Family             260
Science Fiction    248
Fantasy            222
Horror             176
Mystery            168
Animation          139
Music               64
History             62
War                 58
Western             19
Documentary          8
Foreign              2
Name: genres, dtype: int64

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [280]:
answers['12'] = '1. Drama' #+

In [281]:
# делаем выборку фильмов, у которых сборы выше бюджета; 
# затем разбиваем genres на жанры и группируем их:
data[data['profit']>0]['genres'].str.split('|').explode().value_counts()

Drama              560
Comedy             551
Thriller           446
Action             444
Adventure          337
Romance            242
Crime              231
Family             226
Science Fiction    195
Fantasy            188
Horror             150
Animation          120
Mystery            119
Music               47
History             46
War                 41
Western             12
Documentary          7
Name: genres, dtype: int64

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [282]:
answers['13'] = '5. Peter Jackson' #+

In [283]:
df=data.copy() # копируем датафрейм в новую переменную
df['director'] = df.director.str.split('|') # разбиваем director на режиссёров
df=df.explode('director') # теперь одна строка - один режиссёр
df.groupby(['director'])['revenue'].sum().sort_values(ascending=False) # группируем прибыль по режиссёрам и сортируем

director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
                        ...    
David MichÃ´d           2295423
Steven Shainberg        2281089
Paul Schrader           2062066
Keanu Reeves            2054941
Simon Hunter            2033165
Name: revenue, Length: 997, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [284]:
answers['14'] = '3. Robert Rodriguez' #+

In [285]:
# вариант №1. "Замороченный"
df = data.copy() # копируем датафрейм в новую переменную
df['director'] = df.director.str.split('|') # разбиваем director на режиссёров
df['genres'] = df.genres.str.split('|') # разбиваем genres на жанры
df = df.explode('director').explode('genres') # теперь одна строка - один режиссёр и один жанр
df = df.reset_index() # назначаем индексы по-новой
df_action = df[df.genres=='Action'] # в новой переменной выборка по жанру Action
# группируем по режиссёрам и подсчитываем кол-во фильмов:
df_action.groupby(['director'])['imdb_id'].count().sort_values(ascending=False) 

director
Robert Rodriguez      9
Paul W.S. Anderson    7
Michael Bay           7
Ridley Scott          6
Antoine Fuqua         6
                     ..
Joe Cornish           1
Roger Spottiswoode    1
Jimmy Hayward         1
Jim Gillespie         1
Jon Avnet             1
Name: imdb_id, Length: 364, dtype: int64

In [286]:
# вариант №2. "Прекрасный"
# сначала находим строки, у которых в жанрах есть 'Action'
# потом разбиваем director на режиссёров, группируем и подсчитываем кол-во фильмов
data[data.genres.str.contains('Action')].director.str.split('|').explode().value_counts()

Robert Rodriguez      9
Michael Bay           7
Paul W.S. Anderson    7
Antoine Fuqua         6
Ridley Scott          6
                     ..
Lexi Alexander        1
George Miller         1
Jeff Tremaine         1
Paul Weitz            1
Oliver Parker         1
Name: director, Length: 364, dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [287]:
answers['15'] = '3. Chris Hemsworth' #+

In [288]:
df=data[data.release_year==2012].copy() # в новую переменную заносим выборку за 2012 год
df['cast'] = df.cast.str.split('|') # разбиваем cast на актёров
df2=df.explode('cast') # получаем одну строку с одним актёром
# группируем по актёрам и суммируем сборы
df2.groupby(['cast'])['revenue'].sum().sort_values(ascending=False)

cast
Chris Hemsworth      2027450773
Denis Leary          1629460639
Anne Hathaway        1522851057
Chris Evans          1519557910
Robert Downey Jr.    1519557910
                        ...    
Jason Bateman           3428048
Danny Huston            2106557
Sami Gayle              2106557
Josh Lucas              2106557
Nicolas Cage            2106557
Name: revenue, Length: 466, dtype: int64

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [289]:
answers['16'] = '3. Matt Damon' #+

In [290]:
df=data[data.budget>data.budget.mean()].copy() # в новую переменную заносим выборку где бюджет > среднего бюджета
df['cast'] = df.cast.str.split('|') # разбиваем cast на актёров
df2=df.explode('cast') # получаем одну строку с одним актёром
# группируем по актёрам и подсчитываем кол-во фильмов
df2.groupby(['cast'])['imdb_id'].count().sort_values(ascending=False)

cast
Matt Damon           18
Adam Sandler         17
Angelina Jolie       16
Eddie Murphy         15
Samuel L. Jackson    15
                     ..
Leslie Bibb           1
Leonard Nimoy         1
Lennie James          1
Lena Olin             1
50 Cent               1
Name: imdb_id, Length: 1505, dtype: int64

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [291]:
answers['17'] = '2. Action' #+

In [292]:
# сначала выбираем строки, в которых есть 'Nicolas Cage'
# разбиваем genres на жанры и считаем количество
data[data.cast.str.contains('Nicolas Cage')].genres.str.split('|').explode().value_counts()

Action             17
Thriller           15
Drama              12
Crime              10
Fantasy             8
Adventure           7
Comedy              6
Science Fiction     4
Animation           3
Mystery             3
Family              3
History             2
Horror              1
Romance             1
War                 1
Name: genres, dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [293]:
answers['18'] = '1. K-19: The Widowmaker (tt0267626)' #+

In [294]:
# сначала делаем выборку строк, в которых есть 'Paramount Pictures'
# с помощью условия находим минимум profit
data[data.profit==data[data.production_companies.str.contains('Paramount Pictures')].profit.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
925,tt0267626,100000000,35168966,K-19: The Widowmaker,Harrison Ford|Liam Neeson|Peter Sarsgaard|Joss...,Kathryn Bigelow,Fate has found its hero.,When Russia's first nuclear submarine malfunct...,138,Thriller|Drama|History,Paramount Pictures|Intermedia Films|National G...,2002-07-19,6.0,2002,-64831034


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [295]:
answers['19'] = '5. 2015' #+

In [296]:
# группируем по году релиза и суммируем сборы:
data.groupby(['release_year'])['revenue'].sum().sort_values(ascending=False)

release_year
2015    25449202382
2014    23405862953
2013    23213799791
2012    23079001687
2011    22676791872
2010    21071204961
2009    20261791024
2008    18252781990
2007    18162406801
2004    15663430720
2005    15309425558
2006    14775042320
2003    14346123312
2002    14136361487
2001    13017764865
2000    10664099805
Name: revenue, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [297]:
answers['20'] = '1. 2014' #+

In [298]:
# выбираем строки, в которых есть 'Warner Bros'
# группируем по году релиза и суммируем сборы
data[data.production_companies.str.contains('Warner Bros')].groupby(['release_year'])['revenue'].sum().sort_values(ascending=False)

release_year
2014    3243064519
2007    3183675217
2008    3050595031
2010    3008712985
2011    2845393682
2003    2745493377
2009    2737954136
2004    2731933725
2013    2599953400
2005    2412980298
2001    2266545668
2012    1869520056
2002    1702709901
2015    1691168351
2006    1521170743
2000    1025531386
Name: revenue, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [299]:
answers['21'] = '4. Сентябрь' #+

In [300]:
df=data.copy()# копируем датафрейм в новую переменную
# применяем функцию, которая переводит release_date из даты в месяц
df.release_date=df.release_date.apply(lambda x: x.strftime('%B')) 
# группируем по меясяцам и подсчитываем кол-во фильмов
df.groupby(['release_date'])['imdb_id'].count().sort_values(ascending=False)

release_date
September    227
December     190
October      186
August       161
March        156
April        149
June         147
November     146
July         142
May          140
February     135
January      110
Name: imdb_id, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [301]:
answers['22'] = '2. 450' #+

In [302]:
# с помощью query выбираем записи, у которых release_date равна июню, июлю, августу.
# затем группируем по дате релиза и считаем общее кол-во
df.query('release_date in ["June","July","August"]').groupby(['release_date'])['imdb_id'].count().sort_values(ascending=False).sum()


450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [303]:
answers['23'] = '5. Peter Jackson' #+

In [304]:
df=data.copy()# копируем датафрейм в новую переменную
# применяем функцию, которая переводит release_date из даты в месяц
df.release_date=df.release_date.apply(lambda x: x.strftime('%B'))
df['director'] = df.director.str.split('|') # разбиваем director на режиссёров
df=df.explode('director')
# с помощью query выбираем записи, у которых release_date равна январю, февралю, декабрю.
# группируем по режиссёрам и подсчитываем кол-во фильмов для каждого
df.query('release_date in ["January","February","December"]').groupby(['director'])['imdb_id'].count().sort_values(ascending=False)

director
Peter Jackson            7
Steven Soderbergh        6
Clint Eastwood           6
Martin Scorsese          4
Adam Shankman            4
                        ..
Matt Bettinelli-Olpin    1
Matt Reeves              1
Matthew O'Callaghan      1
Matthew Vaughn           1
Jon Avnet                1
Name: imdb_id, Length: 358, dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [305]:
answers['24'] = '5. Four By Two Productions' #+

In [306]:
new=data.copy() # копируем датафрейм в новую переменную
new['production_companies'] = new.production_companies.str.split('|') # разбиваем production_companies на компании
new=new.explode('production_companies') # получаем одну строку с одной компанией
# применяем функцию, которая добавляет новый столбец length, в котором идёт подсчёт длины original_title
new['length']=new['original_title'].apply(lambda x: len(x)) 
# группируем по компаниям, и находим средние длины для каждой компании, нам нужен максимум (первая строка при сортировке)
new.groupby(['production_companies'])['length'].mean().sort_values(ascending=False)

production_companies
Four By Two Productions       83.0
Jim Henson Company, The       59.0
Dos Corazones                 47.0
Museum Canada Productions     46.0
Polsky Films                  46.0
                              ... 
Everest Entertainment          3.0
Berlanti Productions           3.0
XM2 Productions                2.0
Ixtlan Productions             2.0
Global Entertainment Group     2.0
Name: length, Length: 1771, dtype: float64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [307]:
answers['25'] = '3. Midnight Picture Show' #+

In [308]:
new=data.copy() # копируем датафрейм в новую переменную
new['production_companies'] = new.production_companies.str.split('|') # разбиваем production_companies на компании
new=new.explode('production_companies') # получаем одну строку с одной компанией
# применяем функцию подсчёта слов в тексте и в новый столбец проставлем результат функции
new['overview_len']=new['overview'].apply(count_w) 
# группируем по компаниям и считаем среднюю длину описания для каждой компании
new.groupby(['production_companies'])['overview_len'].mean().sort_values(ascending=False)

production_companies
Midnight Picture Show                    1000.0
Room 9 Entertainment                      964.0
Brookwell-McNamara Entertainment          936.0
Lions Gate Family Entertainment           909.0
Crest Animation Productions               909.0
                                          ...  
Projection Pictures                        74.0
London Boulevard                           74.0
Phantom Four                               72.0
Empire Pictures                            62.0
Motion Picture Corporation of America      59.0
Name: overview_len, Length: 1771, dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [309]:
answers['26'] = '1. Inside Out, The Dark Knight, 12 Years a Slave' #+

In [310]:
# в новую переменную присваиваем отсортированные по рейтингу данные
top=data.sort_values(['vote_average'],ascending=False)
# и выводим на просмотр 18 первых ( 1% от 1889 - общего числа фильмов)
display(top.head(18))

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825
118,tt0816692,165000000,621752480,Interstellar,Matthew McConaughey|Jessica Chastain|Anne Hath...,Christopher Nolan,Mankind was born on Earth. It was never meant ...,Interstellar chronicles the adventures of a gr...,169,Adventure|Drama|Science Fiction,Paramount Pictures|Legendary Pictures|Warner B...,2014-11-05,8.0,2014,456752480
125,tt2084970,14000000,233555708,The Imitation Game,Benedict Cumberbatch|Keira Knightley|Matthew G...,Morten Tyldum,The true enigma was the man who cracked the code.,Based on the real life story of legendary cryp...,113,History|Drama|Thriller|War,Black Bear Pictures|Bristol Automotive,2014-11-14,8.0,2014,219555708
9,tt2096673,175000000,853708609,Inside Out,Amy Poehler|Phyllis Smith|Richard Kind|Bill Ha...,Pete Docter,Meet the little voices inside your head.,"Growing up can be a bumpy road, and it's no ex...",94,Comedy|Animation|Family,Walt Disney Pictures|Pixar Animation Studios|W...,2015-06-09,8.0,2015,678708609
34,tt3170832,6000000,35401758,Room,Brie Larson|Jacob Tremblay|Joan Allen|Sean Bri...,Lenny Abrahamson,Love knows no boundaries,Jack is a young boy of 5 years old who has liv...,117,Drama|Thriller,Element Pictures|No Trace Camping|A24|Duperele...,2015-10-16,8.0,2015,29401758
1183,tt0993846,100000000,392000694,The Wolf of Wall Street,Leonardo DiCaprio|Jonah Hill|Margot Robbie|Kyl...,Martin Scorsese,EARN. SPEND. PARTY.,A New York stockbroker refuses to cooperate in...,180,Crime|Drama|Comedy,Paramount Pictures|Appian Way|EMJAG Production...,2013-12-25,7.9,2013,292000694
128,tt2267998,61000000,369330363,Gone Girl,Ben Affleck|Rosamund Pike|Carrie Coon|Neil Pat...,David Fincher,You don't know what you've got 'til it's...,With his wife's disappearance having become th...,145,Mystery|Thriller|Drama,Twentieth Century Fox Film Corporation|Regency...,2014-10-01,7.9,2014,308330363
1191,tt2024544,20000000,187000000,12 Years a Slave,Chiwetel Ejiofor|Michael Fassbender|Lupita Nyo...,Steve McQueen,The extraordinary true story of Solomon Northup,"In the pre-Civil War United States, Solomon No...",134,Drama|History,Plan B Entertainment|Regency Enterprises|River...,2013-10-18,7.9,2013,167000000
119,tt2015381,170000000,773312399,Guardians of the Galaxy,Chris Pratt|Zoe Saldana|Dave Bautista|Vin Dies...,James Gunn,All heroes start somewhere.,"Light years from Earth, 26 years after being a...",121,Action|Science Fiction|Adventure,Marvel Studios|Moving Picture Company (MPC)|Bu...,2014-07-30,7.9,2014,603312399
1081,tt0167260,94000000,1118888979,The Lord of the Rings: The Return of the King,Elijah Wood|Ian McKellen|Viggo Mortensen|Liv T...,Peter Jackson,The eye of the enemy is moving.,Aragorn is revealed as the heir to the ancient...,201,Adventure|Fantasy|Action,WingNut Films|New Line Cinema,2003-12-01,7.9,2003,1024888979


# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [311]:
answers['27'] = '5. Daniel Radcliffe & Rupert Grint' #+

In [312]:
pairs = Counter() # позволяет считать количество неизменяемых объектов
for i in range(0,len(data)): 
    artists = data.cast[i].split('|') # разбиваем cast на актёров и присваиваем artists список i-ой строки датасета
    for j in list(combinations(artists,2)): # комбинации длиной 2 из artists без повторяющихся элементов
        if j not in pairs:
            pairs[j]=1
        else:
            pairs[j]+=1
pairs.most_common(5) # возвращает 5 наиболее часто встречающихся элементов

[(('Daniel Radcliffe', 'Rupert Grint'), 8),
 (('Daniel Radcliffe', 'Emma Watson'), 8),
 (('Rupert Grint', 'Emma Watson'), 7),
 (('Ben Stiller', 'Owen Wilson'), 6),
 (('Johnny Depp', 'Helena Bonham Carter'), 6)]

# Submission

In [313]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '2. Gods and Generals (tt0279111)',
 '3': '3. Winnie the Pooh (tt1449283)',
 '4': '2. 110',
 '5': '1. 107',
 '6': '5. Avatar (tt0499549)',
 '7': '5. The Lone Ranger (tt1210819)',
 '8': '1. 1478',
 '9': '4. The Dark Knight (tt0468569)',
 '10': '5. The Lone Ranger (tt1210819)',
 '11': '3. Drama',
 '12': '1. Drama',
 '13': '5. Peter Jackson',
 '14': '3. Robert Rodriguez',
 '15': '3. Chris Hemsworth',
 '16': '3. Matt Damon',
 '17': '2. Action',
 '18': '1. K-19: The Widowmaker (tt0267626)',
 '19': '5. 2015',
 '20': '1. 2014',
 '21': '4. Сентябрь',
 '22': '2. 450',
 '23': '5. Peter Jackson',
 '24': '5. Four By Two Productions',
 '25': '3. Midnight Picture Show',
 '26': '1. Inside Out, The Dark Knight, 12 Years a Slave',
 '27': '5. Daniel Radcliffe & Rupert Grint'}

In [314]:
# и убедиться что ни чего не пропустил)
len(answers)

27