In [269]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
import itertools

In [270]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1240,tt1904996,35000000,46216641,Parker,Jason Statham|Jennifer Lopez|Nick Nolte|Michae...,Taylor Hackford,"To get away clean, you have to play dirty.",A thief with a unique code of professional eth...,118,Action|Crime,SND,1/23/2013,5.6,2013
1674,tt0480249,150000000,585349010,I Am Legend,Will Smith|Alice Braga|Charlie Tahan|Salli Ric...,Francis Lawrence,The last man on Earth is not alone,Robert Neville is a scientist who was unable t...,101,Drama|Horror|Action|Thriller|Science Fiction,Village Roadshow Pictures|Original Film|Weed R...,12/14/2007,6.8,2007
633,tt1060277,25000000,170764026,Cloverfield,Lizzy Caplan|Jessica Lucas|Odette Annable|Mich...,Matt Reeves,Some Thing Has Found Us,Five young New Yorkers throw their friend a go...,85,Action|Thriller|Science Fiction,Paramount Pictures|Bad Robot,1/15/2008,6.4,2008
451,tt1322312,32000000,42045846,Going the Distance,Drew Barrymore|Justin Long|Christina Applegate...,Nanette Burstein,A comedy about meeting each other halfway.,Erin and Garrett are very much in love. When E...,102,Comedy|Drama|Romance,New Line Cinema|Offspring Entertainment,9/1/2010,6.0,2010
746,tt1478338,32500000,288383523,Bridesmaids,Kristen Wiig|Rose Byrne|Maya Rudolph|Wendi McL...,Paul Feig,Save the date,Annieâ€™s life is a mess. But when she finds o...,125,Romance|Comedy,Universal Pictures|Relativity Media|Apatow Pro...,4/28/2011,6.5,2011


In [271]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


In [274]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1889 entries, 0 to 1888
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   imdb_id               1889 non-null   object 
 1   budget                1889 non-null   int64  
 2   revenue               1889 non-null   int64  
 3   original_title        1889 non-null   object 
 4   cast                  1889 non-null   object 
 5   director              1889 non-null   object 
 6   tagline               1889 non-null   object 
 7   overview              1889 non-null   object 
 8   runtime               1889 non-null   int64  
 9   genres                1889 non-null   object 
 10  production_companies  1889 non-null   object 
 11  release_date          1889 non-null   object 
 12  vote_average          1889 non-null   float64
 13  release_year          1889 non-null   int32  
 14  release_month         1889 non-null   int32  
 15  release_day          

# Предобработка

In [273]:
answers = {} # создадим словарь для ответов

# дату разделим на 3 столбца (месяц, день, год):
data[['release_month','release_day', 'release_year']] = data.release_date.str.split("/", expand=True).astype(int)

# посчитаем прибыль/убытки:
data['profit'] = data.revenue - data.budget

# длина названия:
data['title_length'] = data.original_title.str.len()

# длина описания фильма:
data['overview_length'] = data.overview.str.len()

# Таблица жанров фильмов:
genres_table = data['genres'].str.get_dummies(sep='|') # Convert categorical variable into dummy/indicator variables
# ее можно слить с любой частью основной таблицы, а можно использовать отдельно

# Чистим данные:
data.drop_duplicates(subset = 'imdb_id', keep = 'first', inplace = True) # удаляем дублирование фильмов

# 1. У какого фильма из списка самый большой бюджет?

In [275]:
# в словарь вставляем номер вопроса и ответ на него:
answers['1'] = '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)'

In [276]:
# тут пишем ваш код для решения данного вопроса:
max_budget = data.budget.max() # максимальный бюджет
film1 = data[data.budget == max_budget] # фильм с макс. бюджетом
display(film1.original_title)

723    Pirates of the Caribbean: On Stranger Tides
Name: original_title, dtype: object

# 2. Какой из фильмов самый длительный (в минутах)?

In [277]:
# Ответ на вопрос №2:
answers['2'] = '2. Gods and Generals (tt0279111)'

In [279]:
max_runtime = data.runtime.max() # макс. длительность фильма
film2 = data[data.runtime == max_runtime] # фильм с макс. длительностью
display(film2.original_title)

1157    Gods and Generals
Name: original_title, dtype: object

# 3. Какой из фильмов самый короткий (в минутах)?





In [280]:
answers['3'] = '3. Winnie the Pooh (tt1449283)'

In [281]:
min_runtime = data.runtime.min() # мин. длительность фильма
film3 = data[data.runtime == min_runtime] # фильм с мин. длительностью
display(film3.original_title)

768    Winnie the Pooh
Name: original_title, dtype: object

# 4. Какова средняя длительность фильмов?


In [282]:
answers['4'] = 110

In [283]:
# вычисляем средную продолжительность фильмов и округляем до целого:
mean_runtime = data.runtime.mean()
print(round(mean_runtime))

110


# 5. Каково медианное значение длительности фильмов? 

In [284]:
answers['5'] = 107

In [285]:
# вычисляем медиану продолжительности фильмов и округляем до целого:
median_runtime = data.runtime.median()
print(round(median_runtime))

107


# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [286]:
answers['6'] = 'Avatar (tt0499549)'

In [287]:
# вычисляем макс. прибыль:
max_profit = data.profit.max()
film6 = data[data.profit == max_profit] # фильм с макс. бюджетом
display(film6.original_title)

239    Avatar
Name: original_title, dtype: object

# 7. Какой фильм самый убыточный? 

In [288]:
answers['7'] = 'The Lone Ranger (tt1210819)'

In [290]:
min_profit = data.profit.min() # макс. убыток
film7 = data[data.profit == min_profit] # самый убыточный фильм
display(film7.original_title)

1245    The Lone Ranger
Name: original_title, dtype: object

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [291]:
answers['8'] = 1478

In [292]:
films8 = data[data.profit > 0] # фильмы с доходами
len(films8) # кол-во заработавших прибыль фильмов

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [293]:
answers['9'] = 'The Dark Knight (tt0468569)'

In [295]:
# фильмы 2008 года:
data_2008 = data[data.release_date.str.contains("2008")]
#data_2008 = data[data.release_year == 2008]

max_profit_2008 = data_2008.profit.max() # макс. прибыль
film9 = data_2008[data_2008.profit == max_profit_2008] # самый успешный по сборам фильм 2008 года
display(film9.original_title)

599    The Dark Knight
Name: original_title, dtype: object

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [296]:
answers['10'] = 'The Lone Ranger (tt1210819)'

In [297]:
# фильмы 2012-2014 года:
data_2012_2014 =  data[(data.release_year >= 2012) & (data.release_year <= 2014)]
#data_2012_2014 = data[(data.release_date.str.contains("2012")) | (data.release_date.str.contains("2013")) | (data.release_date.str.contains("2014")) ]

min_profit_2012_2014 = data_2012_2014.profit.min() # наибольший убыток
film10 = data_2012_2014[data_2012_2014.profit == min_profit_2012_2014] # самый убыточный фильм 2012-2014 годов
display(film10.original_title)

1245    The Lone Ranger
Name: original_title, dtype: object

# 11. Какого жанра фильмов больше всего?

In [298]:
# эту задачу тоже можно решать разными подходами, попробуй реализовать разные варианты
answers['11'] = 'Drama'

In [300]:
# посчитаем сумму вхождений каждого жанра в результирующую таблицу жанров (см. Предобработка):
genres_table.sum().sort_values(ascending=False)

Drama              782
Comedy             683
Thriller           596
Action             582
Adventure          415
Crime              315
Romance            308
Family             260
Science Fiction    248
Fantasy            222
Horror             176
Mystery            168
Animation          139
Music               64
History             62
War                 58
Western             19
Documentary          8
Foreign              2
dtype: int64

ВАРИАНТ 2

In [302]:
# минитаблица только с id и жанрами:
data11 = data[['imdb_id', 'genres']]

# на каждый жанр отдельная строка:
data11['genres'] = data11['genres'].apply(lambda x: x.split('|'))
data11.fillna(0)
df11 = data11.explode('genres')

# посчитаем сумму вхождений каждого жанра в получившуюся таблицу:
df11.groupby(df11.genres)['imdb_id'].count().sort_values(ascending=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data11['genres'] = data11['genres'].apply(lambda x: x.split('|'))


genres
Drama              782
Comedy             683
Thriller           596
Action             582
Adventure          415
Crime              315
Romance            308
Family             260
Science Fiction    248
Fantasy            222
Horror             176
Mystery            168
Animation          139
Music               64
History             62
War                 58
Western             19
Documentary          8
Foreign              2
Name: imdb_id, dtype: int64

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [303]:
answers['12'] = 'Drama'

In [305]:
# Фильмы с доходами:
films12 = data[data.profit > 0]

# Таблица жанров прибыльных фильмов:
profit_genres_table = films12['genres'].str.get_dummies(sep='|') # Convert categorical variable into dummy/indicator variable
profit_genres_table.sum().sort_values(ascending=False) # считаем кол-во вхождений каждого жанра

Drama              560
Comedy             551
Thriller           446
Action             444
Adventure          337
Romance            242
Crime              231
Family             226
Science Fiction    195
Fantasy            188
Horror             150
Animation          120
Mystery            119
Music               47
History             46
War                 41
Western             12
Documentary          7
dtype: int64

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [306]:
answers['13'] = 'Peter Jackson'

In [307]:
# Группируем данные по режиссерам, находим суммарные кассовые сборы, сортируем по убыванию:
data.groupby(data.director)['revenue'].sum().sort_values(ascending=False)
# есть фильмы с более чем 1 режиссером! Поэтому вариант 2, наверно, лучше

director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
                        ...    
David MichÃ´d           2295423
Steven Shainberg        2281089
Paul Schrader           2062066
Keanu Reeves            2054941
Simon Hunter            2033165
Name: revenue, Length: 957, dtype: int64

ВАРИАНТ 2

In [309]:
# минитаблица только с id и режиссерами и сборами:
data13 = data[['imdb_id', 'director', 'revenue']]

# на каждого режиссера отдельная строка:
data13['director'] = data13['director'].apply(lambda x: x.split('|'))
data13.fillna(0)
df13 = data13.explode('director')

# посчитаем сумму сборов всех фильмов каждого режиссера:
df13.groupby(df13.director)['revenue'].sum().sort_values(ascending=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data13['director'] = data13['director'].apply(lambda x: x.split('|'))


director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
                        ...    
David MichÃ´d           2295423
Steven Shainberg        2281089
Paul Schrader           2062066
Keanu Reeves            2054941
Simon Hunter            2033165
Name: revenue, Length: 997, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [310]:
answers['14'] = 'Robert Rodriguez'

In [311]:
# Таблица Action фильмов:
data_actions = data[data.genres.str.contains("Action")]

# Таблица режиссеров Action фильмов:
directors_table = data_actions['director'].str.get_dummies(sep='|') # Convert categorical variable into dummy/indicator variables

# посчитаем сумму вхождений каждого режиссера в получившуюся таблицу:
directors_table.sum().sort_values(ascending=False)

Robert Rodriguez      9
Paul W.S. Anderson    7
Michael Bay           7
Ridley Scott          6
Antoine Fuqua         6
                     ..
Joe Cornish           1
Roger Spottiswoode    1
Jimmy Hayward         1
Jim Gillespie         1
Jon Avnet             1
Length: 364, dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [312]:
answers['15'] = 'Chris Hemsworth'

In [314]:
# Фильмы 2012 года, включим только 3 нужных столбца:
mini_data_2012 = data[data.release_year == 2012][['cast', 'revenue']]

# на каждого актера отдельная строка:
mini_data_2012['cast'] = mini_data_2012['cast'].apply(lambda x: x.split('|'))
mini_data_2012.fillna(0)
df15 = mini_data_2012.explode('cast')

# сгруппируем данные по актерам, посчитаем суммарную прибыль фильмов каждого актера:
aggregation_functions = {'revenue': 'sum'}
df15.groupby(df15['cast']).aggregate(aggregation_functions).sort_values(['revenue'], ascending=False)

Unnamed: 0_level_0,revenue
cast,Unnamed: 1_level_1
Chris Hemsworth,2027450773
Denis Leary,1629460639
Anne Hathaway,1522851057
Robert Downey Jr.,1519557910
Mark Ruffalo,1519557910
...,...
Michael Nyqvist,3428048
Danny Huston,2106557
Josh Lucas,2106557
Sami Gayle,2106557


# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [315]:
answers['16'] = 'Matt Damon'

In [317]:
# оставим только высобюджетные фильмы (фильмы, где бюджет выше среднего по данной выборке):
mean_budget = data.budget.mean() # средний бюджет
films16 = data[data.budget > mean_budget]

# Таблица актеров высобюджетных фильмов:
cast_films16_table = films16['cast'].str.get_dummies(sep='|') # Convert categorical variable into dummy/indicator variables
cast_films16_table.fillna(0)

# посчитаем сумму вхождений каждого актера в получившуюся таблицу:
cast_films16_table.sum().sort_values(ascending=False)

Matt Damon           18
Adam Sandler         17
Angelina Jolie       16
Eddie Murphy         15
Samuel L. Jackson    15
                     ..
Leslie Bibb           1
Leonard Nimoy         1
Lennie James          1
Lena Olin             1
50 Cent               1
Length: 1505, dtype: int64

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [318]:
answers['17'] = 'Action'

In [320]:
# DataFrame фильмов Н. Кейджа:
data_ncage = data[data.cast.str.contains("Nicolas Cage")]

# Таблица фильмов Н. Кейджа по жанрам:
ncage_genres_table = data_ncage['genres'].str.get_dummies(sep='|') # Convert categorical variable into dummy/indicator variables
ncage_genres_table.fillna(0)

# отсортируем по кол-ву фильмов в каждом жанре:
ncage_genres_table.sum().sort_values(ascending=False)

Action             17
Thriller           15
Drama              12
Crime              10
Fantasy             8
Adventure           7
Comedy              6
Science Fiction     4
Mystery             3
Family              3
Animation           3
History             2
War                 1
Romance             1
Horror              1
dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [321]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)'

In [322]:
# Фильмы Paramount Pictures, отсортированные по прибыли:
films18 = data[data.production_companies.str.contains("Paramount Pictures")].sort_values(['profit'], ascending=True)
display(films18.head(1).original_title)

925    K-19: The Widowmaker
Name: original_title, dtype: object

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [323]:
answers['19'] = 2015

In [324]:
# Сгруппируем данные по годам, посчитаем суммарные сборы и отсортируем по убыванию:
data.groupby(['release_year'])['profit'].sum().sort_values(ascending=False)
#grouped_df = data.groupby(['release_year']).sum().sort_values(['profit'], ascending=False)
#display(grouped_df)

release_year
2015    18668572378
2014    16397812953
2012    16077001687
2013    15243179791
2011    14730241341
2010    13531204961
2009    13423744372
2008    11663881990
2007    11565911801
2004     9634180720
2003     9228823312
2002     9002361487
2005     8981925558
2006     8691077320
2001     7950614865
2000     6101399805
Name: profit, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [325]:
answers['20'] = 2014

In [326]:
# Фильмы студии Warner Bros:
films20 = data[data.production_companies.str.contains("Warner Bros")]

# сгруппируем данные по годам, посчитаем суммарную прибыль, отсортируем по убыванию:
films20.groupby(['release_year']).sum().sort_values(['profit'], ascending=False)

Unnamed: 0_level_0,budget,revenue,runtime,vote_average,release_month,release_day,profit,title_length,overview_length
release_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2014,947600000,3243064519,1576,88.9,89,180,2295464519,176,4024
2007,982000000,3183675217,1721,95.4,114,202,2201675217,273,4834
2008,916000000,3050595031,1366,72.0,81,141,2134595031,149,3030
2010,1034000000,3008712985,1421,79.6,92,180,1974712985,201,5058
2011,974000000,2845393682,1248,68.3,78,191,1871393682,220,3220
2003,890000000,2745493377,1085,56.7,81,109,1855493377,178,3425
2009,915500000,2737954136,1305,67.9,78,132,1822454136,158,3316
2013,963500000,2599953400,1100,59.9,47,135,1636453400,114,4175
2004,1100000000,2731933725,1624,78.7,91,223,1631933725,194,4399
2005,861000000,2412980298,1193,63.0,78,126,1551980298,170,3450


# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [327]:
answers['21'] = 'Сентябрь'

In [329]:
# сгруппируем данные по месяцам, посчитаем кол-во фильмов, отсортируем по убыванию:
grouped_df21 = data.groupby(['release_month'])['imdb_id'].count().sort_values(ascending=False)
display(grouped_df21.index[0]) # номер месяца, в котором вышло больше всего фильмов

9

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [330]:
answers['22'] = 450

In [331]:
# Фильмы лета всех годов:
films22 = data[(data.release_month >= 6) & (data.release_month <= 8)]
films22.imdb_id.count() # кол-во летних фильмов

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [332]:
answers['23'] = 'Peter Jackson'

# Вариант 1 работает не совсем корректно для фильмов, где более 1 режиссера, но я его оставил из-за лаконичности 
# Вариант 2 дает правильный ответ, хотя в этом случае ответы в.1 и в.2 совпадают

In [336]:
# Фильмы зимы всех годов:
films23 = data[(data.release_month == 12) | (data.release_month <= 2)]

# сгруппируем фильмы по режиссерам:
display(films23.groupby(['director'])['imdb_id'].count().sort_values(ascending=False))

director
Peter Jackson                          7
Steven Soderbergh                      6
Clint Eastwood                         6
Nancy Meyers                           4
Adam Shankman                          4
                                      ..
Matt Bettinelli-Olpin|Tyler Gillett    1
Matt Reeves                            1
Matthew O'Callaghan                    1
Matthew Vaughn                         1
Aaron Seltzer|Jason Friedberg          1
Name: imdb_id, Length: 332, dtype: int64

ВАРИАНТ 2

In [335]:
# Фильмы зимы всех годов:
films23 = data[(data.release_month == 12) | (data.release_month <= 2)][['imdb_id', 'director']]

# Таблица режиссеров зимних фильмов:
directors_table = films23['director'].str.get_dummies(sep='|') # Convert categorical variable into dummy/indicator variables
directors_table.fillna(0)

# Найдем кол-во фильмов по каждому режиссеру:
directors_table.sum().sort_values(ascending=False)

Peter Jackson            7
Steven Soderbergh        6
Clint Eastwood           6
Martin Scorsese          4
Adam Shankman            4
                        ..
Matt Bettinelli-Olpin    1
Matt Reeves              1
Matthew O'Callaghan      1
Matthew Vaughn           1
Jon Avnet                1
Length: 358, dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [337]:
answers['24'] = 'Four By Two Productions'

In [339]:
# Выделим нужные данные в отдельный DataFrame:
data24 = data[['imdb_id', 'production_companies', 'title_length']]

# на каждую студию отдельная строка:
if not(isinstance(data24.production_companies.iloc[0], list)): # если запускаем в первый раз
    data24.production_companies = data24['production_companies'].apply(lambda x: x.split('|'))
data24.fillna(0)
df24 = data24.explode('production_companies')

# отсортируем по убыванию длины названий фильмов:
df24.sort_values(['title_length'], ascending=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,imdb_id,production_companies,title_length
1448,tt0443453,Four By Two Productions,83
1448,tt0443453,Twentieth Century Fox Film Corporation,83
1314,tt0363771,Walden Media,62
1314,tt0363771,Walt Disney,62
219,tt1698641,Walt Disney Pictures,59
...,...,...,...
252,tt0472033,Focus Films,1
252,tt0472033,Starz Animation,1
252,tt0472033,Relativity Media,1
252,tt0472033,Arc Productions,1


# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [340]:
answers['25'] = 'Midnight Picture Show'

In [341]:
# Выделим нужные данные в отдельный DataFrame:
data25 = data[['imdb_id', 'production_companies', 'overview_length']]

# на каждую студию отдельная строка:
if not(isinstance(data25.production_companies.iloc[0], list)): # если запускаем в первый раз
    data25.production_companies = data25['production_companies'].apply(lambda x: x.split('|'))
data25.fillna(0)
df25 = data25.explode('production_companies')

# сгруппируем по студиям, вычислим среднуюю длину описания фильмов, отсортируем по убыванию:
df25.groupby(['production_companies'])['overview_length'].mean().sort_values(ascending=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


production_companies
Midnight Picture Show                    1000.0
Room 9 Entertainment                      964.0
Brookwell-McNamara Entertainment          936.0
Lions Gate Family Entertainment           909.0
Crest Animation Productions               909.0
                                          ...  
Projection Pictures                        74.0
London Boulevard                           74.0
Phantom Four                               72.0
Empire Pictures                            62.0
Motion Picture Corporation of America      59.0
Name: overview_length, Length: 1771, dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [342]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'

answer26_list = [
"Inside Out, The Dark Knight, 12 Years a Slave",
"BloodRayne, The Adventures of Rocky & Bullwinkle",
"Batman Begins, The Lord of the Rings: The Return of the King, Upside Down",
"300, Lucky Number Slevin, Kill Bill: Vol. 1",
"Upside Down, Inside Out, Iron Man"]

In [343]:
best_movies_number = round(len(data.vote_average)/100) # вычисляем кол-во таких фильмов
print('Number of 1 percent best movies = ', best_movies_number)
data.sort_values(['vote_average'], ascending=False).head(best_movies_number).original_title # выводим названия лучших фильмов

Number of 1 percent best movies =  19


599                                   The Dark Knight
118                                      Interstellar
125                                The Imitation Game
9                                          Inside Out
34                                               Room
1183                          The Wolf of Wall Street
128                                         Gone Girl
1191                                 12 Years a Slave
119                           Guardians of the Galaxy
1081    The Lord of the Rings: The Return of the King
1800                                          Memento
370                                         Inception
872                                       The Pianist
138                          The Grand Budapest Hotel
1188                                              Her
28                                          Spotlight
124                                        Big Hero 6
177                            The Fault in Our Stars
863             The Lord of 

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [344]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint'

In [345]:
# Выделим только нужные данные:
data27 = data[['imdb_id', 'cast']]

# Скомбинируем все пары актеров для каждого фильма:
data27.cast = data27.cast.apply(lambda x: x.split('|'))
data27['pairs'] = data27.cast.apply(lambda s: list(itertools.combinations(s, 2)))
# Пары актеров в каждой строке:
df27 = data27.explode('pairs')
# Посчитаем кол-во каждой пары:
Counter(df27.pairs).most_common(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data27['pairs'] = data27.cast.apply(lambda s: list(itertools.combinations(s, 2)))


[(('Daniel Radcliffe', 'Rupert Grint'), 8)]

# Submission

In [346]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '5. Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '2. Gods and Generals (tt0279111)',
 '3': '3. Winnie the Pooh (tt1449283)',
 '4': 110,
 '5': 107,
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': 1478,
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': 2015,
 '20': 2014,
 '21': 'Сентябрь',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [347]:
# и убедиться, что ни чего не пропустил)
len(answers)

27