In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [2]:
data = pd.read_csv('../data/mod_1/movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
255,tt0878804,29000000,309208309,The Blind Side,Sandra Bullock|Quinton Aaron|Kathy Bates|Tim M...,John Lee Hancock,Based on the extraordinary true story,"Oversized African-American, Michael Oher, the ...",129,Drama,Alcon Entertainment|Left Tackle Pictures|Zucke...,11/20/2009,7.1,2009
110,tt1810683,20000000,6420319,Little Boy,Jakob Salvati|Emily Watson|Cary-Hiroyuki Tagaw...,Alejandro Monteverde,Believe the impossible.,An eight-year-old boy is willing to do whateve...,106,Comedy|Drama|War,Metanoia Films,4/23/2015,7.1,2015
926,tt0238546,35000000,45479110,Queen of the Damned,Stuart Townsend|Aaliyah|Marguerite Moreau|Vinc...,Michael Rymer,This time there are no interviews.,Lestat de Lioncourt is awakened from his slumb...,101,Drama|Fantasy|Horror,Village Roadshow Pictures|NPV Entertainment|Wa...,2/10/2002,5.2,2002
337,tt0963178,50000000,60161391,The International,Clive Owen|Naomi Watts|Armin Mueller-Stahl|Ulr...,Tom Tykwer,Is your money making a killing?,An interpol agent and an attorney are determin...,118,Drama|Thriller|Crime,Studio Babelsberg|Atlas Entertainment|Mosaic M...,2/3/2009,5.8,2009
458,tt0464154,24000000,83188165,Piranha 3D,Elisabeth Shue|Adam Scott|Jerry O'Connell|Stev...,Alexandre Aja,There's something in the water.,Each year the population of sleepy Lake Victor...,88,Comedy|Horror,The Weinstein Company|Atmosphere Entertainment...,8/20/2010,5.2,2010


In [4]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [5]:
answers = {} # создадим словарь для ответов

# 1. Преобразуем формат колонки release_date в формат даты
data['release_date'] = data['release_date'].astype('datetime64[ns]')

In [6]:
# 2. Все значения колонки imdb_id начинаются на tt, поэтому уберем их
data[~data['imdb_id'].str.match('tt')].shape
data['imdb_id'] = data['imdb_id'].apply(lambda x: x[2::])

In [7]:
# 3. Преобразуем формат колонки imdb_id в int
data['imdb_id'] = data['imdb_id'].astype(int)

In [8]:
# 4. обавин новый столбец profit = revenue - budget
data['profit'] = data['revenue'] - data['budget']

In [9]:
data.head()

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
0,369610,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,Colin Trevorrow,The park is open.,Twenty-two years after the events of Jurassic ...,124,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,2015-06-09,6.5,2015,1363528810
1,1392190,150000000,378436354,Mad Max: Fury Road,Tom Hardy|Charlize Theron|Hugh Keays-Byrne|Nic...,George Miller,What a Lovely Day.,An apocalyptic story set in the furthest reach...,120,Action|Adventure|Science Fiction|Thriller,Village Roadshow Pictures|Kennedy Miller Produ...,2015-05-13,7.1,2015,228436354
2,2908446,110000000,295238201,Insurgent,Shailene Woodley|Theo James|Kate Winslet|Ansel...,Robert Schwentke,One Choice Can Destroy You,Beatrice Prior must confront her inner demons ...,119,Adventure|Science Fiction|Thriller,Summit Entertainment|Mandeville Films|Red Wago...,2015-03-18,6.3,2015,185238201
3,2488496,200000000,2068178225,Star Wars: The Force Awakens,Harrison Ford|Mark Hamill|Carrie Fisher|Adam D...,J.J. Abrams,Every generation has a story.,Thirty years after defeating the Galactic Empi...,136,Action|Adventure|Science Fiction|Fantasy,Lucasfilm|Truenorth Productions|Bad Robot,2015-12-15,7.5,2015,1868178225
4,2820852,190000000,1506249360,Furious 7,Vin Diesel|Paul Walker|Jason Statham|Michelle ...,James Wan,Vengeance Hits Home,Deckard Shaw seeks revenge against Dominic Tor...,137,Action|Crime|Thriller,Universal Pictures|Original Film|Media Rights ...,2015-04-01,7.3,2015,1316249360


# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [10]:
def get_movie_name(data_frame) -> str:
    ''' Вспомогательная функция для получения наименования и imdb иденетефикатора фильма из заданного датафрэйма
    Функция на вход получает data_frame (DataFrame) и берет из него original_title и imdb_id из верхней строки.
    Как результат выдает строку вида 'original_title (imdb_id)'
    '''
    original_title = data_frame['original_title'][data_frame.index[0]]
    imdb_id = data_frame['imdb_id'][data_frame.index[0]]
    
    return f'{original_title} ({imdb_id})'

In [11]:
df = data[data['budget'] == data['budget'].max()]
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
723,1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000


In [12]:
answers['1'] = get_movie_name(df)
answers['1']

'Pirates of the Caribbean: On Stranger Tides (1298650)'

# 2. Какой из фильмов самый длительный (в минутах)?

In [13]:
df = data[data['runtime'] == data['runtime'].max()]
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1157,279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064


In [14]:
answers['2'] = get_movie_name(df)
answers['2']

'Gods and Generals (279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [15]:
df = data[data['runtime'] == data['runtime'].min()]
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
768,1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000


In [16]:
answers['3'] = get_movie_name(df)
answers['3']

'Winnie the Pooh (1449283)'

# 4. Какова средняя длительность фильмов?


In [17]:
runtime_mean = data['runtime'].mean()

In [18]:
answers['4'] = runtime_mean
answers['4']

109.6585494970884

# 5. Каково медианное значение длительности фильмов? 

In [19]:
runtime_median = data['runtime'].median()

In [20]:
answers['5'] = runtime_median
answers['5']

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [21]:
df = data[data['profit'] == data['profit'].max()]
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
239,499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847


In [22]:
answers['6'] = get_movie_name(df)
answers['6']

'Avatar (499549)'

# 7. Какой фильм самый убыточный? 

In [23]:
df = data[data['profit'] == data['profit'].min()]
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


In [24]:
answers['7'] = get_movie_name(df)
answers['7']

'The Lone Ranger (1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [25]:
movie_count = data.query('revenue > budget').shape[0]
movie_count

1478

In [26]:
answers['8'] = movie_count
answers['8']

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [27]:
max_profit = data.groupby(['release_year'])['profit'].max()[2008]
df = data.query(f'release_year == 2008 & profit == {max_profit}')
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
599,468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825


In [28]:
answers['9'] = get_movie_name(df)
answers['9']

'The Dark Knight (468569)'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [29]:
min_profit = data.query('release_year in [2012, 2013, 2014]')['profit'].min()
df = data.query(f'release_year in [2012, 2013, 2014] and profit == {min_profit}')
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
1245,1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090


In [30]:
answers['10'] = get_movie_name(df)
answers['10']

'The Lone Ranger (1210819)'

# 11. Какого жанра фильмов больше всего?

ВАРИАНТ 1

In [31]:
# Получим список всех жанров
genres_list = []
for genres in data['genres']:
    genres_list += genres.split('|')

# Посчитаем количество вхождений различных жанров в списке
c = Counter()
for genre in genres_list:
    c[genre] += 1
    
most_common_genre = c.most_common(1)[0]
most_common_genre

('Drama', 782)

In [33]:
answers['11'] = most_common_genre[0]
answers['11']

'Drama'

ВАРИАНТ 2

In [34]:
# Получим список всех жанров
genres_string = data['genres'].str.cat(sep='|')
genres_list = genres_string.split('|')

# Посчитаем количество вхождений различных жанров в списке
genres_serie = pd.Series(genres_list)
ser = genres_serie.value_counts()

ser.head(1)

Drama    782
dtype: int64

In [35]:
answers['11'] = ser.index[0]
answers['11']

'Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [36]:
# Возьмем только прибыльные фильмы
data_profit = data.query('profit > 0')

# Получим список всех жанров
genres_string = data_profit['genres'].str.cat(sep='|')
genres_list = genres_string.split('|')

# Посчитаем количество вхождений различных жанров в списке
genres_serie = pd.Series(genres_list)
ser = genres_serie.value_counts()

ser.head(1)

Drama    560
dtype: int64

In [37]:
answers['12'] = ser.index[0]
answers['12']

'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [38]:
ser = data.groupby(['director'])['revenue'].sum().sort_values(ascending=False).head()
ser

director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
Name: revenue, dtype: int64

In [39]:
answers['13'] = ser.index[0]
answers['13']

'Peter Jackson'

В некоторых полях столбцах director  режисеры указаны не в единственном числе. Это влечет за собой возможные ошибки, например такие:
1. Kyle Balda|Pierre Coffin и Chris Renaud|Kyle Balda в нашем решении выше будут учитываться как разные значения
2. Pete Docter, Bob Peterson|Pete Docter и Lee Unkrich|David Silverman|Pete Docter  в нашем решении выше будут учитываться как три различных значения

Поэтому перепроверим

In [40]:
# Получим список всех уникальных режисеров
directors_list = data['director'].str.cat(sep='|').split('|')
directors_list = pd.Series(directors_list).unique()

# Для каждого уникального значения режисера отфильтруем исходную таблицу так, 
# чтобы в нее входили только строки с этим режисером. 
# Посчитаем сумму столбца revenue и найдем максимальную.
revenue_list = []
for director in directors_list:
    sum_revenue =  data[data['director'].str.contains(director, na=False)]['revenue'].sum()
    revenue_list.append(sum_revenue)
    
ser = pd.Series(revenue_list, index=directors_list).sort_values(ascending=False).head()
ser

Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
dtype: int64

При таком подходе решения задачи Peter Jackson также является режисером с максимальными кассовыми сборами. Так что оставляем его в качастве ответа

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [41]:
# Получим таблицу только с фильмами, в которых содержится жанр Action
data_action = data[data['genres'].str.contains('Action', na=False)]

In [42]:
# попробуем решить задачу не учитывая, что в некоторых полях столбцах director 
# режисеры указаны не в единственном числе
data_action['director'].value_counts().head(10)

Paul W.S. Anderson    7
Michael Bay           7
Ridley Scott          6
Robert Rodriguez      6
Antoine Fuqua         6
Peter Berg            5
Peter Jackson         5
Brett Ratner          5
Paul Greengrass       5
Gore Verbinski        5
Name: director, dtype: int64

В некоторых полях столбцах director  режисеры указаны не в единственном числе. Это влечет за собой возможные ошибки, например такие:
1. Kyle Balda|Pierre Coffin и Chris Renaud|Kyle Balda в нашем решении выше будут учитываться как разные значения
2. Pete Docter, Bob Peterson|Pete Docter и Lee Unkrich|David Silverman|Pete Docter  в нашем решении выше будут учитываться как три различных значения

Поэтому решим задачу иным способом:

In [43]:
# Получим список всех уникальных режисеров
directors_list = data_action['director'].str.cat(sep='|').split('|')
directors_list = pd.Series(directors_list).unique()

# Для каждого уникального значения режисера отфильтруем исходную таблицу так, 
# чтобы в нее входили только строки с этим режисером. 
# Посчитаем количество строк в отфильтрованной таблице
count_list = []
for director in directors_list:
    c =  data_action[data_action['director'].str.contains(director, na=False)].shape[0]
    count_list.append(c)

ser = pd.Series(count_list, index=directors_list).sort_values(ascending=False).head(10)
ser

Robert Rodriguez      9
Paul W.S. Anderson    7
Michael Bay           7
Ridley Scott          6
Antoine Fuqua         6
Andrzej Bartkowiak    5
Brett Ratner          5
Paul Greengrass       5
Quentin Tarantino     5
Peter Jackson         5
dtype: int64

Видим, что Robert Rodriguez снял фильм в жанре Action в одиночку 6 раз и еще 3 раза совместно с другими режисерами.

In [44]:
answers['14'] = ser.index[0]
answers['14']

'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

Опробуем ино подход к решению задач. Кажое значение полей cast/director/genres/production_companies разбиваем на словарь значений.
В случае необходимости можно расширить таблицу (explode) и сделать так, чтобы в нужном столбце был указан только один актер/режисер/жанр/компания

In [117]:
data['cast'] = data['cast'].apply(lambda x: x.split('|'))
data['director'] = data['director'].apply(lambda x: x.split('|'))
data['genres'] = data['genres'].apply(lambda x: x.split('|'))
data['production_companies'] = data['production_companies'].apply(lambda x: x.split('|'))


In [99]:
# Получим таблицу только с фильмами 2012 года
data_cast = data.query('release_year == 2012').explode('cast')
ser = data_cast.groupby(['cast'])['revenue'].sum().sort_values(ascending=False).head()
ser

cast
Chris Hemsworth      2027450773
Denis Leary          1629460639
Anne Hathaway        1522851057
Chris Evans          1519557910
Robert Downey Jr.    1519557910
Name: revenue, dtype: int64

In [84]:
answers['15'] = ser.index[0]
answers['15']

'Chris Hemsworth'

In [91]:
data_cast['revenue'].sort_values(ascending=False)

970     1519557910
970     1519557910
970     1519557910
970     1519557910
970     1519557910
           ...    
1033       2106557
1033       2106557
1033       2106557
1033       2106557
1033       2106557
Name: revenue, Length: 555, dtype: int64

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

Будем исходить из определения:
"Высокобюджетный фильм - это фильм, у которого бюджет выше среднего"

In [109]:
budget_mean = data['budget'].mean()
data_cast = data.query(f'budget > {budget_mean}').explode('cast')

ser = data_cast['cast'].value_counts().sort_values(ascending=False).head()
ser

Matt Damon        18
Adam Sandler      17
Angelina Jolie    16
Eddie Murphy      15
Tom Cruise        15
Name: cast, dtype: int64

In [110]:
answers['16'] = ser.index[0]
answers['16']

'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [121]:
actor = "'Nicolas Cage'"
data_cast = data.explode('cast').query(f'cast == {actor}')
data_cast = data_cast.explode('genres')

ser = data_cast['genres'].value_counts().sort_values(ascending=False).head()
ser

Action      17
Thriller    15
Drama       12
Crime       10
Fantasy      8
Name: genres, dtype: int64

In [122]:
answers['17'] = ser.index[0]
answers['17']

'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [126]:
company = 'Paramount Pictures'
data_company = data.explode('production_companies').query(f'production_companies == "{company}"')

df = data_company[data_company['profit'] == data_company['profit'].min()]
df

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit
925,267626,100000000,35168966,K-19: The Widowmaker,"[Harrison Ford, Liam Neeson, Peter Sarsgaard, ...",[Kathryn Bigelow],Fate has found its hero.,When Russia's first nuclear submarine malfunct...,138,"[Thriller, Drama, History]",Paramount Pictures,2002-07-19,6.0,2002,-64831034


In [127]:
answers['18'] = get_movie_name(df)
answers['18']

'K-19: The Widowmaker (267626)'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [133]:
ser = data.groupby(['release_year'])['revenue'].sum().sort_values(ascending=False).head()
ser

release_year
2015    25449202382
2014    23405862953
2013    23213799791
2012    23079001687
2011    22676791872
Name: revenue, dtype: int64

In [134]:
answers['19'] = ser.index[0]
answers['19']

2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [138]:
company = 'Warner Bros. Pictures'
data_company = data.explode('production_companies').query(f'production_companies == "{company}"')

ser = data_company.groupby(['release_year'])['profit'].sum().sort_values(ascending=False).head()
ser

release_year
2007    34307224
2006     5181129
2009   -11027492
2000   -18673682
2004   -43191450
Name: profit, dtype: int64

In [139]:
answers['20'] = ser.index[0]
answers['20']

2007

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [148]:
data_month = data
data_month['release_month'] = data['release_date'].dt.month

ser = data_month['release_month'].value_counts().sort_values(ascending=False).head()
ser

9     227
12    190
10    186
8     161
3     156
Name: release_month, dtype: int64

In [149]:
answers['21'] = ser.index[0]
answers['21']

9

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [155]:
data_month = data
data_month['release_month'] = data['release_date'].dt.month

df = data_month.query('release_month in [6, 7, 8]')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 450 entries, 0 to 1888
Data columns (total 16 columns):
imdb_id                 450 non-null int64
budget                  450 non-null int64
revenue                 450 non-null int64
original_title          450 non-null object
cast                    450 non-null object
director                450 non-null object
tagline                 450 non-null object
overview                450 non-null object
runtime                 450 non-null int64
genres                  450 non-null object
production_companies    450 non-null object
release_date            450 non-null datetime64[ns]
vote_average            450 non-null float64
release_year            450 non-null int64
profit                  450 non-null int64
release_month           450 non-null int64
dtypes: datetime64[ns](1), float64(1), int64(7), object(7)
memory usage: 59.8+ KB


In [154]:
answers['22'] = df.shape[0]
answers['22']

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

Для каждого режиссера вам нужно посчитать, сколько фильмов он выпустил зимой и найти того, у которого это значение максимальное

In [159]:
data_month = data
data_month['release_month'] = data['release_date'].dt.month
data_month = data_month.query('release_month in [12, 1, 2]')
data_month = data_month.explode('director')

ser = data_month['director'].value_counts().sort_values(ascending=False).head()
ser

Peter Jackson        7
Clint Eastwood       6
Steven Soderbergh    6
Adam Shankman        4
Shawn Levy           4
Name: director, dtype: int64

In [160]:
answers['23'] = ser.index[0]
answers['23']

'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

Нужно найти длину названия для каждого фильма, затем найти среднюю длину названий фильмов для каждой студии.
PS Не забыть, что иногда фильм выпускают несколько студий. В этом случае длина названия такого фильма дает вклад в среднюю длину для всех студий, участвовавших в выпуске фильма

In [167]:
data_title = data
data_title['title_length'] = data['original_title'].str.len()
data_title = data_title.explode('production_companies')

ser = data_title.groupby(['production_companies'])['title_length'].mean().sort_values(ascending=False)
ser

production_companies
Four By Two Productions       83.0
Jim Henson Company, The       59.0
Dos Corazones                 47.0
Museum Canada Productions     46.0
Polsky Films                  46.0
                              ... 
Everest Entertainment          3.0
Berlanti Productions           3.0
XM2 Productions                2.0
Ixtlan Productions             2.0
Global Entertainment Group     2.0
Name: title_length, Length: 1771, dtype: float64

In [168]:
answers['24'] = ser.index[0]
answers['24']

'Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


ВАРИАНТ 2

# Submission

In [0]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '...', '2': '...'}

In [0]:
# и убедиться что ни чего не пропустил)
len(answers)