In [1]:
from collections import Counter
import os

import pandas as pd

In [2]:
DATA_FILE = 'data.csv'

In [3]:
df = pd.read_csv(DATA_FILE, 
                 parse_dates=['release_date']
                )
df = df.set_index(['imdb_id'])

# Предобработка датасета

### Добавляем колонки, которые понадобяться для расчетов

In [5]:
df['profit'] = df.revenue - df.budget
df['is_profit'] = df.profit > 0
df['release_month'] = df.release_date.dt.month

### Добавляем вспомогательные функции

In [6]:
def count_values_in_serie_of_list(serie_of_lists, 
                                  serie_of_weights=1,
                                  most_common=1):
    """
    Считает количество значений в колонке, содержащей списки в каждой строке
    Параметры:
    serie_of_lists - колонка из списков значений
    serie_of_weigths - колонка весов или число (для одинакового веса для всех)
    most_common - сколько топовых позиций вернуть, если 0 - вернуть весь счетчик
    """
    
    if type(serie_of_weights) == int:
        serie_of_weights = [serie_of_weights for _ in enumerate(serie_of_lists)]
    
    total_counter = Counter()
    
    for cur_list, cur_weight in zip (serie_of_lists, serie_of_weights):
        total_counter += Counter({list_elem:cur_weight for list_elem in cur_list})
        
    if most_common:
        return total_counter.most_common(most_common)
    else:
        return total_counter

### Исследуем данные

In [6]:
df.head(3)

Unnamed: 0_level_0,popularity,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_count,vote_average,release_year,profit,is_profit,release_month
imdb_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
tt0369610,32.985763,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,Colin Trevorrow,The park is open.,Twenty-two years after the events of Jurassic ...,124,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,2015-06-09,5562,6.5,2015,1363528810,True,6
tt1392190,28.419936,150000000,378436354,Mad Max: Fury Road,Tom Hardy|Charlize Theron|Hugh Keays-Byrne|Nic...,George Miller,What a Lovely Day.,An apocalyptic story set in the furthest reach...,120,Action|Adventure|Science Fiction|Thriller,Village Roadshow Pictures|Kennedy Miller Produ...,2015-05-13,6185,7.1,2015,228436354,True,5
tt2908446,13.112507,110000000,295238201,Insurgent,Shailene Woodley|Theo James|Kate Winslet|Ansel...,Robert Schwentke,One Choice Can Destroy You,Beatrice Prior must confront her inner demons ...,119,Adventure|Science Fiction|Thriller,Summit Entertainment|Mandeville Films|Red Wago...,2015-03-18,2480,6.3,2015,185238201,True,3


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1890 entries, tt0369610 to tt0163676
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   popularity            1890 non-null   float64       
 1   budget                1890 non-null   int64         
 2   revenue               1890 non-null   int64         
 3   original_title        1890 non-null   object        
 4   cast                  1890 non-null   object        
 5   director              1890 non-null   object        
 6   tagline               1890 non-null   object        
 7   overview              1890 non-null   object        
 8   runtime               1890 non-null   int64         
 9   genres                1890 non-null   object        
 10  production_companies  1890 non-null   object        
 11  release_date          1890 non-null   datetime64[ns]
 12  vote_count            1890 non-null   int64         
 13  vote_avera

### Начнем выполнения теста

In [8]:
answer_ls = [] # для храненения ответов
def add_answer(answer:int):
    answer_ls.append(answer)


# 1. У какого фильма из списка самый большой бюджет?
Варианты ответов:
1. The Dark Knight Rises (tt1345836)
2. Spider-Man 3 (tt0413300)
3. Avengers: Age of Ultron (tt2395427)
4. The Warrior's Way	(tt1032751)
5. Pirates of the Caribbean: On Stranger Tides (tt1298650)

In [9]:
df.sort_values(by='budget', ascending=False)\
  .iloc[0]\
  .original_title

"The Warrior's Way"

In [10]:
answer_ls.append(4)

# 2. Какой из фильмов самый длительный (в минутах)
1. The Lord of the Rings: The Return of the King	(tt0167260)
2. Gods and Generals	(tt0279111)
3. King Kong	(tt0360717)
4. Pearl Harbor	(tt0213149)
5. Alexander	(tt0346491)

In [11]:
df.sort_values(by='runtime', ascending=False)\
  .iloc[0]\
  .original_title

'Gods and Generals'

In [12]:
answer_ls.append(2)

# 3. Какой из фильмов самый короткий (в минутах)
Варианты ответов:

1. Home on the Range	tt0299172
2. The Jungle Book 2	tt0283426
3. Winnie the Pooh	tt1449283
4. Corpse Bride	tt0121164
5. Hoodwinked!	tt0443536

In [13]:
df.sort_values(by='runtime', ascending=True)\
  .iloc[0].original_title

'Winnie the Pooh'

In [14]:
answer_ls.append(3)

# 4. Средняя длительность фильма?

Варианты ответов:
1. 115
2. 110
3. 105
4. 120
5. 100


In [15]:
df.runtime.mean()

109.65343915343915

In [16]:
answer_ls.append(2)

# 5. Средняя длительность фильма по медиане?
Варианты ответов:
1. 106
2. 112
3. 101
4. 120
5. 115




In [17]:
df.runtime.median()

106.5

In [18]:
answer_ls.append(1)

# 6. Какой самый прибыльный фильм?
Варианты ответов:
1. The Avengers	tt0848228
2. Minions	tt2293640
3. Star Wars: The Force Awakens	tt2488496
4. Furious 7	tt2820852
5. Avatar	tt0499549

In [19]:
df.sort_values(by='profit', ascending=False)\
  .iloc[0]\
  .original_title

'Avatar'

In [20]:
answer_ls.append(5)

# 7. Какой фильм самый убыточный?
Варианты ответов:
1. Supernova tt0134983
2. The Warrior's Way tt1032751
3. Flushed Away	tt0424095
4. The Adventures of Pluto Nash	tt0180052
5. The Lone Ranger	tt1210819

In [21]:
df.sort_values(by='profit', ascending=True)\
  .iloc[0]\
  .original_title

"The Warrior's Way"

In [22]:
answer_ls.append(2)

# 8. Сколько всего фильмов в прибыли?
Варианты ответов:
1. 1478
2. 1520
3. 1241
4. 1135
5. 1398


In [23]:
df.is_profit.sum()

1478

In [24]:
answer_ls.append(1)

# 9. Самый прибыльный фильм в 2008 году?
Варианты ответов:
1. Madagascar: Escape 2 Africa	tt0479952
2. Iron Man	tt0371746
3. Kung Fu Panda	tt0441773
4. The Dark Knight	tt0468569
5. Mamma Mia!	tt0795421

In [25]:
df[df.release_year == 2008]\
    .sort_values(by='profit', ascending=False)\
    .iloc[0]\
    .original_title

'The Dark Knight'

In [26]:
answer_ls.append(4)

# 10. Самый убыточный фильм за период с 2012 по 2014 (включительно)?
Варианты ответов:
1. Winter's Tale	tt1837709
2. Stolen	tt1656186
3. Broken City	tt1235522
4. Upside Down	tt1374992
5. The Lone Ranger	tt1210819


In [27]:
df[(df.release_year >= 2012) & (df.release_year <= 2014)]\
    .sort_values(by='profit', ascending=True)\
    .iloc[0]\
    .original_title

'The Lone Ranger'

In [28]:
answer_ls.append(5)

# 11. Какого жанра фильмов больше всего?
Варианты ответов:
1. Action
2. Adventure
3. Drama
4. Comedy
5. Thriller

In [29]:
count_values_in_serie_of_list(
    df.genres.str.split('|')
)

[('Drama', 782)]

In [30]:
answer_ls.append(3)

# 12. Какого жанра среди прибыльных фильмов больше всего?
Варианты ответов:
1. Drama
2. Comedy
3. Action
4. Thriller
5. Adventure

In [31]:
count_values_in_serie_of_list(
    df[df.is_profit].genres.str.split('|')
)

[('Drama', 560)]

In [32]:
answer_ls.append(1)

# 13. Кто из режиссеров снял больше всего фильмов?
Варианты ответов:
1. Steven Spielberg
2. Ridley Scott 
3. Steven Soderbergh
4. Christopher Nolan
5. Clint Eastwood

In [33]:
count_values_in_serie_of_list(
    df.director.str.split('|')
)

[('Steven Soderbergh', 13)]

In [34]:
answer_ls.append(3)

# 14. Кто из режиссеров снял больше всего Прибыльных фильмов?
Варианты ответов:
1. Steven Soderbergh
2. Clint Eastwood
3. Steven Spielberg
4. Ridley Scott
5. Christopher Nolan

In [35]:
count_values_in_serie_of_list(
    df[df.is_profit].director.str.split('|')
)

[('Ridley Scott', 12)]

In [36]:
answer_ls.append(4)

# 15. Кто из режиссеров принес больше всего прибыли?
Варианты ответов:
1. Steven Spielberg
2. Christopher Nolan
3. David Yates
4. James Cameron
5. Peter Jackson


In [37]:
count_values_in_serie_of_list(
    df.director.str.split('|'),
    df.profit
)

[('Peter Jackson', 5202593685)]

In [38]:
answer_ls.append(5)

# 16. Какой актер принес больше всего прибыли?
Варианты ответов:
1. Emma Watson
2. Johnny Depp
3. Michelle Rodriguez
4. Orlando Bloom
5. Rupert Grint

In [39]:
count_values_in_serie_of_list(
    df.cast.str.split('|'),
    df.profit
)

[('Emma Watson', 6666245597)]

In [40]:
answer_ls.append(1)

# 17. Какой актер принес меньше всего прибыли в 2012 году?
Варианты ответов:
1. Nicolas Cage
2. Danny Huston
3. Kirsten Dunst
4. Jim Sturgess
5. Sami Gayle

In [41]:
filter_2012 = df.release_year == 2012
count_values_in_serie_of_list(
    df[filter_2012].cast.str.split('|'),
    -df[filter_2012].profit
)

[('Kirsten Dunst', 68109207)]

In [42]:
answer_ls.append(3)

# 18. Какой актер снялся в большем количестве высокобюджетных фильмов? (в фильмах где бюджет выше среднего по данной выборке)
Варианты ответов:
1. Tom Cruise
2. Mark Wahlberg 
3. Matt Damon
4. Angelina Jolie
5. Adam Sandler

In [43]:
filter_big_budget = df.budget >= df.budget.mean()

count_values_in_serie_of_list(
    df[filter_big_budget].cast.str.split('|')
)


[('Matt Damon', 18)]

In [44]:
answer_ls.append(3)

# 19. В фильмах какого жанра больше всего снимался Nicolas Cage?  
Варианты ответа:
1. Drama
2. Action
3. Thriller
4. Adventure
5. Crime

In [45]:
filter_cage = df.cast.str.contains('Nicolas Cage')

count_values_in_serie_of_list(
    df[filter_cage].genres.str.split('|')
)

[('Action', 17)]

In [46]:
answer_ls.append(2)

# 20. Какая студия сняла больше всего фильмов?
Варианты ответа:
1. Universal Pictures (Universal)
2. Paramount Pictures
3. Columbia Pictures
4. Warner Bros
5. Twentieth Century Fox Film Corporation

In [47]:
count_values_in_serie_of_list(
    df.production_companies.str.split('|')
)

[('Universal Pictures', 173)]

In [48]:
answer_ls.append(1)

# 21. Какая студия сняла больше всего фильмов в 2015 году?
Варианты ответа:
1. Universal Pictures
2. Paramount Pictures
3. Columbia Pictures
4. Warner Bros
5. Twentieth Century Fox Film Corporation

In [49]:
filter_2015 = df.release_year == 2015
count_values_in_serie_of_list(
    df[filter_2015].production_companies.str.split('|')
)

[('Warner Bros.', 12)]

In [50]:
answer_ls.append(4)

# 22. Какая студия заработала больше всего денег в жанре комедий за все время?
Варианты ответа:
1. Warner Bros
2. Universal Pictures (Universal)
3. Columbia Pictures
4. Paramount Pictures
5. Walt Disney

In [51]:
filter_comedy = df.genres.str.contains('Comedy')
count_values_in_serie_of_list(
    df[filter_comedy].production_companies.str.split('|'),
    df[filter_comedy].profit
)

[('Universal Pictures', 8961545581)]

In [52]:
answer_ls.append(2)

# 23. Какая студия заработала больше всего денег в 2012 году?
Варианты ответа:
1. Universal Pictures (Universal)
2. Warner Bros
3. Columbia Pictures
4. Paramount Pictures
5. Lucasfilm

In [53]:
filter_2012 = df.release_year == 2012
count_values_in_serie_of_list(
    df[filter_2012].production_companies.str.split('|'),
    df[filter_2012].profit
)

[('Columbia Pictures', 2501406608)]

In [54]:
answer_ls.append(3)

# 24. Самый убыточный фильм от Paramount Pictures
Варианты ответа:

1. K-19: The Widowmaker tt0267626
2. Next tt0435705
3. Twisted tt0315297
4. The Love Guru tt0811138
5. The Fighter tt0964517

In [55]:
df[df.production_companies.str.contains('Paramount Pictures')]\
    .sort_values(by='profit')\
    .iloc[0]\
    .original_title

'K-19: The Widowmaker'

In [56]:
answer_ls.append(1)

# 25. Какой Самый прибыльный год (заработали больше всего)?
Варианты ответа:
1. 2014
2. 2008
3. 2012
4. 2002
5. 2015

In [57]:
df.groupby(['release_year'])\
    .profit\
    .sum()\
    .sort_values(ascending=False)\
    .index[0]

2015

In [58]:
answer_ls.append(5)

# 26. Какой Самый прибыльный год для студии Warner Bros?
Варианты ответа:
1. 2014
2. 2008
3. 2012
4. 2010
5. 2015

In [59]:
df[df.production_companies.str.contains('Warner Bros')]\
    .groupby(['release_year'])\
    .profit\
    .sum()\
    .sort_values(ascending=False)\
    .index[0]

2014

In [60]:
answer_ls.append(1)

# 27. В каком месяце за все годы суммарно вышло больше всего фильмов?
Варианты ответа:
1. Январь
2. Июнь
3. Декабрь
4. Сентябрь
5. Май

In [61]:
df.release_date.dt.month.value_counts().index[0]

9

In [62]:
answer_ls.append(4)

# 28. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)
Варианты ответа:
1. 345
2. 450
3. 478
4. 523
5. 381

In [63]:
df.release_month.isin([6,7,8]).sum()

450

In [64]:
answer_ls.append(2)

# 29. Какой режисер выпускает (суммарно по годам) больше всего фильмов зимой?
Варианты ответов:
1. Steven Soderbergh
2. Christopher Nolan
3. Clint Eastwood
4. Ridley Scott
5. Peter Jackson

In [65]:
filter_is_winter = df.release_month.isin([12,1,2])
df[filter_is_winter].director.value_counts().index[0]

'Peter Jackson'

In [66]:
answer_ls.append(5)

# 30. Какой месяц чаще всего по годам самый прибыльный?
Варианты ответа:
1. Январь
2. Июнь
3. Декабрь
4. Сентябрь
5. Май

In [12]:
df.groupby(['release_month'])\
    .profit\
    .sum()
    

release_month
1      5396885454
2      8854574425
3     13720216540
4     12876005537
5     25039516141
6     27551262500
7     18307895020
8      9640610446
9     10878921041
10    12994907859
11    18654155473
12    26563071474
Name: profit, dtype: int64

In [7]:
df.groupby(['release_year','release_month'])\
    .profit\
    .sum()\
    .unstack()\
    .apply(lambda column: 
               column.index[column.argmax()],
           axis=1
          )\
    .value_counts()\
    .index[0]

6

In [68]:
answer_ls.append(2)

# 31. Названия фильмов какой студии в среднем самые длинные по количеству символов?
Варианты ответа:
1. Universal Pictures (Universal)
2. Warner Bros
3. Jim Henson Company, The
4. Paramount Pictures
5. Four By Two Productions

In [69]:
title_length = count_values_in_serie_of_list(
    df.production_companies.str.split('|'),
    df.original_title.str.len(),
    most_common=0
)

film_count = count_values_in_serie_of_list(
    df.production_companies.str.split('|'),
    most_common=0
)

mean_film_title_length = {key : title_length[key] / film_count[key] for key in film_count}

sorted(mean_film_title_length.items(), 
       reverse=True,
       key=lambda x:x[1])[0]

('Four By Two Productions', 83.0)

In [70]:
answer_ls.append(5)

### Что это за фильм такой

In [71]:
df[df.production_companies.str.contains('Four By Two Productions')].original_title

imdb_id
tt0443453    Borat: Cultural Learnings of America for Make ...
Name: original_title, dtype: object

# 32. Названия фильмов какой студии в среднем самые длинные по количеству слов?
Варианты ответа:
1. Universal Pictures (Universal)
2. Warner Bros
3. Jim Henson Company, The
4. Paramount Pictures
5. Four By Two Productions

In [72]:
word_count = count_values_in_serie_of_list(
    df.production_companies.str.split('|'),
    df.original_title.str.split().apply(len),
    most_common=0
)

film_count = count_values_in_serie_of_list(
    df.production_companies.str.split('|'),
    most_common=0
)

mean_film_word_count = {key : word_count[key] / film_count[key] for key in film_count}

sorted(mean_film_word_count.items(), 
       reverse=True,
       key=lambda x:x[1])[0]

('Four By Two Productions', 12.0)

In [73]:
answer_ls.append(5)

# 33. Сколько разных слов используется в названиях фильмов?(без учета регистра)
Варианты ответа:
1. 6540
2. 1002
3. 2461
4. 28304
5. 3432

In [74]:
words_counter = set()
for x in df.original_title.str.split():
    words_counter.update([s.lower() for s in x])
len(words_counter)

2461

In [75]:
answer_ls.append(3)

# 34. Какие фильмы входят в 1 процент лучших по рейтингу?
Варианты ответа:
1. Inside Out, Gone Girl, 12 Years a Slave
2. BloodRayne, The Adventures of Rocky & Bullwinkle
3. The Lord of the Rings: The Return of the King
4. 300, Lucky Number Slevin

In [76]:
df.sort_values(by='vote_average',
                 ascending=False)\
    .iloc[:int(df.shape[0]*.01)]\
    .original_title

imdb_id
tt0468569                                      The Dark Knight
tt2084970                                   The Imitation Game
tt2096673                                           Inside Out
tt0816692                                         Interstellar
tt3170832                                                 Room
tt0167260        The Lord of the Rings: The Return of the King
tt0253474                                          The Pianist
tt0209144                                              Memento
tt2024544                                     12 Years a Slave
tt2267998                                            Gone Girl
tt2278388                             The Grand Budapest Hotel
tt2015381                              Guardians of the Galaxy
tt0993846                              The Wolf of Wall Street
tt1375666                                            Inception
tt1187043                                             3 Idiots
tt0338013                Eternal Sunshine of th

In [77]:
answer_ls.append(1)

# 35. Какие актеры чаще всего снимаются в одном фильме вместе
Варианты ответа:
1. Johnny Depp & Helena Bonham Carter
2. Hugh Jackman & Ian McKellen
3. Vin Diesel & Paul Walker
4. Adam Sandler & Kevin James
5. Daniel Radcliffe & Rupert Grint

In [78]:
def number_of_films_with_two_actors(actor1, actor2):
    value =  sum(
        df.cast.str.contains(actor1) & df.cast.str.contains(actor2)
    )
    print(actor1, actor2, value, sep=', ')

In [79]:
number_of_films_with_two_actors('Johnny Depp','Helena Bonham Carter')
number_of_films_with_two_actors('Hugh Jackman','Ian McKellen')
number_of_films_with_two_actors('Vin Diesel','Paul Walker')
number_of_films_with_two_actors('Adam Sandler','Kevin James')
number_of_films_with_two_actors('Daniel Radcliffe','Rupert Grint')

Johnny Depp, Helena Bonham Carter, 6
Hugh Jackman, Ian McKellen, 5
Vin Diesel, Paul Walker, 5
Adam Sandler, Kevin James, 5
Daniel Radcliffe, Rupert Grint, 8


In [80]:
answer_ls.append(5)

# 36. У какого из режиссеров выше вероятность выпустить фильм в прибыли? (5 баллов)101
Варианты ответа:
1. Quentin Tarantino
2. Steven Soderbergh
3. Robert Rodriguez
4. Christopher Nolan
5. Clint Eastwood

In [81]:
prib_count = count_values_in_serie_of_list(
    df.director.str.split('|'),
    df.is_profit,
    most_common=0
)

film_count = count_values_in_serie_of_list(
    df.director.str.split('|'),
    most_common=0
)

mean_profit_film = {key : prib_count[key] / film_count[key] for key in film_count}

In [82]:
print('Quentin Tarantino', mean_profit_film['Quentin Tarantino'])
print('Steven Soderbergh', mean_profit_film['Steven Soderbergh'])
print('Robert Rodriguez', mean_profit_film['Robert Rodriguez'])
print('Christopher Nolan', mean_profit_film['Christopher Nolan'])
print('Clint Eastwood', mean_profit_film['Clint Eastwood'])

Quentin Tarantino 0.8571428571428571
Steven Soderbergh 0.7692307692307693
Robert Rodriguez 0.7272727272727273
Christopher Nolan 1.0
Clint Eastwood 0.8333333333333334


In [83]:
answer_ls.append(4)

# Submission

In [84]:
len(answer_ls)

36

In [85]:
pd.DataFrame({'Id':range(1,len(answer_ls)+1), 'Answer':answer_ls}, columns=['Id', 'Answer'])

Unnamed: 0,Id,Answer
0,1,4
1,2,2
2,3,3
3,4,2
4,5,1
5,6,5
6,7,2
7,8,1
8,9,4
9,10,5
