In [195]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os
from collections import Counter
import warnings

warnings.filterwarnings('ignore')

In [156]:
# Прочтем данные
data = pd.read_csv('data.csv')

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1890 entries, 0 to 1889
Data columns (total 16 columns):
imdb_id                 1890 non-null object
popularity              1890 non-null float64
budget                  1890 non-null int64
revenue                 1890 non-null int64
original_title          1890 non-null object
cast                    1890 non-null object
director                1890 non-null object
tagline                 1890 non-null object
overview                1890 non-null object
runtime                 1890 non-null int64
genres                  1890 non-null object
production_companies    1890 non-null object
release_date            1890 non-null object
vote_count              1890 non-null int64
vote_average            1890 non-null float64
release_year            1890 non-null int64
dtypes: float64(2), int64(5), object(9)
memory usage: 236.3+ KB


In [7]:
data.head(5)

Unnamed: 0,imdb_id,popularity,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_count,vote_average,release_year
0,tt0369610,32.985763,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,Colin Trevorrow,The park is open.,Twenty-two years after the events of Jurassic ...,124,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,6/9/2015,5562,6.5,2015
1,tt1392190,28.419936,150000000,378436354,Mad Max: Fury Road,Tom Hardy|Charlize Theron|Hugh Keays-Byrne|Nic...,George Miller,What a Lovely Day.,An apocalyptic story set in the furthest reach...,120,Action|Adventure|Science Fiction|Thriller,Village Roadshow Pictures|Kennedy Miller Produ...,5/13/2015,6185,7.1,2015
2,tt2908446,13.112507,110000000,295238201,Insurgent,Shailene Woodley|Theo James|Kate Winslet|Ansel...,Robert Schwentke,One Choice Can Destroy You,Beatrice Prior must confront her inner demons ...,119,Adventure|Science Fiction|Thriller,Summit Entertainment|Mandeville Films|Red Wago...,3/18/2015,2480,6.3,2015
3,tt2488496,11.173104,200000000,2068178225,Star Wars: The Force Awakens,Harrison Ford|Mark Hamill|Carrie Fisher|Adam D...,J.J. Abrams,Every generation has a story.,Thirty years after defeating the Galactic Empi...,136,Action|Adventure|Science Fiction|Fantasy,Lucasfilm|Truenorth Productions|Bad Robot,12/15/2015,5292,7.5,2015
4,tt2820852,9.335014,190000000,1506249360,Furious 7,Vin Diesel|Paul Walker|Jason Statham|Michelle ...,James Wan,Vengeance Hits Home,Deckard Shaw seeks revenge against Dominic Tor...,137,Action|Crime|Thriller,Universal Pictures|Original Film|Media Rights ...,4/1/2015,2947,7.3,2015


# Предобработка датасета

In [157]:
answer_ls = [] # создадим список с ответами. сюда будем добавлять ответы по мере прохождения теста

# Создадим дополнительное св-во равное разности бюджета и сборов
data['profit'] = data['revenue'] - data['budget']

# Исправим в данных различные виды написания названия студии Universal Pictures (Universal) к единому виду
data.production_companies = data.production_companies.str.strip().apply(lambda s: '|'.join(['Universal Pictures' if 'Universal' in name else name for name in s.split('|')]))


In [158]:
def get_unique_items(series):
    return list(set([name for names in [s.split('|') for s in series] for name in names]))

In [191]:
# Список уникальных значений актеров.
actors_list = get_unique_items(data.cast)

# Список уникальных значений директоров.
directors_list = get_unique_items(data.director)

# Список уникальных значений студий
prod_companies = get_unique_items(data.production_companies)


In [170]:
# 1 - Создаем новое св-во realease_month
data['release_month'] = pd.to_datetime(data['release_date']).apply(lambda d: d.month)

In [171]:
# Добавим новое св-во время года. Может иметь значения ['winter', 'spring', 'summer', 'autumn']
# Зададим функцию для добавления нового признака
def get_season_of_year(month):
    """
    Функция получает экземпляр класса datatime.
    Возвращает строковое представление
    времени года.
    """
    if 1 <= month <= 2 or month == 12:
        return 'winter'
    elif 3 <= month <= 5:
        return 'spring'
    elif 6 <= month <= 8:
        return 'summer'
    elif 9 <= month <=11:
        return 'autumn'
    
data['season'] = data['release_month'].apply(get_season_of_year)

In [186]:
# Добавим признак длины признака original_title
data['title_length'] = data['original_title'].str.len()

In [203]:
# Приведем все слова в признаке original_title к единому виду
data['original_title'] = data['original_title'].str.lower()

In [None]:
# Добавим признак кол-во слов в названии фильма
data['count_words_in_title'] = data['original_title'].str.split().str.len()

# 1. У какого фильма из списка самый большой бюджет?
Варианты ответов:
1. The Dark Knight Rises (tt1345836)
2. Spider-Man 3 (tt0413300)
3. Avengers: Age of Ultron (tt2395427)
4. The Warrior's Way	(tt1032751)
5. Pirates of the Caribbean: On Stranger Tides (tt1298650)

In [176]:
res_1 = data[data['budget'] == data.budget.max()]['original_title']

In [20]:
# тут вводим ваш ответ и добавлем в его список ответов (сейчас для примера стоит "1")
answer_ls.append(res_1.values[0])

# 2. Какой из фильмов самый длительный (в минутах)
1. The Lord of the Rings: The Return of the King	(tt0167260)
2. Gods and Generals	(tt0279111)
3. King Kong	(tt0360717)
4. Pearl Harbor	(tt0213149)
5. Alexander	(tt0346491)

In [174]:
res_2 = data[data['runtime'] == data.runtime.max()]['original_title']

In [28]:
answer_ls.append(res_2.values[0])

# 3. Какой из фильмов самый короткий (в минутах)
Варианты ответов:

1. Home on the Range	tt0299172
2. The Jungle Book 2	tt0283426
3. Winnie the Pooh	tt1449283
4. Corpse Bride	tt0121164
5. Hoodwinked!	tt0443536

In [172]:
res_3 = data[data['runtime'] == data.runtime.min()]['original_title']

In [32]:
answer_ls.append(res_3.values[0])

# 4. Средняя длительность фильма?

Варианты ответов:
1. 115
2. 110
3. 105
4. 120
5. 100


In [34]:
data.runtime.mean()

109.65343915343915

In [35]:
answer_ls.append(110)

# 5. Средняя длительность фильма по медиане?
Варианты ответов:
1. 106
2. 112
3. 101
4. 120
5. 115




In [38]:
data.runtime.median()

106.5

In [39]:
answer_ls.append(106)

# 6. Какой самый прибыльный фильм?
Варианты ответов:
1. The Avengers	tt0848228
2. Minions	tt2293640
3. Star Wars: The Force Awakens	tt2488496
4. Furious 7	tt2820852
5. Avatar	tt0499549

In [170]:
res_6 = data[data['profit'] == data.profit.max()]['original_title']

In [43]:
answer_ls.append(res_6.values[0])

# 7. Какой фильм самый убыточный?
Варианты ответов:
1. Supernova tt0134983
2. The Warrior's Way tt1032751
3. Flushed Away	tt0424095
4. The Adventures of Pluto Nash	tt0180052
5. The Lone Ranger	tt1210819

In [168]:
res_7 = data[data['profit'] == data.profit.min()]['original_title']

In [46]:
answer_ls.append(res_7.values[0])

# 8. Сколько всего фильмов в прибыли?
Варианты ответов:
1. 1478
2. 1520
3. 1241
4. 1135
5. 1398


In [49]:
res_8 = data[data['profit'] > 0].imdb_id.count()

In [50]:
answer_ls.append(res_8)

# 9. Самый прибыльный фильм в 2008 году?
Варианты ответов:
1. Madagascar: Escape 2 Africa	tt0479952
2. Iron Man	tt0371746
3. Kung Fu Panda	tt0441773
4. The Dark Knight	tt0468569
5. Mamma Mia!	tt0795421

In [239]:
df_08 = data[data['release_year'] == 2008]
res_9 = df_08[data['revenue'] == df_08.revenue.max()]['original_title']

In [56]:
answer_ls.append(res_9.values[0])

# 10. Самый убыточный фильм за период с 2012 по 2014 (включительно)?
Варианты ответов:
1. Winter's Tale	tt1837709
2. Stolen	tt1656186
3. Broken City	tt1235522
4. Upside Down	tt1374992
5. The Lone Ranger	tt1210819


In [163]:
# selected_movies are the movies which created from 2012 to 2014 years
selected_movies = data.query("release_year >= 2012 & release_year <= 2014")
res_10 = selected_movies[selected_movies['profit'] == selected_movies.profit.min()].original_title

In [60]:
answer_ls.append(res_10.values[0])

#### Для подсчета кол-ва значений в некоторых признаках напишем функцию использующую класс Counter библиотеки collections

In [12]:
def count_items(x, counter, delimeter='|'):
    """
    Принимает строку x, экземпляр счетчика класса Counter,
    символ delimeter по которому разбивается строка.
    
    """
    for i in x.split(delimeter):
        counter[i] += 1
        
    return x

# 11. Какого жанра фильмов больше всего?
Варианты ответов:
1. Action
2. Adventure
3. Drama
4. Comedy
5. Thriller

In [13]:
c_11 = Counter()

data['genres'].apply(count_items, counter=c_11)
res_11 = c_11.most_common(1)[0][0]

In [67]:
answer_ls.append(res_11)

# 12. Какого жанра среди прибыльных фильмов больше всего?
Варианты ответов:
1. Drama
2. Comedy
3. Action
4. Thriller
5. Adventure

In [17]:
profitable_data = data.query("profit > 0")
c_12 = Counter()

profitable_data['genres'].apply(count_items, counter=c_12)
res_12 = c_12.most_common(1)[0][0]

In [69]:
answer_ls.append(res_12)

# 13. Кто из режиссеров снял больше всего фильмов?
Варианты ответов:
1. Steven Spielberg
2. Ridley Scott 
3. Steven Soderbergh
4. Christopher Nolan
5. Clint Eastwood

In [19]:
c_13 = Counter()

data['director'].apply(count_items, counter=c_13)
res_13 = c_13.most_common(1)[0][0]

In [72]:
answer_ls.append(res_13)

# 14. Кто из режиссеров снял больше всего Прибыльных фильмов?
Варианты ответов:
1. Steven Soderbergh
2. Clint Eastwood
3. Steven Spielberg
4. Ridley Scott
5. Christopher Nolan

In [23]:
c_14 = Counter()
profitable_data = data.query("profit > 0")

profitable_data['director'].apply(count_items, counter=c_14)
res_14 = c_14.most_common(1)[0][0]

In [74]:
answer_ls.append(res_14)

# 15. Кто из режиссеров принес больше всего прибыли?
Варианты ответов:
1. Steven Spielberg
2. Christopher Nolan
3. David Yates
4. James Cameron
5. Peter Jackson


In [40]:
grouped_directors = data.groupby(['director']).sum()
res_15 = grouped_directors[grouped_directors['profit'] == grouped_directors['profit'].max()]

In [80]:
answer_ls.append(res_15.index[0])

#### Для подсчета численных показателей по определенным критериям зададим функцию count_values

In [57]:
def count_values(row, feature_1, feature_2, counter, delimeter='|'):
    """
    Функция получает объект типа pandas.series, 
    название признака feature_1, который будет разбит
    по значению delimeter, и по каждому элементу 
    получившего списка, с использованием счетчика counter
    будет просуммированно значение из признака feature_2
    данной строки.
    """
    
    for i in row[feature_1].split(delimeter):
        counter[i] += row[feature_2]
    return row


# 16. Какой актер принес больше всего прибыли?
Варианты ответов:
1. Emma Watson
2. Johnny Depp
3. Michelle Rodriguez
4. Orlando Bloom
5. Rupert Grint

In [58]:
c_16 = Counter()

data.apply(count_values, feature_1='cast', feature_2='profit', counter=c_16, axis=1)
res_16 = c_16.most_common(1)[0][0]

In [68]:
answer_ls.append(res_16)

# 17. Какой актер принес меньше всего прибыли в 2012 году?
Варианты ответов:
1. Nicolas Cage
2. Danny Huston
3. Kirsten Dunst
4. Jim Sturgess
5. Sami Gayle

In [66]:
c_17 = Counter()

df_2012 = data.query("release_year == 2012")
df_2012.apply(count_values, feature_1='cast', feature_2='profit', counter=c_17, axis=1)
res_17 = c_17.most_common()[-1][0]

In [67]:
answer_ls.append(res_17)

# 18. Какой актер снялся в большем количестве высокобюджетных фильмов? (в фильмах где бюджет выше среднего по данной выборке)
Варианты ответов:
1. Tom Cruise
2. Mark Wahlberg 
3. Matt Damon
4. Angelina Jolie
5. Adam Sandler

In [70]:
# Получим high_budget_film_df (hbf_df)c фильмами, бюджет которых выше среднего по выборке
high_budget = data.budget.mean()
hbf_df = data.query("budget > @high_budget")

c_18 = Counter()
hbf_df['cast'].apply(count_items, counter=c_18)
res_18 = c_18.most_common()[0][0]

In [91]:
answer_ls.append(res_18)

# 19. В фильмах какого жанра больше всего снимался Nicolas Cage?  
Варианты ответа:
1. Drama
2. Action
3. Thriller
4. Adventure
5. Crime

In [74]:
# Получим nikolas_df
nikolas_df = data[data['cast'].str.contains('Nicolas Cage')]

c_19 = Counter()
nikolas_df['genres'].apply(count_items, counter=c_19)
res_19 = c_19.most_common()[0][0]

In [94]:
answer_ls.append(res_19)

# 20. Какая студия сняла больше всего фильмов?
Варианты ответа:
1. Universal Pictures (Universal)
2. Paramount Pictures
3. Columbia Pictures
4. Warner Bros
5. Twentieth Century Fox Film Corporation

In [127]:
c_20 = Counter()

data.production_companies.apply(count_items, counter=c_20)
res_20 = c_20.most_common(5)

In [96]:
answer_ls.append(res_20)

# 21. Какая студия сняла больше всего фильмов в 2015 году?
Варианты ответа:
1. Universal Pictures
2. Paramount Pictures
3. Columbia Pictures
4. Warner Bros
5. Twentieth Century Fox Film Corporation

In [122]:
# Получим df за 2015 год
df_2015 = data.query("release_year == 2015")

c_21 = Counter()
df_2015.production_companies.apply(count_items, counter=c_21)
res_21 = c_21.most_common()[0][0]

In [106]:
answer_ls.append(res_21)

# 22. Какая студия заработала больше всего денег в жанре комедий за все время?
Варианты ответа:
1. Warner Bros
2. Universal Pictures (Universal)
3. Columbia Pictures
4. Paramount Pictures
5. Walt Disney

In [145]:
# Получим фрейм, содержащий записи о фильмах, включающих жанр комедии
comedy_df = data[data['genres'].str.contains('Comedy')]
c_22 = Counter()

comedy_df.apply(count_values, feature_1='production_companies', feature_2='profit', counter=c_22, axis=1)
res_22 = c_22.most_common()[0][0]

In [146]:
answer_ls.append(res_22)

# 23. Какая студия заработала больше всего денег в 2012 году?
Варианты ответа:
1. Universal Pictures (Universal)
2. Warner Bros
3. Columbia Pictures
4. Paramount Pictures
5. Lucasfilm

In [162]:
# Получит все записи за 2012 год.
df_2012 = data.query("release_year == 2012")

c_23 = Counter()

df_2012.apply(count_values, feature_1='production_companies', feature_2='profit', counter=c_23, axis=1)
res_23 = c_23.most_common()[0][0]

In [164]:
answer_ls.append(res_23)

# 24. Самый убыточный фильм от Paramount Pictures
Варианты ответа:

1. K-19: The Widowmaker tt0267626
2. Next tt0435705
3. Twisted tt0315297
4. The Love Guru tt0811138
5. The Fighter tt0964517

In [166]:
# get all records by Paramount
paramount_df = data[data['production_companies'].str.contains('Paramount Pictures')]

c_24 = Counter()
paramount_df.apply(count_values, feature_1='original_title', feature_2='profit', counter=c_24, axis=1)
res_24 = c_24.most_common()[-1][0]

In [120]:
answer_ls.append(res_24)

# 25. Какой Самый прибыльный год (заработали больше всего)?
Варианты ответа:
1. 2014
2. 2008
3. 2012
4. 2002
5. 2015

In [121]:
year_profit_df = data.groupby('release_year').sum()['profit'].reset_index()
max_profit = year_profit_df.profit.max()
res_25 = year_profit_df.query("profit == @max_profit")['release_year']

2015

In [122]:
answer_ls.append(res_25.values[0])

# 26. Какой Самый прибыльный год для студии Warner Bros?
Варианты ответа:
1. 2014
2. 2008
3. 2012
4. 2010
5. 2015

In [123]:
warner_df = data[data['production_companies'].str.contains('Warner Bros')].groupby('release_year').sum()['profit'].reset_index()
warner_max_profit = warner_df.profit.max()
res_26 = warner_df.query("profit == @warner_max_profit")

2014

In [124]:
answer_ls.append(res_26['release_year'].values[0])

# 27. В каком месяце за все годы суммарно вышло больше всего фильмов?
Варианты ответа:
1. Январь
2. Июнь
3. Декабрь
4. Сентябрь
5. Май

In [179]:
# Зададим словарь соответствия номера месяца и его наименования
months_dict = {
    1: 'Январь',
    2: 'Февраль',
    3: 'Март',
    4: 'Апрель',
    5: 'Май',
    6: 'Июнь',
    7: 'Июль',
    8: 'Август',
    9: 'Сентябрь',
    10: 'Октябрь',
    11: 'Ноябрь',
    12: 'Декабрь',
}

In [130]:
months_df = data.groupby('release_month').count()
max_count_in_month = months_df.popularity.max()
res_27 = months_df.query("popularity == @max_count_in_month")

In [128]:
answer_ls.append(months_dict[res_27.index[0]])

# 28. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)
Варианты ответа:
1. 345
2. 450
3. 478
4. 523
5. 381

In [174]:
summer_movie = data.groupby('season').count()
res_28 = summer_movie.loc['summer'][0]

In [132]:
answer_ls.append(res_28)

# 29. Какой режисер выпускает (суммарно по годам) больше всего фильмов зимой?
Варианты ответов:
1. Steven Soderbergh
2. Christopher Nolan
3. Clint Eastwood
4. Ridley Scott
5. Peter Jackson

In [183]:
# Получим исключительно зимние записи
winter_df = data[data['season'] == 'winter']
c_29 = Counter()

winter_df.director.apply(count_items, counter=c_29)
res_29 = c_29.most_common()[0][0]

In [184]:
answer_ls.append(res_29)

# 30. Какой месяц чаще всего по годам самый прибыльный?
Варианты ответа:
1. Январь
2. Июнь
3. Декабрь
4. Сентябрь
5. Май

In [185]:
pv_df = data.pivot_table('profit', index='release_month', columns='release_year', aggfunc='sum')
temp_30 = pv_df[pv_df[pv_df.columns] == pv_df.max()].count(axis=1).sort_values(ascending=False).index[0]
answer_30 = months_dict[temp_30]


In [137]:
answer_ls.append(answer_30)

# 31. Названия фильмов какой студии в среднем самые длинные по количеству символов?
Варианты ответа:
1. Universal Pictures (Universal)
2. Warner Bros
3. Jim Henson Company, The
4. Paramount Pictures
5. Four By Two Productions

In [196]:
data_31 = pd.Series({x: data[data.production_companies.str.contains(x)].title_length.mean() for x in prod_companies})\
.sort_values(ascending=False)
res_31 = data_31.index[0]

In [140]:
answer_ls.append(res_31)

# 32. Названия фильмов какой студии в среднем самые длинные по количеству слов?
Варианты ответа:
1. Universal Pictures (Universal)
2. Warner Bros
3. Jim Henson Company, The
4. Paramount Pictures
5. Four By Two Productions

In [201]:
data_32 = pd.Series({x: data[data.production_companies.str.contains(x)].count_words_in_title.mean() for x in prod_companies})\
.sort_values(ascending=False)
res_32 = data_32.index[0]

In [146]:
answer_ls.append(res_32)

# 33. Сколько разных слов используется в названиях фильмов?(без учета регистра)
Варианты ответа:
1. 6540
2. 1002
3. 2461
4. 28304
5. 3432

In [204]:
title_words = list(set([word for words in [title.split() for title in data.original_title] for word in words]))
res_33 = len(title_words)

In [148]:
answer_ls.append(res_33)

# 34. Какие фильмы входят в 1 процент лучших по рейтингу?
Варианты ответа:
1. Inside Out, Gone Girl, 12 Years a Slave
2. BloodRayne, The Adventures of Rocky & Bullwinkle
3. The Lord of the Rings: The Return of the King
4. 300, Lucky Number Slevin

In [150]:
cuted_df = data[['original_title','vote_average']]
sorted_df = cuted_df.vote_average.sort_values(ascending=False)
one_percent_indexes = sorted_df.index[:19]
cuted_df.loc[one_percent_indexes]

Unnamed: 0,original_title,vote_average
600,the dark knight,8.1
125,the imitation game,8.0
34,room,8.0
118,interstellar,8.0
9,inside out,8.0
370,inception,7.9
873,the pianist,7.9
119,guardians of the galaxy,7.9
1082,the lord of the rings: the return of the king,7.9
1184,the wolf of wall street,7.9


In [151]:
answer_ls.append('Inside Out, Gone Girl, 12 Years a Slave')

# 35. Какие актеры чаще всего снимаются в одном фильме вместе
Варианты ответа:
1. Johnny Depp & Helena Bonham Carter
2. Hugh Jackman & Ian McKellen
3. Vin Diesel & Paul Walker
4. Adam Sandler & Kevin James
5. Daniel Radcliffe & Rupert Grint

In [158]:
c_35 = Counter()
couple_of_actors = [('Johnny Depp', 'Helena Bonham Carter'),
                    ('Hugh Jackman', 'Ian McKellen'),
                    ('Vin Diesel', 'Paul Walker'),
                    ('Adam Sandler', 'Kevin James'),
                    ('Daniel Radcliffe', 'Rupert Grint')
                   ]

def count_couple_actors(s):
    for actor_1, actor_2 in couple_of_actors:
        if actor_1 in s and actor_2 in s:
            c_35[f'{actor_1} & {actor_2}'] += 1
    return s

data['cast'].map(count_couple_actors)
res_35 = c_35.most_common(1)[0][0]

In [154]:
answer_ls.append(res_35)

# 36. У какого из режиссеров выше вероятность выпустить фильм в прибыли? (5 баллов)101
Варианты ответа:
1. Quentin Tarantino
2. Steven Soderbergh
3. Robert Rodriguez
4. Christopher Nolan
5. Clint Eastwood

In [237]:
directors = 'Quentin Tarantino, Steven Soderbergh, Robert Rodriguez, Christopher Nolan, Clint Eastwood'

# Получи датафрейм фильмов с profit > 0
positive_df = data.query("profit > 0")
positive_grouped_df = positive_df.groupby('director').count()['original_title'].sort_values(ascending=False)

# группировка по всем фильмам
all_grouped_df = data.groupby('director').count()['original_title'].sort_values(ascending=False)

requested_directors = pd.Series({x: (positive_grouped_df[x] / all_grouped_df[x]) for x in directors.split(', ')})
sort_index = requested_directors.index.sort_values(ascending=True)
res_36 = requested_directors[sort_index].index[0]

In [155]:
answer_ls.append(res_36)

# Submission

In [156]:
len(answer_ls)

36

In [157]:
pd.DataFrame({'Id':range(1,len(answer_ls)+1), 'Answer':answer_ls}, columns=['Id', 'Answer'])

Unnamed: 0,Id,Answer
0,1,The Warrior's Way
1,2,Gods and Generals
2,3,Winnie the Pooh
3,4,110
4,5,106
5,6,Avatar
6,7,The Warrior's Way
7,8,1478
8,9,The Dark Knight
9,10,The Lone Ranger
