In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import collections
import itertools

In [4]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1017,tt1790885,40000000,132820716,Zero Dark Thirty,Jessica Chastain|Jason Clarke|Mark Strong|Joel...,Kathryn Bigelow,The Greatest Manhunt in History,A chronicle of the decade-long hunt for al-Qae...,157,Thriller|Drama|History,Columbia Pictures|Annapurna Pictures|First Lig...,12/19/2012,6.5,2012
1768,tt0452702,19000000,35300645,Vacancy,Kate Beckinsale|Luke Wilson|Ethan Embry|Scott ...,NimrÃ³d Antal,Once you've checked in... The terror begins.,A young married couple becomes stranded at an ...,80,Horror|Thriller,Screen Gems|Hal Lieberman Company,4/20/2007,5.9,2007
1253,tt1860353,135000000,282570682,Turbo,Ryan Reynolds|Paul Giamatti|Michael PeÃ±a|Samu...,David Soren,SLO NO MO,The tale of an ordinary garden snail who dream...,96,Animation|Family,DreamWorks Animation,7/11/2013,6.1,2013
316,tt1187043,9000000,70000000,3 Idiots,Aamir Khan|Kareena Kapoor|Madhavan|Sharman Jos...,Rajkumar Hirani,Don't BE A STUPID BE AN I.D.I.O.T.,In the tradition of â€œFerris Buellerâ€™s Day ...,170,Drama|Comedy|Romance,Vidhu Vinod Chopra Productions,12/23/2009,7.8,2009
461,tt0808510,48000000,112462508,Tooth Fairy,Dwayne Johnson|Stephen Merchant|Ashley Judd|Ju...,Michael Lembeck,You can't handle the tooth.,When minor-league hockey player Derek Thompson...,101,Comedy|Family|Fantasy,Dune Entertainment|Dune Entertainment III|Twen...,1/14/2010,5.2,2010


In [3]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [5]:
answers = {} # создание словаря ответов

# добавление столбца с прибылью
data['profit'] = data.revenue - data.budget

# добавление столбца с месяцем выхода
data['release_month'] = data.release_date.str.replace('/\S*','')

# добавление столбца с длиной названия в символах
data['title_symb'] = data.original_title.str.len()

# добавление столбца с длиной описания в словах
data['over_words'] = data.overview.str.count(' ')+1


# функция, разделяющая значения в столбце на список элементов
def items(col):
    return col.str.split('|').sum()


# функция, сортирующая список по частоте вхождения элементов
def freq(roll,n=1):
    return collections.Counter(roll).most_common(n)


# функция, возвращающая ключ к максимальному значению в словаре
def best(dic):
    return sorted(dic, key=dic.get, reverse=True)[0]


# функция, суммирующая кассовые сборы на конкретного человека
def person_sum(p,cat,df):
    person_sum = 0
    for i in range (len(df)):    
        if p in df[cat].iloc[i]:
            person_sum = person_sum + df.revenue.iloc[i]
    return person_sum


# функция, считающая среднее значение заданного столбца по компаниям
def comp_mean(c,col):
    symb_sum = 0
    titles_q = 0
    for i in range (len(data)):
        if c in data.production_companies.iloc[i]:
            symb_sum = symb_sum + data[col].iloc[i]
            titles_q = titles_q + 1
    if titles_q == 0:
        return 0
    else:
        return symb_sum/titles_q

# 1. У какого фильма из списка самый большой бюджет?

In [6]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)'
#+

In [0]:
display(data[data.budget==data.budget.max()])

ВАРИАНТ 2

In [0]:
# можно получить сразу название фильма, а не всю строку

display(data.original_title[data.budget==data.budget.max()])

# 2. Какой из фильмов самый длительный (в минутах)?

In [7]:
answers['2'] = 'Gods and Generals (tt0279111)'
#+

In [0]:
display(data.original_title[data.runtime==data.runtime.max()])

# 3. Какой из фильмов самый короткий (в минутах)?





In [8]:
answers['3'] = 'Winnie the Pooh (tt1449283)'
#+

In [None]:
display(data.original_title[data.runtime==data.runtime.min()])

# 4. Какова средняя длительность фильмов?


In [9]:
answers['4'] = '110'
#+

In [None]:
display(round(data.runtime.mean()))

# 5. Каково медианное значение длительности фильмов? 

In [10]:
answers['5'] = '107'
#+

In [None]:
display(round(data.runtime.median()))

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [11]:
answers['6'] = 'Avatar (tt0499549)'
#+

In [None]:
display(data.original_title[data.profit==data.profit.max()])

ВАРИАНТ 2

In [None]:
# если не нужно анализировать датасет дальше, 
# можно обойтись без создания дополнительного столбца с прибылью

display(data.original_title[(data.revenue-data.budget)==(data.revenue-data.budget).max()])

# 7. Какой фильм самый убыточный? 

In [12]:
answers['7'] = 'The Lone Ranger (tt1210819)'
#+

In [None]:
display(data.original_title[data.profit==data.profit.min()])

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [13]:
answers['8'] = '1478'
#+

In [None]:
display(data.imdb_id[data.revenue>data.budget].count())

ВАРИАНТ 2

In [None]:
display(data.imdb_id[data.profit>0].count())

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [14]:
answers['9'] = 'The Dark Knight (tt0468569)'
#+

In [None]:
data_2008 = data[data.release_year==2008]
display(data_2008.original_title[data_2008.revenue==data_2008.revenue.max()])

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [15]:
answers['10'] = 'The Lone Ranger (tt1210819)'
#+

In [None]:
data_2014 = data[(data.release_year >= 2012) & (data.release_year <= 2014)]
display(data_2014.original_title[data_2014.profit==data_2014.profit.min()])

# 11. Какого жанра фильмов больше всего?

In [16]:
answers['11'] = 'Drama'
#+

In [None]:
genres = data.genres.str.split('|').sum()

gd = collections.Counter()
for genre in genres:
    gd[genre] = gd[genre]+1

display(gd.most_common(1))

ВАРИАНТ 2

In [None]:
# самый короткий (если не нужно анализировать датасет дальше)

display(collections.Counter(data.genres.str.split('|').sum()).most_common(1))

ВАРИАНТ 3

In [None]:
# более читаемый, чем в одну строку

genres = data.genres.str.split('|').sum()
display(collections.Counter(genres).most_common(1))

ВАРИАНТ 4

In [None]:
# с использованием дополнительных функций
# (оптимальный, если нужно анализировать датасет дальше)

display(freq(items(data.genres)))

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [17]:
answers['12'] = 'Drama'
#+

In [None]:
display(freq(items(data.genres[data.profit>0])))

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [18]:
answers['13'] = 'Peter Jackson'
#+

In [None]:
dr = collections.Counter(items(data.director))
dic_dr = {d : person_sum(d,'director',data) for d in dr}
display(best(dic_dr))

ВАРИАНТ 2

In [None]:
# если бы в столбце "режиссёр" было по одному значению

directors = data.groupby(['director'])['revenue'].sum()
display(directors.sort_values(ascending=False).index[0])

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [19]:
answers['14'] = 'Robert Rodriguez'
#+

In [None]:
actions = data[data.genres.str.contains('Action')==True]
display(freq(items(actions.director)))

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [20]:
answers['15'] = 'Chris Hemsworth'
#+

In [None]:
data_2012 = data[data.release_year==2012]
cr = collections.Counter(items(data_2012.cast))
dic_cr = {c : person_sum(c,'cast',data_2012) for c in cr}
display(best(dic_cr))

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [21]:
answers['16'] = 'Matt Damon'
#+

In [None]:
high_bud = data[data.budget>data.budget.mean()]
display(freq(items(high_bud.cast)))

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [22]:
answers['17'] = 'Action'
#+

In [None]:
cage = data[data.cast.str.contains('Nicolas Cage')==True]
display(freq(items(cage.genres)))

# 18. Самый убыточный фильм от Paramount Pictures

In [23]:
answers['18'] = 'K-19: The Widowmaker'
#+

In [None]:
paramount = data[data.production_companies.str.contains('Paramount Pictures')==True]
display(paramount.original_title[paramount.profit==paramount.profit.min()])

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [24]:
answers['19'] = '2015'
#+

In [None]:
years = data.groupby(['release_year'])['revenue'].sum()
display(years.sort_values(ascending=False).index[0])

# 20. Какой самый прибыльный год для студии Warner Bros?

In [25]:
answers['20'] = '2014'
#+

In [None]:
warner = data[data.production_companies.str.contains('Warner Bros')==True]
years_prof = warner.groupby(['release_year'])['profit'].sum()
display(years_prof.sort_values(ascending=False).index[0])

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [26]:
answers['21'] = 'Сентябрь'
#+

In [None]:
display(data.release_month.value_counts().head(1))

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [27]:
answers['22'] = '450'
#+

In [None]:
summer=0
for m in ['6','7','8']:
    summer = summer + (data[data.release_month==m].release_month.value_counts().sum())
display(summer)

ВАРИАНТ 2

In [None]:
display(data[data.release_month.isin(['6','7','8'])].release_month.value_counts().sum())

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [28]:
answers['23'] = 'Peter Jackson'
#+

In [None]:
winter = data[data.release_month.isin(['12','1','2'])]
display(freq(items(winter.director)))

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [29]:
answers['24'] = 'Four By Two Productions'
#+

In [None]:
pc = collections.Counter(items(data.production_companies))
dic_pc = {c : comp_mean(c,'title_symb') for c in pc}
display(best(dic_pc))

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [30]:
answers['25'] = 'Midnight Picture Show'
#+

In [None]:
pc = collections.Counter(items(data.production_companies))
dic_pc = {c : comp_mean(c,'over_words') for c in pc}
display(best(dic_pc))

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 

In [31]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'
#+

In [None]:
display(data.original_title[data.vote_average>np.quantile(a=data.vote_average, q=0.99)])

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [32]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint'
#+

In [None]:
film_pairs = []
for film in range(len(data)):
    film_pairs.append(list(itertools.combinations(data.cast[film].split('|'),r=2)))

exist_pairs = []
for fp in film_pairs:
    for p in fp:
        exist_pairs.append(p)

display(freq(exist_pairs))

ВАРИАНТ 2

In [5]:
# самый долгий и ресурсоёмкий,
# т.к. в нём составляется список всех возможных пар актёров,
# который затем проверяется по всему датасету
# (в отличие от первого, где из списка действительных пар находится самая частая)

actors = list(collections.Counter(items(data.cast)))
pairs = itertools.combinations(actors,r=2)

k_max = 0
pair_max = tuple()

for pair in pairs:
    k_pair = 0
    for film in range(len(data)):
        if (pair[0] in data.cast[film]) & (pair[1] in data.cast[film]):
            k_pair+=1
    if k_pair > k_max:
        k_max = k_pair
        pair_max = pair

display(pair_max)

# Submission

In [33]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': '110',
 '5': '107',
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker',
 '19': '2015',
 '20': '2014',
 '21': 'Сентябрь',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [34]:
# и убедиться что ни чего не пропустил)
len(answers)

27