In [164]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations

In [65]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1298,tt1532958,20000000,16549477,Battle of the Year,Josh Holloway|Josh Peck|Chris Brown|Laz Alonso...,Benson Lee,The World is watching,A down-on-his-luck coach is hired to prepare a...,110,Music|Drama,Screen Gems,9/21/2013,5.9,2013
953,tt0265298,15000000,52970014,Big Fat Liar,Frankie Muniz|Paul Giamatti|Amanda Bynes|Amand...,Shawn Levy,The truth is never overrated,Fourteen-year-old Jason Shepherd (Muniz) has a...,88,Comedy|Family,Universal Pictures,2/8/2002,5.7,2002
456,tt1423995,22000000,9479718,Stone,Frances Conroy|Robert De Niro|Edward Norton|Mi...,John Curran,Some People Tell Lies. Others Live Them.,Parole officer Jack Mabry has only a few weeks...,105,Drama,Stone Productions|Mimran Schur Pictures,10/7/2010,4.9,2010
1065,tt2023453,22000000,77112176,Diary of a Wimpy Kid: Dog Days,Devon Bostick|Steve Zahn|Peyton List|Rachael H...,David Bowers,School's Out for the summer,School is out and Greg is ready for the days o...,94,Comedy|Family,Fox 2000 Pictures,8/2/2012,5.9,2012
630,tt1023481,23000000,150816700,Step Up 2: The Streets,Briana Evigan|Robert Hoffman|Will Kemp|Cassie ...,Jon M. Chu,It's not where you're from. It's where you're at.,When rebellious street dancer Andie lands at t...,98,Music|Drama|Romance,Summit Entertainment|Offspring Entertainment|T...,2/14/2008,6.4,2008


In [66]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [67]:
answers = {} # создадим словарь для ответов

In [68]:
data.info() #посмотрим, данные каких типов содержатся в датасете

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1889 entries, 0 to 1888
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   imdb_id               1889 non-null   object 
 1   budget                1889 non-null   int64  
 2   revenue               1889 non-null   int64  
 3   original_title        1889 non-null   object 
 4   cast                  1889 non-null   object 
 5   director              1889 non-null   object 
 6   tagline               1889 non-null   object 
 7   overview              1889 non-null   object 
 8   runtime               1889 non-null   int64  
 9   genres                1889 non-null   object 
 10  production_companies  1889 non-null   object 
 11  release_date          1889 non-null   object 
 12  vote_average          1889 non-null   float64
 13  release_year          1889 non-null   int64  
dtypes: float64(1), int64(4), object(9)
memory usage: 206.7+ KB


In [69]:
# переведем дату релиза в нужный формат:
data['release_date'] = pd.to_datetime(data['release_date'])

In [70]:
# а также текстовые колонки в строковый формат:
data = data.astype({'cast': str, 'director': str, 'tagline': str, 
                   'overview': str, 'genres': str, 
                    'production_companies': str})

In [71]:
# создадим столбец profit для вопросов 6-10:
data['profit'] = data['revenue'] - data['budget']

In [72]:
# столбец release_month для вопросов 21-22:
data['release_month'] = data.release_date.dt.month

In [74]:
# столбец title_len для вопроса 24:
data['title_len'] = data.original_title.str.len()

In [75]:
# столбец overview_word для вопроса 25:
data['overview_word'] = data.overview.str.split(' ').str.len()

# 1. У какого фильма из списка самый большой бюджет?

In [79]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides (tt1298650)' # +

In [80]:
data[data.budget == data.budget.max()].original_title

723    Pirates of the Caribbean: On Stranger Tides
Name: original_title, dtype: object

# 2. Какой из фильмов самый длительный (в минутах)?

In [81]:
answers['2'] = 'Gods and Generals (tt0279111)' # +

In [82]:
data[data.runtime == data.runtime.max()].original_title

1157    Gods and Generals
Name: original_title, dtype: object

# 3. Какой из фильмов самый короткий (в минутах)?





In [83]:
answers['3'] = 'Winnie the Pooh (tt1449283)' # +

In [84]:
data[data.runtime == data.runtime.min()].original_title

768    Winnie the Pooh
Name: original_title, dtype: object

# 4. Какова средняя длительность фильмов?


In [85]:
answers['4'] = '110' # +

Ответ можно посмотреть с помощью describe (см.выше).
Либо:

In [86]:
round(data['runtime'].mean(),0)

110.0

# 5. Каково медианное значение длительности фильмов? 

In [87]:
answers['5'] = '107' # +

Ответ можно посмотреть с помощью describe (см.выше). Либо:

In [88]:
data['runtime'].median()

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [89]:
answers['6'] = 'Avatar (tt0499549)' # +

In [90]:
data[data.revenue == data.revenue.max()].original_title

239    Avatar
Name: original_title, dtype: object

# 7. Какой фильм самый убыточный? 

In [91]:
answers['7'] = 'The Lone Ranger (tt1210819)' # +

In [92]:
data[data.profit == data.profit.min()].original_title

1245    The Lone Ranger
Name: original_title, dtype: object

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [93]:
answers['8'] = '1478' # +

In [94]:
len(data[data['profit'] > 0])

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [95]:
answers['9'] = 'The Dark Knight (tt0468569)' # +

In [96]:
data_2008 = data[data['release_year'] == 2008]
data_2008[data_2008.revenue == data_2008.revenue.max()].original_title

599    The Dark Knight
Name: original_title, dtype: object

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [97]:
answers['10'] = 'The Lone Ranger (tt1210819)' # +

In [98]:
data_12_14 = data[(data['release_year']>=2012)&
                  (data['release_year']<=2014)]
data_12_14[data_12_14.profit == data_12_14.profit.min()].original_title

1245    The Lone Ranger
Name: original_title, dtype: object

# 11. Какого жанра фильмов больше всего?

In [99]:
# эту задачу тоже можно решать разными подходами, попробуй реализовать разные варианты
# если будешь добавлять функцию - выноси ее в предобработку что в начале

In [100]:
answers['11'] = 'Drama' # +

In [101]:
# вариант 1 через value_counts:
data.genres.str.split('|').explode().value_counts().head(1)

Drama    782
Name: genres, dtype: int64

In [159]:
# вариант 2 через groupby:
data_g = data.copy()
data_g['genres'] = data_g.genres.str.split('|')
data_g.explode('genres').groupby(['genres'])['original_title'].count(
).sort_values(ascending=False).head(1)

genres
Drama    782
Name: original_title, dtype: int64

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [103]:
answers['12'] = 'Drama' # +

In [160]:
# решение через количество фильмов по жанрам среди тех,
# у которых прибыль больше 0
data_profit = data[data.profit > 0]
data_profit['genres'] = data_profit.genres.str.split('|')
data_profit.explode('genres').groupby(['genres'])['profit'].count(
).sort_values(ascending=False).head(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


genres
Drama              560
Comedy             551
Thriller           446
Action             444
Adventure          337
Romance            242
Crime              231
Family             226
Science Fiction    195
Fantasy            188
Horror             150
Animation          120
Mystery            119
Music               47
History             46
War                 41
Western             12
Documentary          7
Name: profit, dtype: int64

In [161]:
# решение через суммарную прибыль по жанрам
data_profit = data.copy()
data_profit['genres'] = data_profit.genres.str.split('|')
data_profit = data_profit.explode('genres')
data_profit['genres'].value_counts().head(1)

Drama    782
Name: genres, dtype: int64

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [106]:
answers['13'] = 'Peter Jackson' # +

In [107]:
data.groupby(['director'])['revenue'].sum().sort_values(
                                            ascending=False).head(1)

director
Peter Jackson    6490593685
Name: revenue, dtype: int64

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [108]:
answers['14'] = 'Robert Rodriguez' # +

In [109]:
data_act = data[data.genres.str.contains('Action')]
data_act.director.str.split('|').explode().value_counts().head(1)

Robert Rodriguez    9
Name: director, dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [110]:
answers['15'] = 'Chris Hemsworth' # +

In [111]:
data_2012 = data[data.release_year == 2012]
data_2012['cast'] = data_2012.cast.str.split('|')
data_2012 = data_2012.explode('cast')
data_2012.groupby(['cast'])[['revenue']].sum().sort_values(
                                by='revenue', ascending=False).head(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0_level_0,revenue
cast,Unnamed: 1_level_1
Chris Hemsworth,2027450773


# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [112]:
answers['16'] = 'Matt Damon' # +

In [113]:
data_exp = data[data.budget > data.budget.mean()]
data_exp.cast.str.split('|').explode().value_counts().head(1)

Matt Damon    18
Name: cast, dtype: int64

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [114]:
answers['17'] = 'Action' # +

In [115]:
data_NC = data[data.cast.str.contains('Nicolas Cage')]
data_NC.genres.str.split('|').explode().value_counts().head(1)

Action    17
Name: genres, dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [116]:
answers['18'] = 'K-19: The Widowmaker (tt0267626)' # +

In [117]:
data_PP = data[data.production_companies.str.
               contains('Paramount Pictures')]
data_PP[data_PP.profit == data_PP.profit.min()].original_title

925    K-19: The Widowmaker
Name: original_title, dtype: object

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [118]:
answers['19'] = '2015' # +

In [119]:
data.groupby(['release_year'])['revenue'].sum().sort_values(
                                            ascending=False).head(1)

release_year
2015    25449202382
Name: revenue, dtype: int64

# 20. Какой самый прибыльный год для студии Warner Bros?

In [120]:
answers['20'] = '2014' # +

In [121]:
data_WB = data[data.production_companies.str.contains('Warner Bros')]
data_WB.groupby(['release_year'])['revenue'].sum().sort_values(
                                            ascending=False).head(1)

release_year
2014    3243064519
Name: revenue, dtype: int64

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [122]:
answers['21'] = 'Сентябрь' # +

In [123]:
data['release_month'].value_counts().head(1)

9    227
Name: release_month, dtype: int64

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [124]:
answers['22'] = '450' # +

In [125]:
data_summer = data[(data.release_month == 6)|
                   (data.release_month == 7)|
                  (data.release_month == 8)]
len(data_summer)

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [126]:
answers['23'] = 'Peter Jackson' # +

In [127]:
data_winter = data[(data.release_month == 12)|
                   (data.release_month == 1)|
                  (data.release_month == 2)]
data_winter = data_winter.director.str.split('|').explode()
data_winter.value_counts().head(1)

Peter Jackson    7
Name: director, dtype: int64

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [142]:
answers['24'] = 'Four By Two Productions' # +

In [163]:
data_pr_st = data.copy()
data_pr_st['production_companies'] = data_pr_st.production_companies.str.split('|')
data_pr_st = data_pr_st.explode('production_companies')
data_pr_st.groupby(['production_companies'])['title_len'].mean(
).sort_values(ascending=False).head(1)

production_companies
Four By Two Productions    83.0
Name: title_len, dtype: float64

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [143]:
answers['25'] = 'Midnight Picture Show' # +

In [141]:
# воспользуемся датафреймом, созданным для решения предыдущего вопроса
data_pr_st.groupby(['production_companies'])['overview_word'].mean(
).sort_values(ascending=False).head(1)

production_companies
Midnight Picture Show    175.0
Name: overview_word, dtype: float64

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [145]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave' # +

In [144]:
border = np.quantile(data.vote_average, 0.99)
data[data.vote_average >= border].sort_values(by='vote_average', 
                                    ascending=False).original_title

599                                       The Dark Knight
9                                              Inside Out
34                                                   Room
118                                          Interstellar
125                                    The Imitation Game
370                                             Inception
1191                                     12 Years a Slave
1183                              The Wolf of Wall Street
1081        The Lord of the Rings: The Return of the King
872                                           The Pianist
1800                                              Memento
119                               Guardians of the Galaxy
138                              The Grand Budapest Hotel
128                                             Gone Girl
283                                            Mr. Nobody
1688                                  There Will Be Blood
1563                Eternal Sunshine of the Spotless Mind
1444          

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [151]:
answers['27'] = 'Daniel Radcliffe & Rupert Grint' # +

In [152]:
data_1 = data.copy()
data_1['cast'] = data_1.cast.str.split('|').apply(lambda x: list(combinations(x, 2)))
data_1 = data_1.explode('cast')
data_1.cast.value_counts()[:3]

(Daniel Radcliffe, Emma Watson)     8
(Daniel Radcliffe, Rupert Grint)    8
(Rupert Grint, Emma Watson)         7
Name: cast, dtype: int64

ВАРИАНТ 2

In [166]:
duets = Counter()
for i in range(0,len(data)):
    artists = data.cast[i].split('|')
    for j in list(combinations(artists, 2)):
        if j not in duets:
            duets[j] = 1
        else:
            duets[j] += 1
duets.most_common(5)

[(('Daniel Radcliffe', 'Rupert Grint'), 8),
 (('Daniel Radcliffe', 'Emma Watson'), 8),
 (('Rupert Grint', 'Emma Watson'), 7),
 (('Ben Stiller', 'Owen Wilson'), 6),
 (('Johnny Depp', 'Helena Bonham Carter'), 6)]

# Submission

In [153]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': 'Gods and Generals (tt0279111)',
 '3': 'Winnie the Pooh (tt1449283)',
 '4': '110',
 '5': '107',
 '6': 'Avatar (tt0499549)',
 '7': 'The Lone Ranger (tt1210819)',
 '8': '1478',
 '9': 'The Dark Knight (tt0468569)',
 '10': 'The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker (tt0267626)',
 '19': '2015',
 '20': '2014',
 '21': 'Сентябрь',
 '22': '450',
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'Daniel Radcliffe & Rupert Grint'}

In [154]:
# и убедиться что ни чего не пропустил)
len(answers)

27