In [10]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [11]:
url = 'https://raw.githubusercontent.com/kostroumov/SkillFactory/main/movie_bd_v5.csv'
data = pd.read_csv(url)
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1141,tt0305711,18000000,101564935,Just Married,Ashton Kutcher|Brittany Murphy|Christian Kane|...,Shawn Levy,Welcome to the honeymoon from hell.,Tom Leezak and Sarah McNerney fall in love and...,95,Comedy,Twentieth Century Fox Film Corporation|Robert ...,1/9/2003,5.3,2003
1094,tt0328828,55000000,231449203,American Wedding,Jason Biggs|Alyson Hannigan|Seann William Scot...,Jesse Dylan,Forever hold your piece.,"With high school a distant memory, Jim and Mic...",103,Comedy|Romance,Universal Pictures|Zide-Perry Productions|Live...,8/1/2003,6.0,2003
1437,tt0382625,125000000,758239851,The Da Vinci Code,Tom Hanks|Audrey Tautou|Ian McKellen|Paul Bett...,Ron Howard,So Dark The Con Of Man,When the curator of the Louvre is found murder...,149,Thriller|Mystery,Columbia Pictures|Imagine Entertainment|Skylar...,5/17/2006,6.4,2006
1776,tt0804461,20000000,16974459,Death Sentence,Kevin Bacon|Garrett Hedlund|Kelly Preston|Jord...,James Wan,Protect what's yours.,Nick Hume is a mild-mannered executive with a ...,105,Action|Crime|Drama|Thriller,Twentieth Century Fox Film Corporation|Dune En...,8/31/2007,6.5,2007
487,tt1226273,80000000,74901339,Edge of Darkness,Mel Gibson|Ray Winstone|Danny Huston|Shawn Rob...,Martin Campbell,Some secrets take us to the edge.,"As a seasoned homicide detective, Thomas Crave...",117,Crime|Drama|Mystery|Thriller,Icon Productions|BBC Films|GK Films|Warner Bros.,1/29/2010,6.0,2010


In [12]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1889 entries, 0 to 1888
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   imdb_id               1889 non-null   object 
 1   budget                1889 non-null   int64  
 2   revenue               1889 non-null   int64  
 3   original_title        1889 non-null   object 
 4   cast                  1889 non-null   object 
 5   director              1889 non-null   object 
 6   tagline               1889 non-null   object 
 7   overview              1889 non-null   object 
 8   runtime               1889 non-null   int64  
 9   genres                1889 non-null   object 
 10  production_companies  1889 non-null   object 
 11  release_date          1889 non-null   object 
 12  vote_average          1889 non-null   float64
 13  release_year          1889 non-null   int64  
dtypes: float64(1), int64(4), object(9)
memory usage: 206.7+ KB


# Предобработка

In [14]:
answers = {} # создадим словарь для ответов

# тут другие ваши предобработки колонок например:

#the time given in the dataset is in string format.
#So we need to change this in datetime format
# ...

In [15]:
# Для ответа на вопросы добавляем в DataSet data колонку profit = revenue - budget
data['profit'] = data['revenue'] - data['budget']

In [16]:
# переформатируем колонку с названиями фильмов и описаний (original_title) в string
data['original_title'] = data.original_title.apply(lambda title: str(title))
data['overview'] = data.overview.apply(lambda title: str(title))

In [17]:
# добавляем колонку месяц выпуска release_month
data['release_month'] = data['release_date'].str.split('/').str[0]

In [18]:
# добавляем колонку с количеством символом в названиях фильмов, включая пробелы
data['title_length'] = data['original_title'].str.len()

In [19]:
# добавляем колонку с количеством слов в описании фильмов
data['overview_length'] = data['overview'].str.count(' ') + 1

In [20]:
# В исходных данных несколько режиссеров, жанров и задействованные актеры могут быть перечислены через |. 
# Такое представление данных не позволяет ответить на все вопросы проекта.
# Преобразуем DF data так, чтобы разделить режиссеров, жанры, актеров, студии, понимая что в таком представлении фильмы будут дублироваться
# По шагам: (1) удаляем колонку (2) добавляем переименованную колонку с разделенными значениями

data_genres = data.drop('genres', axis = 1).join(data['genres'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).rename('genres'))

In [21]:
data_genres_director = data_genres.drop('director', axis = 1).join(data_genres['director'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).rename('director'))

In [22]:
data_cast = data.drop('cast', axis = 1).join(data['cast'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).rename('cast'))

In [23]:
data_cast_genres = data_cast.drop('genres', axis = 1).join(data_cast['genres'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).rename('genres'))

In [24]:
data_production_companies = data.drop('production_companies', axis = 1).join(data['production_companies'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).rename('production_companies'))

# 1. У какого фильма из списка самый большой бюджет?

Использовать варианты ответов в коде решения запрещено.    
Вы думаете и в жизни у вас будут варианты ответов?)

In [25]:
# тут пишем ваш код для решения данного вопроса:
data[data.budget == data.budget.max()].original_title

723    Pirates of the Caribbean: On Stranger Tides
Name: original_title, dtype: object

In [26]:
answers['1'] = 'Pirates of the Caribbean: On Stranger Tides'

ВАРИАНТ 2

In [27]:
# можно добавлять разные варианты решения

# 2. Какой из фильмов самый длительный (в минутах)?

In [28]:
# думаю логику работы с этим словарем вы уже поняли, 
# по этому не буду больше его дублировать
answers['2'] = 'Gods and Generals'

In [29]:
data[data.runtime == data.runtime.max()].original_title

1157    Gods and Generals
Name: original_title, dtype: object

# 3. Какой из фильмов самый короткий (в минутах)?





In [30]:
data[data.runtime == data.runtime.min()].original_title

768    Winnie the Pooh
Name: original_title, dtype: object

In [31]:
answers['3'] = 'Winnie the Pooh'

# 4. Какова средняя длительность фильмов?


In [32]:
data.runtime.mean()

109.6585494970884

In [33]:
answers['4'] = '110'

In [34]:
# второе решение с ответами на вопросы 4 и 5:

data.runtime.describe()

count    1889.000000
mean      109.658549
std        18.017041
min        63.000000
25%        97.000000
50%       107.000000
75%       120.000000
max       214.000000
Name: runtime, dtype: float64

# 5. Каково медианное значение длительности фильмов? 

In [35]:
data.runtime.median()

107.0

In [36]:
answers['5'] = '107'

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [37]:
data[data.profit == data.profit.max()].original_title

239    Avatar
Name: original_title, dtype: object

In [38]:
answers['6'] = 'Avatar'

# 7. Какой фильм самый убыточный? 

In [39]:
data[data.profit == data.profit.min()].original_title

1245    The Lone Ranger
Name: original_title, dtype: object

In [40]:
answers['7'] = 'The Lone Ranger'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [41]:
data[data.revenue > data.budget].original_title.count()

1478

In [42]:
#дополнительный варинт решения
data[data.profit > 0].original_title.count()

1478

In [43]:
answers['8'] = 1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [44]:
data_2008 = data[data.release_year == 2008]
data_2008[data_2008.revenue == data_2008.revenue.max()].original_title

599    The Dark Knight
Name: original_title, dtype: object

In [45]:
answers['9'] = 'The Dark Knight'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [46]:
data_2012_2014 = data[(data.release_year > 2012) & (data.release_year <= 2014)]
data_2012_2014[data_2012_2014.profit == data_2012_2014.profit.min()].original_title

1245    The Lone Ranger
Name: original_title, dtype: object

In [47]:
answers['10'] = 'The Lone Ranger'

# 11. Какого жанра фильмов больше всего?

In [48]:
data['genres'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).value_counts()


Drama              782
Comedy             683
Thriller           596
Action             582
Adventure          415
Crime              315
Romance            308
Family             260
Science Fiction    248
Fantasy            222
Horror             176
Mystery            168
Animation          139
Music               64
History             62
War                 58
Western             19
Documentary          8
Foreign              2
dtype: int64

ВАРИАНТ 2

In [49]:
# используем дополнительный датасет с разделенными жанрами (см. предобработку)
data_genres['genres'].value_counts().head(1)

Drama    782
Name: genres, dtype: int64

In [50]:
answers['11'] = 'Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [51]:
data[data.profit > 0]['genres'].str.split('|', expand = True).stack().reset_index(level=1, drop=True).value_counts()

Drama              560
Comedy             551
Thriller           446
Action             444
Adventure          337
Romance            242
Crime              231
Family             226
Science Fiction    195
Fantasy            188
Horror             150
Animation          120
Mystery            119
Music               47
History             46
War                 41
Western             12
Documentary          7
dtype: int64

In [52]:
# используем дополнительный датасет с разделенными жанрами (см. предобработку)
data_genres[data_genres.profit > 0]['genres'].value_counts()

Drama              560
Comedy             551
Thriller           446
Action             444
Adventure          337
Romance            242
Crime              231
Family             226
Science Fiction    195
Fantasy            188
Horror             150
Animation          120
Mystery            119
Music               47
History             46
War                 41
Western             12
Documentary          7
Name: genres, dtype: int64

In [53]:
answers['12'] = 'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [54]:
data.groupby(['director'])['revenue'].sum().sort_values(ascending = False)

director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
                        ...    
David MichÃ´d           2295423
Steven Shainberg        2281089
Paul Schrader           2062066
Keanu Reeves            2054941
Simon Hunter            2033165
Name: revenue, Length: 957, dtype: int64

In [55]:
answers['13'] = 'Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [56]:
# используем датасет из Предподготовки
data_genres_director[data_genres_director.genres == 'Action'].groupby(['director'])['original_title'].count().sort_values(ascending = False)

director
Robert Rodriguez         30
Paul W.S. Anderson       25
Michael Bay              24
Antoine Fuqua            19
Paul Greengrass          19
                         ..
Paul McGuigan             1
Christopher McQuarrie     1
Joseph Kahn               1
Andy Tennant              1
Kevin Macdonald           1
Name: original_title, Length: 364, dtype: int64

In [57]:
answers['14'] = 'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [58]:
# используем датасет из Предподготовки
data_cast[data_cast.release_year == 2012].groupby(['cast'])['revenue'].sum().sort_values(ascending = False)

cast
Chris Hemsworth      2027450773
Denis Leary          1629460639
Anne Hathaway        1522851057
Chris Evans          1519557910
Robert Downey Jr.    1519557910
                        ...    
Jason Bateman           3428048
Danny Huston            2106557
Sami Gayle              2106557
Josh Lucas              2106557
Nicolas Cage            2106557
Name: revenue, Length: 466, dtype: int64

In [59]:
answers['15'] = 'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [60]:
# используем датасет из Предподготовки
data_cast[data_cast.budget > data_cast.budget.mean()].groupby(['cast'])['original_title'].count().sort_values(ascending = False)

cast
Matt Damon           18
Adam Sandler         17
Angelina Jolie       16
Eddie Murphy         15
Samuel L. Jackson    15
                     ..
Leslie Bibb           1
Leonard Nimoy         1
Lennie James          1
Lena Olin             1
50 Cent               1
Name: original_title, Length: 1505, dtype: int64

In [61]:
answers['16'] = 'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [62]:
data_cast_genres[data_cast_genres.cast == 'Nicolas Cage'].groupby(['genres'])['original_title'].count().sort_values(ascending = False)

genres
Action             85
Thriller           75
Drama              60
Crime              50
Fantasy            40
Adventure          35
Comedy             30
Science Fiction    20
Mystery            15
Family             15
Animation          15
History            10
War                 5
Romance             5
Horror              5
Name: original_title, dtype: int64

In [63]:
answers['17'] = 'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [64]:
data[data.production_companies.str.contains('Paramount Pictures')].groupby(['original_title'])['profit'].min().sort_values(ascending = True)

original_title
K-19: The Widowmaker                                  -64831034
Timeline                                              -60519261
Next                                                  -51788987
Alfie                                                 -46604061
Twisted                                               -24805000
                                                        ...    
Mission: Impossible - Ghost Protocol                  549713380
Transformers                                          559709780
Indiana Jones and the Kingdom of the Crystal Skull    601636033
Transformers: Revenge of the Fallen                   686297228
Transformers: Dark of the Moon                        928746996
Name: profit, Length: 122, dtype: int64

In [65]:
answers['18'] = 'K-19: The Widowmaker'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [66]:
data.groupby(['release_year'])['revenue'].sum().sort_values(ascending = False)

release_year
2015    25449202382
2014    23405862953
2013    23213799791
2012    23079001687
2011    22676791872
2010    21071204961
2009    20261791024
2008    18252781990
2007    18162406801
2004    15663430720
2005    15309425558
2006    14775042320
2003    14346123312
2002    14136361487
2001    13017764865
2000    10664099805
Name: revenue, dtype: int64

In [67]:
answers['19'] = 2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [68]:
data[data.production_companies.str.contains('Warner Bros')].groupby(['release_year'])['profit'].sum().sort_values(ascending = False)

release_year
2014    2295464519
2007    2201675217
2008    2134595031
2010    1974712985
2011    1871393682
2003    1855493377
2009    1822454136
2013    1636453400
2004    1631933725
2005    1551980298
2001    1343545668
2012    1258020056
2002    1022709901
2015     870368348
2006     620170743
2000     452631386
Name: profit, dtype: int64

In [69]:
answers['20'] = 2014

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [70]:
data_by_month = data.groupby(['release_month'])['original_title'].count().sort_values(ascending = False)
data_by_month.index.max()

'9'

In [71]:
answers['21'] = 'Сентябрь'

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [72]:
data_by_month["6"] + data_by_month["7"] + data_by_month["8"]

450

In [73]:
answers['22'] = 450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [74]:
data_winter = data[(data.release_month == '12') | (data.release_month == '1') | (data.release_month == '2')]
data_winter.groupby(['director'])['original_title'].count().sort_values(ascending = False)

director
Peter Jackson                          7
Steven Soderbergh                      6
Clint Eastwood                         6
Nancy Meyers                           4
Adam Shankman                          4
                                      ..
Matt Bettinelli-Olpin|Tyler Gillett    1
Matt Reeves                            1
Matthew O'Callaghan                    1
Matthew Vaughn                         1
Aaron Seltzer|Jason Friedberg          1
Name: original_title, Length: 332, dtype: int64

In [75]:
answers['23'] = 'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [76]:
data_production_companies.groupby(['production_companies'])['title_length'].mean().sort_values(ascending = False)

production_companies
Four By Two Productions       83.0
Jim Henson Company, The       59.0
Dos Corazones                 47.0
Museum Canada Productions     46.0
Polsky Films                  46.0
                              ... 
Everest Entertainment          3.0
Berlanti Productions           3.0
XM2 Productions                2.0
Ixtlan Productions             2.0
Global Entertainment Group     2.0
Name: title_length, Length: 1771, dtype: float64

In [77]:
answers['24'] = 'Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [78]:
data_production_companies.groupby(['production_companies'])['overview_length'].mean().sort_values(ascending = False)

production_companies
Midnight Picture Show                    175.0
Room 9 Entertainment                     161.0
Heineken Branded Entertainment           161.0
98 MPH Productions                       159.0
Brookwell-McNamara Entertainment         156.0
                                         ...  
London Boulevard                          13.0
Phantom Four                              13.0
Henceforth                                13.0
Empire Pictures                           11.0
Motion Picture Corporation of America     11.0
Name: overview_length, Length: 1771, dtype: float64

In [79]:
answers['25'] = 'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [80]:
top_1 = round(len(data.index) / 100)
data.sort_values(by = 'vote_average', ascending = False).head(top_1)


Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,release_month,title_length,overview_length
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,7/16/2008,8.1,2008,816921825,7,15,67
118,tt0816692,165000000,621752480,Interstellar,Matthew McConaughey|Jessica Chastain|Anne Hath...,Christopher Nolan,Mankind was born on Earth. It was never meant ...,Interstellar chronicles the adventures of a gr...,169,Adventure|Drama|Science Fiction,Paramount Pictures|Legendary Pictures|Warner B...,11/5/2014,8.0,2014,456752480,11,12,35
125,tt2084970,14000000,233555708,The Imitation Game,Benedict Cumberbatch|Keira Knightley|Matthew G...,Morten Tyldum,The true enigma was the man who cracked the code.,Based on the real life story of legendary cryp...,113,History|Drama|Thriller|War,Black Bear Pictures|Bristol Automotive,11/14/2014,8.0,2014,219555708,11,18,46
9,tt2096673,175000000,853708609,Inside Out,Amy Poehler|Phyllis Smith|Richard Kind|Bill Ha...,Pete Docter,Meet the little voices inside your head.,"Growing up can be a bumpy road, and it's no ex...",94,Comedy|Animation|Family,Walt Disney Pictures|Pixar Animation Studios|W...,6/9/2015,8.0,2015,678708609,6,10,112
34,tt3170832,6000000,35401758,Room,Brie Larson|Jacob Tremblay|Joan Allen|Sean Bri...,Lenny Abrahamson,Love knows no boundaries,Jack is a young boy of 5 years old who has liv...,117,Drama|Thriller,Element Pictures|No Trace Camping|A24|Duperele...,10/16/2015,8.0,2015,29401758,10,4,49
1183,tt0993846,100000000,392000694,The Wolf of Wall Street,Leonardo DiCaprio|Jonah Hill|Margot Robbie|Kyl...,Martin Scorsese,EARN. SPEND. PARTY.,A New York stockbroker refuses to cooperate in...,180,Crime|Drama|Comedy,Paramount Pictures|Appian Way|EMJAG Production...,12/25/2013,7.9,2013,292000694,12,23,29
128,tt2267998,61000000,369330363,Gone Girl,Ben Affleck|Rosamund Pike|Carrie Coon|Neil Pat...,David Fincher,You don't know what you've got 'til it's...,With his wife's disappearance having become th...,145,Mystery|Thriller|Drama,Twentieth Century Fox Film Corporation|Regency...,10/1/2014,7.9,2014,308330363,10,9,30
1191,tt2024544,20000000,187000000,12 Years a Slave,Chiwetel Ejiofor|Michael Fassbender|Lupita Nyo...,Steve McQueen,The extraordinary true story of Solomon Northup,"In the pre-Civil War United States, Solomon No...",134,Drama|History,Plan B Entertainment|Regency Enterprises|River...,10/18/2013,7.9,2013,167000000,10,16,61
119,tt2015381,170000000,773312399,Guardians of the Galaxy,Chris Pratt|Zoe Saldana|Dave Bautista|Vin Dies...,James Gunn,All heroes start somewhere.,"Light years from Earth, 26 years after being a...",121,Action|Science Fiction|Adventure,Marvel Studios|Moving Picture Company (MPC)|Bu...,7/30/2014,7.9,2014,603312399,7,23,28
1081,tt0167260,94000000,1118888979,The Lord of the Rings: The Return of the King,Elijah Wood|Ian McKellen|Viggo Mortensen|Liv T...,Peter Jackson,The eye of the enemy is moving.,Aragorn is revealed as the heir to the ancient...,201,Adventure|Fantasy|Action,WingNut Films|New Line Cinema,12/1/2003,7.9,2003,1024888979,12,45,45


In [81]:
answers['26'] = 'Inside Out, The Dark Knight, 12 Years a Slave'

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [82]:
#нет ответа на этот вопрос

data_cast.groupby('original_title').head()
cast_unique = data_cast.cast.unique()
cast_unique
data_cast_pivot = data_cast.pivot_table(index = 'cast', columns = 'cast_1', values = 'original_title', aggfunc = 'count', fill_value = 0, margins = True)
data_cast_pivot.max().sort_values().index

KeyError: ignored

ВАРИАНТ 2

In [83]:
answers['27'] = 'No answer'

# Submission

In [84]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides',
 '10': 'The Lone Ranger',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker',
 '19': 2015,
 '2': 'Gods and Generals',
 '20': 2014,
 '21': 'Сентябрь',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': 'Inside Out, The Dark Knight, 12 Years a Slave',
 '27': 'No answer',
 '3': 'Winnie the Pooh',
 '4': '110',
 '5': '107',
 '6': 'Avatar',
 '7': 'The Lone Ranger',
 '8': 1478,
 '9': 'The Dark Knight'}

In [85]:
# и убедиться что ни чего не пропустил)
len(answers)

27