In [5]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import calendar as calendar
from collections import Counter
from tidypython import *
from dplython import *
from readpy import *

In [6]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
173,tt1086772,40000000,123494610,Blended,Drew Barrymore|Adam Sandler|Wendi McLendon-Cov...,Frank Coraci,"Single Dad, No Clue. Single Mum, Flying Solo.","After a bad blind date, a man and woman find t...",117,Comedy,Happy Madison Productions|Karz Entertainment|W...,5/21/2014,6.7,2014
897,tt0238380,20000000,5359645,Equilibrium,Christian Bale|Taye Diggs|Emily Watson|Angus M...,Kurt Wimmer,"In a future where freedom is outlawed, outlaws...","In a dystopian future, a totalitarian regime m...",107,Action|Science Fiction|Thriller,Dimension Films|Blue Tulip Productions,12/6/2002,6.9,2002
1422,tt0443295,45000000,72028752,"Yours, Mine & Ours",Dennis Quaid|Rene Russo|Sean Faris|Katija Peve...,Raja Gosnell,"18 kids, one house, no way.",Admiral Frank Beardsley returns to New London ...,90,Comedy|Family|Romance,Paramount Pictures|Columbia Pictures Corporati...,11/23/2005,5.7,2005
482,tt1555064,15000000,20529194,Country Strong,Gwyneth Paltrow|Garrett Hedlund|Tim McGraw|Lei...,Shana Feste,It doesn't matter where you've been as long as...,Soon after the rising young singer-songwriter ...,117,Drama|Romance,Maguire Entertainment|Screen Gems|Sony Picture...,12/22/2010,5.9,2010
1388,tt0398712,30000000,35294470,Assault on Precinct 13,Ethan Hawke|Laurence Fishburne|Gabriel Byrne|M...,Jean-FranÃ§ois Richet,Unite and fight.,"On New Year's Eve, inside a police station tha...",109,Thriller,Rogue Pictures|Why Not Productions|Liaison Fil...,1/19/2005,5.9,2005


In [7]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [8]:
answers = {} # создадим словарь для ответов

#Будем считать за времена года календарные времена года в Северном полушарии. 
seasons = {
'January': 'Winter',
'December': 'Winter',
'February':'Winter',
'September': 'Fall',
'October': 'Fall', 
'November': 'Fall', 
'June': 'Summer',
'July': 'Summer',
'August': 'Summer', 
'March': 'Spring', 
'April': 'Spring', 
'May': 'Spring'
}

# создадим колонку с прибылью (сборы - бюджет)
data['profit'] = data['revenue'] - data['budget']

# переведем даты выхода фильмов из строкового формата в timestamp 
data['release_date'] = pd.to_datetime(data['release_date'],  infer_datetime_format=True)

# извлечем месяцы из дат 
data['month'] = data['release_date'].dt.month.apply(lambda x: calendar.month_name[x])

# извлечем сезоны из месяцев
data['season'] = data['month'].apply(lambda x: seasons[x])

# извлечем число слов в каждом описании фильма 
data['wordcount'] = data['overview'].apply(lambda x: len(x.split()))

# извлечем число символов в каждом названии фильма 
data['number_of_symbols'] = data['original_title'].apply(len)


# 1. У какого фильма из списка самый большой бюджет?

In [9]:
answers['1'] = '5.Pirates of the Caribbean: On Stranger Tides (tt1298650)'
# +

In [None]:
# Здесь необходимо привести одно соображение, и больше не возвращаться к нему. 
# Датасет включает данные о деньгах, полученные на протяжении 16-ти лет. 
# Безусловно, это означает, что для корректного сравнения бюджетов, сборов и прибылей необходимо учесть инфляцию. 
# По правильным ответам в заданиях очевидно, что учет этого показателя не предполагался. 
# Для некоторых заданий (самые большие... + самые маленькие...) учет инфляции не влияет на результат. 
# Для других же ответ меняется существенно (например, в вопросах про количество фильмов по какому-то условию). 
# Можно учесть инфляцию и добавить соответствующие колонки в датасет с помощью функции 
# adjust_for_inflation из пакета priceR (в R)
# Вот код: 
# if(!require(priceR)){install.packages("priceR")}
# library(priceR)
# movie <- read.csv('movie_bd_v5.csv') 
# movie$adj_budget <- adjust_for_inflation(movie$budget, movie$release_year, "US", to_date = 2019)
# movie$adj_revenue <- adjust_for_inflation(movie$revenue, movie$release_year, "US", to_date = 2019)
# movie$adj_profit <- movie$adj_revenue - movie$adj_budget


In [10]:
data[data.budget == data.budget.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
723,tt1298650,380000000,1021683000,Pirates of the Caribbean: On Stranger Tides,Johnny Depp|PenÃ©lope Cruz|Geoffrey Rush|Ian M...,Rob Marshall,Live Forever Or Die Trying.,Captain Jack Sparrow crosses paths with a woma...,136,Adventure|Action|Fantasy,Walt Disney Pictures|Jerry Bruckheimer Films|M...,2011-05-11,6.3,2011,641683000,May,Spring,75,43


# 2. Какой из фильмов самый длительный (в минутах)?

In [11]:
answers['2'] = '2.Gods and Generals (tt0279111)'
# +

In [12]:
data[data.runtime == data.runtime.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
1157,tt0279111,56000000,12923936,Gods and Generals,Stephen Lang|Jeff Daniels|Robert Duvall|Kevin ...,Ronald F. Maxwell,The nations heart was touched by...,The film centers mostly around the personal an...,214,Drama|History|War,Turner Pictures|Antietam Filmworks,2003-02-21,5.8,2003,-43076064,February,Winter,48,17


# 3. Какой из фильмов самый короткий (в минутах)?





In [13]:
answers['3'] = '3. Winnie the Pooh (tt1449283)'
# +

In [14]:
data[data.runtime == data.runtime.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
768,tt1449283,30000000,14460000,Winnie the Pooh,Jim Cummings|Travis Oates|Jim Cummings|Bud Luc...,Stephen Anderson|Don Hall,Oh Pooh.,"During an ordinary day in Hundred Acre Wood, W...",63,Animation|Family,Walt Disney Pictures|Walt Disney Animation Stu...,2011-04-13,6.8,2011,-15540000,April,Spring,52,15


# 4. Какова средняя длительность фильмов?


In [15]:
answers['4'] = '2. 110'
# +

In [16]:
sum(data.runtime)/len(data.runtime)
# округляем до 110

109.6585494970884

# 5. Каково медианное значение длительности фильмов? 

In [17]:
answers['5'] = '1. 107'
# +

In [18]:
np.median(data.runtime)

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [19]:
answers['6'] = '5. Avatar (tt0499549)'
# +

In [20]:
data[data.profit == data.profit.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
239,tt0499549,237000000,2781505847,Avatar,Sam Worthington|Zoe Saldana|Sigourney Weaver|S...,James Cameron,Enter the World of Pandora.,"In the 22nd century, a paraplegic Marine is di...",162,Action|Adventure|Fantasy|Science Fiction,Ingenious Film Partners|Twentieth Century Fox ...,2009-12-10,7.1,2009,2544505847,December,Winter,28,6


# 7. Какой фильм самый убыточный? 

In [21]:
answers['7'] = '5. The Lone Ranger (tt1210819)'
# +

In [22]:
data[data.profit == data.profit.min()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090,July,Summer,68,15


# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [23]:
answers['8'] = '1. 1478'
# +

In [24]:
len(data[data.revenue > data.budget].index)

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [25]:
answers['9'] = '4. The Dark Knight (tt0468569)'
# +

In [26]:
data_2008 = data[data['release_year'] == 2008]
data_2008[data_2008.revenue == data_2008.revenue.max()]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825,July,Summer,67,15


In [27]:
data.iloc[[data[data['release_year'] == 2008]['revenue'].idxmax()]]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
599,tt0468569,185000000,1001921825,The Dark Knight,Christian Bale|Michael Caine|Heath Ledger|Aaro...,Christopher Nolan,Why So Serious?,Batman raises the stakes in his war on crime. ...,152,Drama|Action|Crime|Thriller,DC Comics|Legendary Pictures|Warner Bros.|Syncopy,2008-07-16,8.1,2008,816921825,July,Summer,67,15


In [None]:
# просто оцените, насколько это проще и понятнее выглядит в R 
# вариант 1 (через tidyverse) data %>% filter(release_year == 2008) %>% filter(revenue  == max(revenue)) 
# вариант 2 (через data.table - быстрее pandas) data[release_year == 2008][which.max(revenue)]

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [28]:
answers['10'] = '5. The Lone Ranger (tt1210819)'
# +

In [29]:
data.iloc[[data[(data['release_year'] >= 2012) & (data['release_year'] <= 2014)]['profit'].idxmin()]]

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year,profit,month,season,wordcount,number_of_symbols
1245,tt1210819,255000000,89289910,The Lone Ranger,Johnny Depp|Armie Hammer|William Fichtner|Hele...,Gore Verbinski,Never Take Off the Mask,The Texas Rangers chase down a gang of outlaws...,149,Action|Adventure|Western,Walt Disney Pictures|Jerry Bruckheimer Films|I...,2013-07-03,6.0,2013,-165710090,July,Summer,68,15


# 11. Какого жанра фильмов больше всего?

In [30]:
answers['11'] = '3. Drama'
# +

In [31]:
df = read_tsv('movie.tsv') 
df = df >> \
    separate(X.genres, ['genres_1', 'genres_2', 'genres_3','genres_4','genres_5'], sep='\|') >> \
    gather(X.key, X.genre, # новые колонки
           X.genres_1, X.genres_2, X.genres_3,X.genres_4, X.genres_5) #старые колонки
# я знаю, что pep-8 не рекомендует так расставлять переносы. Но у этой библиотеки такой синтаксис. 
df['genre'].value_counts(dropna=True)



\|


Drama              782
Comedy             683
Thriller           596
Action             582
Adventure          415
Crime              315
Romance            308
Family             260
Science Fiction    248
Fantasy            222
Horror             176
Mystery            168
Animation          139
Music               64
History             62
War                 58
Western             19
Documentary          8
Foreign              2
Name: genre, dtype: int64

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [32]:
answers['12'] = '1. Drama'
# +

In [33]:
df = read_tsv('movie.tsv')
# Конечно, искушенный читатель будет знать о т.н. "голливудской бухгалтерии". 
# Это значительно усложняет рассуждения о том, какие фильмы могут считаться прибыльными, а какие нет. 
# Проигнорируем это. 
df = df[df['revenue'] > df['budget']]

df = df >> \
    separate(X.genres, ['genres_1', 'genres_2', 'genres_3','genres_4','genres_5'], sep='\|') >> \
    gather(X.key, X.genre, # новые колонки
           X.genres_1, X.genres_2, X.genres_3,X.genres_4, X.genres_5) #старые колонки

df['genre'].value_counts(dropna=True)

\|


Drama              560
Comedy             551
Thriller           446
Action             444
Adventure          337
Romance            242
Crime              231
Family             226
Science Fiction    195
Fantasy            188
Horror             150
Animation          120
Mystery            119
Music               47
History             46
War                 41
Western             12
Documentary          7
Name: genre, dtype: int64

# 13. У какого режиссера самые большие суммарные кассовые сбооры?

In [34]:
answers['13'] = '5. Peter Jackson'
# +

In [35]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.director, ['director_' + str(x) for x in range(1,13)], sep='\|') 
# у какого-то фильма 12 режиссеров. кек 
df = df >> \
    gather(X.key, X.dir, # новые колонки
           X.director_1, X.director_2, X.director_3,X.director_4, X.director_5,X.director_6,
           X.director_7, X.director_8, X.director_9,X.director_10, X.director_11,X.director_12) #старые колонки

df = df.dropna()

df.groupby('dir').agg(sum_revenue =  ('revenue', sum)).reset_index().sort_values(by=['sum_revenue'], ascending=False)

\|


Unnamed: 0,dir,sum_revenue
727,Peter Jackson,6490593685
151,Christopher Nolan,4167548502
220,David Yates,4154295625
621,Michael Bay,3886938960
361,J.J. Abrams,3579169916
...,...,...
208,David MichÃ´d,2295423
900,Steven Shainberg,2281089
707,Paul Schrader,2062066
524,Keanu Reeves,2054941


# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [36]:
answers['14'] = '3. Robert Rodriguez'
# +

In [37]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.genres, ['genres_1', 'genres_2', 'genres_3','genres_4','genres_5'], sep='\|') >> \
    gather(X.key, X.genre, # новые колонки
           X.genres_1, X.genres_2, X.genres_3,X.genres_4, X.genres_5) #старые колонки

df = df[df['genre'] == 'Action']

df = df >> \
    separate(X.director, ['director_' + str(x) for x in range(1,13)], sep='\|') 
df = df >> \
    gather(X.key, X.dir, # новые колонки
           X.director_1, X.director_2, X.director_3,X.director_4, X.director_5,X.director_6,
           X.director_7, X.director_8, X.director_9,X.director_10, X.director_11,X.director_12) #старые колонки

df['dir'].value_counts(dropna=True)

\|
\|


Robert Rodriguez      9
Michael Bay           7
Paul W.S. Anderson    7
Ridley Scott          6
Antoine Fuqua         6
                     ..
Malcolm D. Lee        1
Pierre Coffin         1
Anthony Russo         1
Fyodor Bondarchuk     1
Paul Weitz            1
Name: dir, Length: 364, dtype: int64

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [38]:
answers['15'] = '3. Chris Hemsworth'
# +

In [39]:
df = read_tsv('movie.tsv')

df = df[df['release_year'] == 2012]

df = df >> \
    separate(X.cast, ['cast_1', 'cast_2', 'cast_3','cast_4','cast_5'], sep='\|') >> \
    gather(X.key, X.actor, # новые колонки
           X.cast_1, X.cast_2, X.cast_3,X.cast_4, X.cast_5) #старые колонки

df.groupby('actor').agg(sum_revenue = ('revenue', sum)).reset_index().sort_values(by=['sum_revenue'], ascending=False)


\|


Unnamed: 0,actor,sum_revenue
77,Chris Hemsworth,2027450773
110,Denis Leary,1629460639
30,Anne Hathaway,1522851057
371,Robert Downey Jr.,1519557910
286,Mark Ruffalo,1519557910
...,...,...
314,Michael Nyqvist,3428048
101,Danny Huston,2106557
227,Josh Lucas,2106557
392,Sami Gayle,2106557


# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [40]:
answers['16'] = '3. Matt Damon'
# +

In [41]:
df = read_tsv('movie.tsv')
# за высокобюждетный примем фильм с бюджетом более 50М 
# https://www.futurelearn.com/courses/film-production/0/steps/12303
df = df[df['budget'] > 5e7]

df = df >> \
    separate(X.cast, ['cast_1', 'cast_2', 'cast_3','cast_4','cast_5'], sep='\|') >> \
    gather(X.key, X.actor, # новые колонки
           X.cast_1, X.cast_2, X.cast_3,X.cast_4, X.cast_5) #старые колонки
df.groupby('actor').agg(n = ('actor', 'count')).reset_index().sort_values(by=['n'], ascending=False)


\|


Unnamed: 0,actor,n
977,Matt Damon,19
13,Adam Sandler,17
69,Angelina Jolie,16
1432,Tom Cruise,15
1280,Samuel L. Jackson,15
...,...,...
660,Jennifer Saunders,1
661,Jennifer Tilly,1
662,Jenny Slate,1
664,Jeremy Irvine,1


# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [42]:
answers['17'] = '2. Action'
# +

In [43]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.cast, ['cast_1', 'cast_2', 'cast_3','cast_4','cast_5'], sep='\|') >> \
    gather(X.key, X.actor, # новые колонки
           X.cast_1, X.cast_2, X.cast_3,X.cast_4, X.cast_5) #старые колонки

df = df[df['actor'] == 'Nicolas Cage']

df = df >> \
    separate(X.genres, ['genres_1', 'genres_2', 'genres_3','genres_4','genres_5'], sep='\|') >> \
    gather(X.key, X.genre, # новые колонки
           X.genres_1, X.genres_2, X.genres_3,X.genres_4, X.genres_5) #старые колонки

df['genre'].value_counts(dropna=True)

\|
\|


Action             17
Thriller           15
Drama              12
Crime              10
Fantasy             8
Adventure           7
Comedy              6
Science Fiction     4
Family              3
Mystery             3
Animation           3
History             2
Romance             1
War                 1
Horror              1
Name: genre, dtype: int64

# 18. Самый убыточный фильм от Paramount Pictures

In [44]:
answers['18'] = '1. K-19: The Widowmaker (tt0267626)'
# +

In [45]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.production_companies, ['pc_1', 'pc_2', 'pc_3','pc_4','pc_5'], sep='\|') >> \
    gather(X.key, X.studio, # новые колонки
           X.pc_1, X.pc_2, X.pc_3,X.pc_4, X.pc_5) #старые колонки

df = df.dropna()

df['profit'] = df['revenue'] - df['budget']
df.iloc[[df[df['studio'] == 'Paramount Pictures']['profit'].idxmin()]]

\|


Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,release_date,vote_average,release_year,key,studio,profit
925,tt0267626,100000000,35168966,K-19: The Widowmaker,Harrison Ford|Liam Neeson|Peter Sarsgaard|Joss...,Kathryn Bigelow,Fate has found its hero.,When Russia's first nuclear submarine malfunct...,138,Thriller|Drama|History,7/19/2002,6.0,2002,pc_1,Paramount Pictures,-64831034


# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [46]:
answers['19'] = '5. 2015'
# +

In [47]:
data.groupby('release_year').agg(sum_revenue = ('revenue', sum)).reset_index().sort_values(by=['sum_revenue'], ascending=False)

Unnamed: 0,release_year,sum_revenue
15,2015,25449202382
14,2014,23405862953
13,2013,23213799791
12,2012,23079001687
11,2011,22676791872
10,2010,21071204961
9,2009,20261791024
8,2008,18252781990
7,2007,18162406801
4,2004,15663430720


# 20. Какой самый прибыльный год для студии Warner Bros?

In [48]:
answers['20'] = '1. 2014'
# +

In [49]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.production_companies, ['pc_1', 'pc_2', 'pc_3','pc_4','pc_5'], sep='\|') >> \
    gather(X.key, X.studio, # новые колонки
           X.pc_1, X.pc_2, X.pc_3,X.pc_4, X.pc_5) #старые колонки

df = df.dropna()

df['profit'] = df['revenue'] - df['budget']

df = df[df.studio.str.contains("Warner Bros")]

df.groupby('release_year').agg(sum_profit = ('profit', sum)).reset_index().sort_values(by=['sum_profit'], ascending=False)


\|


Unnamed: 0,release_year,sum_profit
14,2014,2292949646
7,2007,2201675217
8,2008,2134595031
10,2010,1974712985
11,2011,1871393682
3,2003,1844008221
9,2009,1822454136
13,2013,1636453400
4,2004,1631933725
5,2005,1551980298


# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [50]:
answers['21'] = '4. Сентябрь'
# +

In [51]:
data.groupby('month').agg(n = ('month', 'count')).reset_index().sort_values(by=['n'], ascending=False)

Unnamed: 0,month,n
11,September,227
2,December,190
10,October,186
1,August,161
7,March,156
0,April,149
6,June,147
9,November,146
5,July,142
8,May,140


# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [52]:
answers['22'] = '2. 450'
# + 

In [53]:
data.groupby('season').agg(n = ('season', 'count')).reset_index().sort_values(by=['n'], ascending=False)

Unnamed: 0,season,n
0,Fall,559
2,Summer,450
1,Spring,445
3,Winter,435


# 23. Для какого режиссера зима – самое продуктивное время года? 

In [54]:
answers['23'] = '5. Peter Jackson'
# + 

In [55]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.director, ['director_' + str(x) for x in range(1,13)], sep='\|') 
df = df >> \
    gather(X.key, X.dir, # новые колонки
           X.director_1, X.director_2, X.director_3,X.director_4, X.director_5,X.director_6,
           X.director_7, X.director_8, X.director_9,X.director_10, X.director_11,X.director_12) #старые колонки

df = df.dropna()

df['release_date'] = pd.to_datetime(df['release_date'],  infer_datetime_format=True)
df['month'] = df['release_date'].dt.month.apply(lambda x: calendar.month_name[x])
df['season'] = df['month'].apply(lambda x: seasons[x])

df = df[df['season'] == 'Winter']

df.groupby('dir').agg(n = ('dir', 'count')).reset_index().sort_values(by=['n'], ascending=False)

\|


Unnamed: 0,dir,n
265,Peter Jackson,7
326,Steven Soderbergh,6
61,Clint Eastwood,6
316,Shawn Levy,4
2,Adam Shankman,4
...,...,...
170,John Luessenhop,1
172,John Musker,1
173,John Polson,1
46,Callan Brunker,1


# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [56]:
answers['24'] = '5. Four By Two Productions'
# + 

In [57]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.production_companies, ['pc_1', 'pc_2', 'pc_3','pc_4','pc_5'], sep='\|') >> \
    gather(X.key, X.studio, # новые колонки
           X.pc_1, X.pc_2, X.pc_3,X.pc_4, X.pc_5) #старые колонки

df = df.dropna()

df['number_of_symbols'] = df['original_title'].apply(len)

df.groupby('studio').agg(nchar = ('number_of_symbols', 'mean')).reset_index().sort_values(by=['nchar'], ascending=False)

\|


Unnamed: 0,studio,nchar
582,Four By Two Productions,83.0
816,"Jim Henson Company, The",59.0
445,Dos Corazones,47.0
1257,Polsky Films,46.0
1093,Museum Canada Productions,46.0
...,...,...
511,Everest Entertainment,3.0
168,Berlanti Productions,3.0
1747,XM2 Productions,2.0
623,Global Entertainment Group,2.0


# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [58]:
answers['25'] = '3. Midnight Picture Show'
# + 

In [59]:
df = read_tsv('movie.tsv')

df = df >> \
    separate(X.production_companies, ['pc_1', 'pc_2', 'pc_3','pc_4','pc_5'], sep='\|') >> \
    gather(X.key, X.studio, # новые колонки
           X.pc_1, X.pc_2, X.pc_3,X.pc_4, X.pc_5) #старые колонки

df = df.dropna()

df['wordcount'] = df['overview'].apply(lambda x: len(x.split()))

df.groupby('studio').agg(wordcount = ('wordcount', 'mean')).reset_index().sort_values(by=['wordcount'], ascending=False)

\|


Unnamed: 0,studio,wordcount
1040,Midnight Picture Show,175.0
1354,Room 9 Entertainment,161.0
21,98 MPH Productions,159.0
690,Heineken Branded Entertainment,159.0
230,Brookwell-McNamara Entertainment,156.0
...,...,...
1174,Our Stories Films,13.0
693,Henceforth,13.0
1274,Projection Pictures,13.0
491,Empire Pictures,11.0


# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [60]:
answers['26'] = '1. Inside Out, The Dark Knight, 12 Years a Slave'
# + 

In [61]:
threshold = np.quantile(data['vote_average'], 0.99)
data[data['vote_average'] > threshold]['original_title']

9                                          Inside Out
34                                               Room
118                                      Interstellar
119                           Guardians of the Galaxy
125                                The Imitation Game
128                                         Gone Girl
138                          The Grand Budapest Hotel
370                                         Inception
599                                   The Dark Knight
872                                       The Pianist
1081    The Lord of the Rings: The Return of the King
1183                          The Wolf of Wall Street
1191                                 12 Years a Slave
1800                                          Memento
Name: original_title, dtype: object

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [62]:
answers['27'] = '5. Daniel Radcliffe & Rupert Grint'
# + 

In [3]:
# короче, я не знаю, как это по-приличному сделать в Питоне 
# я делал это в R, пользуясь следующим кодом: 
# data <- cSplit(data, 'cast', '|')
# тот же шаг, что я и делал в вопросах наверху. cSplit - это более удобный аналог separate(). 
# Отличается тем, что не надо указывать, сколько заранее будет столбцов 
# data <- data %>% gather(key = "number", value = "cast", cast_1, cast_2, cast_3, cast_4, cast_5) %>% na.omit() %>% as_tibble()
# абсолютно то же самое, что я и делал выше 
# теперь к интересному 
# data %>% 
#    distinct(imdb_id, cast) %>% # отбираем только интересующие нас столбцы
#    add_count(cast) %>% # посчитаем, сколько раз каждый из актеров снимался в фильмах. 
#    Например, если у нас был только один фильм с участием актеров А и Б в выборке, то и корреляция между ними будет 1. 
#    filter(n >= 5) %>% # возьмем только актеров, которые появлялись в выбоке каждый хотя бы 5 раз. 
#    (начиная с этого числа пропадают корреляции == 1)
#    pairwise_cor(cast, imdb_id,  sort = T) # воспользуемся функцией pairwise_cor() из пакета widyr и посчитаем 
#    корреляцию между актерами в разных фильмах.

# Выход
# A tibble: 308,580 x 3
#   item1            item2            correlation
#   <chr>            <chr>                  <dbl>
# 1 Rupert Grint     Daniel Radcliffe       0.803
# 2 Daniel Radcliffe Rupert Grint           0.803
# 3 Rupert Grint     Emma Watson            0.768
# 4 Emma Watson      Rupert Grint           0.768
# 5 Emma Watson      Daniel Radcliffe       0.694
# 6 Daniel Radcliffe Emma Watson            0.694
# 7 Peter Facinelli  Taylor Lautner         0.675
# 8 Taylor Lautner   Peter Facinelli        0.675
# 9 Robert Pattinson Taylor Lautner         0.667
#10 Taylor Lautner   Robert Pattinson       0.667
# ... with 308,570 more rows


From cffi callback <function _consolewrite_ex at 0x000001FBD02A3CA8>:
Traceback (most recent call last):
  File "C:\Users\danek\anaconda3\lib\site-packages\rpy2\rinterface_lib\callbacks.py", line 131, in _consolewrite_ex
    s = conversion._cchar_to_str_with_maxlen(buf, maxlen=n)
  File "C:\Users\danek\anaconda3\lib\site-packages\rpy2\rinterface_lib\conversion.py", line 130, in _cchar_to_str_with_maxlen
    s = ffi.string(c, maxlen).decode('utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 0: invalid continuation byte


<rpy2.rinterface_lib.sexp.NULLType object at 0x000001FBD02F8888> [RTYPES.NILSXP]

# Submission

In [63]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '5.Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '2.Gods and Generals (tt0279111)',
 '3': '3. Winnie the Pooh (tt1449283)',
 '4': '2. 110',
 '5': '1. 107',
 '6': '5. Avatar (tt0499549)',
 '7': '5. The Lone Ranger (tt1210819)',
 '8': '1. 1478',
 '9': '4. The Dark Knight (tt0468569)',
 '10': '5. The Lone Ranger (tt1210819)',
 '11': '3. Drama',
 '12': '1. Drama',
 '13': '5. Peter Jackson',
 '14': '3. Robert Rodriguez',
 '15': '3. Chris Hemsworth',
 '16': '3. Matt Damon',
 '17': '2. Action',
 '18': '1. K-19: The Widowmaker (tt0267626)',
 '19': '5. 2015',
 '20': '1. 2014',
 '21': '4. Сентябрь',
 '22': '2. 450',
 '23': '5. Peter Jackson',
 '24': '5. Four By Two Productions',
 '25': '3. Midnight Picture Show',
 '26': '1. Inside Out, The Dark Knight, 12 Years a Slave',
 '27': '5. Daniel Radcliffe & Rupert Grint'}

In [64]:
# и убедиться что ни чего не пропустил)
len(answers)

27