# Модуль "Обработка данных"

В работе используется набор данных IMDB. 

In [486]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
import itertools

In [487]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
303,tt0795351,27000000,29000000,Case 39,RenÃ©e Zellweger|Jodelle Ferland|Ian McShane|K...,Christian Alvart,Some cases should never be opened.,"In her many years as a social worker, Emily Je...",109,Horror|Mystery|Thriller,Paramount Vantage|Anonymous Content|Misher Fil...,8/13/2009,6.0,2009
1126,tt0337741,80000000,266728738,Something's Gotta Give,Jack Nicholson|Diane Keaton|Keanu Reeves|Franc...,Nancy Meyers,Schmucks are people too.,Harry Sanborn is an aged music industry exec w...,128,Drama|Comedy|Romance,Columbia Pictures Corporation|Waverly Films|Wa...,12/12/2003,6.2,2003
675,tt1034303,32000000,51155219,Defiance,Daniel Craig|Liev Schreiber|Jamie Bell|Alexa D...,Edward Zwick,Freedom begins with an act of defiance!,"Based on a true story, during World War II, fo...",137,Action|Drama|History|War,Paramount Vantage|Grosvenor Park Productions|B...,12/31/2008,6.6,2008
1560,tt0304141,130000000,789804554,Harry Potter and the Prisoner of Azkaban,Daniel Radcliffe|Rupert Grint|Emma Watson|Gary...,Alfonso CuarÃ³n,Something wicked this way comes.,"Harry, Ron and Hermione return to Hogwarts for...",141,Adventure|Fantasy|Family,1492 Pictures|Warner Bros.|Heyday Films|P of A...,5/31/2004,7.4,2004
1670,tt0373889,150000000,938212738,Harry Potter and the Order of the Phoenix,Daniel Radcliffe|Rupert Grint|Emma Watson|Mich...,David Yates,Evil Must Be Confronted.,Returning for his fifth year of study at Hogwa...,138,Adventure|Fantasy|Family|Mystery,Cool Music|Warner Bros.|Heyday Films|Harry Pot...,6/28/2007,7.2,2007


In [488]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [489]:
answers = {} 

In [490]:
# добавляем столбец profit
data['profit'] = data['revenue'] - data['budget']
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year,profit
count,1889.0,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773,101054500.0
std,48587210.0,214669800.0,18.017041,0.764763,4.468841,183073300.0
min,5000000.0,2033165.0,63.0,3.3,2000.0,-165710100.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0,5000000.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0,44000410.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0,120184200.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0,2544506000.0


In [491]:
# добавляем столбец release_month
def rel_month(s):
    l = s.split('/')
    return int(l[0]) 

data['release_month']=data.release_date.apply(rel_month)

# 1. У какого фильма из списка самый большой бюджет?

In [493]:
# Функция приведения названия фильма к образцовому формату 
def get_name(m):
    return str(m.index[0])+'. '+m['original_title'].mode()[0]+' ('+m['imdb_id'].mode()[0]+')'

In [494]:
answers['1'] = get_name(data[data.budget == data.budget.max()])
answers['1']

'723. Pirates of the Caribbean: On Stranger Tides (tt1298650)'

ВАРИАНТ 2

In [495]:
# можно добавлять разные варианты решения

# 2. Какой из фильмов самый длительный (в минутах)?

In [496]:
# думаю логику работы с этим словарем вы уже поняли, 
# по этому не буду больше его дублировать
answers['2'] = '...'

In [497]:
answers['2'] = get_name(data[data.runtime == data.runtime.max()])
answers['2']

'1157. Gods and Generals (tt0279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [498]:
answers['3'] = get_name(data[data.runtime == data.runtime.min()])
answers['3']

'768. Winnie the Pooh (tt1449283)'

# 4. Какова средняя длительность фильмов?


In [499]:
answers['4'] = round(data.runtime.mean())
answers['4']

110

# 5. Каково медианное значение длительности фильмов? 

In [500]:
answers['5'] = round(data.runtime.median())
answers['5']

107

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [501]:
# лучше код получения столбца profit вынести в Предобработку что в начале
answers['6'] = get_name(data[data.profit == data.profit.max()])
answers['6']

'239. Avatar (tt0499549)'

# 7. Какой фильм самый убыточный? 

In [502]:
answers['7'] = get_name(data[data.profit == data.profit.min()])
answers['7']

'1245. The Lone Ranger (tt1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [503]:
answers['8'] = data[data.revenue > data.budget].shape[0]
answers['8']

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [504]:
movie2008 = data[data.release_year == 2008]
answers['9'] = get_name(movie2008[movie2008.revenue == movie2008.revenue.max()])
answers['9']

'599. The Dark Knight (tt0468569)'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [505]:
movie2012_14 = data[(data.release_year >= 2012) & (data.release_year <= 2014) ]
answers['10'] = get_name(movie2012_14[movie2012_14.profit == movie2012_14.profit.min()])
answers['10']

'1245. The Lone Ranger (tt1210819)'

# 11. Какого жанра фильмов больше всего?

In [506]:
# эту задачу тоже можно решать разными подходами, попробуй реализовать разные варианты
# если будешь добавлять функцию - выноси ее в предобработку что в начале

### ВАРИАНТ 1

In [507]:
# составление списка жанров
all_genres = set()
for g in data.genres.unique():
    gs = g.split('|')
    all_genres.update(gs)
all_genres = list(all_genres)
all_genres.sort()

In [508]:
gen_stat = pd.Series(index=all_genres, data=0)
for s in all_genres: 
    gen_stat[s]= data[data.genres.str.contains(s)].shape[0]
answers['11']=gen_stat[gen_stat == gen_stat.max()].index[0]
answers['11']

'Drama'

In [509]:
gen_stat

Action             582
Adventure          415
Animation          139
Comedy             683
Crime              315
Documentary          8
Drama              782
Family             260
Fantasy            222
Foreign              2
History             62
Horror             176
Music               64
Mystery            168
Romance            308
Science Fiction    248
Thriller           596
War                 58
Western             19
dtype: int64

### Вариант 2
Вариант с циклом for мне не понравился, и я решил переделать его для функции explode

In [510]:
data11=data.copy()
data11['genres']=data11.genres.apply(lambda x:x.split('|'))
data11=data11.explode('genres')
ans11 = data11.groupby(['genres']).size().sort_values(ascending=False)
ans11.head()

genres
Drama        782
Comedy       683
Thriller     596
Action       582
Adventure    415
dtype: int64

In [511]:
answers['11']=ans11.index[0]
answers['11']

'Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [512]:
data12=data.copy()
data12=data12[(data12.profit>0)]
data12['genres']=data12.genres.apply(lambda x:x.split('|'))
data12=data12.explode('genres')
ans12 = data12.groupby(['genres']).size().sort_values(ascending=False)
ans12.head()

genres
Drama        560
Comedy       551
Thriller     446
Action       444
Adventure    337
dtype: int64

In [513]:
answers['12']=ans12.index[0]
answers['12']

'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [514]:
data13=data.copy()
data13['director']=data13.director.apply(lambda x:x.split('|'))
data13 = data13.explode('director')
ans13 = data13.groupby(['director']).revenue.sum().sort_values(ascending=False)
ans13.head()

director
Peter Jackson        6490593685
Christopher Nolan    4167548502
David Yates          4154295625
Michael Bay          3886938960
J.J. Abrams          3579169916
Name: revenue, dtype: int64

In [515]:
answers['13']=ans13.index[0]
answers['13']

'Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [516]:
data14=data.copy()
data14=data14[data14.genres.str.contains("Action")]
data14['director']=data14.director.apply(lambda x:x.split('|'))
data14=data14.explode('director')
ans14 = data14.groupby(['director']).size().sort_values(ascending=False)
ans14.head()

director
Robert Rodriguez      9
Michael Bay           7
Paul W.S. Anderson    7
Ridley Scott          6
Antoine Fuqua         6
dtype: int64

In [517]:
answers['14']=ans14.index[0]
answers['14']

'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [518]:
data15=data[data.release_year == 2012].copy()
#data15=data15[data.release_year == 2015]
data15['cast']=data15.cast.apply(lambda x:x.split('|'))
data15 = data15.explode('cast')
ans15 = data15.groupby(['cast']).revenue.sum().sort_values(ascending=False)
ans15.head()

cast
Chris Hemsworth      2027450773
Denis Leary          1629460639
Anne Hathaway        1522851057
Robert Downey Jr.    1519557910
Mark Ruffalo         1519557910
Name: revenue, dtype: int64

In [519]:
answers['15']=ans15.index[0]
answers['15']

'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [520]:
data16=data[data.budget >= data.budget.mean()].copy()
data16['cast']=data16.cast.apply(lambda x:x.split('|'))
data16 = data16.explode('cast')
ans16 = data16.groupby(['cast']).size().sort_values(ascending=False)
ans16.head()

cast
Matt Damon        18
Adam Sandler      17
Angelina Jolie    16
Tom Cruise        15
Eddie Murphy      15
dtype: int64

In [521]:
answers['16']=ans16.index[0]
answers['16']

'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [522]:
data17=data[data.cast.str.contains("Nicolas Cage")].copy()
data17['genres']=data17.genres.apply(lambda x:x.split('|'))
data17=data17.explode('genres')
ans17 = data17.groupby(['genres']).size().sort_values(ascending=False)
ans17.head()

genres
Action      17
Thriller    15
Drama       12
Crime       10
Fantasy      8
dtype: int64

In [523]:
answers['17']=ans17.index[0]
answers['17']

'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [524]:
paramount = data[data.production_companies.str.contains("Paramount Pictures")]
answers['18']  = get_name(paramount[paramount.profit == paramount.profit.min()])
answers['18']

'925. K-19: The Widowmaker (tt0267626)'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [525]:
ans19 = data.groupby(['release_year'])['revenue'].sum().sort_values(ascending=False)
display(ans19.head(5))

release_year
2015    25449202382
2014    23405862953
2013    23213799791
2012    23079001687
2011    22676791872
Name: revenue, dtype: int64

In [526]:
answers['19'] = ans19.index[0]
answers['19']

2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [527]:
data20 = data[data.production_companies.str.contains("Warner Bros")]
ans20 = warner.groupby(['release_year'])['profit'].sum().sort_values(ascending=False)
display(ans20.head(5))

release_year
2014    2295464519
2007    2201675217
2008    2134595031
2010    1974712985
2011    1871393682
Name: profit, dtype: int64

In [528]:
answers['20'] = ans20.index[0]
answers['20']

2014

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [529]:
# NB - месяца выделены в отдельный столбец при подготовке данных! 
ans21 = data.groupby(['release_month']).size().sort_values(ascending=False)
ans21.head(12)

release_month
9     227
12    190
10    186
8     161
3     156
4     149
6     147
11    146
7     142
5     140
2     135
1     110
dtype: int64

In [530]:
answers['21'] = ans21.index[0]
answers['21']

9

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [531]:
answers['22'] = ans21[6]+ans21[7]+ans21[8]
answers['22']

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [532]:
data23=data[(data.release_month == 12)|(data.release_month == 1)|(data.release_month == 2) ].copy()
data23['director']=data23.director.apply(lambda x:x.split('|'))
data23=data23.explode('director')
ans23 = data23.groupby(['director']).size().sort_values(ascending=False)
ans23.head()

director
Peter Jackson        7
Steven Soderbergh    6
Clint Eastwood       6
Shawn Levy           4
Adam Shankman        4
dtype: int64

In [533]:
answers['23'] = ans23.index[0]
answers['23']

'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [534]:
# Сделана предварительная обработка - она не нужна и ее надо убрать! 
data24=data.copy()
data24['title_chars'] = data24.original_title.apply(lambda x:len(x)) 
data24['production_companies']=data24.production_companies.apply(lambda x:x.split('|'))
data24=data24.explode('production_companies')
ans24 = data24.groupby(['production_companies']).title_chars.mean().sort_values(ascending=False)
ans24.head()

production_companies
Four By Two Productions      83.0
Jim Henson Company, The      59.0
Dos Corazones                47.0
Polsky Films                 46.0
Museum Canada Productions    46.0
Name: title_chars, dtype: float64

In [535]:
answers['24'] = ans24.index[0]
answers['24']

'Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [536]:
# Сделана предварительная обработка - она не нужна и ее надо убрать! 
data25=data.copy()
data25['overview_words'] = data25.overview.apply(lambda x:len(x)) 
data25['production_companies']=data25.production_companies.apply(lambda x:x.split('|'))
data25=data25.explode('production_companies')
ans25 = data25.groupby(['production_companies']).overview_words.mean().sort_values(ascending=False)
ans25.head()

production_companies
Midnight Picture Show               1000.0
Room 9 Entertainment                 964.0
Brookwell-McNamara Entertainment     936.0
Lions Gate Family Entertainment      909.0
Crest Animation Productions          909.0
Name: overview_words, dtype: float64

In [537]:
answers['25'] = ans25.index[0]
answers['25']

'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [538]:
# 1% лучших это 1889/100=19 строк
best_qty=round(data.shape[0]/100)
data26=data.copy()
data26=data.sort_values(by='vote_average',ascending=False)
drop_columns=['budget', 'revenue', 'cast', 'director',
       'tagline', 'overview', 'runtime', 'genres', 'production_companies',
       'release_date', 'release_year', 'profit',
       'release_month']
ans26 = data26.drop(labels=drop_columns,axis=1).head(best_qty).copy()
ans26

Unnamed: 0,imdb_id,original_title,vote_average
599,tt0468569,The Dark Knight,8.1
118,tt0816692,Interstellar,8.0
125,tt2084970,The Imitation Game,8.0
9,tt2096673,Inside Out,8.0
34,tt3170832,Room,8.0
1183,tt0993846,The Wolf of Wall Street,7.9
128,tt2267998,Gone Girl,7.9
1191,tt2024544,12 Years a Slave,7.9
119,tt2015381,Guardians of the Galaxy,7.9
1081,tt0167260,The Lord of the Rings: The Return of the King,7.9


In [539]:
li = [ ans26.iloc[i]['original_title'] for i in range(best_qty) ]
answers['26'] = li
answers['26']

['The Dark Knight',
 'Interstellar',
 'The Imitation Game',
 'Inside Out',
 'Room',
 'The Wolf of Wall Street',
 'Gone Girl',
 '12 Years a Slave',
 'Guardians of the Galaxy',
 'The Lord of the Rings: The Return of the King',
 'Memento',
 'Inception',
 'The Pianist',
 'The Grand Budapest Hotel',
 'Her',
 'Spotlight',
 'Big Hero 6',
 'The Fault in Our Stars',
 'The Lord of the Rings: The Two Towers']

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [540]:
# Функция для составления пар из имен актеров из исходного списка актеров 
# import itertools !! 
def combine_cast(sample):
    li = list(itertools.combinations(sorted(sample.split('|')),2))
    li3 = [ " + ".join(li[i]) for i in range(len(li))]
    return li3

In [541]:
data27=data.copy()
data27['cast']=data27.cast.apply(combine_cast)
data27 = data27.explode('cast')
ans27 = data27.groupby(['cast']).size().sort_values(ascending=False)
ans27.head()

cast
Daniel Radcliffe + Rupert Grint       8
Emma Watson + Rupert Grint            8
Daniel Radcliffe + Emma Watson        8
Ben Stiller + Owen Wilson             6
Helena Bonham Carter + Johnny Depp    6
dtype: int64

In [542]:
answers['27'] = ans27.index[0]
answers['27']

'Daniel Radcliffe + Rupert Grint'

# Submission

In [543]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': '723. Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 '2': '1157. Gods and Generals (tt0279111)',
 '3': '768. Winnie the Pooh (tt1449283)',
 '4': 110,
 '5': 107,
 '6': '239. Avatar (tt0499549)',
 '7': '1245. The Lone Ranger (tt1210819)',
 '8': 1478,
 '9': '599. The Dark Knight (tt0468569)',
 '10': '1245. The Lone Ranger (tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': '925. K-19: The Widowmaker (tt0267626)',
 '19': 2015,
 '20': 2014,
 '21': 9,
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': ['The Dark Knight',
  'Interstellar',
  'The Imitation Game',
  'Inside Out',
  'Room',
  'The Wolf of Wall Street',
  'Gone Girl',
  '12 Years a Slave',
  'Guardians of the Galaxy',
  'The Lord of the Rings: The Return of the King',
  'Memento',
  'Inception',
  'The Pianist',
  'The Grand Budapest Hotel'

In [544]:
# и убедиться что ни чего не пропустил)
len(answers)

27