In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter
from itertools import combinations

In [2]:
data = pd.read_csv('./movie_bd_v5.xls')

In [3]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [4]:
answers = {} # создадим словарь для ответов

data['profit'] = data['revenue'] - data ['budget']


# 1. У какого фильма из списка самый большой бюджет?

In [5]:
df = data[ data['budget'] == data['budget'].max() ]

answers['1'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'
answers['1']

'Pirates of the Caribbean: On Stranger Tides(tt1298650)'

# 2. Какой из фильмов самый длительный (в минутах)?

In [6]:
df =  data[ data['runtime'] == data['runtime'].max()]

answers['2'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'
answers['2']

'Gods and Generals(tt0279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [7]:
df =  data[ data['runtime'] == data['runtime'].min()]

answers['3'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'
answers['3']

'Winnie the Pooh(tt1449283)'

# 4. Какова средняя длительность фильмов?


In [8]:
answers['4'] = data['runtime'].mean()

answers['4'] = round(answers['4'])

answers['4']

110

# 5. Каково медианное значение длительности фильмов? 

In [9]:
answers['5'] = round(data['runtime'].median())

answers['5']

107

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [10]:
df =  data[ data['profit'] == data['profit'].max()]

answers['6'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'
answers['6']

'Avatar(tt0499549)'

# 7. Какой фильм самый убыточный? 

In [11]:
df =  data[ data['profit'] == data['profit'].min()]

answers['7'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'
answers['7']

'The Lone Ranger(tt1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [12]:
df = data[data['revenue'] > data['budget']]

answers['8'] = len (df)

answers['8']

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [13]:
df = data[data['release_year'] == 2008]

df = df[df['revenue'] == df['revenue'].max()]

answers['9'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'

answers['9']

'The Dark Knight(tt0468569)'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


In [14]:
df = data[data['release_year'].isin([2012,2013,2014])]

df = df[df['profit'] == df['profit'].min()]

answers['10'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'

answers['10']

'The Lone Ranger(tt1210819)'

# 11. Какого жанра фильмов больше всего?

In [15]:
c = Counter()

for item in data['genres']:
    for genres in item.split('|'):
        c[genres]+=1
        
ser = pd.Series(c)

ser = ser.sort_values(ascending = False)

answers['11'] = ser.keys()[0]

answers['11']

'Drama'

ВАРИАНТ 2

In [16]:
ser = []

for item in data['genres']:
    ser += item.split('|')
    
ser = pd.Series(ser)

ser = ser.value_counts()

ser = ser.sort_values(ascending = False)

answers['11'] = ser.keys()[0]

answers['11']

'Drama'

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

In [17]:
c = Counter()

for item in data[data['profit'] > 0]['genres']:
    for genres in item.split('|'):
        c[genres]+=1
        
ser = pd.Series(c)

ser = ser.sort_values(ascending = False)

answers['12'] = ser.keys()[0]

answers['12']

'Drama'

# 13. У какого режиссера самые большие суммарные кассовые сборы?

In [18]:
answers['13'] = data.groupby(['director'])\
            .sum()['revenue']\
            .sort_values(ascending =False)\
            .index[0]

answers['13']

'Peter Jackson'

# 14. Какой режисер снял больше всего фильмов в стиле Action?

In [19]:
data['genres']

0       Action|Adventure|Science Fiction|Thriller
1       Action|Adventure|Science Fiction|Thriller
2              Adventure|Science Fiction|Thriller
3        Action|Adventure|Science Fiction|Fantasy
4                           Action|Crime|Thriller
                          ...                    
1884             Adventure|Action|Science Fiction
1885                        Horror|Family|Foreign
1886     Adventure|Animation|Action|Comedy|Family
1887                                 Comedy|Drama
1888                                     Thriller
Name: genres, Length: 1889, dtype: object

In [20]:
c = Counter()

for index, row in data.iterrows():
    if 'Action' in row['genres'].split('|'):
        for director in row['director'].split('|'):
            c[director]+=1

answers['14'] = pd.Series(c)\
                .sort_values(ascending = False)\
                .index[0]
answers['14']


'Robert Rodriguez'

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

In [21]:
c = Counter();

df_films_2012 = data[data['release_year'] == 2012]

for index, row in df_films_2012.iterrows():
    for item in row['cast'].split('|'):
        c[item]+=row['revenue']
        
answers['15'] = pd.Series(c)\
                .sort_values(ascending = False)\
                .index[0]

answers['15']

'Chris Hemsworth'

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

In [22]:
c = Counter();

df = data[data['budget'] > data['budget'].mean()]
for index, row in df.iterrows():
    for item in row['cast'].split('|'):
        c[item]+=1
        
answers['16'] = pd.Series(c)\
                .sort_values(ascending = False)\
                .index[0]

answers['16']

'Matt Damon'

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

In [23]:
c = Counter();

df = data[data['cast'].str.contains('Nicolas Cage')]
for index, row in df.iterrows():
    for item in row['genres'].split('|'):
        c[item]+=1
        
answers['17'] = pd.Series(c)\
                .sort_values(ascending = False)\
                .index[0]

answers['17']

'Action'

# 18. Самый убыточный фильм от Paramount Pictures

In [24]:
df = data[data['production_companies'].str.contains('Paramount Pictures')]

df = df[ df['profit'] == df['profit'].min()]

answers['18'] = df['original_title'].values[0]\
            + '(' + df['imdb_id'].values[0] + ')'

answers['18']

'K-19: The Widowmaker(tt0267626)'

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

In [25]:
answers['19'] = data.groupby(['release_year'])\
            .sum()['revenue']\
            .sort_values(ascending =False)\
            .index[0]

answers['19']

2015

# 20. Какой самый прибыльный год для студии Warner Bros?

In [26]:
df = data[data['production_companies'].str.contains('Warner Bros')]

answers['20'] = df.groupby(['release_year'])\
            .sum()['revenue']\
            .sort_values(ascending =False)\
            .index[0]

answers['20']

2014

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

In [27]:
c = Counter()

for item in data['release_date']:
    c[item.split('/')[0]]+=1

answers['21'] = pd.Series(c).sort_values(ascending = False)\
                .index[0] + '-ый Месяц'

answers['21']

'9-ый Месяц'

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

In [28]:
answers['22'] = 0

for item in data['release_date']:
    if item.split('/')[0] in ['6','7','8']:
        answers['22']+=1
        
answers['22']

450

# 23. Для какого режиссера зима – самое продуктивное время года? 

In [29]:
c = Counter()

for index, row in data.iterrows():
    if str(row['release_date']).split('/')[0] in ['12','1','2']:
        c[row['director']]+=1


answers['23'] = pd.Series(c)\
                .sort_values(ascending = False)\
                .index[0]

answers['23']

'Peter Jackson'

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

In [30]:
flag = 0
flagIndex=0

for index , rows in data.iterrows():
    if len(rows['original_title']) > flag:
        flag = len(rows['original_title'])
        flagIndex = index
        


count=0
for index , rows in data.iterrows():
    if len(rows['original_title']) == flag:
        count+=1

answers['24'] = data.iloc[flagIndex]['production_companies']

answers['24']

'Twentieth Century Fox Film Corporation|Four By Two Productions'

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

In [31]:
с = Counter()

for index , row in data.iterrows():
    for item in row['production_companies'].split('|'):
        c[item]+=len(row['overview'])
        if c[item] > len(row['overview']):
            c[item]/=2
        
answers['25'] = pd.Series(c)\
            .sort_values(ascending =False)\
            .index[0]

answers['25']

'Midnight Picture Show'

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

In [32]:
df = data['vote_average'].sort_values(ascending =False)

count=1
rage=0
for item in df:
    
    if count > len(data)*0.01:
        break
        
    rage = item
    count+=1
    
answers['26'] = []

for index , row in data.iterrows():
    if row['vote_average'] > rage:
        answers['26'].append(row['original_title'])
        
answers['26']

['Inside Out',
 'Room',
 'Interstellar',
 'Guardians of the Galaxy',
 'The Imitation Game',
 'Gone Girl',
 'The Grand Budapest Hotel',
 'Inception',
 'The Dark Knight',
 'The Pianist',
 'The Lord of the Rings: The Return of the King',
 'The Wolf of Wall Street',
 '12 Years a Slave',
 'Memento']

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


In [33]:

cast = []
for item in data['cast']:
    data_cast = item.split('|')
    cast.append (list(combinations(data_cast, 2)))
    
    
exit = []
    
for item in cast:
    for row in item:
        exit.append(row)
        
answers['27'] = pd.Series(exit)\
                .value_counts()\
                .sort_values(ascending =False)\
                .index[0]

answers['27']

('Daniel Radcliffe', 'Emma Watson')

In [34]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{'1': 'Pirates of the Caribbean: On Stranger Tides(tt1298650)',
 '2': 'Gods and Generals(tt0279111)',
 '3': 'Winnie the Pooh(tt1449283)',
 '4': 110,
 '5': 107,
 '6': 'Avatar(tt0499549)',
 '7': 'The Lone Ranger(tt1210819)',
 '8': 1478,
 '9': 'The Dark Knight(tt0468569)',
 '10': 'The Lone Ranger(tt1210819)',
 '11': 'Drama',
 '12': 'Drama',
 '13': 'Peter Jackson',
 '14': 'Robert Rodriguez',
 '15': 'Chris Hemsworth',
 '16': 'Matt Damon',
 '17': 'Action',
 '18': 'K-19: The Widowmaker(tt0267626)',
 '19': 2015,
 '20': 2014,
 '21': '9-ый Месяц',
 '22': 450,
 '23': 'Peter Jackson',
 '24': 'Twentieth Century Fox Film Corporation|Four By Two Productions',
 '25': 'Midnight Picture Show',
 '26': ['Inside Out',
  'Room',
  'Interstellar',
  'Guardians of the Galaxy',
  'The Imitation Game',
  'Gone Girl',
  'The Grand Budapest Hotel',
  'Inception',
  'The Dark Knight',
  'The Pianist',
  'The Lord of the Rings: The Return of the King',
  'The Wolf of Wall Street',
  '12 Years a Slave',
  'Memento']

In [35]:
# и убедиться что ни чего не пропустил)
len(answers)

27