In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [3]:
data = pd.read_csv('movie_bd_v5.csv')
data.sample(5)

Unnamed: 0,imdb_id,budget,revenue,original_title,cast,director,tagline,overview,runtime,genres,production_companies,release_date,vote_average,release_year
1396,tt0257516,35000000,19294901,Cursed,Portia de Rossi|Christina Ricci|Jesse Eisenber...,Wes Craven,What doesn't kill you makes you stronger.,A werewolf loose in Los Angeles changes the li...,97,Horror|Comedy,Craven-Maddalena Films|Outerbanks Entertainmen...,2/24/2005,5.0,2005
1631,tt0315297,50000000,25195000,Twisted,Ashley Judd|Samuel L. Jackson|Andy GarcÃ­a|Dav...,Philip Kaufman,Every murder has a mark.,Recently promoted and transferred to the homic...,97,Action|Adventure|Crime|Drama|Thriller,Paramount Pictures|Kopelson Entertainment|Harl...,2/27/2004,5.7,2004
164,tt1109624,55000000,259207227,Paddington,Nicole Kidman|Peter Capaldi|Ben Whishaw|Michae...,Paul King,The Adventure Begins,A young Peruvian bear with a passion for all t...,95,Comedy,The Weinstein Company|StudioCanal|TF1 Films Pr...,11/27/2014,7.1,2014
1858,tt0120913,75000000,36754634,Titan A.E.,Matt Damon|Bill Pullman|Drew Barrymore|John Le...,Don Bluth|Gary Goldman,"When Earth Ends, The Adventure Begins.",A young man finds out that he holds the key to...,94,Animation|Action|Science Fiction|Family|Adventure,Twentieth Century Fox Film Corporation|David K...,6/16/2000,6.1,2000
433,tt1139328,45000000,60222298,The Ghost Writer,Ewan McGregor|Pierce Brosnan|Jon Bernthal|Kim ...,Roman Polanski,Read between the lies.,A writer stumbles upon a long-hidden secret wh...,128,Thriller|Mystery,Studio Babelsberg|Runteam Ltd.|R.P. Production...,2/12/2010,6.5,2010


In [4]:
data.describe()

Unnamed: 0,budget,revenue,runtime,vote_average,release_year
count,1889.0,1889.0,1889.0,1889.0,1889.0
mean,54310830.0,155365300.0,109.658549,6.140762,2007.860773
std,48587210.0,214669800.0,18.017041,0.764763,4.468841
min,5000000.0,2033165.0,63.0,3.3,2000.0
25%,20000000.0,34560580.0,97.0,5.6,2004.0
50%,38000000.0,83615410.0,107.0,6.1,2008.0
75%,72000000.0,178262600.0,120.0,6.6,2012.0
max,380000000.0,2781506000.0,214.0,8.1,2015.0


# Предобработка

In [5]:
answers = {} # создадим словарь для ответов

# тут другие ваши предобработки колонок например:

#the time given in the dataset is in string format.
#So we need to change this in datetime format
# ...

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1889 entries, 0 to 1888
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   imdb_id               1889 non-null   object 
 1   budget                1889 non-null   int64  
 2   revenue               1889 non-null   int64  
 3   original_title        1889 non-null   object 
 4   cast                  1889 non-null   object 
 5   director              1889 non-null   object 
 6   tagline               1889 non-null   object 
 7   overview              1889 non-null   object 
 8   runtime               1889 non-null   int64  
 9   genres                1889 non-null   object 
 10  production_companies  1889 non-null   object 
 11  release_date          1889 non-null   object 
 12  vote_average          1889 non-null   float64
 13  release_year          1889 non-null   int64  
dtypes: float64(1), int64(4), object(9)
memory usage: 206.7+ KB


### Check if there any non null values

In [7]:
data.isnull().values.any()

False

### Check if columns of type 'object' are of the right data format

In [8]:
object_data = data.select_dtypes(include='object').columns
object_data

Index(['imdb_id', 'original_title', 'cast', 'director', 'tagline', 'overview',
       'genres', 'production_companies', 'release_date'],
      dtype='object')

In [9]:
for ob in object_data:
    print(type(ob),'\t', ob)

<class 'str'> 	 imdb_id
<class 'str'> 	 original_title
<class 'str'> 	 cast
<class 'str'> 	 director
<class 'str'> 	 tagline
<class 'str'> 	 overview
<class 'str'> 	 genres
<class 'str'> 	 production_companies
<class 'str'> 	 release_date


### Change columns with the wrong data format to the right one

In [10]:
data['release_date'] = pd.to_datetime(data['release_date'])
type(data['release_date'][0])

pandas._libs.tslibs.timestamps.Timestamp

### Create a function collecting all answers to questions

In [11]:
answers = {}
def answer(answer, question = 1, name = True):
    if name:
        answers[question] = answer['original_title'].item() + ' (' + answer['imdb_id'].item() + ')'
    else: 
        answers[question] = answer
answers

{}

### Add profit data to the dataframe

In [12]:
data['profit'] = data['revenue'] - data['budget']
data['profit']

0       1363528810
1        228436354
2        185238201
3       1868178225
4       1316249360
           ...    
1884      82299717
1885      -8444012
1886     -40865180
1887      -3962091
1888      -9782502
Name: profit, Length: 1889, dtype: int64

# 1. У какого фильма из списка самый большой бюджет?

In [13]:
max_budget = data[data['budget'] == data['budget'].max()]
answer(max_budget)

answers[1]

'Pirates of the Caribbean: On Stranger Tides (tt1298650)'

# 2. Какой из фильмов самый длительный (в минутах)?

In [14]:
longest = data[data['runtime'] == data['runtime'].max()]
answer(longest, 2)

answers[2]

'Gods and Generals (tt0279111)'

# 3. Какой из фильмов самый короткий (в минутах)?





In [15]:
shortest = data[data['runtime'] == data['runtime'].min()]
answer(shortest, 3)

answers[3]

'Winnie the Pooh (tt1449283)'

# 4. Какова средняя длительность фильмов?


In [16]:
avg_runtime = data['runtime'].mean()
answer(avg_runtime, 4, False)

answers[4]

109.6585494970884

# 5. Каково медианное значение длительности фильмов? 

In [17]:
meadian_runtime = data['runtime'].median()
answer(meadian_runtime, 5, False)

answers[5]

107.0

# 6. Какой самый прибыльный фильм?
#### Внимание! Здесь и далее под «прибылью» или «убытками» понимается разность между сборами и бюджетом фильма. (прибыль = сборы - бюджет) в нашем датасете это будет (profit = revenue - budget) 

In [25]:
most_profit = data[data['profit']==data['profit'].max()]
answer(most_profit, 6)

answers[6]

'Avatar (tt0499549)'

# 7. Какой фильм самый убыточный? 

In [26]:
least_profit = data[data['profit']==data['profit'].min()]
answer(least_profit, 7)

answers[7]

'The Lone Ranger (tt1210819)'

# 8. У скольких фильмов из датасета объем сборов оказался выше бюджета?

In [42]:
pos_profit = data[data['profit']>0].count()['imdb_id']
answer(pos_profit, 8, False)

answers[8]

1478

# 9. Какой фильм оказался самым кассовым в 2008 году?

In [55]:
movies_2008 = data[(data['release_year']==2008)]
highest_gross =  movies_2008[movies_2008['revenue']==movies_2008['revenue'].max()]
answer(highest_gross, 9)

answers[9]

'The Dark Knight (tt0468569)'

# 10. Самый убыточный фильм за период с 2012 по 2014 г. (включительно)?


# 11. Какого жанра фильмов больше всего?

In [19]:
# эту задачу тоже можно решать разными подходами, попробуй реализовать разные варианты
# если будешь добавлять функцию - выноси ее в предобработку что в начале

ВАРИАНТ 2

# 12. Фильмы какого жанра чаще всего становятся прибыльными? 

# 13. У какого режиссера самые большие суммарные кассовые сборы?

# 14. Какой режисер снял больше всего фильмов в стиле Action?

# 15. Фильмы с каким актером принесли самые высокие кассовые сборы в 2012 году? 

# 16. Какой актер снялся в большем количестве высокобюджетных фильмов?

# 17. В фильмах какого жанра больше всего снимался Nicolas Cage? 

# 18. Самый убыточный фильм от Paramount Pictures

# 19. Какой год стал самым успешным по суммарным кассовым сборам?

# 20. Какой самый прибыльный год для студии Warner Bros?

# 21. В каком месяце за все годы суммарно вышло больше всего фильмов?

# 22. Сколько суммарно вышло фильмов летом? (за июнь, июль, август)

# 23. Для какого режиссера зима – самое продуктивное время года? 

# 24. Какая студия дает самые длинные названия своим фильмам по количеству символов?

# 25. Описание фильмов какой студии в среднем самые длинные по количеству слов?

# 26. Какие фильмы входят в 1 процент лучших по рейтингу? 
по vote_average

# 27. Какие актеры чаще всего снимаются в одном фильме вместе?


ВАРИАНТ 2

# Submission

In [20]:
# в конце можно посмотреть свои ответы к каждому вопросу
answers

{1: 'Pirates of the Caribbean: On Stranger Tides (tt1298650)',
 2: 'Gods and Generals (tt0279111)',
 3: 'Winnie the Pooh (tt1449283)',
 4: 109.6585494970884,
 5: 107.0}

In [21]:
# и убедиться что ни чего не пропустил)
len(answers)

5