## Исследование данных о российском кинопрокате



В нашем распоряжении данные, опубликованные на портале открытых данных Министерства культуры.<br>
Набор данных содержит информацию о прокатных удостоверениях, сборах и государственной поддержке фильмов, а также информацию с сайта КиноПоиск.<br>
Нам нужно изучить рынок российского кинопроката и выявить текущие тренды. Уделить внимание фильмам, которые получили государственную поддержку. Ответить на вопрос, насколько такие фильмы интересны зрителю.

**Цель исследования** — проверить :
- сколько фильмов выходило каждый год в прокате;
- изучить как менялась динамика проката по годам;
- изучить медианную и среднюю сумму сборов по годам;
- изучить влияет ли возрастное ограничение на сборы фильмов в прокате;
- исследовать фильмы получившие гос.поддержку.

**Ход исследования**

Данные мы получаем из двух датасетов:<br>
- /datasets/mkrf_movies.csv — данные о прокатных удостоверениях.<br>
- /datasets/mkrf_shows.csv — данные о прокате в российских кинотеатрах.<br>
Нужно объедините данные таким образом, чтобы все объекты из датасета mkrf_movies обязательно вошли в получившийся датафрейм.<br>
О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. <br>
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Исследовательский анализ.

### Шаг 1. Откройте файлы с данными и объедините их в один датафрейм. 

Объедините данные таким образом, чтобы все объекты из датасета `mkrf_movies` обязательно вошли в получившийся датафрейм. 

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_0" aria-expanded="false" aria-controls="collapseHint_0">Подсказка</button>
        </div>
        <div id="collapseHint_0" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
Обратите внимание на тип данных столбца, по которому будете соединять датафреймы. Тип данных этих столбцов должен быть одинаковым в обоих датафреймах.
            </div>
        </div>
    </div>
</div>

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
try:
    data1=pd.read_csv('/datasets/mkrf_movies.csv')
except:
    data1=pd.read_csv(r'C:\Users\pulka\Downloads\mkrf_movies.csv')

In [3]:
try:
    data2=pd.read_csv('/datasets/mkrf_shows.csv')
except:
    data2=pd.read_csv(r'C:\Users\pulka\Downloads\mkrf_shows.csv')

In [4]:
data1.head(2)

Unnamed: 0,title,puNumber,show_start_date,type,film_studio,production_country,director,producer,age_restriction,refundable_support,nonrefundable_support,budget,financing_source,ratings,genres
0,Открытый простор,221048915,2015-11-27T12:00:00.000Z,Художественный,"Тачстоун Пикчерз, Кобальт Пикчерз, Бикон Пикче...",США,Кевин Костнер,"Дэвид Валдес, Кевин Костнер, Джейк Эбертс",«18+» - запрещено для детей,,,,,7.2,"боевик,драма,мелодрама"
1,Особо важное задание,111013716,2016-09-13T12:00:00.000Z,Художественный,"Киностудия ""Мосфильм""",СССР,Е.Матвеев,,«6+» - для детей старше 6 лет,,,,,6.6,"драма,военный"
2,Особо опасен,221038416,2016-10-10T12:00:00.000Z,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,,,,,6.8,"фантастика,боевик,триллер"
3,Особо опасен,221026916,2016-06-10T12:00:00.000Z,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,,,,,6.8,"фантастика,боевик,триллер"
4,Особо опасен,221030815,2015-07-29T12:00:00.000Z,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,,,,,6.8,"фантастика,боевик,триллер"


In [5]:
data2['puNumber']=data2['puNumber'].astype('str')

In [6]:
df=data1.merge(data2,how='left',on='puNumber')

In [7]:
df.head(2)

Unnamed: 0,title,puNumber,show_start_date,type,film_studio,production_country,director,producer,age_restriction,refundable_support,nonrefundable_support,budget,financing_source,ratings,genres,box_office
0,Открытый простор,221048915,2015-11-27T12:00:00.000Z,Художественный,"Тачстоун Пикчерз, Кобальт Пикчерз, Бикон Пикче...",США,Кевин Костнер,"Дэвид Валдес, Кевин Костнер, Джейк Эбертс",«18+» - запрещено для детей,,,,,7.2,"боевик,драма,мелодрама",
1,Особо важное задание,111013716,2016-09-13T12:00:00.000Z,Художественный,"Киностудия ""Мосфильм""",СССР,Е.Матвеев,,«6+» - для детей старше 6 лет,,,,,6.6,"драма,военный",
2,Особо опасен,221038416,2016-10-10T12:00:00.000Z,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,,,,,6.8,"фантастика,боевик,триллер",
3,Особо опасен,221026916,2016-06-10T12:00:00.000Z,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,,,,,6.8,"фантастика,боевик,триллер",
4,Особо опасен,221030815,2015-07-29T12:00:00.000Z,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,,,,,6.8,"фантастика,боевик,триллер",


In [8]:
display(data1.shape)
display(data2.shape)
display(df.shape)

(7486, 15)

(3158, 2)

(7486, 16)

Объединили два датасета таким образом, чтобы все объекты из датасета mkrf_movies обязательно вошли в получившийся датафрейм.<br>
Объединили датасеты по общему столбцу puNumber.
- /datasets/mkrf_movies.csv — данные о прокатных удостоверениях.
- /datasets/mkrf_shows.csv — данные о прокате в российских кинотеатрах.<br>
Провели проверку размерности получившегося датафрейма.


### Шаг 2. Предобработка данных

#### Шаг 2.1. Проверьте типы данных

- Проверьте типы данных в датафрейме и преобразуйте их там, где это необходимо.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7486 entries, 0 to 7485
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   title                  7486 non-null   object 
 1   puNumber               7486 non-null   object 
 2   show_start_date        7486 non-null   object 
 3   type                   7486 non-null   object 
 4   film_studio            7468 non-null   object 
 5   production_country     7484 non-null   object 
 6   director               7477 non-null   object 
 7   producer               6918 non-null   object 
 8   age_restriction        7486 non-null   object 
 9   refundable_support     332 non-null    float64
 10  nonrefundable_support  332 non-null    float64
 11  budget                 332 non-null    float64
 12  financing_source       332 non-null    object 
 13  ratings                6519 non-null   object 
 14  genres                 6510 non-null   object 
 15  box_

- Для удобства работы с временем привели столбец **show_start_date** к типу **datetime**.-

In [10]:
df['show_start_date']=pd.to_datetime(df['show_start_date'],format='%Y-%m-%dT%H:%M:%S')

In [11]:
df['show_start_date']

0      2015-11-27 12:00:00+00:00
1      2016-09-13 12:00:00+00:00
2      2016-10-10 12:00:00+00:00
3      2016-06-10 12:00:00+00:00
4      2015-07-29 12:00:00+00:00
                  ...           
7481   2019-12-23 12:00:00+00:00
7482   2019-12-24 12:00:00+00:00
7483   2019-12-28 12:00:00+00:00
7484   2019-12-30 12:00:00+00:00
7485   2019-12-30 12:00:00+00:00
Name: show_start_date, Length: 7486, dtype: datetime64[ns, UTC]

- Поменяем тип данных в столбце **ratings**, но для этого обработаем некоторые значения в нем.

In [12]:
df['ratings'].unique()

array(['7.2', '6.6', '6.8', '7.7', '8.3', '8.0', '7.8', '8.1', '7.1',
       '6.0', '7.4', '5.8', '8.7', '6.3', '6.9', '5.0', '4.3', '7.3',
       '7.0', '6.4', nan, '8.2', '7.5', '6.7', '7.9', '5.9', '6.2', '5.6',
       '6.5', '2.4', '7.6', '6.1', '8.6', '8.5', '8.8', '5.5', '5.1',
       '5.7', '5.4', '99%', '4.4', '4.5', '5.3', '4.1', '8.4', '2.6',
       '3.8', '4.6', '4.8', '4.0', '3.0', '1.6', '4.2', '5.2', '4.7',
       '4.9', '3.9', '2.7', '3.3', '2.9', '28%', '3.7', '1.4', '3.1',
       '97%', '3.5', '3.2', '2.8', '1.5', '2.1', '2.5', '9.2', '3.4',
       '1.1', '3.6', '83%', '64%', '91%', '94%', '62%', '79%', '90%',
       '19%', '88%', '1.0', '89%', '1.3', '1.9', '1.8', '1.2', '1.7',
       '9.0', '98%', '8.9', '9.1'], dtype=object)

In [13]:
df['ratings']=df['ratings'].replace({'99%':9.9,'28%':2.8,'97%':9.7,'83%':8.3,'64%':6.4,'91%':9.1,'94%':9.4,'62%':6.2,'79%':7.9,'90%':9.0,'19%':1.9,'88%':8.8,'89%':8.9,'98%':9.8})

In [14]:
df['ratings']=df['ratings'].astype(float)

#### Шаг 2.2. Изучите пропуски в датафрейме

- Объясните, почему заполнили пропуски определённым образом или почему не стали этого делать.

In [15]:
df.isna().mean().sort_values(ascending=False)

refundable_support       0.955651
nonrefundable_support    0.955651
budget                   0.955651
financing_source         0.955651
box_office               0.578146
genres                   0.130377
ratings                  0.129174
producer                 0.075875
film_studio              0.002404
director                 0.001202
production_country       0.000267
title                    0.000000
puNumber                 0.000000
show_start_date          0.000000
type                     0.000000
age_restriction          0.000000
dtype: float64

- **financing_source** - источник государственного финансирования<br>
Если пропуск в данных, значит фильм без гос. финансирования.<br>
Заполним пропуски строкой **'без гос.финансирования'**


In [16]:
df['financing_source']=df['financing_source'].fillna('без гос.финансирования')

- **refundable_support** - это объемы возвратных средств гос.поддержки<br>
- **nonrefundable_support** -это объемы невозвратных средств гос.поддержки <br>
- **budget** - общий бюджет фильма.<br> 
Если фильм без гос. финансирования,то **refundable_support** и **nonrefundable_support**  будут равны нулю для этого фильма.<br>
 **budget** уже включает в себя полный объём государственной поддержки. Данные в этом столбце указаны только для тех фильмов, которые получили государственную поддержку. Если у фильма нет гос.поддержки, то столбец **budget** для этого фильма заполним фразой 
"не известен".

In [17]:
df[['refundable_support','nonrefundable_support']]=df[[
    'refundable_support','nonrefundable_support']].fillna(0)

In [18]:
df['budget']=df['budget'].fillna('не известен')

In [19]:
df.isna().mean().sort_values(ascending=False)

box_office               0.578146
genres                   0.130377
ratings                  0.129174
producer                 0.075875
film_studio              0.002404
director                 0.001202
production_country       0.000267
title                    0.000000
puNumber                 0.000000
show_start_date          0.000000
type                     0.000000
age_restriction          0.000000
refundable_support       0.000000
nonrefundable_support    0.000000
budget                   0.000000
financing_source         0.000000
dtype: float64

**Зполним пропущеные значения в столбце с жанром фильма фразой "жанр неизвестен"**<br>
**Заполним пропущенные значения в столбце с режиссерами и продюсерами фильма фразой "нет"** <br>
**Заполним пропущенные значения в столбце с рейтингом нулями.**

In [20]:
df['genres']=df['genres'].fillna('жанр не известен')

In [21]:
df[['director','producer']]=df[['director','producer']].fillna('нет')

In [22]:
df['ratings']=df['ratings'].fillna(0)

Заполним  столбец **box_office** фразой "не известен"

In [23]:
df['box_office']=df['box_office'].fillna('не известен')

Удалим строки с пропущенными значениями в столбцах **production_country** и **film_studio** так как таких меньше процента.

In [24]:
df=df.dropna(subset=['production_country','film_studio'])

#### Шаг 2.3. Изучите дубликаты в датафрейме
- Проверьте, есть ли в данных дубликаты. Опишите причины, которые могли повлиять на появление дублей.

In [25]:
df.duplicated().sum()

0

Явных дубликатов не обнаружено.

#### Шаг 2.4. Изучим категориальные значения

In [26]:
df['type'].unique()

array(['Художественный', 'Анимационный', 'Прочие', 'Документальный',
       'Научно-популярный', ' Художественный', ' Анимационный',
       'Музыкально-развлекательный'], dtype=object)

In [27]:
df['type']=df['type'].str.strip()

In [28]:
df['type'].unique()

array(['Художественный', 'Анимационный', 'Прочие', 'Документальный',
       'Научно-популярный', 'Музыкально-развлекательный'], dtype=object)

In [29]:
len(df['title'].unique())

6754

In [30]:
df['title']=df['title'].str.replace('.','')

  df['title']=df['title'].str.replace('.','')


In [31]:
df['title']=df['title'].str.replace('_','')

In [32]:
df['title'].unique().tolist()

['Открытый простор',
 'Особо важное задание',
 'Особо опасен',
 'Остановился поезд',
 'Любовь и голуби',
 'Любовь и сигареты',
 'Отпетые мошенники',
 'Отпуск за свой счет',
 'Превосходство Борна /По одноименной новелле Роберта Ладлэма/',
 'Ответный ход',
 'Малышка на миллион /По мотивам рассказов ФХТула из сборника "Клейма от канатов"/',
 'Преданный садовник',
 'Отель /По мотивам пьесы Джона Уэбстера/',
 'Председатель',
 'Осенний марафон',
 'Осень',
 'Неподдающиеся',
 'Неподсуден',
 'Незабываемый 1919-й год',
 'Незаконченная жизнь',
 'Операция "Ы" и другие приключения Шурика',
 'Неизвестные страницы из жизни разведчика',
 'Неисправимый лгун',
 'Призрак замка Моррисвиль',
 'Оружейный барон',
 'Отставной козы барабанщик',
 'Паршивая овца',
 'Плюмбум, или Опасная игра',
 'Первое свидание',
 'Охота на лис',
 'Пиноккио 3000',
 'Перелом',
 'Мисс Поттер',
 'Миссис Хендерсон представляет',
 'Планета КА-ПЭКС /По мотивам романа Джин Бруэр/',
 'Молчи в тряпочку',
 'Мужики!',
 'Автомобиль, скрипка

#### Шаг 2.5. Проверьте количественные значения

- Проверьте, обнаружились ли в таких столбцах подозрительные данные. Как с такими данными лучше поступить?

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_budget" aria-expanded="false" aria-controls="collapseHint_budget">Подсказка</button>
        </div>
        <div id="collapseHint_budget" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
Обратите внимание на описание столбца <code>budget</code>. Как этот столбец соотносится с двумя другими: <code>refundable_support</code> и <code>nonrefundable_support</code>?
            </div>
        </div>
    </div>
</div>

In [33]:
df[df['budget']==0]

Unnamed: 0,title,puNumber,show_start_date,type,film_studio,production_country,director,producer,age_restriction,refundable_support,nonrefundable_support,budget,financing_source,ratings,genres,box_office
2053,14+,111023614,2014-12-19 12:00:00+00:00,Художественный,"ООО Киностудия ""Сентябрь""",Россия,А.Зайцев,"О.Гранина, А.Зайцев",«16+» - для детей старше 16 лет,0.0,23000000.0,0.0,"Министерство культуры, Фонд кино",6.6,мелодрама,10234016.1
2058,Дуxless 2,111000415,2015-01-26 12:00:00+00:00,Художественный,"ООО ""Киностудия ""Слово"", ООО ""Арт Пикчерс Студия""",Россия,Р.Прыгунов,"П.Ануров, Ф.Бондарчук, Д.Рудовский",«16+» - для детей старше 16 лет,0.0,75000000.0,0.0,Фонд кино,6.6,драма,446163511.0
2472,Воин (2015),111017315,2015-09-28 12:00:00+00:00,Художественный,"ООО ""Форпост Продакшн"", ООО ""Арт Пикчерс Студия""",Россия,А.Андрианов,"ООО ""Арт Пикчерс Студия""",«12+» - для детей старше 12 лет,10000000.0,70000000.0,0.0,Фонд кино,7.8,"боевик,драма,криминал",196572438.4
2532,Бармен,111009615,2015-05-26 12:00:00+00:00,Художественный,"АО ""ВайТ Медиа"", ООО ""Арт Пикчерс Студия""",Россия,Д.Штурманова,Т.Вайнштейн,«16+» - для детей старше 16 лет,20000000.0,0.0,0.0,Фонд кино,6.2,"комедия,фэнтези",67418974.8
2615,Савва Сердце воина,114001715,2015-07-21 12:00:00+00:00,Анимационный,"ООО ""Глюкоза Продакшн"", ООО ""Арт Пикчерс Студия""",Россия,М.Фадеев,А.Чистяков,«6+» - для детей старше 6 лет,60000000.0,100000000.0,0.0,Фонд кино,4.6,"мультфильм,приключения,фэнтези",184487551.4
2684,Тряпичный союз,111010215,2015-06-08 12:00:00+00:00,Художественный,"ООО ""Кинокомпания ""КОКТЕБЕЛЬ""",Россия,М.Местецкий,"Р.Борисевич, А.Кушаев",«18+» - запрещено для детей,0.0,59000000.0,0.0,Фонд кино,6.3,"комедия,драма",1957738.51
2788,Срочно выйду замуж,111017115,2015-09-30 12:00:00+00:00,Художественный,"АО ""ВайТ Медиа"", ООО ""Арт Пикчерс Студия""",Россия,С Чекалов,"Ф.Бондарчук, Т.Вайнштейн, Д.Рудовский",«16+» - для детей старше 16 лет,0.0,35000000.0,0.0,Фонд кино,5.1,"комедия,мелодрама",72937783.2
2874,Помню - не помню!,111004916,2016-03-01 12:00:00+00:00,Художественный,"ООО ""КиноФирма""",Россия,В.Ровенский,"ООО ""КиноФирма""",«12+» - для детей старше 12 лет,0.0,6000000.0,0.0,Министерство культуры,4.3,комедия,15362931.43
3047,Любовь с ограничениями,111008216,2016-04-29 12:00:00+00:00,Художественный,"АО ""ВайТ Медиа"", ООО ""Арт Пикчерс Студия""",Россия,Д.Тюрин,"Ф.Бондарчук, Т.Вайнштейн, Д.Рудовский",«16+» - для детей старше 16 лет,19000000.0,51000000.0,0.0,Фонд кино,6.3,"комедия,мелодрама",70299052.0
3565,Притяжение (2016),111018116,2016-12-16 12:00:00+00:00,Художественный,"ООО ""Водород 2011"", ООО ""Арт Пикчерс Студия""",Россия,Ф.Бондарчук,"ООО ""Арт Пикчерс Студия""",«12+» - для детей старше 12 лет,0.0,250000000.0,0.0,Фонд кино,5.6,фантастика,1038321489.0


**budget** уже включает в себя полный объём государственной поддержки.Но есть строки где у фильма есть один из видов гос.финансирования ,но есть фильмы у которых **budget** равен нулю там где хотя бы один из типов гос.поддержки не равен нулю. Заменим нули на сумму обоих видов гос.поддержки. 

In [34]:
df.loc[df['budget']==0,'budget']=df['refundable_support']+df['nonrefundable_support']

#### Шаг 2.6. Добавьте новые столбцы





- Создайте столбец с информацией о годе проката. Выделите год из даты премьеры фильма.

In [35]:
df['year']=df['show_start_date'].dt.year

- Создайте два столбца: с именем и фамилией главного режиссёра и основным жанром фильма. В столбцы войдут первые значения из списка режиссёров и жанров соответственно.

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_2" aria-expanded="false" aria-controls="collapseHint_2">Подсказка</button>
        </div>
        <div id="collapseHint_2" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
Чтобы создать такие столбцы, лучше всего использовать собственную функцию. Эту функцию можно применить к двум столбцам сразу. 
            </div>
        </div>
    </div>
</div>

In [36]:
def director_genres(x):
    return x.split(',')[0]

In [37]:
df['director_first']=df['director'].apply(director_genres)
    

In [38]:
df['genres_first']=df['genres'].apply(director_genres)

In [39]:
df.head()

Unnamed: 0,title,puNumber,show_start_date,type,film_studio,production_country,director,producer,age_restriction,refundable_support,nonrefundable_support,budget,financing_source,ratings,genres,box_office,year,director_first,genres_first
0,Открытый простор,221048915,2015-11-27 12:00:00+00:00,Художественный,"Тачстоун Пикчерз, Кобальт Пикчерз, Бикон Пикче...",США,Кевин Костнер,"Дэвид Валдес, Кевин Костнер, Джейк Эбертс",«18+» - запрещено для детей,0.0,0.0,не известен,без гос.финансирования,7.2,"боевик,драма,мелодрама",не известен,2015,Кевин Костнер,боевик
1,Особо важное задание,111013716,2016-09-13 12:00:00+00:00,Художественный,"Киностудия ""Мосфильм""",СССР,Е.Матвеев,нет,«6+» - для детей старше 6 лет,0.0,0.0,не известен,без гос.финансирования,6.6,"драма,военный",не известен,2016,Е.Матвеев,драма
2,Особо опасен,221038416,2016-10-10 12:00:00+00:00,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,0.0,0.0,не известен,без гос.финансирования,6.8,"фантастика,боевик,триллер",не известен,2016,Тимур Бекмамбетов,фантастика
3,Особо опасен,221026916,2016-06-10 12:00:00+00:00,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,0.0,0.0,не известен,без гос.финансирования,6.8,"фантастика,боевик,триллер",не известен,2016,Тимур Бекмамбетов,фантастика
4,Особо опасен,221030815,2015-07-29 12:00:00+00:00,Художественный,"Юниверсал Пикчерз, Кикстарт Продакшнз, Марк Пл...",США,Тимур Бекмамбетов,"Джим Лемли, Джейсон Нетер, Марк Е.Платт, Яйн Смит",«18+» - запрещено для детей,0.0,0.0,не известен,без гос.финансирования,6.8,"фантастика,боевик,триллер",не известен,2015,Тимур Бекмамбетов,фантастика


- Посчитайте, какую долю от общего бюджета фильма составляет государственная поддержка.

**Создадим новый датафрейм только с фильмами,которые получили гос.поддержку.**

In [40]:
data3=df.loc[df['budget']!='не известен']

In [41]:
data3['gos_percent']=(data3['refundable_support']+data3['nonrefundable_support'])/data3['budget']
        

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data3['gos_percent']=(data3['refundable_support']+data3['nonrefundable_support'])/data3['budget']


In [42]:
data3['gos_percent'].astype('float').describe()

count    332.000000
mean       0.542098
std        0.196925
min        0.044043
25%        0.384615
50%        0.614038
75%        0.661412
max        1.000000
Name: gos_percent, dtype: float64

In [43]:
len(data3['title'].unique())

332

In [44]:
data3.groupby(['year'])['gos_percent'].median().plot(kind='bar')
plt.show()

DataError: No numeric types to aggregate

In [None]:
data3.sort_values(['gos_percent'])

In [None]:
data3.loc[data3['gos_percent']==1.0,'title'].count()

Гос.поддержка в среднем не менее 50 %, минимальная гос.поддержка 4% ,фильм "За гранью реальности",максимальная 100%, таких фильмов аж 17. Всего государством было профинансированно 332 фильма. Больше всего государство поддерживало фильмы в 2016 году, ментше всего в 2013 году.

### Шаг 3. Проведите исследовательский анализ данных


- Посмотрите, сколько фильмов выходило в прокат каждый год. Обратите внимание, что данные о прокате в кинотеатрах известны не для всех фильмов. Посчитайте, какую долю составляют фильмы с указанной информацией о прокате в кинотеатрах.

Количество фильмов,выходящих в прокат каждый год.

Для фильмов, у которых наличие проката в кинотеатрах неизвестно, значения в столбце **box_office** равно **"не известен"**.<br>
Создадим новый датафрейм сосотоящий только из фильмов, про которые известно,что они были в прокате и проанализируем его.

In [None]:
data4=df[df['box_office']!='не известен']

In [None]:
data4.groupby('year')['title'].count().plot(kind='bar',figsize=(5,5),grid=True)
plt.show()

In [None]:
data4.loc[(df['budget']!='не известен') & (df['year']==2010),'title'].count()

In [None]:
data4.loc[(df['budget']!='не известен') & (df['year']==2016),'title'].count()

In [None]:
data4.loc[(df['budget']!='не известен') & (df['year']==2017),'title'].count()

In [None]:
data4.loc[(df['budget']!='не известен') & (df['year']==2019),'title'].count()

Начиная с **2010** года наблюдается динамика росту выхода фильмов в кинотеатрах. Если в в **2010** году выходило чуть больше **100 фильмов**, то в **2016** уже бльше **500 фильмов**. В **2017** году наблюдается резкое подание выхода фильмов в прокат в кинотеатрах, а после снова возврат на прежний уровень.<br>
Одной из причин может быть то,что в **2017** году меньшее количество фильмов получилос гос.поддержку. 

In [None]:
len(data4)/len(df)

**42 %** фильмов с указанными данными о прокате фильма в кинотеатре.

In [None]:
df.groupby('year')['title'].count().plot(kind='bar',figsize=(5,5),grid=True,title='all')
plt.show()
data4.groupby('year')['title'].count().plot(kind='bar',figsize=(5,5),grid=True)
plt.show()

**Построив два графика, представленные выше, видно,что информация о прокате фильмов в кинотеатрах полнее всего представлена в 2019 году. Менее всего в 2010 году.**

- Изучите, как менялась динамика проката по годам. В каком году сумма сборов была минимальной? А максимальной?

In [None]:
d=data4.query('year.between(2010,2014)')

In [None]:
data4.pivot_table(index='year',values='box_office',aggfunc='median').plot(kind='bar',grid=True)
plt.show()
d.pivot_table(index='year',values='box_office',aggfunc='median').plot(kind='bar',grid=True)
plt.show()

С 2010 года по 2017 год идет наблюдается динамика на увеличение суммы сборов за прокат фильмов. С 2017 до 2019 падение более чем в два раза.

In [None]:
df.query('box_office==0').count()

**24 фильма  из нашего датафрейма с нулем в графе колиичества сборов**

- С помощью сводной таблицы посчитайте среднюю и медианную сумму сборов для каждого года.

In [None]:
data4.query('year.between(2014,2019)').pivot_table(index='year',values='box_office',aggfunc=['median','mean']).plot(kind='bar')
plt.show()

In [None]:
data4['box_office'].astype('float').describe()

Огромные различия в подсчете медианной и средней суммы сборов. Все потому,что есть фильмы с суммой сборов больше 100 млн, а есть фильмы с нулём в этой графе. Половина фильмов с суммой сборов в два с небольшим миллиона.

- Определите, влияет ли возрастное ограничение аудитории («6+», «12+», «16+», «18+» и т. д.) на сборы фильма в прокате в период с 2015 по 2019 год? Фильмы с каким возрастным ограничением собрали больше всего денег в прокате? Меняется ли картина в зависимости от года? Если да, предположите, с чем это может быть связано.

In [45]:
data4.query('year.between(2015,2019)').pivot_table(
    index='year',columns='age_restriction',values='box_office',aggfunc='median').plot(kind='bar',grid=True)
plt.show()

NameError: name 'data4' is not defined

Возрастное ограничение влияет на сумму сборов от проката фильмов. Больше всего собирают **"6+"-для детей старше 6 лет**. Видимо в эту категорию попадают такие картины, на которые ходят всей семьей. Особенно велика разница в сборах в этой категории и в других в **2017 году**. Возможно, в этом году выходило много семейных картин.<br>
Однако в **2016 году**  картина по сборам отличается. Больше всего собрали фильмы категории **"18+"- запрещено для детей**. Можно предположить,что в том году выходило мало семейных фильмов. В том году в целом очень маленькие сборы, по сравнению с другими годами.

### Шаг 4. Исследуйте фильмы, которые получили государственную поддержку

На этом этапе нет конкретных инструкций и заданий — поищите интересные закономерности в данных. Посмотрите, сколько выделяют средств на поддержку кино. Проверьте, хорошо ли окупаются такие фильмы, какой у них рейтинг.

- Сколько выделялось денег на поддержку кино.

In [None]:
data3.pivot_table(index='year',values='budget',aggfunc=['mean','median']).plot(kind='bar',grid=True)
plt.show()

In [None]:
data3.query('year==2013')['budget'].astype('float').describe()

In [None]:
data3.query('year==2017')['budget'].astype('float').describe()

Видно, что деньги выделялись только с 2013 года. Изучив средние и медианные значения, можно отметить,что в 2013 году эти значения равны, а в остальные годы  отличаются. Можно предположить,что в 2013 году суммы на поддержку разных фильмов были близкие, тогда как в остальные годы какие-то фильмы получали  мало денег, какие-то очень много.

- Сколько фильмов получили гос.поддержку.

In [None]:
len(data3)/len(df)

**Всего 4 процента фильмов получили гос.поддержку.**

- Сколько фильмов из получивших гос.поддержку получили ее на только на возвратной основе.

In [None]:
len(data3.query('refundable_support!=0 and nonrefundable_support==0'))/len(data3)

In [None]:
data3.query('refundable_support!=0 and nonrefundable_support==0').groupby('year')['refundable_support'].median().plot(
    kind='bar')
plt.show()

 **Около 3 процентов фильмов из получивших гос.поддержку получили ее только на возвратной основе.Больше всего в 2018 году**.

- Сколько фильмов из получивших гос.поддержку получили ее на только на не возвратной основе.

In [None]:
len(data3.query('nonrefundable_support!=0 and refundable_support==0'))/len(data3)

In [None]:
data3.query('nonrefundable_support!=0 and refundable_support==0').groupby('year')['nonrefundable_support'].median().plot(
    kind='bar')
plt.show()

 **65  процентов фильмов из получивших гос.поддержку получили ее только на не возвратной основе. Больше всего в 2013 году.** 

- Бюджет фильмов с гос.поддержкой по годам.

In [None]:
data3.pivot_table(values=['budget'],index='year',aggfunc='median').plot(
    kind='bar',grid=True)

Максимальный бюджет у фильмов с гос.поддержкой был в 2013 году. В остальные годы он примерно одинковый и составляет где-то половину бюджета за 2013 год.

- Рейтинг фильмов с гос.поддежкой по годам.

In [None]:
data3['ratings'].describe()

In [None]:
data3.groupby('year')['ratings'].median().plot(kind='bar')
plt.show()

Медианный рейтинг фильмов с гос.поддержкой 6 баллов, что является достаточно посредственным рейтингом. 

- Сборы фильмов с гос.поддержкой.

In [None]:
data3.query('box_office!= "не известен"').groupby('year')['box_office','budget'].median().plot(kind='bar',grid=True)
plt.show()

Видно, что в период с 2013 по 2019 годы фильмы, которые получали гос.поддержку и по которым есть данные о прокате в кинотеатрах, финансово проваливались. В 2013 году картина совсем печальная. 

### Шаг 5. Общий вывод

#### Исследовав полученные данные можно сделать следующие выводы:

- только у **42 %** фильмов  указанны данные о прокате фильма в кинотеатре.

- наиболее полно информация о прокате фильмов в кинотеатрах представлена в 2019 году. Меньше всего информации за 2010 год.

- начиная с **2010** года наблюдается динамика росту количества выходов фильмов в кинотеатрах. Если в в **2010** году выходило чуть больше **100 фильмов**, то в **2016** уже бльше **500 фильмов**.<br>
В **2017** году наблюдается резкое подание выхода фильмов в прокат в кинотеатрах, а после снова возврат на прежний уровень.<br>
Одной из причин может быть то,что в **2017** году меньшее количество фильмов получилос гос.поддержку. 

- С 2010 года по 2017 год идет наблюдается динамика на увеличение суммы сборов за прокат фильмов. С 2017 до 2019 падение более чем в два раза.

- Больше всего собирают **"6+"-для детей старше 6 лет**. Видимо в эту категорию попадают такие картины, на которые ходят всей семьей. Особенно велика разница в сборах в этой категории и в других в **2017 году**. Возможно, в этом году выходило много семейных картин.<br>
Однако в **2016 году**  картина по сборам отличается. Больше всего собрали фильмы категории **"18+"- запрещено для детей**. Можно предположить,что в том году выходило мало семейных фильмов. В том году в целом очень маленькие сборы, по сравнению с другими годами.

- Всего 4 процента фильмов получили гос.поддержку.

- Гос.поддержка в среднем за исследуемый период не менее 50 % бюджета, минимальная гос.поддержка 4% (фильм "За гранью реальности"),максимальная 100%, таких фильмов 17.<br> 
Всего государством было профинансированно 332 фильма. Больше всего государство поддерживало фильмы в 2016 году, меньше всего в 2013 году.

- гос.поддержка начала выделяться только с 2013 года. 

- Сильно разнятся средние и меддианные значения бюджета для всех годов,кроме 2013.<br>
Можно предположить,что в 2013 году суммы на поддержку разных фильмов были близкие, тогда как в остальные годы были сильные выбросы по суммам бюджета.

- Около 3 процентов фильмов из получивших гос.поддержку получили ее только на возвратной основе.Больше всего  таких было в 2018 году.

 - 65  процентов фильмов из получивших гос.поддержку получили ее только на не возвратной основе. Больше всего в 2013 году.

- максимальный бюджет у фильмов с гос.поддержкой был в 2013 году. В остальные годы он примерно одинковый и составляет где-то половину от бюджета за 2013 год.

- рейтинг фильмов с гос.поддержкой  где-то 6 баллов, зрителям такие фильмы видимо не очень нравятся.

- за весь исследуемый период, фильмы, которые получали гос.поддержку и по которым есть данные о прокате в кинотеатрах, финансово проваливались. В 2013 году картина совсем печальная. 