# Цель проекта

По заказу Министерства Культуры Российской Федерации необходимо исследовать рынок кинопроката. 

Выявить предпочтения зрителей.

Проанализировать данные о фильмах с господдержкой и оценить востребованность таких фильмов.



# Исследование данных о российском кинопрокате



## Откройте файлы с данными и объедините их в один датафрейм. 

Объедините данные таким образом, чтобы все объекты из датасета `mkrf_movies` обязательно вошли в получившийся датафрейм. 

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_0" aria-expanded="false" aria-controls="collapseHint_0">Подсказка</button>
        </div>
        <div id="collapseHint_0" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
Обратите внимание на тип данных столбца, по которому будете соединять датафреймы. Тип данных этих столбцов должен быть одинаковым в обоих датафреймах.
            </div>
        </div>
    </div>
</div>

### Обзор данных

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np


In [2]:
try:
    movies_data = pd.read_csv('~mkrf_movies.csv')
    shows_data = pd.read_csv('~/mkrf_shows.csv')
except:
    movies_data = pd.read_csv('/datasets/mkrf_movies.csv')
    shows_data = pd.read_csv('/datasets/mkrf_shows.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/mkrf_movies.csv'

In [None]:
movies_data.info()

In [None]:
movies_data.head()

Таблица с данными по фильмам состоит из 15 столбцов:
- Название тип данных object
- Номер прокатного удостовеления тип данных object (необходимо заменить на тип данных int)
- Дата начала проката тип данных object (необходимо перевести к формату даты)
- Тип тип данных object, содержит категориальные данные (необходимо проверить на наличие неявных дубликатов)
- Студия тип данных object
- Страна производитель тип данных object (необходимо проверить на наличие неявных дубликатов)
- Режисер тип данных object
- Продюсер тип данных object
- Возрастное ограничение тип данных object, содержит категориальные данные, необходимо проверить на наличие неявных дубликатов
- Возвратная господдержка тип данных float
- Невозвратная господдержка тип данных float
- Бюджет господдержки фильма тип данных float
- Источник финасирования тип данных object
- Рейтинг тип данных object(необходимо привести к формату данных float)
- Жанры тип данных object

In [None]:
shows_data.info()

In [None]:
shows_data.head()

Таблица со сведениями о показах состоит из двух столбцов:
- Номер прокатного удостоверения тип данных int
- Сумма прокатных сборов в кинотеатрах тип данных float

Видно, что типы данных в столбце с номером прокатного удостоверения двух таблиц отличаются. Необходимо исправить тип данных в таблице фильмов, чтобы провести успешное объединение двух таблиц.

Попытка сходу исправить формат данных выводит ошибку из-за наличия значения 'нет' в одной из ячеек.

Заменим значения ячеек состоящие только из букв на 0.

In [None]:
movies_data.loc[movies_data.puNumber.str.isalpha(), 'puNumber'] = 0

In [None]:
movies_data['puNumber'] = movies_data['puNumber'].astype(int)

Тип данных для значения номера прокатного удостоверения успешно изменен.

Проведем слияние двух таблиц, таким образом, чтобы в итоговой таблице сохранились все записи из таблицы фильмов.

In [None]:
total_data = movies_data.merge(shows_data, on='puNumber', how='outer')

In [None]:
total_data.info()

Таблицы успешно объединены.

In [None]:
sns.heatmap(total_data.isna());

In [None]:
pd.DataFrame(total_data.isna().mean()).style.background_gradient('coolwarm')

В данных имеются пропуски.
- количество пропусков в столбцах film_studio, production_country, director незначительно их можно отбростить
- количество пропусков в столбце producer составляет более 7 %. Пропуски следует заменить на значение unknown, чтобы не терять данные.
- количество пропусков в столбцах refundable_support, nonrefundable_support, budget. financing_source составляет более 95%, заполнять эти пропуски не стоит. Логично, что господдержку получают далеко не все фильмы выходящие в прокат. В данном случае пропущенные значения можно заменить на 0.
- количество пропусков в столбце ratings составляет 12.9%. Этот столбец играет ключевую роль в исследовании. На этапе предобработки можно попробовать посмотреть зависимость рейтинга от различных категорий. Но на первый взгляд трогать этот столбец не стоит.
- количество пропусков в столбце genres составляет 13%. Значения этого столбца можно заменить на unknown.
- количество пропусков в столбце box_office составляет 57%. Для большей части данных нет сведений о выручке проката. Пропущенные значения можно заменить на 0.

In [None]:
nas_to_drop = ['film_studio', 'production_country', 'director']

In [None]:
nas_to_zero = ['refundable_support', 'nonrefundable_support', 'budget', 'box_office']

In [None]:
nas_to_unknown = ['genres', 'producer', 'financing_source']

In [None]:
categorial_columns = ['type', 'production_country', 'age_restriction']

#### Выводы

На этапе обзора данных было осуществлено следующее:
- Была устранена проблема с данными о прокатных удостоверениях фильмов и таблицы были успешно объединены.
- Были установлены столбцы с пропущенными значениями и выделены в отдельные списки для заполнения пропусков на этапе предобработки.
- Также были выявлены проблемы в данных которые необходимо устранить в ходе предобработки (изменение типов данных отдельных столбцов)

## Предобработка данных

### Проверьте типы данных

- Проверьте типы данных в датафрейме и преобразуйте их там, где это необходимо.

Преобразуем дату начала показа к типу данных datetime

In [None]:
total_data['show_start_date'] = pd.to_datetime(total_data['show_start_date'], format='%Y-%m-%dT%H:%M:%S')

In [None]:
first_date = total_data['show_start_date'].dt.year.min()
last_date = total_data['show_start_date'].dt.year.max()
time_span = last_date - first_date
print(f'Первый год наблюдений:{first_date}. Последний год наблюдений :{last_date}. Период наблюдений:{time_span} лет.')

Приведем столбец с рейтингом к типу данных float. Для этого исправим значения рейтинга указанное в процентах. Приведем проценты к 10 бальной системе.

In [None]:
def percent_to_rating(string):
    '''функция принимает строку и если в строке есть знак %, то первый и второй элемент строки разделяются точкой'''
    try:
        if string.find('%') != -1:
            string = string[0] + '.' + string[1]
        return string
    except:
        pass


In [None]:
total_data['ratings'] = total_data['ratings'].apply(percent_to_rating)

In [None]:
total_data['ratings'] = total_data['ratings'].astype(float)


Рейтинг фильмов успешно преобразован к типу данных float

#### Выводы

Для колонок с датой и рейтингом типы данных были успешно преобразованы.

### Изучите пропуски в датафрейме

- Объясните, почему заполнили пропуски определённым образом или почему не стали этого делать.

На этапе обзора столбцы с пропущенными значениями были разделены на несколько категорий.

Поскольку в столбцах с суммами сборов и суммами поддержки пропусков очень много, то можно заменить пропуски на 0 или оставить значения как есть. Я заполню пропуски нулями.

Для строковых столбцов можно заменить пропущенные значения на unknown.

Для пропусков в столбце с рейтингом нужно проверить возможную зависимость от категории фильма, чтобы попробовать заполнить пропуски чем-нибудь. Если зависимость выявлена не будет, то этот столбец лучше оставить как есть.

Удалим незначительное количество пропущенных значений, определенных на этапе обзора.

In [None]:
total_data.dropna(subset=nas_to_drop, inplace=True)

In [None]:
total_data.info()

In [None]:
def fill_na(df, column, value='unknown'):
    df[column] = df[column].fillna(value)

In [None]:
for column in nas_to_zero:
    fill_na(total_data, column, value=0)


In [None]:
for column in nas_to_unknown:
    fill_na(total_data, column)

In [None]:
total_data.info()

In [None]:
total_data.groupby('type')['ratings'].median()

При групировке видно, что столбец type имеет проблемы, в нем встречаются неявные дубликаты, которые нужно устранить прежде, чем оценивать влияние типа фильма на рейтинг.

Также нужно проверить количество пропущенных значений рейтинга для разных типов фильмов.
Проведем эту проверку после исправления проблем в категориальных столбцах.

#### Выводы

На этом этапе были удалены из таблицы незначительное количество пропусков в колонках определенных на этапе обзора.

Для отдельных столбцов пропущенные значения заполнены на 0 и unknown.

### Изучите дубликаты в датафрейме
- Проверьте, есть ли в данных дубликаты. Опишите причины, которые могли повлиять на появление дублей.

In [None]:
total_data.duplicated().sum()

Явных дубликатов в данных нет.

In [None]:
total_data.title.value_counts()

В столбце название фильма выявлены неявные дубликаты. 

Причины появления неявных дубликатов в названии могут быть следующие:
- Разные фильмы действительно имеют одинаковое название, в этом случае говорить о дублировании нельзя.
- Один и тот же фильм получил разные прокатные удостоверения, в этом случае будет дублирование данных, от которого желательно избавиться.

In [None]:
# чтобы исключить различия в строках из-за разной суммы сборов по разным прокатным удостоверениям введем словарь, 
#в который будут занесены в качестве ключей уникальные названия фильмов, а значениями будет сумма прокатных сборов
box_office_dict = total_data.groupby('title')['box_office'].sum().to_dict()

In [None]:
#обновим столбец прокатных сборов для каждого фильма суммой его прокатных сборов
total_data['box_office'] = total_data['title'].map(box_office_dict)

In [None]:
#Сохраним в отельный датафрейм информацию о прокатных удостоверениях и датах проката
pu_data = total_data[['puNumber', 'show_start_date']]

In [None]:
#В таблицу для удаления дубликатов сохраним весь исходный датафрейм за исключением столбцов 
#с датой проката и номером удостверения, которые влияли бы на поиск явных дубликатов
filtered_data = total_data.drop(['puNumber', 'show_start_date'], axis=1)

In [None]:
duplicated = filtered_data.duplicated().sum()
print(f'Количество явных дубликатов в отфильтрованной таблице:{duplicated}')

In [None]:
#Отбросим все явные дубликаты
filtered_data = filtered_data.drop_duplicates()

In [None]:
#Объединим таблицы, чтобы вернуть информацию о дате выхода в прокат и номере прокатного удостоверения для фильма.
filtered_data = filtered_data.join(pu_data)

In [None]:
non_dubles = filtered_data.title.value_counts()[filtered_data.title.value_counts() > 1].index

In [None]:
filtered_data[filtered_data['title'] == 'Принцесса Мононоке']

In [None]:
non_dubles

In [None]:
filtered_data.loc[(filtered_data['title'].isin(non_dubles)) & (filtered_data.box_office > 0), ['title', 'box_office']].sort_values(by='title').title.unique()

In [None]:
filtered_data[filtered_data['title'] == 'Полицейский с рублевки. Новогодний беспредел']

In [None]:
total_data[total_data['title'] == 'Полицейский с рублевки. Новогодний беспредел']

In [None]:
filtered_data.info()

#### Выводы

На этом этапе из таблицы были удалены дубликаты фильмов, с разными прокатными удостоверениями с заполнением суммы сборов общими сборами по разным прокатным удостоверениям.

### Изучите категориальные значения

- Посмотрите, какая общая проблема встречается почти во всех категориальных столбцах;
- Исправьте проблемные значения в поле `type`.

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_1" aria-expanded="false" aria-controls="collapseHint_1">Подсказка</button>
        </div>
        <div id="collapseHint_1" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
В поле <code>type</code> есть несколько значений, у которых появился пробел в начале строки. Самый простой способ их «починить» -- использовать метод <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.str.strip.html#pandas.Series.str.strip">.str.strip</a>. Этот метод удаляет все пробелы, которые встречаются в начале и в конце строки. Применяют его таким образом:<br>
<code>df['type'].str.strip()</code>
            </div>
        </div>
    </div>
</div>

В столбце type встречаются дублирующие значения, отличающиеся друг от друга только наличием лишних пробелов в начале строки. Исправим эти проблемы.

Для этого определим функцию, которая будет отбрасывать все пробелы слева и справа от строки.

In [None]:
print(categorial_columns)

In [None]:
def strip_string(string):
    return string.strip()

Применим функцию ко всем категориальным столбцам.

In [None]:
for column in categorial_columns:
    try:
        filtered_data[column] = filtered_data[column].apply(strip_string)
    except:
        print(column)

In [None]:
filtered_data.type.value_counts()

Значения в столбцах с категориальными данными исправлены.

Проверим возможность заполнения пропущенных значений в столбце рейтинг

In [None]:
pd.DataFrame(filtered_data[filtered_data['ratings'].isna()]
             .groupby('type')['title']
             .count()).rename(columns={'title':'titles_without_rating'})\
.join(
pd.DataFrame(filtered_data[filtered_data['ratings'].notna()]
             .groupby('type')['title']
             .count()).rename(columns={'title':'titles_with_rating'}))\
.join(
pd.DataFrame(filtered_data
             .groupby('type')['title']
             .count()).rename(columns={'title':'total_titles'}))

По таблице видно, что доля фильмов без рейтинга для разных типов фильмов различна. В некоторых случаях доходит до 50%. Таким образом заполнять пропуски не целесообразно, потому что для таких типов фильмов информация исказится значительно.

Для типа "Художественный" можно провести заполнение, но я не буду этого делать, поскольку значений с заполненным рейтингом  и так достаточно для оценки.

#### Выводы

На данном этапе устранена проблема в категориальных столбцах, удалены лишние пробелы.

Также на данном этапе рассмотрена соотношение разных типов фильмов с заполненным и пропущенным значением рейтинга. В результате принято решение не заполнять данные о рейтинге средними значениями, потому что для отдельных типов фильмов данные исказятся существенно.

### Проверьте количественные значения

- Проверьте, обнаружились ли в таких столбцах подозрительные данные. Как с такими данными лучше поступить?

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_budget" aria-expanded="false" aria-controls="collapseHint_budget">Подсказка</button>
        </div>
        <div id="collapseHint_budget" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
Обратите внимание на описание столбца <code>budget</code>. Как этот столбец соотносится с двумя другими: <code>refundable_support</code> и <code>nonrefundable_support</code>?
            </div>
        </div>
    </div>
</div>

In [None]:
total_data['year'] = total_data['show_start_date'].dt.year

In [None]:
total_data.query('0 < box_office < 1000 ').groupby('year')['title'].count()

В исходной таблице в колонке сборов имеются значения менее 1000 рублей. По всей видимости это не совсем корректные данные. Вероятно при занесении была допущена опечатка. Также видно, что такие значения чаще встречаются для фильмов более раннего выхода в прокат, так что вероятно для них сумма была указана в других единицах измерения. Далее в ходе исследования было установлено, что информация о сумме прокатных сборов начинает появляться для фильмов начиная с 2014 года. Исходя из этого я не буду менять эти значения, поскольку не могу точно оценить действительно ли была допущена опечатка.

После деления всех значений столбца на 1000000, для приведения суммы к миллионам рублей все маленькие суммы будут приближаться к нулю и их можно будет игнорировать.

Для начала откорректируем значение столбцов с количественными значениями для более наглядного восприятия.
Округлим значения сумм государственной поддержки и сборов до милионов рублей.

In [None]:
for column in nas_to_zero:
    filtered_data[column] = filtered_data[column].apply(lambda x: round(x/1000000))

In [None]:
filtered_data.describe()

In [None]:
filtered_data.describe().round(2)

По логике бюджет фильма не может быть меньше, чем сумма государственной поддержки, он либо больше либо равен ей, в случае если только государство выделило деньги на съемки. Проверим эту гипотезу.

In [None]:
#Введем дополнительный столбец, в котором суммируем два вида поддержки
filtered_data['total_support'] = filtered_data['refundable_support']+filtered_data['nonrefundable_support']

In [None]:
#Отфильруем данные, где сумма двух видов поддержки больше чем бюджет
filtered_data[filtered_data['total_support'] > filtered_data['budget']].head()

В таблице имеются данные, для которых значение в колонке бюджет не заполнено, несмотря на то, что фильм получил государственную поддержку. Можно заполнить такие пропуски суммой двух видов поддержки.

In [None]:
filtered_data.loc[filtered_data['total_support'] > filtered_data['budget'],'budget'] = filtered_data['total_support']

Пропуски в колонке бюджет для фильмов, у которых имелась государственная поддержка, заполнены.

#### Выводы

На этом этапе были выявлены аномалии в данных.

- Были выявлены фильмы у которых сумма кассовых сборов составляет менее 1000 рублей - вероятно это опечатка или ошибка в данных. Данная ошибка не была исправлена. Поскольку все значения были поделены на 1 миллион, чтобы привести суммы к более воспринимаемому формату, все маленькие значения будут стремиться к нулю. Поскольку таких значений не так много их можно игнорировать.
- Были выявлены фильмы с пропущенными значениями в колонке бюджет при наличии заполненных колонок господдержки. Для таких фильмов бюджет приравнян к сумме господдержки

### Добавьте новые столбцы





- Создайте столбец с информацией о годе проката. Выделите год из даты премьеры фильма.

In [None]:
filtered_data['year'] = filtered_data['show_start_date'].dt.year

- Создайте два столбца: с именем и фамилией главного режиссёра и основным жанром фильма. В столбцы войдут первые значения из списка режиссёров и жанров соответственно.

<div id="accordion">
    <div class="card">
        <div class="card-header" id="headingThree">
            <button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapseHint_2" aria-expanded="false" aria-controls="collapseHint_2">Подсказка</button>
        </div>
        <div id="collapseHint_2" class="collapse" aria-labelledby="headingThree" data-parent="#accordion">
            <div class="card-body">
Чтобы создать такие столбцы, лучше всего использовать собственную функцию. Эту функцию можно применить к двум столбцам сразу. 
            </div>
        </div>
    </div>
</div>

In [None]:
# определим функцию, которая будет возвращать элемент строки до первой запятой
def get_first_item(string):
    temp = string.split(',')
    return temp[0]

In [None]:
filtered_data['main_genre'] = filtered_data['genres'].apply(get_first_item)

In [None]:
filtered_data['main_director'] = filtered_data['director'].apply(get_first_item)

- Посчитайте, какую долю от общего бюджета фильма составляет государственная поддержка.

In [None]:
budget_films = filtered_data[filtered_data['budget']>0].copy()
budget_films['support_part'] = budget_films['total_support'] / budget_films['budget']

In [None]:
budget_films.support_part.hist(bins=20)
plt.xlabel('Доля господдержки в бюджете фильма')
plt.ylabel('Частота')
plt.title('Распределение доли господдержки')
plt.show()

На графике видно, что чаще всего господдержка составляет 65% всего бюджета фильма.
Также на графике видно выбросы в районе 1, это те фильмы для которых бюджет мы заполнили самостоятельно. По всей видимости так поступать не совсем корректно. Необходимо было сумму господдержки умножить на коэфициент, чтобы получить более точную сумму.

#### Выводы

На данном этапе в таблицу были добавлены новые столбцы с годом выхода фильма в прокат главным жанром и главным режисером фильма.

Также была оценена доля господдержки в бюджете фильмов. Очень редко господдержка превышает 65% доли всего бюджета. При заполнении пропущенных значений в колонке бюджет для фильмов с поддержкой я допустил неточность.

## Проведите исследовательский анализ данных


### Анализ данных прокатных сборов по годам

- Посмотрите, сколько фильмов выходило в прокат каждый год. Обратите внимание, что данные о прокате в кинотеатрах известны не для всех фильмов. Посчитайте, какую долю составляют фильмы с указанной информацией о прокате в кинотеатрах.

In [None]:
films_in_year =filtered_data\
.pivot_table(index='year', 
             values='title', 
             aggfunc='count')\
.reset_index()\
.rename(columns={"title":"total_films"})

In [None]:
films_in_year_with_box = filtered_data[filtered_data['box_office']>0]\
.pivot_table(index='year',
             values='title',
             aggfunc='count')\
.reset_index()\
.rename(columns={"title":"films_with_info"})

In [None]:
films_in_year = films_in_year.merge(films_in_year_with_box, on='year')

In [None]:
films_in_year['box_info_part'] = (films_in_year['films_with_info'] / films_in_year['total_films'])

In [None]:
films_with_support = filtered_data[filtered_data['budget'] > 0].pivot_table(index='year',
                                                       values='title',
                                                       aggfunc='count')\
.reset_index()\
.rename(columns={'title':'title_with_support'})

In [None]:
films_in_year = films_in_year.merge(films_with_support, on='year', how='outer').fillna(0)

In [None]:
films_in_year['support_part'] = films_in_year['title_with_support'] / films_in_year['total_films']


In [None]:
films_in_year

В сводной таблице видно следующее:
- Данные о суммах сборов начинают появляться с 2014 года, за более ранний период оценить сборы не получиться.
- Данные о господдержке также появляются начиная с 2014 года.

In [None]:
fig, axes = plt.subplots(1,3, figsize=(14,5))
films_in_year.plot(x='year',y='total_films',kind='bar', ax=axes[0], title='Распределение фильмов по годам')
axes[0].set_ylabel('Количество фильмов')
films_in_year.plot(x='year',y='box_info_part',kind='bar', ax=axes[1], title='Доля фильмов с данными проката')
axes[1].set_ylabel('Доля фильмов с данными о прокате')
films_in_year.plot(x='year',y='support_part',kind='bar', ax=axes[2], title='Доля фильмов с господдержкой')
axes[2].set_ylabel('Доля фильмов с данными о господдержке')
plt.show()

Для 2017 года имеется больше всего информации о кассовых сборах.

В 2015 году наибольшая доля фильмов в прокате имела господдержку.

- Изучите, как менялась динамика проката по годам. В каком году сумма сборов была минимальной? А максимальной?

In [None]:
filtered_data[filtered_data['year'] > 2013].groupby('year')['box_office'].sum().plot(kind='bar', grid=True)
plt.title('Сумма кассовых сборов')
plt.xlabel('Год')
plt.ylabel('Сумма в млн. руб.')
plt.show()

Больше всего суммарно на прокате фильмов заработали в 2016 и 2018 году. При этом данные за последние 4 года данные отличаются не сильно. Поскольку в 2014 году данных о прокате было мало, нельзя говорить что сумма сборов в этот год существенно отличалась от сборов в последующие годы.

In [None]:
filtered_data[filtered_data['year'] > 2013].groupby('year')['box_office'].mean().plot(kind='bar', grid=True)
plt.title('Среднее значение кассовых сборов')
plt.xlabel('Год')
plt.ylabel('Сумма в млн. руб.')
plt.show()

В 2017 году собиралось в прокате больше всего в среднем на один фильм.

- С помощью сводной таблицы посчитайте среднюю и медианную сумму сборов для каждого года.

In [None]:
filtered_data[filtered_data['box_office'] > 0]\
.pivot_table(index='year',
             values='box_office',
             aggfunc=['mean', 'median'])\
.T\
.style\
.format('{:.2f}')

По сводной таблице видно, что с 2014 года медиана очень сильно отличается от среднего значения кассовых сборов. Большинство фильмов собирает мало, но есть отдельные фильмы, которые собирают очень много.

#### Выводы

Анализ данных показал следующее:
- Информация о прокате имеется для фильмов начиная с 2014 года. Для более ранних периодов информация о прокате составляет несущественную долю.
- Наибольшая доля фильмов в с господдержкой была выпущена в 2015 году.
- Общая сумма кассовых сборов в период с 2015 по 2019 год (период с наибольшим количеством наблюдений) меняется не существенно, можно предположить, что люди ходят в кино постоянно, независимо от количества и качества выпускаемых фильмов. Тоесть рынок кинопроката в целом постоянен и вопрос только в том, какой фильм сможет получить большую часть этого рынка.
- Среднее значение прокатных сборов меняется более значительно, в 2017 году зафиксировано наибольшее среднее значение сборов. Это связано с тем, что фильмов в прокат в этом году вышло меньше.
- Среднее значение и медиана прокатных сборов отличается очень сильно за все время наблюдений. Это говорит о том, что большинство фильмов собирают незначительные суммы, но имеется несколько кассовых картин, собирающих много.

### Анализ влияния возрастного ограничения на сумму сборов

- Определите, влияет ли возрастное ограничение аудитории («6+», «12+», «16+», «18+» и т. д.) на сборы фильма в прокате в период с 2015 по 2019 год? Фильмы с каким возрастным ограничением собрали больше всего денег в прокате? Меняется ли картина в зависимости от года? Если да, предположите, с чем это может быть связано.

In [None]:
def get_number(string):
    number = ''
    for i in range(5):
        if string[i].isdigit():
            number += string[i]
    return int(number)

In [None]:
ages = filtered_data.age_restriction.unique()

In [None]:
ages_dict = {}
for age in ages:
    ages_dict[age] = get_number(age)

In [None]:
restricted_group_sum = filtered_data[(filtered_data['box_office'] > 0) & (filtered_data['year'] > 2014)]\
.groupby('age_restriction')['box_office']\
.mean()\
.reset_index()\
.rename(columns={'box_office':'all_time_mean'})

In [None]:
restricted_group_sum['age_category'] = restricted_group_sum['age_restriction'].map(ages_dict)

In [None]:
restricted_group_count = filtered_data[(filtered_data['box_office'] > 0) & (filtered_data['year'] > 2014)]\
.groupby('age_restriction')['title']\
.count()\
.reset_index()\
.rename(columns={'title':'total_titles'})

In [None]:
restricted_group_total = filtered_data[(filtered_data['box_office'] > 0) & (filtered_data['year'] > 2014)]\
.groupby('age_restriction')['box_office']\
.sum()\
.reset_index()\
.rename(columns={'box_office':'total_box_office'})

In [None]:
filtered_data[(filtered_data['box_office'] > 0) & (filtered_data['year'] > 2014)] \
.pivot_table(index='age_restriction',
             columns='year',
             values='box_office',
             aggfunc='mean').reset_index()\
.merge(restricted_group_sum, on='age_restriction')\
.merge(restricted_group_count, on='age_restriction')\
.merge(restricted_group_total, on='age_restriction')\
.set_index('age_category')\
.sort_index()\
.style\
.format(formatter={
    2015:'{:.2f}',
    2016:"{:.2f}",
    2017:'{:.2f}',
    2018:'{:.2f}',
    2019:'{:.2f}',
    'all_time_mean':"{:.2f}"
})

### Выводы

Возрастное ограничение влияет на кассовые сборы:

- Больше всего за все время собрали фильмы с категорией 16+, но их было значительно больше, чем фильмов с ограничением ниже.

- Самые прибыльные категории 12+ и 6+ - это категории фильмов рассчитанные на максимально широкую аудиторию.

- В среднем самая прибыльная категория 12+, но в 2017 году категория 6+ в принесла больше.

- Поскольку среднее значение очень сильно зависит от выбросов. Можно предположить, что успешность той или иной категории обусловлена тем, что в определенный год выходило много кассовых премьер.

- Низкое среднее значение для категории 18+ обусловлено тем, что фильмы таких категорий рассчитаны на узкую аудиторию. Это могли быть фестивальные картины не рассчитаные на массовый спрос и соответственно не приносящие кассовых сборов.

## Исследуйте фильмы, которые получили государственную поддержку

На этом этапе нет конкретных инструкций и заданий — поищите интересные закономерности в данных. Посмотрите, сколько выделяют средств на поддержку кино. Проверьте, хорошо ли окупаются такие фильмы, какой у них рейтинг.

### Общий обзор фильмов с господдержкой

In [None]:
budget_films_info = filtered_data[filtered_data['budget'] > 0]\
.pivot_table(index='year',
             values=['budget', 'box_office','title', 'ratings'],
             aggfunc={'budget':'sum',
                      'box_office':'sum',
                      'title':'count',
                      'ratings':'mean'})\
.rename(columns={'box_office':'total_box_office',
                 'budget':'total_budget',
                 'title':'total_titles',
                 'ratings':'mean_rating'})\
.reset_index()

In [None]:
budget_types = filtered_data[filtered_data['budget'] > 0]\
.pivot_table(index='year',
             columns='type',
             values='title',
             aggfunc='count')\
.fillna(0)\
.reset_index()

In [None]:
budget_films_info = budget_films_info.merge(budget_types)

In [None]:
budget_films_info

In [None]:
filtered_data[filtered_data['budget'] > 0]\
.pivot_table(index='age_restriction',
             values='title',
             aggfunc='count')\
.fillna(0)\
.reset_index().rename(columns={'title':'title_count'})

In [None]:
mean_gos_rating = filtered_data[filtered_data['budget'] > 0]['ratings'].mean()
mean_total_rating = filtered_data['ratings'].mean()
mean_russian_rating = filtered_data[filtered_data['production_country'].str.contains('Россия')]['ratings'].mean()
print(f'Средний рейтинг всех фильмов: {mean_total_rating:.2f}')
print(f'Средний рейтинг всех российских фильмов: {mean_russian_rating:.2f}')
print(f'Средний рейтинг фильмов с господдержкой: {mean_gos_rating:.2f}')

#### Выводы
В сводной таблице видно следующее:
- Самый продуктивный год 2015 - было выпущено больше всего фильмов с господдержкой, так же в этот год рейтинг фильмов был чуть выше среднего
- Самый низкий средний рейтинг был зафиксирован в 2015 году.
- Чаже всего поддержку получают художественные фильмы.
- Документальные фильмы практически не получают господдержки.
- В среднем рейтинг фильмов с господдержкой ниже рейтинга фильмов по всей выборке
- Фильмы с господдержкой нацелены на широкую аудиторию, основные категории от 12 лет (молодое поколение).

### Оценка коммерческой успешности фильмов с господдержкой

In [None]:
total_gos_box_office = filtered_data[filtered_data['budget'] > 0]['box_office'].sum()
total_gos_budget = filtered_data[filtered_data['budget'] > 0]['budget'].sum()
print(f'Всего собрали фильмы с господдержкой: {total_gos_box_office:.2f}')
print(f'Всего бюджет фильмов с господдержкой: {total_gos_budget:.2f}')

In [None]:
total_gos_box_office = filtered_data[(filtered_data['budget'] > 0) 
                                     & (filtered_data['nonrefundable_support'] != 0)
                                    & (filtered_data['refundable_support'] == 0)]['box_office'].sum()

total_gos_budget = filtered_data[(filtered_data['budget'] > 0) 
                                 & (filtered_data['nonrefundable_support'] != 0)
                                & (filtered_data['refundable_support'] == 0)]['budget'].sum()
print(f'Всего собрали фильмы только с невозвратной поддержкой: {total_gos_box_office:.2f}')
print(f'Всего бюджет фильмов только с невозвратной поддержкой: {total_gos_budget:.2f}')

In [None]:
total_gos_box_office = filtered_data[(filtered_data['budget'] > 0) 
                                     & (filtered_data['refundable_support'] != 0)
                                    & (filtered_data['nonrefundable_support'] == 0)]['box_office'].sum()

total_gos_budget = filtered_data[(filtered_data['budget'] > 0) 
                                 & (filtered_data['refundable_support'] != 0)
                                & (filtered_data['nonrefundable_support'] == 0)]['budget'].sum()
print(f'Всего собрали фильмы только с возвратной поддержкой: {total_gos_box_office:.2f}')
print(f'Всего бюджет фильмов только с возвратной поджеркой: {total_gos_budget:.2f}')

In [None]:
success_films_total =  filtered_data[(filtered_data['budget'] > 0)
              & (filtered_data['box_office'] > filtered_data['budget'])]['title'].count()
total_gos_films = filtered_data[(filtered_data['budget'] > 0)]['title'].count()
success_part = success_films_total / total_gos_films
print(f'Из {total_gos_films} фильмов имели коммерческий успех {success_films_total}, что составляет {success_part:.2%}')

#### Графики количества фильмов, бюджетов и сборов по годам

In [None]:
fig, axes = plt.subplots(1,2, figsize=(14,5))
budget_films_info.plot(x='year',y='total_titles',kind='bar', ax=axes[0], title='Распределение количества фильмов по годам')
axes[0].set_ylabel('Количество фильмов')
axes[0].set_xlabel('Год')
budget_films_info.plot(x='year',y=['total_box_office', 'total_budget'],kind='bar', ax=axes[1], title='Соотношение сборов и бюджета по годам')
axes[1].set_ylabel('Сумма млн.руб.')
axes[1].set_xlabel('Год')
plt.show()


#### Выводы
- В общем фильмы с господдержкой не имели коммерческого успеха их бюджет превышает сборы.

- При этом фильмы, которые получали только возвратную поддержку заработали больше, чем потратили.

- Можно сделать предположение о том, что когда ставиться цель заработать денег, то поддержка направляется на успешные фильмы.

- В тоже время вероятно невозвратная поддержка направляется на развитие кино в целом и на просветительские цели, возможно изначально предполагается, что такие фильмы денег не заработают.

- 23 процента фильмов с поддержкой имели коммерческий успех.

###  Анализ доли рынка фильмов с государственной поддержкой

In [None]:
box_office_info = filtered_data.pivot_table(index='year',
                          values=['title','box_office'],
                          aggfunc={'title':'count', 'box_office':'sum'})\
.rename(columns={'box_office':'total_box_office', 'title':'total_titles'})\
.join(
filtered_data[filtered_data['budget'] > 0 ].pivot_table(index='year',
                                                        values=['title','box_office'],
                                                          aggfunc={'title':'count', 'box_office':'sum'})\
.rename(columns={'box_office':'gos_box_office', 'title':'gos_titles'})).fillna(0)

In [None]:
box_office_info['gos_office_part'] = box_office_info['gos_box_office'] / box_office_info['total_box_office']
box_office_info['gos_titles_part'] = box_office_info['gos_titles'] / box_office_info['total_titles']
box_office_info

#### Выводы

В сводной таблице видно следующее:
- Фильмы с государствнной поддержкой занимают существенную долю рынка кинопроката несмотря на невысокую долю таких фильмов в общем количестве фильмов в прокате
- В 2017 году эта доля превышала 20%, по всей видимости фильмы с государственной поддеркжой посмотрело большое количество зрителей.

### Анализ рейтинга и жанров фильмов с господдержкой

In [None]:
fig, axes = plt.subplots(1,2, figsize=(14,5))
filtered_data['ratings'].plot(kind='hist',ax=axes[0], title='Распределение рейтингов фильмов')
axes[0].set_xlabel('Рейтинг')
filtered_data[filtered_data['budget'] > 0]['ratings'].plot(kind='hist',ax=axes[1], title='Распределение рейтингов фильмов с господдержкой')
axes[1].set_xlabel('Рейтинг')
plt.show()

Распределение рейтингов фильмов с господдержкой практически совпадает с распределением рейтингов фильмов по всей выборке.

In [None]:
fig, axes = plt.subplots(1,2, figsize=(14,5))
filtered_data['main_genre'].value_counts().head().plot(kind='bar',ax=axes[0], title='Топ 5 жанров фильмов')

axes[0].set_ylabel('Количество')

filtered_data[filtered_data['budget'] > 0]['main_genre']\
.value_counts().head()\
.plot(kind='bar',ax=axes[1], title='Топ 5 жанров фильмов с господдержкой')
axes[1].set_ylabel('Количество')

plt.show()


На графика видно, что в топ 5 жанров с господдержкой входят мультипликационные фильмы, которые не попадают в топ 5 по всей выборке.

Вероятно государственная политика направлена на воспитание молодежи, а мультфильм это хороший способ донести информацию до юной аудитории.

Также на графике видно, что господдержку реже получают боевики. Видимо воспитательной составляющей в фильмах такого жанра мало.

In [None]:
gos_support_film_part = filtered_data[filtered_data['budget'] > 0]['production_country'].count() / filtered_data[filtered_data['production_country'].str.contains('Россия')]['production_country'].count()
print(f'Поддержку получает {gos_support_film_part:.2%} фильмов выпускаемых в России')

In [None]:
filtered_data[filtered_data['budget'] > 0]['main_director'].value_counts().head(10)

#### Выводы

- Рейтинги фильмов с господдержкой распределены также как и рейтинги всех фильмов по выборке. Хотя в среднем рейтинг фильмов с поддержкой несколько ниже, чем остальных фильмов

- Поддержку получают самые популярные жанры драма и комедия. Также поддержку получают мультипликационные фильмы.

- Из всех фильмов выпущенных в России господдержку получали 17% фильмов.

- Некоторые режисеры получали поддержку на свои фильмы несколько раз. Больше всего раз получал поддержку Ренат Давльетьяров (5 раз)

###  Выводы по разделу

- Рейтинг фильмов с государственной поддержкой немного ниже, чем средний рейтинг фильмов по всей выборке и средний рейтинг всех российских фильмов.

- В целом фильмы с поддержкой не имеют коммерческого успеха, хотя фильмы, получающие только возвратную поддержку окупаются.

- Фильмы с поддержкой имеют свою долю на рынке кинопроката и эта доля достаточно существенна, это говорит о том, что несмотря на то, что фильмы не окупаются их смотрит довольно большая аудитория.

- По распределению жанров и возрастных ограничений видно, что вероятно цель господдеркжи это воспитательная и просветительская деятельность.

- В целом можно сделать вывод, что господдержка фильмов имеет смысл. Такие фильмы получают свою долю аудитории, через которую государство продвигает свою политику, несмотря на то, что не всегда такие фильмы имеют коммерческий успех.


## Напишите общий вывод

В ходе исследования установлено следующее:

1. Рынок кинопроката за период с 2015 по 2019 год изменяется не сильно. По всей видимости люди ходят в кино регулярно не зависимо от того какие фильмы идут в прокате. Соответственно можно получить только часть этого рынка.
2. Рейтинг фильмов снятых в России немного ниже рейтинга фильмов по всей выборке, а фильмов с господдержкой еще немного ниже, чем общероссийский.
3. Коммерческого успеха картины с господдержкой в общем не добиваются, хотя для картин, которым выделялась возвратная поддержка характерна иная картина. Можно сделать вывод, что в том случае, когда поддержка рассматривается как инвестиция она окупается. В других случаях вероятно поддержка имеет другую мотивацию, скорее просветительскую и воспитательную. И этой цели фильмы добиваются. Несмотря на достаточно небольшое количество фильмов с поддержкой они занимают существенную долю рынка кинопроката.

Из всего вышеперечисленного можно сделать вывод, что фильмы с поддержкой востребованы, их смотрят, хотя их рейтинг немного ниже, чем рейтинг других фильмов.

Практику государственной поддержки кинематографа имеет смысл продолжать.