## 1. Загружаем файл с данными показов фильмов в кинозалах на территории Российской Федерации: 

In [1]:
# Библиотека для работы с табличными данными
import pandas as pd

In [4]:
# Прочтем файл .csv с помощью библиотеки pandas
df = pd.read_csv('data-5-structure-1.csv')

## 2. Выяснение технических параметров таблицы для дальнейшей работы:

In [5]:
# Возвращает размеры таблицы в виде кортежа из 2 значений: 1 - колисчетсво строк, 2 - количество столбцов
df.shape
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 626 entries, 0 to 625
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Название                626 non-null    object 
 1   № ПУ                    615 non-null    object 
 2   Сборы, руб.             626 non-null    float64
 3   Тип                     626 non-null    object 
 4   Возрастное ограничение  626 non-null    object 
dtypes: float64(1), object(4)
memory usage: 24.6+ KB


In [6]:
# Проверить тип данных в столбцах
# В нашем случае везде object, за исключением стоблца "Сборы, руб." - float64, число 64 указывает на разрядность (используется 64 байта для хранения значения в памяти,
# чем меньше разрядность, тем меньший диапазон могут принимать числа и тем меньше тратится памяти на хранение.
df.dtypes

Название                   object
№ ПУ                       object
Сборы, руб.               float64
Тип                        object
Возрастное ограничение     object
dtype: object

In [7]:
# Посмотреть есть ли у нас пустые значения
df.isnull().sum()

Название                   0
№ ПУ                      11
Сборы, руб.                0
Тип                        0
Возрастное ограничение     0
dtype: int64

### Вывод:
* Таблица состоит из 626 строк и 5 столбцов.
* Строка = название фильма.
* Столбцы: 
  - 0 - Название (наименование кинопроизведения)
  - 1 - № ПУ (номер прокатного удостоверения)
  - 2 - Сборы в руб. (сумма кассовых сборов по каждому фильму в валюте Российский рубль)
  - 3 - Тип (категория кинопроизведения)
  - 4 - Возрастное ограничение
* В таблице имеется 11 пустых значений в столбце "№ ПУ"
* Имеется следующий тип данных:
  * float64 (1) - 1 столбец с дробными численными значениями
  * object (4) - 4 столбца с текстовым значением
* Используется 24,6 KB памяти

## 3. Просмотр первых и последних 10 строк таблицы:

In [8]:
# Посмотреть первые 10 строк 
df.head(10)

Unnamed: 0,Название,№ ПУ,"Сборы, руб.",Тип,Возрастное ограничение
0,Холоп,111021719,3073569000.0,художественный,«12+» для детей старше 12 лет
1,Король Лев,124004919 / 124002720,2635292000.0,анимационный,«6+» для детей старше 6 лет
2,Мстители: Финал,121005519,2576614000.0,художественный,«16+» для детей старше 16 лет
3,Т-34,111024918,2271754000.0,художественный,«12+» для детей старше 12 лет
4,Малефисента: Владычица тьмы,121026219,1911945000.0,художественный,«6+» для детей старше 6 лет
5,Джокер,121027519,1890368000.0,художественный,«18+» запрещено для детей
6,Холодное сердце II,124009619,1827245000.0,анимационный,«6+» для детей старше 6 лет
7,Как приручить дракона 3,124000719,1689541000.0,анимационный,«6+» для детей старше 6 лет
8,Тайная жизнь домашних животных 2,124003519,1478921000.0,анимационный,«6+» для детей старше 6 лет
9,Аладдин,121011419 / 121009320,1216636000.0,художественный,«6+» для детей старше 6 лет


In [9]:
# Посмотреть последние 10 строк
df.tail(10)

Unnamed: 0,Название,№ ПУ,"Сборы, руб.",Тип,Возрастное ограничение
616,Диего Марадона,126003519.0,38330.0,другой,«16+» для детей старше 16 лет
617,Стреляйте в пианиста,121016119.0,35413.0,художественный,«16+» для детей старше 16 лет
618,Колесо времени,111003219.0,34992.0,художественный,«6+» для детей старше 6 лет
619,Земная сторона Луны,211019419.0,33410.0,художественный,«6+» для детей старше 6 лет
620,Я вам не негр,,33325.0,другой,«18+» запрещено для детей
621,Ведьма Гор,211013019.0,32000.0,художественный,«16+» для детей старше 16 лет
622,Дядя Саша,211018618.0,28358.0,художественный,«18+» запрещено для детей
623,Дети футбола,212009319.0,13200.0,документальный,«0+» для любой зрительской аудитории
624,Время собирать цветы,112025118.0,7175.0,документальный,«12+» для детей старше 12 лет
625,Счастье - это…Часть 2,111005319.0,4398.4,художественный,«6+» для детей старше 6 лет


## 4. Рассмотрение соотношения популярности кинопродукции у зрителей в зависимости от возрастного рейтинга:

### 4.1. Зрительская аудитория «18+» (запрещено для детей)

In [10]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«18+» запрещено для детей'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
5,Джокер,1.890368e+09
12,Однажды... в Голливуде,1.121949e+09
14,Оно-2,1.107950e+09
35,Джон Уик 3,4.381166e+08
39,Текст,3.799543e+08
...,...,...
607,Созданный в Бездне - Блуждающие сумерки,7.370000e+04
612,Кровь,5.568500e+04
614,Глазами детей,5.054300e+04
620,Я вам не негр,3.332500e+04


Результат: всего 202 фильма из 626 фильмов с категорией «18+», что составляет около 32%.

### 4.2. Зрительская аудитория «16+» (для детей старше 16 лет) / «18+» (запрещено для детей)

In [11]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«16+» для детей старше 16 лет / «18+» запрещено для детей'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
47,Любовницы,291445300.0
239,Выше неба,7572576.0
464,Русское краткое. Выпуск 2-6,1156482.0


Результат: всего 3 фильма из 626 фильмов из разряда переходящих категорий («16+» для детей старше 16 лет / «18+» запрещено для детей).

### 4.3. Зрительская аудитория «16+» (для детей старше 16 лет)

In [12]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«16+» для детей старше 16 лет'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
2,Мстители: Финал,2.576614e+09
11,Капитан Марвел,1.144426e+09
18,Алита: Боевой ангел,7.578647e+08
21,Звёздные войны: Скайуокер. Восход,6.712179e+08
22,Ford против Ferrari,6.524553e+08
...,...,...
610,Into_нация большой Одессы,6.215600e+04
611,Балет сегодня,5.982900e+04
616,Диего Марадона,3.833000e+04
617,Стреляйте в пианиста,3.541300e+04


Результат: всего 207 фильма из 626 фильмов с категорией «16+», что составляет около 33%.

### 4.4. Зрительская аудитория «12+» (для детей старше 12 лет) / «16+» (для детей старше 16 лет)

In [13]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«12+» для детей старше 12 лет / «16+» для детей старше 16 лет'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
502,"Кинопоэзия: Серебряный век, Друзья, прекрасен ...",807846.51


Результат: всего 1 фильм из 626 фильмов из разряда переходящих категорий («12+» для детей старше 12 лет / «16+» для детей старше 16 лет).

### 4.5. Зрительская аудитория «12+» (для детей старше 12 лет)

In [14]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«12+» для детей старше 12 лет'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
0,Холоп,3.073569e+09
3,Т-34,2.271754e+09
10,Человек-Паук: Вдали от дома,1.203696e+09
13,Джуманджи: Новый уровень,1.120026e+09
15,Форсаж: Хоббс и Шоу,1.065210e+09
...,...,...
604,Одиссея Петра,7.871850e+04
605,Весури,7.585000e+04
613,Хочется тишины,5.310000e+04
615,Доживем до каникул?..,4.122500e+04


Результат: всего 113 фильмов из 626 фильмов с категорией «12+», что составляет около 18%.

### 4.6. Зрительская аудитория «6+» (для детей старше 6 лет)

In [15]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«6+» для детей старше 6 лет'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
1,Король Лев,2.635292e+09
4,Малефисента: Владычица тьмы,1.911945e+09
6,Холодное сердце II,1.827245e+09
7,Как приручить дракона 3,1.689541e+09
8,Тайная жизнь домашних животных 2,1.478921e+09
...,...,...
571,Слон и Бабочка,1.879735e+05
583,44 котёнка,1.369580e+05
618,Колесо времени,3.499200e+04
619,Земная сторона Луны,3.341000e+04


Результат: всего 89 фильмов из 626 фильмов с категорией «6+», что составляет около 14%.

### 4.7. Зрительская аудитория «0+» (для любой зрительской аудитории)

In [16]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Возрастное ограничение'] == '«0+» для любой зрительской аудитории'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
69,Мульт в кино. Выпуск № 88-109,152315600.0
84,Щенячий патруль (8 выпусков),116137100.0
205,Букашки 2,13779630.0
310,Робокар Поли: Приключение в Брумтауне,3885434.0
316,Бегство рогатых викингов,3574034.0
402,Маша и Медведь (Летние каникулы с Машей и Медв...,1737512.0
532,На волне (режиссерская версия),494964.0
603,Антон Чехов и Исаак Левитан: двойной портрет в...,81000.0
609,Ледники Чёрного Июса,66200.0
623,Дети футбола,13200.0


Результат: всего 10 фильмов из 626 фильмов с категорией «0+», что составляет около 2%.

### Вывод: 
Кинопродукция для взрослой категории «16+» (около 32%) и «18+» (около 33%) оказалась самой востребованной, что в совокупности составляет около 65% от общего числа кинопроката. Кинопроизведения категорий «6+» (около 14%) и «12+» (около 18%) вместе не превышают 32%. Самой невостребованной категорией кинопроизведений является «0+» - всего около 2%. Также имеются переходящие категории: «16+» для детей старше 16 лет / «18+» запрещено для детей - всего 3 фильма, «12+» для детей старше 12 лет / «16+» для детей старше 16 лет - всего 1 фильм.

## 5. Рассмотрение соотношения популярности кинопродукции у зрителей в зависимости от жанра кинопродукции:

### 5.1. Кинопроизведение категории 'документальный'

In [17]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Тип'] == 'документальный'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
174,BEEF: Русский хип-хоп,23420274.32
344,Raving Riot: Рейв у парламента,2884539.0
388,Сорокин Трип,1973137.0
459,Мозг. Эволюция,1222127.5
476,Годовщина Революции,1003669.0
496,Капитан Немо,876064.0
534,Анатолий Крупнов. Он был…,468553.5
553,Вертинский. Одинокий странник,342509.0
559,Юра музыкант,298060.0
585,Вертолёты,136355.0


Результат: всего 16 фильмов из 626 фильмов с категорией «документальный», что составляет 3%.

### 5.2. Кинопроизведение категории 'художественный'

In [18]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Тип'] == 'художественный'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
0,Холоп,3.073569e+09
2,Мстители: Финал,2.576614e+09
3,Т-34,2.271754e+09
4,Малефисента: Владычица тьмы,1.911945e+09
5,Джокер,1.890368e+09
...,...,...
618,Колесо времени,3.499200e+04
619,Земная сторона Луны,3.341000e+04
621,Ведьма Гор,3.200000e+04
622,Дядя Саша,2.835800e+04


Результат: всего 463 фильма из 626 фильмов с категорией «художественный», что составляет 74%.

### 5.2. Кинопроизведение категории 'научно-популярный'

In [19]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Тип'] == 'научно-популярный'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
335,33 слова о дизайне,3169101.0
364,Великий северный путь,2459667.5
414,Андрей Тарковский. Кино как молитва,1555375.5
492,Тайна Карлоса Кастанеды,891539.5
511,Ярд,749047.5
532,На волне (режиссерская версия),494964.0
552,Пространство музыки,344167.0
609,Ледники Чёрного Июса,66200.0


Результат: всего 8 фильмов из 626 фильмов с категорией «художественный», что составляет 1%.

### 5.3. Кинопроизведение категории 'анимационный'

In [20]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Тип'] == 'анимационный'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
1,Король Лев,2.635292e+09
6,Холодное сердце II,1.827245e+09
7,Как приручить дракона 3,1.689541e+09
8,Тайная жизнь домашних животных 2,1.478921e+09
17,Семейка Аддамс,7.924510e+08
...,...,...
583,44 котёнка,1.369580e+05
590,SHNIT SHORTS 2019. Анимационная программа,1.286500e+05
597,Разве плохо искать себе пару в подземелье? - С...,9.490000e+04
606,Созданный в Бездне - Рассвет путешествия,7.530000e+04


Результат: всего 78 фильма из 626 фильмов с категорией «анимационный», что составляет 12%.

### 5.4. Кинопроизведение категории 'другой'

In [21]:
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами

df.loc[(df['Тип'] == 'другой'), ['Название', 'Сборы, руб.']]

Unnamed: 0,Название,"Сборы, руб."
128,BTS: Открой свою душу. Фильм,49588994.97
213,Lil Peep: Всё для всех,12300474.55
226,Леонардо да Винчи. Неизведанные миры,9319951.95
252,Акварель,6330992.50
253,Микеланджело. Бесконечность,6308384.48
...,...,...
601,Лил Бак: Настоящий лебедь,83285.00
608,Ганнибал,67510.00
611,Балет сегодня,59829.00
616,Диего Марадона,38330.00


Результат: всего 61 фильм из 626 фильмов с категорией «другой», что составляет 10%.

### Вывод: 
Самой востребованной категорией кинопродукции у потребителей стала - «художественный», что составляет около 74% от общего числа кинопроката. Кинопроизведения категорий «анимационный» (около 12%) и «другой» (около 10%) вместе не превышают 22%. Самыми невостребованными категориями кинопроизведений являются «документальный» - всего около 3%, и научно-популярный - около 1%.

## 6. Рассмотрение статистики кассовых сборов в кинопрокате:

In [22]:
# Минимальное значение
df.loc[(df['Сборы, руб.'] == df['Сборы, руб.'].min()), ['Название', 'Сборы, руб.', 'Тип', 'Возрастное ограничение']]

Unnamed: 0,Название,"Сборы, руб.",Тип,Возрастное ограничение
625,Счастье - это…Часть 2,4398.4,художественный,«6+» для детей старше 6 лет


In [23]:
# Максимальное значение
df.loc[(df['Сборы, руб.'] == df['Сборы, руб.'].max()), ['Название', 'Сборы, руб.', 'Тип', 'Возрастное ограничение']]

Unnamed: 0,Название,"Сборы, руб.",Тип,Возрастное ограничение
0,Холоп,3073569000.0,художественный,«12+» для детей старше 12 лет


In [24]:
# Среднее значение
df[['Сборы, руб.']].mean()

Сборы, руб.    9.086532e+07
dtype: float64

In [25]:
# Медианное значение
df[['Сборы, руб.']].median()

Сборы, руб.    3643306.72
dtype: float64

In [26]:
# Нахождение списка кинопродукции с кассовыми сборами менее медианного значения
# Выбор определенного кол-ва рядов и столбцов
# используется метод loc в [], первый аргумент индекс или селектор, а второй список со столбцами
df.loc[(df['Сборы, руб.'] < df['Сборы, руб.'].median()), ['Название', 'Сборы, руб.', 'Тип', 'Возрастное ограничение']]

Unnamed: 0,Название,"Сборы, руб.",Тип,Возрастное ограничение
313,Новогодний ремонт,3591456.36,художественный,«12+» для детей старше 12 лет
314,Шедевр,3591049.00,художественный,«16+» для детей старше 16 лет
315,Джуди,3586753.00,художественный,«16+» для детей старше 16 лет
316,Бегство рогатых викингов,3574033.76,художественный,«0+» для любой зрительской аудитории
317,По воле божьей,3565967.00,художественный,«18+» запрещено для детей
...,...,...,...,...
621,Ведьма Гор,32000.00,художественный,«16+» для детей старше 16 лет
622,Дядя Саша,28358.00,художественный,«18+» запрещено для детей
623,Дети футбола,13200.00,документальный,«0+» для любой зрительской аудитории
624,Время собирать цветы,7175.00,документальный,«12+» для детей старше 12 лет


## 7. Графическая визуализация кассовых сборов кинопроизведений:

In [27]:
# Библиотека для вычислений линейной алгебры
import numpy as np
# Библиотеки для визуализации
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Изображения точек названий кинопроизведений по отношению к кассовым сборам. Также цветом отмечаются типы (категории) кинопроизведений.
# Можно заметить, что наибольшее количество
sns.scatterplot(data=df, x=len('Название'), y='Сборы, руб.', hue="Тип")

sns.histplot(data=df, x='Сборы, руб.', hue='Тип')

In [None]:
sns.histplot(data=df, x='Сборы, руб.', y="Тип")

In [None]:
df.histplot(x='Сборы, руб.')

In [None]:
df.scatterplot(x='Сборы, руб.', y='Тип', kind='scatter')

In [None]:
df.plot.hist()


## 8. Заключение: 

Представленная в dataset файле (data-5-structure-1.csv) таблица состоит из 626 строк и 5 столбцов, где количество строк приравнивается количеству названий кинопроизведений.

Таблица состоит из следующих столбцов: 
  - 0 - Название (наименование кинопроизведения)
  - 1 - № ПУ (номер прокатного удостоверения)
  - 2 - Сборы в руб. (сумма кассовых сборов по каждому фильму в валюте Российский рубль)
  - 3 - Тип (категория кинопроизведения)
  - 4 - Возрастное ограничение

В таблице имеется 11 пустых значений, а именно в столбце "№ ПУ"
В таблице представлены 2 типа данных:
  * float64 (1) - 1 столбец с дробными численными значениями
  * object (4) - 4 столбца с текстовым значением
Файл использует 24,6 KB памяти

Анализ данных, представленных в таблице данных, позволяет сделать следующие выводы:
1. Кинопродукция для взрослой категории «16+» (около 32%) и «18+» (около 33%) оказалась самой востребованной, что в совокупности составляет около 65% от общего числа кинопроката. Кинопроизведения категорий «6+» (около 14%) и «12+» (около 18%) вместе не превышают 32%. Самой невостребованной категорией кинопроизведений является «0+» - всего около 2%. Также имеются переходящие категории: «16+» для детей старше 16 лет / «18+» запрещено для детей - всего 3 фильма, «12+» для детей старше 12 лет / «16+» для детей старше 16 лет - всего 1 фильм.
2. Самой востребованной категорией кинопродукции у потребителей стала - «художественный», что составляет около 74% от общего числа кинопроката. Кинопроизведения категорий «анимационный» (около 12%) и «другой» (около 10%) вместе не превышают 22%. Самыми невостребованными категориями кинопроизведений являются «документальный» - всего около 3%, и научно-популярный - около 1%.
3. Разрыв между минимальным размером кассовым сборов (4398.4) и средним (9.086532e+07), так и максимальным (3.073569e+09), очень велик. Согласно расчетов 50% кинопродукции собирает кассовый сбор не превышающий медианное значение кассовых сборов (3643306.72).