# **Разведочный анализ по датасету IMDb Movies: 5000 фильмов с наибольшим рейтингом. Часть 3: Фильтрация, срезы, группировка**

![](https://adabul.com/wp-content/uploads/2020/04/diziler-360x240.jpg)

## 1. Описание датасета и задания

Представлен датасет с данными о 5000 фильмах, имеющих наибольший рейтинг на сайте IMDb (датасет выложен на платформе [Kaggle](https://www.kaggle.com/datasets/totoro29/imdb-movies)).

***Информация, содержащаяся в датасете:***
1.   Ссылка на постер фильма (poster).
2.   Наименование фильма (title).
3.   Класс фильма по рейтингу the British Board of Film Classification (BBFC) (certificate).
4.   Продолжительность фильма (runtime).
5.   Жанр фильма (genre).
6.   Рейтинг фильма на платформе IMBD (rating).
7.   Описание сюжета фильма (about).
8.   Кинорежиссер фильма (director).
9.   Актеры-звезды фильма (stars).
10.  Количество проголосовавших за фильм (votes).
11.  Доход с фильма (gross_earn).

***Задача:***
провести разведочный анализ данных, найти взаимосвязи и сформулировать выводы.

**В части 3 задания необходимо:**
1.   Найти подходящий к просмотру фильм с помощью фильтрации.
2.   Отобрать фильмы с помощью срезов.
3.   Выбрать показатели описательной статистики по отфильтрованным фильмам с помощью срезов.
4.   Отобрать фильмы с помощью продвинутой фильтрации.
5.   Отфильтровать колонки с помощью продвинутой фильтрации.
6.   Вывести информацию, сгруппированную по определенным признакам.

****Задания со звездочкой факультативные (дополнительные)***

## 2. Загрузка датасета

Импортируйте модуль files для подгрузки датасета с ПК

In [1]:
from google.colab import files

Загрузите файл movies_clean.csv (сохранен по итогу выполнения предыдущего задания) с помощью files.upload()

In [2]:
files.upload()

Saving movies_clean.csv to movies_clean.csv




## 3. Подгрузка данных в питон и начало работы с ними

Импортируйте библиотеку pandas и присвойте ей короткое название pd

In [3]:
import pandas as pd

Откройте датасет movies_clean.csv и сохраните его в переменную dataset

In [4]:
dataset = pd.read_csv('movies_clean.csv')

Проведите обзор таблицы с помощью метода head()

In [5]:
dataset.head()

Unnamed: 0.1,Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
0,0,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Shawshank Redemption,15,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,Frank Darabont,"('Tim Robbins',), ('Morgan Freeman',), ('Bob G...",2626905,$28.34M,142,28.34
1,1,https://m.media-amazon.com/images/S/sash/4Fyxw...,Hababam Sinifi,12A,87 min,"Comedy, Drama",9.2,"Lazy, uneducated students share a very close b...",Ertem Egilmez,"('Kemal Sunal',), ('Münir Özkul',), ('Halit Ak...",40492,,87,
2,2,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather,X,175 min,"Crime, Drama",9.2,The aging patriarch of an organized crime dyna...,Francis Ford Coppola,"('Marlon Brando',), ('Al Pacino',), ('James Ca...",1819641,$134.97M,175,134.97
3,3,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather: Part II,X,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,Francis Ford Coppola,"('Al Pacino',), ('Robert De Niro',), ('Robert ...",1249182,$57.30M,202,57.3
4,4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History",9.0,"In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M,195,96.9


Удалите столбец 'Unnamed: 0' как ненужный с помощью метода drop(), передав в него параметры columns и inplace=True

In [6]:
dataset.drop(columns='Unnamed: 0', inplace=True)

## 4. Оценка размеров датасета

Оцените размеры датасета с помощью атрибута shape

In [7]:
dataset.shape

(4970, 13)

Выведите информацию о датасете с помощью метода info()

In [8]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4970 entries, 0 to 4969
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   poster            4970 non-null   object 
 1   title             4970 non-null   object 
 2   certificate       4970 non-null   object 
 3   runtime           4970 non-null   object 
 4   genre             4970 non-null   object 
 5   rating            4970 non-null   float64
 6   about             4956 non-null   object 
 7   director          4970 non-null   object 
 8   stars             4970 non-null   object 
 9   votes             4970 non-null   object 
 10  gross_earn        4574 non-null   object 
 11  runtime_clear     4970 non-null   int64  
 12  gross_earn_clear  4574 non-null   float64
dtypes: float64(2), int64(1), object(10)
memory usage: 504.9+ KB


## 5. Фильтрация

### *5.1. Выбираем, что посмотреть с племянником 10 лет - фанатом "Jurassic Park"*

**Описание:** Вас попросили присмотреть за племянником 10 лет. Вы решили выбрать фильм для совместного просмотра. Ваш племянник - фанат "Jurassic Park". Вы предположили, что ему понравится фильм того же кинорежиссера. Однако стоит учесть ограничение по возрасту (класс фильма). Выберите фильм из базы IMDb-5000 с рейтингом более 7.0 для совместного просмотра с племянником

Кинорежиссер фильма "Jurassic Park" - Steven Spielberg. Отфильтруйте датасет, оставив только его фильмы, и сохраните результаты в переменную filtered_dataset

In [50]:
filter = dataset['director'] == 'Steven Spielberg'
filtered_dataset = dataset[filter]

filtered_dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History",9.0,"In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M,195,96.9
24,https://m.media-amazon.com/images/S/sash/4Fyxw...,Saving Private Ryan,15,169 min,"Drama, War",8.6,"Following the Normandy Landings, a group of U....",Steven Spielberg,"('Tom Hanks',), ('Matt Damon',), ('Tom Sizemor...",1366343,$216.54M,169,216.54
75,https://m.media-amazon.com/images/S/sash/4Fyxw...,Raiders of the Lost Ark,A,115 min,"Action, Adventure",8.4,Archaeology professor Indiana Jones ventures t...,Steven Spielberg,"('Harrison Ford',), ('Karen Allen',), ('Paul F...",953762,$248.16M,115,248.16
160,https://m.media-amazon.com/images/S/sash/4Fyxw...,Jurassic Park,PG,127 min,"Action, Adventure, Sci-Fi",8.2,A pragmatic paleontologist touring an almost c...,Steven Spielberg,"('Sam Neill',), ('Laura Dern',), ('Jeff Goldbl...",973121,$402.45M,127,402.45
168,https://m.media-amazon.com/images/S/sash/4Fyxw...,Indiana Jones and the Last Crusade,PG,127 min,"Action, Adventure",8.2,"In 1938, after his father Professor Henry Jone...",Steven Spielberg,"('Harrison Ford',), ('Sean Connery',), ('Aliso...",745875,$197.17M,127,197.17


Оцените размеры датасета с помощью атрибута shape

In [10]:
filtered_dataset.shape

(27, 13)

Отфильтруйте датасет, оставив фильмы с рейтингом выше 7.0 баллов, и сохраните результаты  в переменную filtered_dataset_2

In [11]:
filter_2 = dataset['rating'] > 7.0
filtered_dataset_2 = filtered_dataset[filter_2]

filtered_dataset_2.head()

  filtered_dataset_2 = filtered_dataset[filter_2]


Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History",9.0,"In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M,195,96.9
24,https://m.media-amazon.com/images/S/sash/4Fyxw...,Saving Private Ryan,15,169 min,"Drama, War",8.6,"Following the Normandy Landings, a group of U....",Steven Spielberg,"('Tom Hanks',), ('Matt Damon',), ('Tom Sizemor...",1366343,$216.54M,169,216.54
75,https://m.media-amazon.com/images/S/sash/4Fyxw...,Raiders of the Lost Ark,A,115 min,"Action, Adventure",8.4,Archaeology professor Indiana Jones ventures t...,Steven Spielberg,"('Harrison Ford',), ('Karen Allen',), ('Paul F...",953762,$248.16M,115,248.16
160,https://m.media-amazon.com/images/S/sash/4Fyxw...,Jurassic Park,PG,127 min,"Action, Adventure, Sci-Fi",8.2,A pragmatic paleontologist touring an almost c...,Steven Spielberg,"('Sam Neill',), ('Laura Dern',), ('Jeff Goldbl...",973121,$402.45M,127,402.45
168,https://m.media-amazon.com/images/S/sash/4Fyxw...,Indiana Jones and the Last Crusade,PG,127 min,"Action, Adventure",8.2,"In 1938, after his father Professor Henry Jone...",Steven Spielberg,"('Harrison Ford',), ('Sean Connery',), ('Aliso...",745875,$197.17M,127,197.17


Оцените размеры датасета с помощью атрибута shape

In [12]:
filtered_dataset_2.shape

(21, 13)

Выведите список уникальных значений классов фильмов с помощью метода unique()

In [13]:
filtered_dataset_2['certificate'].unique()

array(['15', 'A', 'PG', '12A', 'U', '12'], dtype=object)

Из данных классов нам подходят:
*   A (с детского возраста под присмотром родителей по старой классификации)
*   PG (с детского возраста под присмотром родителей)
*   U (для людей всех возрастов)
*   UA (для людей всех возрастов, под присмотром родителей по старой классификации)

Отфильтруйте датасет, оставив фильмы разрешенные к просмотру ребенку 10 лет, с помощью метода isin() и сохраните результаты в переменную filtered_dataset_3

In [14]:
certificate = ['A', 'PG', 'U', 'UA']

filter_3 = filtered_dataset_2['certificate'].isin(certificate)

filtered_dataset_3 = filtered_dataset_2[filter_3]

filtered_dataset_3.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
75,https://m.media-amazon.com/images/S/sash/4Fyxw...,Raiders of the Lost Ark,A,115 min,"Action, Adventure",8.4,Archaeology professor Indiana Jones ventures t...,Steven Spielberg,"('Harrison Ford',), ('Karen Allen',), ('Paul F...",953762,$248.16M,115,248.16
160,https://m.media-amazon.com/images/S/sash/4Fyxw...,Jurassic Park,PG,127 min,"Action, Adventure, Sci-Fi",8.2,A pragmatic paleontologist touring an almost c...,Steven Spielberg,"('Sam Neill',), ('Laura Dern',), ('Jeff Goldbl...",973121,$402.45M,127,402.45
168,https://m.media-amazon.com/images/S/sash/4Fyxw...,Indiana Jones and the Last Crusade,PG,127 min,"Action, Adventure",8.2,"In 1938, after his father Professor Henry Jone...",Steven Spielberg,"('Harrison Ford',), ('Sean Connery',), ('Aliso...",745875,$197.17M,127,197.17
253,https://m.media-amazon.com/images/S/sash/4Fyxw...,Jaws,A,124 min,"Adventure, Thriller",8.1,When a killer shark unleashes chaos on a beach...,Steven Spielberg,"('Roy Scheider',), ('Robert Shaw',), ('Richard...",594722,$260.00M,124,260.0
477,https://m.media-amazon.com/images/S/sash/4Fyxw...,E.T. the Extra-Terrestrial,U,115 min,"Adventure, Family, Sci-Fi",7.9,A troubled child summons the courage to help a...,Steven Spielberg,"('Henry Thomas',), ('Drew Barrymore',), ('Pete...",403782,$435.11M,115,435.11


Оцените размеры датасета с помощью атрибута shape

In [15]:
filtered_dataset_3.shape

(8, 13)

Исключите фильмы, которые племянник уже пересмотрел:
*   Jurassic Park
*   Indiana Jones and the Last Crusade
*   Jaws

И выберите самый короткий фильм из оставшихся

Для этого сохраните список фильмов в переменную stop_films и отфильтруйте датасет по нему с помощью метода isin(), а также по минимальной продолжительности фильмов, определенной с помощью метода min(), сохранив результаты в переменную filtered_dataset_4

In [16]:
stop_films = ['Jurassic Park', 'Indiana Jones and the Last Crusade', 'Jaws']

filter_4 = ~(filtered_dataset_3['title'].isin(stop_films)) & (filtered_dataset_3['runtime_clear'].min()==filtered_dataset_3['runtime_clear'])

filtered_dataset_4 = filtered_dataset_3[filter_4]

filtered_dataset_4.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
1324,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Adventures of Tintin: The Secret of the Un...,PG,107 min,"Animation, Action, Adventure",7.3,Intrepid reporter Tintin and Captain Haddock s...,Steven Spielberg,"('Jamie Bell',), ('Andy Serkis',), ('Daniel Cr...",230302,$77.59M,107,77.59


Выведите наименование фильма с помощью индексации и оцените Ваш выбор

In [17]:
filtered_dataset_4['title'][1324]

'The Adventures of Tintin: The Secret of the Unicorn'

Думаю, племянник будет доволен!

### **5.2. Фильм на вечер для себя*

По аналогии отфильтруйте датасет таким образом, чтобы выбрать фильм на вечер для себя (по собственным критериям).
Описание: Я люблю смотреть Квентина Тарантино. Смотрел самые популярные его фильмы, но руки так и не дошли до "Reservoir dogs".
Думаю, что время настало... =)

In [22]:
# Я знаю конкретного режиссера и название фильма, поэтому создам сложный фильтр.
filter = (dataset['director'] == 'Quentin Tarantino') & (dataset['title'] == 'Reservoir Dogs')
filtered_dataset = dataset[filter]

filtered_dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
99,https://m.media-amazon.com/images/S/sash/4Fyxw...,Reservoir Dogs,18,99 min,"Crime, Drama, Thriller",8.3,When a simple jewelry heist goes horribly wron...,Quentin Tarantino,"('Harvey Keitel',), ('Tim Roth',), ('Michael M...",1002382,$2.83M,99,2.83


In [41]:
# Прочитаем, о чем собственно фильм.
filtered_dataset['about'][99]

'When a simple jewelry heist goes horribly wrong, the surviving criminals begin to suspect that one of them is a police informant.'

In [42]:
# Кто в главных ролях
filtered_dataset['stars'][99]

"('Harvey Keitel',), ('Tim Roth',), ('Michael Madsen',), ('Chris Penn',)"

In [44]:
# А продолжительность фильма?
filtered_dataset['runtime'][99]
# Нормально

'99 min'

## 6. Срезы

### *6.1. Выбираем еще 2 детских фильма, близких по рейтингу к выбранному*

**Описание:** племяннику очень понравился выбранный Вами фильм. Он попросил выбрать еще 2 анимационных фильма, близких по рейтингу к данному (кинорежиссер значения не имеет). Подберите 2 подходящих фильма для племянника

Необходимо вспомнить информацию о фильме, который Вы выбрали в прошлый раз. Его индекс в базе - 1324. Из исходного датасета dataset выведите информацию о фильме, используя метод loc[]

In [45]:
dataset.loc[1324]

poster              https://m.media-amazon.com/images/S/sash/4Fyxw...
title               The Adventures of Tintin: The Secret of the Un...
certificate                                                        PG
runtime                                                       107 min
genre                                    Animation, Action, Adventure
rating                                                            7.3
about               Intrepid reporter Tintin and Captain Haddock s...
director                                             Steven Spielberg
stars               ('Jamie Bell',), ('Andy Serkis',), ('Daniel Cr...
votes                                                        2,30,302
gross_earn                                                    $77.59M
runtime_clear                                                     107
gross_earn_clear                                                77.59
Name: 1324, dtype: object

Выведите описание фильма (about), используя метод loc[]

In [46]:
dataset.loc[1324].about

"Intrepid reporter Tintin and Captain Haddock set off on a treasure hunt for a sunken ship commanded by Haddock's ancestor."

В части 1 тренировочного задания датасет был отсортирован по убыванию рейтинга. Значит фильмы, близкие по рейтину к выбранному фильму, находятся Сократите диапазон поиска, выбрав срез фильмов от 1320 строки до 1330 строки, используя метод loc[] и оцените результаты

In [47]:
dataset.loc[1320:1330]

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
1320,https://m.media-amazon.com/images/S/sash/4Fyxw...,Star Trek IV: The Voyage Home,PG,119 min,"Action, Adventure, Comedy",7.3,"To save Earth from an alien probe, Admiral Jam...",Leonard Nimoy,"('William Shatner',), ('Leonard Nimoy',), ('De...",85374,$109.71M,119,109.71
1321,https://m.media-amazon.com/images/S/sash/4Fyxw...,Murder on the Orient Express,A,128 min,"Crime, Drama, Mystery",7.3,"In December 1935, when his transcontinental lu...",Sidney Lumet,"('Albert Finney',), ('Lauren Bacall',), ('Ingr...",62253,$0.07M,128,0.07
1322,https://m.media-amazon.com/images/S/sash/4Fyxw...,Big,U,104 min,"Comedy, Drama, Fantasy",7.3,"After wishing to be made big, a teenage boy wa...",Penny Marshall,"('Tom Hanks',), ('Elizabeth Perkins',), ('Robe...",218714,$114.97M,104,114.97
1323,https://m.media-amazon.com/images/S/sash/4Fyxw...,Cinderella,U,74 min,"Animation, Family, Fantasy",7.3,When Cinderella's cruel stepmother prevents he...,Clyde Geronimi,"('Wilfred Jackson',), ('Hamilton Luske',), ('I...",159181,$85.00M,74,85.0
1324,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Adventures of Tintin: The Secret of the Un...,PG,107 min,"Animation, Action, Adventure",7.3,Intrepid reporter Tintin and Captain Haddock s...,Steven Spielberg,"('Jamie Bell',), ('Andy Serkis',), ('Daniel Cr...",230302,$77.59M,107,77.59
1325,https://m.media-amazon.com/images/S/sash/4Fyxw...,Barney's Version,15,134 min,"Comedy, Drama",7.3,The picaresque and touching story of the polit...,Richard J. Lewis,"('Paul Giamatti',), ('Rosamund Pike',), ('Jake...",25191,$7.50M,134,7.5
1326,https://m.media-amazon.com/images/S/sash/4Fyxw...,Frida,15,123 min,"Biography, Drama, Romance",7.3,A biography of artist,Julie Taymor,"('Salma Hayek',), ('Alfred Molina',), ('Geoffr...",89676,$25.89M,123,25.89
1327,https://m.media-amazon.com/images/S/sash/4Fyxw...,Starship Troopers,15,129 min,"Action, Adventure, Sci-Fi",7.3,"Humans in a fascist, militaristic future wage ...",Paul Verhoeven,"('Casper Van Dien',), ('Denise Richards',), ('...",293136,$54.81M,129,54.81
1328,https://m.media-amazon.com/images/S/sash/4Fyxw...,Despicable Me 2,U,98 min,"Animation, Adventure, Comedy",7.3,"When Gru, the world's most super-bad turned su...",Pierre Coffin,"('Chris Renaud',), ('Steve Carell',), ('Kriste...",397340,$368.06M,98,368.06
1329,https://m.media-amazon.com/images/S/sash/4Fyxw...,Thirteen Days,12,145 min,"Drama, History, Thriller",7.3,"In October 1962, the Kennedy administration st...",Roger Donaldson,"('Kevin Costner',), ('Bruce Greenwood',), ('Sh...",58860,$34.59M,145,34.59


Из полученных в результате среза фильмов подходят только фильмы жанра Animation (ограничения по возрасту они также не противоречат). Это фильмы с индексами 1323 и 1328

Сохраните в переменную index_list список индексов трех фильмов, которые Вы выбрали для племянника (включая самый первый с индексом 1324) и выведите отфильтрованный с помощью метода loc[] датасет

In [48]:
index_list = [1324,1323,1328]
dataset.loc[index_list]

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
1324,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Adventures of Tintin: The Secret of the Un...,PG,107 min,"Animation, Action, Adventure",7.3,Intrepid reporter Tintin and Captain Haddock s...,Steven Spielberg,"('Jamie Bell',), ('Andy Serkis',), ('Daniel Cr...",230302,$77.59M,107,77.59
1323,https://m.media-amazon.com/images/S/sash/4Fyxw...,Cinderella,U,74 min,"Animation, Family, Fantasy",7.3,When Cinderella's cruel stepmother prevents he...,Clyde Geronimi,"('Wilfred Jackson',), ('Hamilton Luske',), ('I...",159181,$85.00M,74,85.0
1328,https://m.media-amazon.com/images/S/sash/4Fyxw...,Despicable Me 2,U,98 min,"Animation, Adventure, Comedy",7.3,"When Gru, the world's most super-bad turned su...",Pierre Coffin,"('Chris Renaud',), ('Steve Carell',), ('Kriste...",397340,$368.06M,98,368.06


Ваш племянник в восторге! Спасибо за помощь!



### *6.2. Выбираем показатели описательной статистики по фильмам кинорежиссера Steven Spielberg*

**Описание:** в переменной filtered_dataset ранее был сохранен датасет с фильмами кинорежиссера Steven Spielberg. Выберите различные показатели описательной статистики

Выведите показатели описательной статистики с помощью метода describe() и сохраните результат в переменную described_data

Надо поднятся до первого задания и в filtered_dataset опять сохранить Спилберга. А сейчас в этой переменной "Бешеные псы" Тарантино.

In [51]:
described_data = filtered_dataset.describe()
described_data

Unnamed: 0,rating,runtime_clear,gross_earn_clear
count,27.0,27.0,27.0
mean,7.466667,137.333333,156.351481
std,0.762082,20.038425,109.644047
min,5.8,107.0,22.24
25%,7.2,122.0,77.73
50%,7.5,138.0,132.07
75%,8.0,148.0,222.815
max,9.0,195.0,435.11


Выведите строку с минимальными значениями с помощью метода loc[]

In [53]:
described_data.loc['min']

rating                5.80
runtime_clear       107.00
gross_earn_clear     22.24
Name: min, dtype: float64

Выведите срез строк от 50% процентиля до максимального значения с помощью метода loc[]

In [54]:
described_data.loc['50%':'max']

Unnamed: 0,rating,runtime_clear,gross_earn_clear
50%,7.5,138.0,132.07
75%,8.0,148.0,222.815
max,9.0,195.0,435.11


Выведите для сравнения показатели среднего значения (mean) и медианы (50% процентиль) с помощью метода loc[], предварительно сохранив их в переменную stat_names список наименований индексов

In [55]:
stat_names = ['mean', '50%']
described_data.loc[stat_names]

Unnamed: 0,rating,runtime_clear,gross_earn_clear
mean,7.466667,137.333333,156.351481
50%,7.5,138.0,132.07


Выведите срез от минимального (min) до максимального (max) значения, используя метод iloc

In [60]:
described_data.iloc[3 : 8]

Unnamed: 0,rating,runtime_clear,gross_earn_clear
min,5.8,107.0,22.24
25%,7.2,122.0,77.73
50%,7.5,138.0,132.07
75%,8.0,148.0,222.815
max,9.0,195.0,435.11


### **6.3. Выбираем еще 5 фильмов на вечер, близких по рейтингу к выбранному ранее*

По аналогии отберите 5 фильмов на вечер, близких по рейтингу к выбранному ранее

In [61]:
# Выводим dataset, где только фильмы Спилберга.
filtered_dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History",9.0,"In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M,195,96.9
24,https://m.media-amazon.com/images/S/sash/4Fyxw...,Saving Private Ryan,15,169 min,"Drama, War",8.6,"Following the Normandy Landings, a group of U....",Steven Spielberg,"('Tom Hanks',), ('Matt Damon',), ('Tom Sizemor...",1366343,$216.54M,169,216.54
75,https://m.media-amazon.com/images/S/sash/4Fyxw...,Raiders of the Lost Ark,A,115 min,"Action, Adventure",8.4,Archaeology professor Indiana Jones ventures t...,Steven Spielberg,"('Harrison Ford',), ('Karen Allen',), ('Paul F...",953762,$248.16M,115,248.16
160,https://m.media-amazon.com/images/S/sash/4Fyxw...,Jurassic Park,PG,127 min,"Action, Adventure, Sci-Fi",8.2,A pragmatic paleontologist touring an almost c...,Steven Spielberg,"('Sam Neill',), ('Laura Dern',), ('Jeff Goldbl...",973121,$402.45M,127,402.45
168,https://m.media-amazon.com/images/S/sash/4Fyxw...,Indiana Jones and the Last Crusade,PG,127 min,"Action, Adventure",8.2,"In 1938, after his father Professor Henry Jone...",Steven Spielberg,"('Harrison Ford',), ('Sean Connery',), ('Aliso...",745875,$197.17M,127,197.17


In [69]:
# Смотрим сколько там фильмов.
filtered_dataset.shape

(27, 13)

In [70]:
# Проверяем описательную статистику.
described_data = filtered_dataset.describe()
described_data

Unnamed: 0,rating,runtime_clear,gross_earn_clear
count,27.0,27.0,27.0
mean,7.466667,137.333333,156.351481
std,0.762082,20.038425,109.644047
min,5.8,107.0,22.24
25%,7.2,122.0,77.73
50%,7.5,138.0,132.07
75%,8.0,148.0,222.815
max,9.0,195.0,435.11


In [71]:
# Выбираем срез рейтингов.
described_data.loc['25%':'75%']

Unnamed: 0,rating,runtime_clear,gross_earn_clear
25%,7.2,122.0,77.73
50%,7.5,138.0,132.07
75%,8.0,148.0,222.815


In [113]:
# Выбираем фильмы по срезу рейтингов, исключая "Приключения Тинтина...".
stop_film = ['The Adventures of Tintin: The Secret of the Unicorn']
ratings = [7.2, 7.3, 7.5, 7.8, 7.9, 8.0]
filter_6 = ~(filtered_dataset['title'].isin(stop_film)) & (filtered_dataset['rating'].isin(ratings))
filtered_dataset_6 = filtered_dataset[filter_6]
filtered_dataset_6.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
477,https://m.media-amazon.com/images/S/sash/4Fyxw...,E.T. the Extra-Terrestrial,U,115 min,"Adventure, Family, Sci-Fi",7.9,A troubled child summons the courage to help a...,Steven Spielberg,"('Henry Thomas',), ('Drew Barrymore',), ('Pete...",403782,$435.11M,115,435.11
1016,https://m.media-amazon.com/images/S/sash/4Fyxw...,Indiana Jones and the Temple of Doom,12A,118 min,"Action, Adventure",7.5,A skirmish in Shanghai puts archaeologist Indi...,Steven Spielberg,"('Harrison Ford',), ('Kate Capshaw',), ('Ke Hu...",483027,$179.87M,118,179.87
1075,https://m.media-amazon.com/images/S/sash/4Fyxw...,Munich,15,164 min,"Action, Drama, History",7.5,After the Black September capture and massacre...,Steven Spielberg,"('Eric Bana',), ('Daniel Craig',), ('Marie-Jos...",226092,$47.40M,164,47.4
1394,https://m.media-amazon.com/images/S/sash/4Fyxw...,Amistad,15,155 min,"Biography, Drama, History",7.3,"In 1839, the revolt of Mende captives aboard a...",Steven Spielberg,"('Djimon Hounsou',), ('Matthew McConaughey',),...",76897,$44.18M,155,44.18
1482,https://m.media-amazon.com/images/S/sash/4Fyxw...,Lincoln,12A,150 min,"Biography, Drama, History",7.3,"As the American Civil War continues to rage, A...",Steven Spielberg,"('Daniel Day-Lewis',), ('Sally Field',), ('Dav...",259718,$182.21M,150,182.21


In [114]:
# Выбираем 5 фильмов по срезу
filtered_dataset_6.loc[477:1482]

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
477,https://m.media-amazon.com/images/S/sash/4Fyxw...,E.T. the Extra-Terrestrial,U,115 min,"Adventure, Family, Sci-Fi",7.9,A troubled child summons the courage to help a...,Steven Spielberg,"('Henry Thomas',), ('Drew Barrymore',), ('Pete...",403782,$435.11M,115,435.11
1016,https://m.media-amazon.com/images/S/sash/4Fyxw...,Indiana Jones and the Temple of Doom,12A,118 min,"Action, Adventure",7.5,A skirmish in Shanghai puts archaeologist Indi...,Steven Spielberg,"('Harrison Ford',), ('Kate Capshaw',), ('Ke Hu...",483027,$179.87M,118,179.87
1075,https://m.media-amazon.com/images/S/sash/4Fyxw...,Munich,15,164 min,"Action, Drama, History",7.5,After the Black September capture and massacre...,Steven Spielberg,"('Eric Bana',), ('Daniel Craig',), ('Marie-Jos...",226092,$47.40M,164,47.4
1394,https://m.media-amazon.com/images/S/sash/4Fyxw...,Amistad,15,155 min,"Biography, Drama, History",7.3,"In 1839, the revolt of Mende captives aboard a...",Steven Spielberg,"('Djimon Hounsou',), ('Matthew McConaughey',),...",76897,$44.18M,155,44.18
1482,https://m.media-amazon.com/images/S/sash/4Fyxw...,Lincoln,12A,150 min,"Biography, Drama, History",7.3,"As the American Civil War continues to rage, A...",Steven Spielberg,"('Daniel Day-Lewis',), ('Sally Field',), ('Dav...",259718,$182.21M,150,182.21


### **6.4. Выбираем показатели описательной статистики по фильмам кинорежиссера Woody Allen*

По аналогии отфильтруйте датасет по фильмам кинорежиссера Woody Allen и выберите показатели описательной статистики

In [115]:
# Фильтруем данные по режиссеру.
filter = dataset['director'] == 'Woody Allen'
filtered_dataset = dataset[filter]

filtered_dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
329,https://m.media-amazon.com/images/S/sash/4Fyxw...,Annie Hall,AA,93 min,"Comedy, Romance",8.0,"Alvy Singer, a divorced Jewish comedian, refle...",Woody Allen,"('Woody Allen',), ('Diane Keaton',), ('Tony Ro...",264502,$39.20M,93,39.2
464,https://m.media-amazon.com/images/S/sash/4Fyxw...,Hannah and Her Sisters,15,107 min,"Comedy, Drama",7.9,"Between two Thanksgivings two years apart, Han...",Woody Allen,"('Mia Farrow',), ('Dianne Wiest',), ('Michael ...",71500,$40.08M,107,40.08
500,https://m.media-amazon.com/images/S/sash/4Fyxw...,Manhattan,AA,96 min,"Comedy, Drama, Romance",7.9,The life of a divorced television writer datin...,Woody Allen,"('Woody Allen',), ('Diane Keaton',), ('Mariel ...",139889,$45.70M,96,45.7
636,https://m.media-amazon.com/images/S/sash/4Fyxw...,Crimes and Misdemeanors,15,104 min,"Comedy, Drama",7.8,An ophthalmologist's mistress threatens to rev...,Woody Allen,"('Martin Landau',), ('Woody Allen',), ('Bill B...",57988,$18.25M,104,18.25
717,https://m.media-amazon.com/images/S/sash/4Fyxw...,Love and Death,A,85 min,"Comedy, War",7.7,"In czarist Russia, a neurotic soldier and his ...",Woody Allen,"('Woody Allen',), ('Diane Keaton',), ('Georges...",38572,,85,


In [116]:
# Смотрим кол-во фильмов
filtered_dataset.shape

(38, 13)

In [117]:
# Выводим показатели описательной статистики (медиану,std(показатель рассеивания значений случайной величины относительно её математического ожидания), мин, макс и процентили) с помощью метода describe()
described_data = filtered_dataset.describe()
described_data

Unnamed: 0,rating,runtime_clear,gross_earn_clear
count,38.0,38.0,36.0
mean,7.092105,97.052632,14.241667
std,0.523699,9.921169,13.294116
min,6.3,79.0,0.72
25%,6.6,90.0,4.9825
50%,7.15,96.0,10.58
75%,7.475,103.75,16.785
max,8.0,124.0,56.82


In [118]:
# Смотри мин значения в списке фильмов
described_data.loc['min']

rating               6.30
runtime_clear       79.00
gross_earn_clear     0.72
Name: min, dtype: float64

In [119]:
# Смотрим значения от 50-го процентиля до макс
described_data.loc['50%':'max']

Unnamed: 0,rating,runtime_clear,gross_earn_clear
50%,7.15,96.0,10.58
75%,7.475,103.75,16.785
max,8.0,124.0,56.82


In [120]:
#Сравниваем медиану и 50-ый процентиль показателей
stat_names = ['mean', '50%']
described_data.loc[stat_names]

Unnamed: 0,rating,runtime_clear,gross_earn_clear
mean,7.092105,97.052632,14.241667
50%,7.15,96.0,10.58


In [121]:
# Выводим диапазон от мин до макс
described_data.iloc[3 : 8]

Unnamed: 0,rating,runtime_clear,gross_earn_clear
min,6.3,79.0,0.72
25%,6.6,90.0,4.9825
50%,7.15,96.0,10.58
75%,7.475,103.75,16.785
max,8.0,124.0,56.82


## 7. Продвинутая фильтрация

### *7.1. Отбираем все фильмы жанра Adventure*

**Описание:** отберите все фильмы, которые относятся к приключенческому жанру (Adventure)

Напишите функцию is_genre_correct(), которая с помощью оператора in будет искать вхождение подстроки с наименованием жанра по признаку genre

In [122]:
def is_genre_correct(genre):
  return 'Adventure' in genre

Создайте фильтр filter_5, применив функцию is_genre_correct к столбцу genre

In [123]:
filter_5 = dataset['genre'].apply(is_genre_correct)
filter_5

0       False
1       False
2       False
3       False
4       False
        ...  
4965     True
4966    False
4967    False
4968    False
4969    False
Name: genre, Length: 4970, dtype: bool

Отфильтруйте датасет с помощью фильтра filter_5 и сохраните результаты в переменную filtered_dataset_5

In [124]:
filtered_dataset_5 = dataset[filter_5]
filtered_dataset_5.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
6,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Lord of the Rings: The Return of the King,12A,201 min,"Action, Adventure, Drama",9.0,Gandalf and Aragorn lead the World of Men agai...,Peter Jackson,"('Elijah Wood',), ('Viggo Mortensen',), ('Ian ...",1801662,$377.85M,201,377.85
9,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Lord of the Rings: The Fellowship of the Ring,PG,178 min,"Action, Adventure, Drama",8.8,A meek Hobbit from the Shire and eight compani...,Peter Jackson,"('Elijah Wood',), ('Ian McKellen',), ('Orlando...",1823037,$315.54M,178,315.54
11,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Lord of the Rings: The Two Towers,12A,179 min,"Action, Adventure, Drama",8.8,While Frodo and Sam edge closer to Mordor with...,Peter Jackson,"('Elijah Wood',), ('Ian McKellen',), ('Viggo M...",1626871,$342.55M,179,342.55
13,https://m.media-amazon.com/images/S/sash/4Fyxw...,Inception,12A,148 min,"Action, Adventure, Sci-Fi",8.8,A thief who steals corporate secrets through t...,Christopher Nolan,"('Leonardo DiCaprio',), ('Joseph Gordon-Levitt...",2304062,$292.58M,148,292.58
14,https://m.media-amazon.com/images/S/sash/4Fyxw...,"The Good, the Bad and the Ugly",X,148 min,"Adventure, Western",8.8,A bounty hunting scam joins two men in an unea...,Sergio Leone,"('Clint Eastwood',), ('Eli Wallach',), ('Lee V...",751207,$6.10M,148,6.1


Оцените размеры датасета с помощью атрибута shape

In [125]:
filtered_dataset_5.shape

(1011, 13)

Отличная работа! Вы собрали все приключенческие фильмы!

### *7.2. Отфильтруем все числовые колонки*

**Описание:** отфильтруйте числовые колонки исходного датасета dataset

Выведите список признаков с указанием их типов с помощью атрибута dtypes и сохраните результаты в переменную dtypes

In [126]:
dtypes = dataset.dtypes
dtypes

poster               object
title                object
certificate          object
runtime              object
genre                object
rating              float64
about                object
director             object
stars                object
votes                object
gross_earn           object
runtime_clear         int64
gross_earn_clear    float64
dtype: object

Отфильтруйте все числовые колонки и сохраните результаты в переменную num_dtypes

In [127]:
num_dtypes = dtypes[dtypes!=object]
num_dtypes

rating              float64
runtime_clear         int64
gross_earn_clear    float64
dtype: object

Сохраните в переменную new_columns список наименований отфильтрованных колонок, используя атрибут index

In [128]:
new_columns = num_dtypes.index
new_columns

Index(['rating', 'runtime_clear', 'gross_earn_clear'], dtype='object')

Отфильтруйте исходный датасет, оставив только числовые колонки, и сохраните результат в переменную filtered_dataset_6

In [132]:
filtered_dataset_6 = dataset[new_columns]
filtered_dataset_6.head()

Unnamed: 0,rating,runtime_clear,gross_earn_clear
0,9.3,142,28.34
1,9.2,87,
2,9.2,175,134.97
3,9.0,202,57.3
4,9.0,195,96.9


Все получилось!

### **7.3. Отбираем все фильмы, где снимался Leonardo DiCaprio*

По аналогии отберите фильмы, где снимался Leonardo DiCaprio

Опять же, я сохраняю в filter_5 новые данные. Если необходимо, вверху надо пересохранить

In [133]:
# Пишем функцию на отсев Дикаприо
def is_stars_correct(stars):
  return 'Leonardo DiCaprio' in stars

In [134]:
# Пименяем фильтр-функцию к датасету
filter_5 = dataset['stars'].apply(is_stars_correct)
filter_5

0       False
1       False
2       False
3       False
4       False
        ...  
4965    False
4966    False
4967    False
4968    False
4969    False
Name: stars, Length: 4970, dtype: bool

In [135]:
# Смотрим отфильтрованный датасет
filtered_dataset_5 = dataset[filter_5]
filtered_dataset_5.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
13,https://m.media-amazon.com/images/S/sash/4Fyxw...,Inception,12A,148 min,"Action, Adventure, Sci-Fi",8.8,A thief who steals corporate secrets through t...,Christopher Nolan,"('Leonardo DiCaprio',), ('Joseph Gordon-Levitt...",2304062,$292.58M,148,292.58
52,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Departed,18,151 min,"Crime, Drama, Thriller",8.5,An undercover cop and a mole in the police att...,Martin Scorsese,"('Leonardo DiCaprio',), ('Matt Damon',), ('Jac...",1303531,$132.38M,151,132.38
72,https://m.media-amazon.com/images/S/sash/4Fyxw...,Django Unchained,18,165 min,"Drama, Western",8.4,"With the help of a German bounty-hunter, a fre...",Quentin Tarantino,"('Jamie Foxx',), ('Christoph Waltz',), ('Leona...",1519581,$162.81M,165,162.81
165,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Wolf of Wall Street,18,180 min,"Biography, Comedy, Crime",8.2,Based on the true story of,Martin Scorsese,"('Leonardo DiCaprio',), ('Jonah Hill',), ('Mar...",1369335,$116.90M,180,116.9
167,https://m.media-amazon.com/images/S/sash/4Fyxw...,Shutter Island,15,138 min,"Mystery, Thriller",8.2,"In 1954, a U.S. Marshal investigates the disap...",Martin Scorsese,"('Leonardo DiCaprio',), ('Emily Mortimer',), (...",1280796,$128.01M,138,128.01


In [136]:
# Леонардо Дикаприо снимался в 24 фильмах
filtered_dataset_5.shape

(24, 13)

### **7.4. Отфильтруем все нечисловые колонки*

По аналогии отфильтруйте все нечисловые колонки

Я опять перезаписал колонки!

In [137]:
# Смотрим типы данных датасета
dtypes = dataset.dtypes
dtypes

poster               object
title                object
certificate          object
runtime              object
genre                object
rating              float64
about                object
director             object
stars                object
votes                object
gross_earn           object
runtime_clear         int64
gross_earn_clear    float64
dtype: object

In [140]:
# Нам нужны нечисловые колонки, а это получается строки
# Еще вариант написать dtypes[ (dtypes != float) & (dtypes != int) ]
num_dtypes = dtypes[dtypes == object]
num_dtypes

poster         object
title          object
certificate    object
runtime        object
genre          object
about          object
director       object
stars          object
votes          object
gross_earn     object
dtype: object

In [141]:
# Смотрим индексы и сохраняем их в переменную
new_columns = num_dtypes.index
new_columns

Index(['poster', 'title', 'certificate', 'runtime', 'genre', 'about',
       'director', 'stars', 'votes', 'gross_earn'],
      dtype='object')

In [142]:
# Применяем фильтрацию к датасету, выводя по индексам все колонки, где тип строковый данных (object в pandas)
filtered_dataset_6 = dataset[new_columns]
filtered_dataset_6.head()
# Напомню, что в первой части работы (эта третья), мы редактировали данные, переводя из строкового типа данных в числовой. Теперь мы убрали эти колонки.

Unnamed: 0,poster,title,certificate,runtime,genre,about,director,stars,votes,gross_earn
0,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Shawshank Redemption,15,142 min,Drama,Two imprisoned men bond over a number of years...,Frank Darabont,"('Tim Robbins',), ('Morgan Freeman',), ('Bob G...",2626905,$28.34M
1,https://m.media-amazon.com/images/S/sash/4Fyxw...,Hababam Sinifi,12A,87 min,"Comedy, Drama","Lazy, uneducated students share a very close b...",Ertem Egilmez,"('Kemal Sunal',), ('Münir Özkul',), ('Halit Ak...",40492,
2,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather,X,175 min,"Crime, Drama",The aging patriarch of an organized crime dyna...,Francis Ford Coppola,"('Marlon Brando',), ('Al Pacino',), ('James Ca...",1819641,$134.97M
3,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather: Part II,X,202 min,"Crime, Drama",The early life and career of Vito Corleone in ...,Francis Ford Coppola,"('Al Pacino',), ('Robert De Niro',), ('Robert ...",1249182,$57.30M
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History","In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M


## 8. Группировка

### *8.1. certificate - gross_earn_clear*

**Описание:** сгруппируйте датасет по классам фильмов и рассчитайте по ним среднее значение доходов с фильмов

Сгруппируйте исходный датасет dataset по признаку certificate с помощью метода groupby и сохраните результат в переменную groups

In [143]:
groups = dataset.groupby('certificate')
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7a0211b9a8c0>

Рассчитайте среднее значение по признаку gross_earn_clear с помощью метода mean() по сгруппированному объекту. Результаты сохраните в переменную groups_mean_earn

In [155]:
groups_mean_earn = groups['gross_earn_clear'].mean()
groups_mean_earn

certificate
(Banned)           NaN
12           60.113048
12A          77.310925
15           33.451798
18           26.607200
A            37.906190
AA           38.855769
Not Rated     3.830000
PG           64.011360
PG-13        11.922222
R             3.487273
Rejected      1.060000
U            85.989083
UA           71.939091
X            23.783846
Name: gross_earn_clear, dtype: float64

Для удобства чтения полученных значений округлите средние значения до двух знаков после запятой с помощью метода apply(), применив формат "{0:.2f}".format

In [156]:
groups_mean_earn = groups_mean_earn.apply("{0:.2f}".format)
groups_mean_earn

certificate
(Banned)       nan
12           60.11
12A          77.31
15           33.45
18           26.61
A            37.91
AA           38.86
Not Rated     3.83
PG           64.01
PG-13        11.92
R             3.49
Rejected      1.06
U            85.99
UA           71.94
X            23.78
Name: gross_earn_clear, dtype: object

### *8.2. certificate - rating - gross_earn_clear*

**Описание:** сгруппируйте датасет по классам фильмов и по их рейтингу и рассчитайте по ним медианное значение доходов с фильмов

Сгруппируйте исходный датасет dataset по признакам certificate и rating с помощью метода groupby и сохраните результат в переменную groups_2

In [162]:
groups_2 = dataset.groupby(['certificate', 'rating'])
groups_2

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7a0211d6d330>

Рассчитайте среднее значение по признаку gross_earn_clear с помощью метода median() по сгруппированному объекту. Результаты сохраните в переменную groups_mean_earn_2


In [166]:
groups_mean_earn_2 = groups_2['gross_earn_clear'].median()
groups_mean_earn_2

certificate  rating
(Banned)     6.8           NaN
12           2.5        21.470
             3.0        20.760
             3.5        10.980
             3.6        15.220
                        ...   
X            8.5        81.185
             8.6           NaN
             8.8         6.100
             9.0        57.300
             9.2       134.970
Name: gross_earn_clear, Length: 451, dtype: float64

Вы справились!

### **8.3. certificate - runtime_clear*

По аналогии выведите информацию о продолжительности фильмов в зависимости от их класса.

In [163]:
# Группируем данные по сертификату.
groups = dataset.groupby('certificate')
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7a0211a3c550>

In [167]:
# Смотрим  медиану колонки runtime_clear по каждому классу certificate
groups_runtime = groups['runtime_clear'].mean()
groups_runtime

certificate
(Banned)      91.000000
12           109.982014
12A          115.449239
15           109.385241
18           109.033384
A            114.397849
AA           114.949153
Not Rated    103.000000
PG           110.058632
PG-13         99.636364
R            134.500000
Rejected      86.200000
U            102.444751
UA           117.636364
X            112.410448
Name: runtime_clear, dtype: float64

In [168]:
# Форматируем runtime_clear до двух знаков после запятой
groups_runtime = groups_runtime.apply("{0:.2f}".format)
groups_runtime

certificate
(Banned)      91.00
12           109.98
12A          115.45
15           109.39
18           109.03
A            114.40
AA           114.95
Not Rated    103.00
PG           110.06
PG-13         99.64
R            134.50
Rejected      86.20
U            102.44
UA           117.64
X            112.41
Name: runtime_clear, dtype: object

### **8.4. certificate - rating - runtime_clear*

По аналогии выведите информацию о продолжительности фильмов в зависимости от их класса и рейтинга.

In [169]:
# Группируем датасет по классу и рейтингу
groups_2 = dataset.groupby(['certificate', 'rating'])
groups_2

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7a02120c2aa0>

In [170]:
# Смотрим медиану продолжительности по каждому классу и существующим в нем рейтингам
groups_runtime_2 = groups_2['runtime_clear'].median()
groups_runtime_2

certificate  rating
(Banned)     6.8        91.0
12           2.5       118.0
             3.0        89.0
             3.5       107.0
             3.6       107.0
                       ...  
X            8.5       132.0
             8.6       133.0
             8.8       148.0
             9.0       202.0
             9.2       175.0
Name: runtime_clear, Length: 451, dtype: float64

**Поздравляем! Часть 3 задания по модулю EDA выполнена!**

**Вы завершили выполнение тренировочного задания!**

**Не забудьте изучить тему по созданию наглядных графиков!**

**Удачи на курсе!**