# **Разведочный анализ по датасету IMDb Movies: 5000 фильмов с наибольшим рейтингом. Часть 1: Обзор и предобработка данных**

![](https://adabul.com/wp-content/uploads/2020/04/diziler-360x240.jpg)

## 1. Описание датасета и задания

Представлен датасет с данными о 5000 фильмах, имеющих наибольший рейтинг на сайте IMDb (датасет выложен на платформе [Kaggle](https://www.kaggle.com/datasets/totoro29/imdb-movies)).

***Информация, содержащаяся в датасете:***
1.   Ссылка на постер фильма (poster).
2.   Наименование фильма (title).
3.   Класс фильма по рейтингу the British Board of Film Classification (BBFC) (certificate).
4.   Продолжительность фильма (runtime).
5.   Жанр фильма (genre).
6.   Рейтинг фильма на платформе IMBD (rating).
7.   Описание сюжета фильма (about).
8.   Кинорежиссер фильма (director).
9.   Актеры-звезды фильма (stars).
10.  Количество проголосовавших за фильм (votes).
11.  Доход с фильма (gross_earn).



***Задача:***
провести разведочный анализ данных, найти взаимосвязи и сформулировать выводы.

**В части 1 задания необходимо:**
1.   Выполнить обзор данных.
2.   Оценить датасет на наличие дубликатов и при необходимости обработать их.
3.   Оценить признаки на наличие пропусков и при необходимости обработать их.
4.   Привести данные к необходимому для анализа типу.
5.   Отсортировать и сохранить датасет для дальнейшего анализа.







## 2. Загрузка датасета

In [1]:
!gdown --id 1SQihqE13h5sEVzLSaBn9f2l_FdMtxNQb

Downloading...
From: https://drive.google.com/uc?id=1SQihqE13h5sEVzLSaBn9f2l_FdMtxNQb
To: /content/movies.csv
100% 1.89M/1.89M [00:00<00:00, 17.1MB/s]


## 3. Подгрузка данных в питон и начало работы с ними

Импортируйте библиотеку pandas и присвойте ей короткое название pd

In [2]:
import pandas as pd

Откройте датасет movies.csv и сохраните его в переменную dataset

In [3]:
dataset = pd.read_csv('movies.csv')

Проведите обзор таблицы с помощью метода head()

In [4]:
dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn
0,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Shawshank Redemption,15,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,Frank Darabont,"('Tim Robbins',), ('Morgan Freeman',), ('Bob G...",2626905,$28.34M
1,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Dark Knight,12A,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,Christopher Nolan,"('Christian Bale',), ('Heath Ledger',), ('Aaro...",2598173,$534.86M
2,https://m.media-amazon.com/images/S/sash/4Fyxw...,Inception,12A,148 min,"Action, Adventure, Sci-Fi",8.8,A thief who steals corporate secrets through t...,Christopher Nolan,"('Leonardo DiCaprio',), ('Joseph Gordon-Levitt...",2304062,$292.58M
3,https://m.media-amazon.com/images/S/sash/4Fyxw...,Fight Club,18,139 min,Drama,8.8,An insomniac office worker and a devil-may-car...,David Fincher,"('Brad Pitt',), ('Edward Norton',), ('Meat Loa...",2071088,$37.03M
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Pulp Fiction,18,154 min,"Crime, Drama",8.9,"The lives of two mob hitmen, a boxer, a gangst...",Quentin Tarantino,"('John Travolta',), ('Uma Thurman',), ('Samuel...",2011013,$107.93M


## 4. Оценка размеров датасета, наличия дубликатов и пропусков

Оцените размеры датасета с помощью атрибута shape

In [5]:
dataset.shape

(5000, 11)

Выведите информацию о датасете с помощью метода info(). Оцените признаки и типы данных, обратите внимание на пропущенные значения

In [6]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   poster       5000 non-null   object 
 1   title        5000 non-null   object 
 2   certificate  5000 non-null   object 
 3   runtime      5000 non-null   object 
 4   genre        4970 non-null   object 
 5   rating       5000 non-null   float64
 6   about        4986 non-null   object 
 7   director     5000 non-null   object 
 8   stars        5000 non-null   object 
 9   votes        5000 non-null   object 
 10  gross_earn   4585 non-null   object 
dtypes: float64(1), object(10)
memory usage: 429.8+ KB


Оцените наличие дубликатов в датасете с помощью метода duplicated() в связке с sum() (при необходимости исключите полные дубликаты)

In [7]:
dataset.duplicated().sum()

0

P.s. бывают ситуации, когда нет необходимости удалять дубликаты, т.к. их наличие может нести ценную информацию при анализе.

Оцените наличие пропущенных значений в датасете по признаку gross_earn

In [8]:
dataset['gross_earn'].isnull().sum()

415

P.s. не стоит исключать наблюдения с пропущенными значениями на этапе предобработки датасета, если нет жесткого требования это делать. Так можно потерять информацию по другим более значимым признакам. Кроме того, их наличие может нести ценную информацию при анализе.

**Выводы:**

Напишите выводы по разделу:
1.   О размерах датасета (количество признаков и количество наблюдений).
2.   О типах данных (какие есть и какие должны быть, нужна ли предобработа).
3.   О дубликатах (их наличие, нужна ли предобработка).
4.   О пропущенных значениях (их наличие, нужна ли предобработка).
5.   О возможных проблемах, которые могут возникнуть при анализе.



## 5. Обработка колонок runtime и gross_earn: приведение к числовому типу

Приведите значения признаков runtime и gross_earn к числовому типу, исключив лишние символы

### *5.1. runtime*

Выведите Series ['runtime'] для детального просмотра данных

In [9]:
dataset['runtime']

0              142 min
1              152 min
2              148 min
3              139 min
4              154 min
             ...      
4995           102 min
4996            94 min
4997    Drama, Romance
4998            92 min
4999           120 min
Name: runtime, Length: 5000, dtype: object

По индексу 4997 в признак попало аномальное значение - Drama, Romance

Выведите уникальные значения по Series ['runtime'] с помощью метода unique()

In [10]:
dataset['runtime'].unique()

array(['142 min', '152 min', '148 min', '139 min', '154 min', '178 min',
       '136 min', '201 min', '175 min', '164 min', '179 min', '127 min',
       '143 min', '155 min', '140 min', '165 min', '169 min', '121 min',
       '118 min', '162 min', '153 min', '151 min', '195 min', '113 min',
       '130 min', '124 min', '122 min', '194 min', '132 min', '202 min',
       '138 min', '119 min', '189 min', '180 min', '137 min', '106 min',
       '111 min', '116 min', '145 min', '110 min', '98 min', '107 min',
       '126 min', '100 min', '131 min', '133 min', '103 min', '108 min',
       '96 min', '99 min', '115 min', '88 min', '120 min', '81 min',
       '135 min', '146 min', '117 min', '104 min', '92 min', '91 min',
       '102 min', '149 min', '170 min', '112 min', '101 min', '141 min',
       '144 min', '114 min', '150 min', '90 min', '161 min', '128 min',
       '93 min', '129 min', '166 min', '147 min', '134 min', '109 min',
       '105 min', '125 min', '156 min', '123 min', '95 min',

Таких аномальных значений несколько. Следует исключить их из датасета

Импортируйте библиотеку re, regular expressions

In [11]:
import re

Напишите функцию, которая исключит нецифровые символы с помощью регулярных выражений

In [12]:
def clear_runtime(runtime):
  return re.sub('\D', '', runtime)

Примените функцию к Series ['runtime'] с помощью метода apply()

In [13]:
dataset['runtime'].apply(clear_runtime)


0       142
1       152
2       148
3       139
4       154
       ... 
4995    102
4996     94
4997       
4998     92
4999    120
Name: runtime, Length: 5000, dtype: object

Создайте столбец runtime_clear в исходном датасете, применив функцию к признаку runtime

In [14]:
dataset['runtime_clear'] = dataset['runtime'].apply(clear_runtime)

Выведите Series ['runtime_clear'] для оценки результата

In [15]:
dataset['runtime_clear']

0       142
1       152
2       148
3       139
4       154
       ... 
4995    102
4996     94
4997       
4998     92
4999    120
Name: runtime_clear, Length: 5000, dtype: object

По индексу 4997, где было аномальное значение, теперь на первый взгляд пустота. Проверьте, так ли это, с помощью метода isna()

In [16]:
dataset['runtime_clear'].isna()

0       False
1       False
2       False
3       False
4       False
        ...  
4995    False
4996    False
4997    False
4998    False
4999    False
Name: runtime_clear, Length: 5000, dtype: bool

Количество пустых полей - 0... Посмотрите поближе, что же на самом деле записано в данном поле с помощью индексации датасет['столбец'][индекс]

In [17]:
dataset['runtime_clear'][4997]

''

Записано нулевое строковое значение. Убедитесь в этом, проверив тип данных с помощью функции type()

In [18]:
type(dataset['runtime_clear'][4997])

str

Действительно, это строковое значение. Отфильтруйте датасет, исключив все такие значения с помощью оператора !=

In [19]:
dataset = dataset[dataset['runtime_clear']!='']

Оцените размеры датасета с помощью атрибута shape

In [20]:
dataset.shape

(4970, 12)

А также проверьте тип данных с помощью метода info()

In [21]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4970 entries, 0 to 4999
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   poster         4970 non-null   object 
 1   title          4970 non-null   object 
 2   certificate    4970 non-null   object 
 3   runtime        4970 non-null   object 
 4   genre          4970 non-null   object 
 5   rating         4970 non-null   float64
 6   about          4956 non-null   object 
 7   director       4970 non-null   object 
 8   stars          4970 non-null   object 
 9   votes          4970 non-null   object 
 10  gross_earn     4574 non-null   object 
 11  runtime_clear  4970 non-null   object 
dtypes: float64(1), object(11)
memory usage: 504.8+ KB


Приведите признак runtime_clear в формат int с помощью метода astype()

In [22]:
dataset['runtime_clear'] = dataset['runtime_clear'].astype('int')

Проверьте тип данных с помощью метода info()

In [23]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4970 entries, 0 to 4999
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   poster         4970 non-null   object 
 1   title          4970 non-null   object 
 2   certificate    4970 non-null   object 
 3   runtime        4970 non-null   object 
 4   genre          4970 non-null   object 
 5   rating         4970 non-null   float64
 6   about          4956 non-null   object 
 7   director       4970 non-null   object 
 8   stars          4970 non-null   object 
 9   votes          4970 non-null   object 
 10  gross_earn     4574 non-null   object 
 11  runtime_clear  4970 non-null   int64  
dtypes: float64(1), int64(1), object(10)
memory usage: 504.8+ KB


Тип данных - int64. Все получилось!

### *5.2. gross_earn*

По аналогии приведите признак gross_earn к числовому типу данных

Выведите Series ['gross_earn'] для детального просмотра данных

In [24]:
dataset['gross_earn']

0        $28.34M
1       $534.86M
2       $292.58M
3        $37.03M
4       $107.93M
          ...   
4994         NaN
4995      $9.40M
4996         NaN
4998      $6.67M
4999      $8.20M
Name: gross_earn, Length: 4970, dtype: object

Напишите функцию, которая исключит нецифровые символы с помощью регулярных выражений. Подумайте, нужно ли оставлять при этом в них точку.

In [25]:
def clear_gross_earn(gross_earn):
  return re.sub('[^0-9.]', '', gross_earn)

Примените функцию к Series ['gross_earn'] с помощью метода apply()

In [26]:
dataset['gross_earn'].apply(clear_gross_earn)

TypeError: ignored

Ошибка TypeError, связанная с тем, что в какой-то момент в функцию попали пропущенные значения, которые она не смогла обработать

Оцените количество пропущенных значений по признаку с помощью метода isna() в связке с методом sum()

In [27]:
dataset['gross_earn'].isna().sum()

396

Необходимо добавить в функцию обработку пустых значений. Для этого импортируйте библиотеку numpy с коротким наименованием np

In [28]:
import numpy as np

Добавьте в функцию проверку на пустые значения с помощью метода pandas pd.isna(). В случае пропуска она должна вернуть пустое значение np.nan; в ином случае - сохранить алгоритм, написанный ранее (переписывать функцию ниже не нужно; просто изучите, как она работает)

In [29]:
def clear_gross_earn(gross_earn):
  if pd.isna(gross_earn):
    return np.nan
  else:
    return re.sub('[^0-9.]', '', gross_earn)

Примените функцию к Series ['gross_earn'] с помощью метода apply()

In [30]:
dataset['gross_earn'].apply(clear_gross_earn)

0        28.34
1       534.86
2       292.58
3        37.03
4       107.93
         ...  
4994       NaN
4995      9.40
4996       NaN
4998      6.67
4999      8.20
Name: gross_earn, Length: 4970, dtype: object

Создайте столбец gross_earn в исходном датасете, применив функцию к признаку gross_earn

In [31]:
dataset['gross_earn_clear'] = dataset['gross_earn'].apply(clear_gross_earn)

Выведите Series ['gross_earn_clear'] для оценки результата

In [32]:
dataset['gross_earn_clear']

0        28.34
1       534.86
2       292.58
3        37.03
4       107.93
         ...  
4994       NaN
4995      9.40
4996       NaN
4998      6.67
4999      8.20
Name: gross_earn_clear, Length: 4970, dtype: object

Приведите признак gross_earn_clear в формат float с помощью метода astype()

In [33]:
dataset['gross_earn_clear'] = dataset['gross_earn_clear'].astype('float')

Код был выполнен. Оцените результат, детально рассмотрев Series ['gross_earn_clear']

In [34]:
dataset['gross_earn_clear']

0        28.34
1       534.86
2       292.58
3        37.03
4       107.93
         ...  
4994       NaN
4995      9.40
4996       NaN
4998      6.67
4999      8.20
Name: gross_earn_clear, Length: 4970, dtype: float64

Выведите информацию о датасете с помощью метода info()

In [35]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4970 entries, 0 to 4999
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   poster            4970 non-null   object 
 1   title             4970 non-null   object 
 2   certificate       4970 non-null   object 
 3   runtime           4970 non-null   object 
 4   genre             4970 non-null   object 
 5   rating            4970 non-null   float64
 6   about             4956 non-null   object 
 7   director          4970 non-null   object 
 8   stars             4970 non-null   object 
 9   votes             4970 non-null   object 
 10  gross_earn        4574 non-null   object 
 11  runtime_clear     4970 non-null   int64  
 12  gross_earn_clear  4574 non-null   float64
dtypes: float64(2), int64(1), object(10)
memory usage: 543.6+ KB


Все получилось: признаки runtime и gross_earn в числовом формате!

## 6. Сортировка по рейтингу

Отсортируйте датасет в порядке убывания рейтинга фильмов (rating), применив метод sort_values() с переданным в него параметром ascending=False

In [36]:
sorted_dataset = dataset.sort_values(by=['rating'], ascending=False)
sorted_dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
0,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Shawshank Redemption,15,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,Frank Darabont,"('Tim Robbins',), ('Morgan Freeman',), ('Bob G...",2626905,$28.34M,142,28.34
3788,https://m.media-amazon.com/images/S/sash/4Fyxw...,Hababam Sinifi,12A,87 min,"Comedy, Drama",9.2,"Lazy, uneducated students share a very close b...",Ertem Egilmez,"('Kemal Sunal',), ('Münir Özkul',), ('Halit Ak...",40492,,87,
9,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather,X,175 min,"Crime, Drama",9.2,The aging patriarch of an organized crime dyna...,Francis Ford Coppola,"('Marlon Brando',), ('Al Pacino',), ('James Ca...",1819641,$134.97M,175,134.97
32,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather: Part II,X,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,Francis Ford Coppola,"('Al Pacino',), ('Robert De Niro',), ('Robert ...",1249182,$57.30M,202,57.3
24,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History",9.0,"In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M,195,96.9


## 7. Переопределение индексов

Переопределите индексы по порядку с помощью метода reset_index() с переданными в него параметрами drop=True для удаления предыдущего столбца индексов и inplace=True для автоматической перезаписи таблицы

In [37]:
sorted_dataset.reset_index(drop=True, inplace=True)
sorted_dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn,runtime_clear,gross_earn_clear
0,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Shawshank Redemption,15,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,Frank Darabont,"('Tim Robbins',), ('Morgan Freeman',), ('Bob G...",2626905,$28.34M,142,28.34
1,https://m.media-amazon.com/images/S/sash/4Fyxw...,Hababam Sinifi,12A,87 min,"Comedy, Drama",9.2,"Lazy, uneducated students share a very close b...",Ertem Egilmez,"('Kemal Sunal',), ('Münir Özkul',), ('Halit Ak...",40492,,87,
2,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather,X,175 min,"Crime, Drama",9.2,The aging patriarch of an organized crime dyna...,Francis Ford Coppola,"('Marlon Brando',), ('Al Pacino',), ('James Ca...",1819641,$134.97M,175,134.97
3,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Godfather: Part II,X,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,Francis Ford Coppola,"('Al Pacino',), ('Robert De Niro',), ('Robert ...",1249182,$57.30M,202,57.3
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Schindler's List,15,195 min,"Biography, Drama, History",9.0,"In German-occupied Poland during World War II,...",Steven Spielberg,"('Liam Neeson',), ('Ralph Fiennes',), ('Ben Ki...",1333407,$96.90M,195,96.9


## 8. Сохранение датасета

Сохраните датасет под названием movies_clean в формате csv и скачайте его себе на ПК. Он Понадобится Вам при дальнейшем выполнении тренировочных заданий

In [38]:
sorted_dataset.to_csv ('movies_cleaN.csv')

**Поздравляем! Часть 1 задания по модулю EDA выполнена! Далее Вас ожидает разведочный анализ данных!**