# **Разведочный анализ по датасету IMDb Movies: 5000 фильмов с наибольшим рейтингом. Часть 1: Обзор и предобработка данных**

![](https://adabul.com/wp-content/uploads/2020/04/diziler-360x240.jpg)

## 1. Описание датасета и задания

Представлен датасет с данными о 5000 фильмах, имеющих наибольший рейтинг на сайте IMDb (датасет выложен на платформе [Kaggle](https://www.kaggle.com/datasets/totoro29/imdb-movies)).

***Информация, содержащаяся в датасете:***
1.   Ссылка на постер фильма (poster).
2.   Наименование фильма (title).
3.   Класс фильма по рейтингу the British Board of Film Classification (BBFC) (certificate).
4.   Продолжительность фильма (runtime).
5.   Жанр фильма (genre).
6.   Рейтинг фильма на платформе IMBD (rating).
7.   Описание сюжета фильма (about).
8.   Кинорежиссер фильма (director).
9.   Актеры-звезды фильма (stars).
10.  Количество проголосовавших за фильм (votes).
11.  Доход с фильма (gross_earn).



***Задача:***
провести разведочный анализ данных, найти взаимосвязи и сформулировать выводы.

**В части 1 задания необходимо:**
1.   Выполнить обзор данных.
2.   Оценить датасет на наличие дубликатов и при необходимости обработать их.
3.   Оценить признаки на наличие пропусков и при необходимости обработать их.
4.   Привести данные к необходимому для анализа типу.
5.   Отсортировать и сохранить датасет для дальнейшего анализа.







## 2. Загрузка датасета

In [1]:
# при ошибке загрузки в текущей версии gdown необходимо его обновить
!pip install --upgrade gdown



In [2]:
!gdown --id 1SQihqE13h5sEVzLSaBn9f2l_FdMtxNQb

Downloading...
From: https://drive.google.com/uc?id=1SQihqE13h5sEVzLSaBn9f2l_FdMtxNQb
To: /Users/mikhail/Desktop/Итоговое задание/movies.csv
100%|███████████████████████████████████████| 1.89M/1.89M [00:03<00:00, 510kB/s]


## 3. Подгрузка данных в питон и начало работы с ними

Импортируйте библиотеку pandas и присвойте ей короткое название pd

In [10]:
import pandas as pd
import numpy as np #допом на всякий случай подгрузил

Откройте датасет movies.csv и сохраните его в переменную dataset

In [17]:
dataset = pd.read_csv("movies.csv")

Проведите обзор таблицы с помощью метода head()

In [18]:
dataset.head()

Unnamed: 0,poster,title,certificate,runtime,genre,rating,about,director,stars,votes,gross_earn
0,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Shawshank Redemption,15,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,Frank Darabont,"('Tim Robbins',), ('Morgan Freeman',), ('Bob G...",2626905,$28.34M
1,https://m.media-amazon.com/images/S/sash/4Fyxw...,The Dark Knight,12A,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,Christopher Nolan,"('Christian Bale',), ('Heath Ledger',), ('Aaro...",2598173,$534.86M
2,https://m.media-amazon.com/images/S/sash/4Fyxw...,Inception,12A,148 min,"Action, Adventure, Sci-Fi",8.8,A thief who steals corporate secrets through t...,Christopher Nolan,"('Leonardo DiCaprio',), ('Joseph Gordon-Levitt...",2304062,$292.58M
3,https://m.media-amazon.com/images/S/sash/4Fyxw...,Fight Club,18,139 min,Drama,8.8,An insomniac office worker and a devil-may-car...,David Fincher,"('Brad Pitt',), ('Edward Norton',), ('Meat Loa...",2071088,$37.03M
4,https://m.media-amazon.com/images/S/sash/4Fyxw...,Pulp Fiction,18,154 min,"Crime, Drama",8.9,"The lives of two mob hitmen, a boxer, a gangst...",Quentin Tarantino,"('John Travolta',), ('Uma Thurman',), ('Samuel...",2011013,$107.93M


## 4. Оценка размеров датасета, наличия дубликатов и пропусков

Оцените размеры датасета с помощью атрибута shape

In [19]:
dataset_array = np.array(dataset)

Выведите информацию о датасете с помощью метода info(). Оцените признаки и типы данных, обратите внимание на пропущенные значения

In [20]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   poster       5000 non-null   object 
 1   title        5000 non-null   object 
 2   certificate  5000 non-null   object 
 3   runtime      5000 non-null   object 
 4   genre        4970 non-null   object 
 5   rating       5000 non-null   float64
 6   about        4986 non-null   object 
 7   director     5000 non-null   object 
 8   stars        5000 non-null   object 
 9   votes        5000 non-null   object 
 10  gross_earn   4585 non-null   object 
dtypes: float64(1), object(10)
memory usage: 429.8+ KB


Оцените наличие дубликатов в датасете с помощью метода duplicated() в связке с sum() (при необходимости исключите полные дубликаты)

In [23]:
dataset_dubl = dataset.duplicated().sum()
dataset_dubl

0

### коммент: в датасете нет дубликатов :)

P.s. бывают ситуации, когда нет необходимости удалять дубликаты, т.к. их наличие может нести ценную информацию при анализе.

Оцените наличие пропущенных значений в датасете по признаку gross_earn

In [None]:
dataset_miss_gross_earn = dataset['gross_earn'].isna().sum() #ля, вроде так делается 
dataset_miss_gross_earn 

415

P.s. не стоит исключать наблюдения с пропущенными значениями на этапе предобработки датасета, если нет жесткого требования это делать. Так можно потерять информацию по другим более значимым признакам. Кроме того, их наличие может нести ценную информацию при анализе.

**Выводы:**

Напишите выводы по разделу:
1.   О размерах датасета (количество признаков и количество наблюдений).
2.   О типах данных (какие есть и какие должны быть, нужна ли предобработа).
3.   О дубликатах (их наличие, нужна ли предобработка).
4.   О пропущенных значениях (их наличие, нужна ли предобработка).
5.   О возможных проблемах, которые могут возникнуть при анализе.



## 5. Обработка колонок runtime и gross_earn: приведение к числовому типу

Приведите значения признаков runtime и gross_earn к числовому типу, исключив лишние символы

### *5.1. runtime*

Выведите Series ['runtime'] для детального просмотра данных

In [None]:
dataset['runtime']

По индексу 4997 в признак попало аномальное значение - Drama, Romance

Выведите уникальные значения по Series ['runtime'] с помощью метода unique()

In [None]:
dataset['runtime']

Таких аномальных значений несколько. Следует исключить их из датасета

Импортируйте библиотеку re

In [None]:
import

Напишите функцию, которая исключит нецифровые символы с помощью регулярных выражений

In [None]:
def clear_runtime(runtime):

Примените функцию к Series ['runtime'] с помощью метода apply()

In [None]:
dataset['runtime']

Создайте столбец runtime_clear в исходном датасете, применив функцию к признаку runtime

In [None]:
dataset['runtime_clear'] =

Выведите Series ['runtime_clear'] для оценки результата

In [None]:
dataset['runtime_clear']

По индексу 4997, где было аномальное значение, теперь на первый взгляд пустота. Проверьте, так ли это, с помощью метода isna()

In [None]:
dataset['runtime_clear']

Количество пустых полей - 0... Посмотрите поближе, что же на самом деле записано в данном поле с помощью индексации датасет['столбец'][индекс]

In [None]:
dataset['runtime_clear'][4997]

Записано нулевое строковое значение. Убедитесь в этом, проверив тип данных с помощью функции type()

In [None]:
type()

Действительно, это строковое значение. Отфильтруйте датасет, исключив все такие значения с помощью оператора !=

In [None]:
dataset = dataset[dataset['runtime_clear']!='']

Оцените размеры датасета с помощью атрибута shape

In [None]:
dataset

А также проверьте тип данных с помощью метода info()

In [None]:
dataset

Приведите признак runtime_clear в формат int с помощью метода astype()

In [None]:
dataset['runtime_clear'] =

Проверьте тип данных с помощью метода info()

In [None]:
dataset

Тип данных - int64. Все получилось!

### *5.2. gross_earn*

По аналогии приведите признак gross_earn к числовому типу данных

Выведите Series ['gross_earn'] для детального просмотра данных

In [None]:
dataset['gross_earn']

Напишите функцию, которая исключит нецифровые символы с помощью регулярных выражений. Подумайте, нужно ли оставлять при этом в них точку.

In [None]:
def clear_gross_earn(gross_earn):

Примените функцию к Series ['gross_earn'] с помощью метода apply()

In [None]:
dataset['gross_earn']

Ошибка TypeError, связанная с тем, что в какой-то момент в функцию попали пропущенные значения, которые она не смогла обработать

Оцените количество пропущенных значений по признаку с помощью метода isna() в связке с методом sum()

In [None]:
dataset['gross_earn']

Необходимо добавить в функцию обработку пустых значений. Для этого импортируйте библиотеку numpy с коротким наименованием np

In [None]:
import

Добавьте в функцию проверку на пустые значения с помощью метода pandas pd.isna(). В случае пропуска она должна вернуть пустое значение np.nan; в ином случае - сохранить алгоритм, написанный ранее (переписывать функцию ниже не нужно; просто изучите, как она работает)

In [None]:
def clear_gross_earn(gross_earn):
  if pd.isna(gross_earn):
    return np.nan
  else:
    return re.sub('[^\d\.]', '', gross_earn)

Примените функцию к Series ['gross_earn'] с помощью метода apply()

In [None]:
dataset['gross_earn']

Создайте столбец gross_earn в исходном датасете, применив функцию к признаку gross_earn

In [None]:
dataset['gross_earn_clear'] =

Выведите Series ['gross_earn_clear'] для оценки результата

In [None]:
dataset['gross_earn_clear']

Приведите признак gross_earn_clear в формат float с помощью метода astype()

In [None]:
dataset['gross_earn_clear']

Код был выполнен. Оцените результат, детально рассмотрев Series ['gross_earn_clear']

In [None]:
dataset['gross_earn_clear']

Выведите информацию о датасете с помощью метода info()

In [None]:
dataset

Все получилось: признаки runtime и gross_earn в числовом формате!

## 6. Сортировка по рейтингу

Отсортируйте датасет в порядке убывания рейтинга фильмов (rating), применив метод sort_values() с переданным в него параметром ascending=False

In [None]:
sorted_dataset =
sorted_dataset.head()

## 7. Переопределение индексов

Переопределите индексы по порядку с помощью метода reset_index() с переданными в него параметрами drop=True для удаления предыдущего столбца индексов и inplace=True для автоматической перезаписи таблицы

In [None]:
sorted_dataset.reset_index(drop=True, inplace=True)
sorted_dataset.head()

## 8. Сохранение датасета

Сохраните датасет под названием movies_clean в формате csv и скачайте его себе на ПК. Он Понадобится Вам при дальнейшем выполнении тренировочных заданий

In [None]:
sorted_dataset.to

**Поздравляем! Часть 1 задания по модулю EDA выполнена! Далее Вас ожидает разведочный анализ данных!**