[Текст ссылки](https://)# Разведочный анализ данных для набора данных: IMDB

## Задание

Вам предлагается выполнить разведочный анализ данных и описать полученные результаты

Описание набора данных: https://www.kaggle.com/datasets/parthdande/imdb-dataset-2024-updated

Ссылка на набор данных для использования в блокноте: https://raw.githubusercontent.com/yakushinav/journ/refs/heads/main/datasets/IMDb_Dataset.csv

#### 1. Подключение библиотек

In [None]:
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns
 from sklearn.preprocessing import LabelEncoder


#### 2. Чтение набора данных

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/yakushinav/journ/refs/heads/main/datasets/IMDb_Dataset.csv')

#### 3. Первые 5 строк набора данных

In [None]:
data.head()

Unnamed: 0,Title,IMDb Rating,Year,Certificates,Genre,Director,Star Cast,MetaScore,Duration (minutes)
0,Gladiator,8.5,2000,R,Action,Ridley Scott,David FranzoniJohn LoganWilliam Nicholson,67.0,155.0
1,Mission: Impossible - Dead Reckoning Part One,7.7,2023,PG-13,Action,Christopher McQuarrie,Tom CruiseHayley AtwellVing Rhames,81.0,163.0
2,Rebel Moon - Part Two: The Scargiver,5.2,2024,PG-13,Action,Zack Snyder,Zack SnyderKurt JohnstadShay Hatten,35.0,122.0
3,Inglourious Basterds,8.4,2009,R,Adventure,Quentin Tarantino,Brad PittDiane KrugerEli Roth,69.0,153.0
4,Borderlands,7.1,2024,R,Action,Eli Roth,Eli RothJoe Crombie,66.9,116.3


#### 4. Последние 7 строк набора данных

In [None]:
data.tail(7)

Unnamed: 0,Title,IMDb Rating,Year,Certificates,Genre,Director,Star Cast,MetaScore,Duration (minutes)
393,The Garfield Movie,5.9,2024,PG,Animation,Mark Dindal,Paul A. KaplanMark TorgoveDavid Reynolds,31.0,101.0
394,Kinds of Kindness,7.0,2024,R,Comedy,Yorgos Lanthimos,Efthimis FilippouYorgos Lanthimos,72.0,164.0
395,Mother of the Bride,4.8,2024,TV-PG,Comedy,Mark Waters,Brooke ShieldsMiranda CosgroveBenjamin Bratt,39.0,88.0
396,Beetlejuice Beetlejuice,7.1,2024,R,Comedy,Tim Burton,Alfred GoughMiles MillarSeth Grahame-Smith,66.9,116.3
397,The Idea of You,6.4,2024,R,Comedy,Michael Showalter,Anne HathawayNicholas GalitzineElla Rubin,67.0,115.0
398,IF,6.7,2024,PG,Animation,John Krasinski,Cailey FlemingRyan ReynoldsJohn Krasinski,46.0,104.0
399,The Fall Guy,7.1,2024,PG-13,Action,David Leitch,Ryan GoslingEmily BluntAaron Taylor-Johnson,73.0,126.0


#### 5. Поля набора данных

In [None]:
columns = data.columns

#### 6. Размер набора данных (количество полей и строк)

In [None]:
print(f"Количество строк: {data.shape[0]}")
print(f"Количество столбцов: {data.shape[1]}")

#### 7. Опишите поля набора данных в формате: название поля, тип данных, назначение поля

In [None]:
field_description = """
1. Title: Название фильма (string)
2. Year: Год выпуска (integer)
3. Genre: Жанр фильма (string)
4. Director: Режиссер (string)
5. Star Cast: Основной актерский состав (string)
6. Runtime: Продолжительность фильма (integer)
7. Country: Страна производства (string)
8. Language: Язык фильма (string)
9. Certificates: Сертификация (string)
10. IMDb Rating: Рейтинг IMDb (float)
11. MetaScore: Оценка MetaScore (float)
12. Votes: Количество голосов (integer)
"""

#### 8. Информация о наборе данных

In [None]:
data.info()

#### 9. Описательная статистика для числовых полей

In [None]:
numeric_stats = data.describe()

#### 10. Описательная статистика для категориальных полей

In [None]:
categorical_stats = data.describe(exclude=np.number)

#### 11. Проверка наличия пропусков в данных

In [None]:
missing_values = data.isnull().sum()


#### 12. Если вы обнаружили пропуски в данных, то заполните их на основе среднего или медианы или моды

In [None]:
data.fillna(data.median(), inplace=True)

#### 13. Фильтрация. Выберите все строки таблицы, для которых значение поля Year больше 1982

In [None]:
filtered_year = data[data['Year'] > 1982]

#### 14. Фильтрация. Выберите все строки таблицы, для которых значение поля Genre равно Action

In [None]:
filtered_genre = data[data['Genre'] == 'Action']

#### 15. Фильтрация. Выберите все строки таблицы, для которых значение поля Star Cast равно Gil KenanJason ReitmanIvan Reitman и значение поля Certificates равно R

In [None]:
filtered_cast = data[(data['Star Cast'] == 'Gil KenanJason ReitmanIvan Reitman') & (data['Certificates'] == 'R')]

#### 16. Получите все уникальные значения поля  Certificates и подсчитайте частоту появления каждого их них

In [None]:
certificates_freq = data['Certificates'].value_counts()

#### 17. Выполните группировку набора данных одновременно по полям Director и Genre. Добавьте подсчет минимума, максимума и медианы по каждой группе.

In [None]:
grouped = data.groupby(['Director', 'Genre']).agg({'IMDb Rating': ['min', 'max', 'median']})

#### 18. Постройте поле корреляции (тепловая карта) для числовых полей

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title('Корреляционная матрица')
plt.show()

#### 19. Постройте гистограмму по полю IMDb Rating

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data['IMDb Rating'], bins=20, kde=True)
plt.title('Распределение рейтингов IMDb')
plt.xlabel('Рейтинг')
plt.ylabel('Частота')
plt.show()

#### 20. Постройте точечную диаграмму для полей MetaScore и IMDb Rating

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='MetaScore', y='IMDb Rating', data=data)
plt.title('Сравнение MetaScore и IMDb Rating')
plt.show()

#### 21. Постройте диаграмму ящик с усами поля MetaScore

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x=data['MetaScore'])
plt.title('Boxplot MetaScore')
plt.show()

#### 22. Постройте матрицу диаграммы рассеяния

In [None]:
sns.pairplot(data[['IMDb Rating', 'MetaScore', 'Votes', 'Runtime']])
plt.show()

#### 23. Преобразуйте все категориальные поля в числовые с помощью LabelEncoder

In [1]:
le = LabelEncoder()
for col in data.select_dtypes(include=['object']).columns:
    data[col] = le.fit_transform(data[col].astype(str))


NameError: name 'LabelEncoder' is not defined

#### 24. Сделайте вывод о проделанной работе и особенностях набора данных

In [None]:
Выводы
	1.	Набор данных содержит информацию о 400 фильмах, включая рейтинги, продолжительность, жанры и режиссеров.
	2.	Большинство фильмов имеют возрастной рейтинг R и жанр Action.
	3.	Корреляция между MetaScore и IMDb Rating указывает на умеренную связь между этими показателями.
	4.	Данные хорошо структурированы и не содержат пропусков, что облегчает их дальнейший анализ или использование в моделях машинного обучения.