# Исследовательский анализ данных (фильмы)

*Импорт необходимых библиотек*

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(color_codes=True)

Посмотрим на данные, которые предоставляет нам *kaggle*

In [None]:
df = pd.read_csv("../input/netflix-tv-shows-and-movies/credits.csv")
df.head(7) # отображение первых 7 строк

In [None]:
dft = pd.read_csv("../input/netflix-tv-shows-and-movies/titles.csv")
dft.head(7) # отображение первых 7 строк

Убираем "лишние столбцы" (для удобства восприятия)

In [None]:
dft = dft.drop(['id', 'imdb_id', 'type', 'description', 'imdb_votes', 'tmdb_popularity', 'tmdb_score'], axis = 1)
dft.head(7)

In [None]:
# отбрасываем "пропущенные значения"
dft = dft.dropna()
dft.head(10)

In [None]:
# Общее количество строк и столбцов
dft.shape

In [None]:
# Строки, содержащие дубликаты данных
Duplicate_rows = dft[dft.duplicated()] 
print("Количество повторяющихся строк: ", Duplicate_rows.shape)

Чтобы не вышло неприятных курьезов нам необходимо проверить тип данных (на случай есть данные которые мы предполагаем численного типа, не являются таковыми)

In [None]:
# Проверка типа данных
dft.dtypes

**Перейдем к исследованию данных**

Посмотрим на жанры фильмов, их длительность, страну выпуска и количество сезонов.

In [None]:
dft.genres.value_counts().nlargest(40).plot(kind='bar', figsize=(25,5))
plt.title('Количество фильмов по жанрам') 
plt.ylabel('Количество фильмов') 
plt.xlabel('Жанр');

In [None]:
dft.runtime.value_counts().nlargest(40).plot(kind='bar', figsize=(25,5))
plt.ylabel('Количество фильмов') 
plt.xlabel('Время');

In [None]:
dft.production_countries.value_counts().nlargest(40).plot(kind='bar', figsize=(25,15))
plt.ylabel('Количество фильмов') 
plt.xlabel('Страна');

In [None]:
dft.seasons.value_counts().nlargest(40).plot(kind='bar', figsize=(20,7))
plt.ylabel('Количество фильмов') 
plt.xlabel('Количество сезонов');

Посмотрим на взаимосвязь между годом выпуска, продолжительности, количества сезонов и рейтингом фильмов.

In [None]:
 plt.figure(figsize=(20,10)) 
c= dft.corr() 
sns.heatmap(c,cmap='BrBG',annot=True) 
c

*Проведем анализ тепловой карты.* Мы видим несколько зависимостей, рассмотрим их:

In [None]:
# Пронаблюдаем связь год релиза - длительность фильма
fig, ax = plt.subplots(figsize=(25,7)) 
ax.scatter(dft['release_year'], dft['runtime']) 
ax.set_xlabel('год релиза') 
ax.set_ylabel ('продолжительность') 
plt.show()

На диаграмме видно, что в момент зарождения кинематографии фильмы длились не более часа. Также мы можем проследить количество вышедших за год фильмов, и вплоть до 1990х мы можем говорить о единичных выпусках. Однако в процессе развития кинематографии мы видим как увеличении количества продукции, так их продолжительности. Уже после 2010 года можно найти фильмы, которые длятся буквально пару минут так и те, что придется смотреть несколько часов.

In [None]:
# Пронаблюдаем связь оценка - длительность фильма
fig, ax = plt.subplots(figsize=(25,7)) 
ax.scatter(dft['runtime'], dft['imdb_score']) 
ax.set_xlabel('продолжительность') 
ax.set_ylabel ('оценка') 
plt.show()

Фильмы продолжительностью более 100 минут имеют достаточно высокую оценку. Однако есть множество фильмов до 60 минут которые имеют самый разнообразный рейтинг. Поэтому однозначно утверждать, что чем больше, тем лучше мы не можем.

In [None]:
# Пронаблюдаем связь оценка фильма - количество сезонов
fig, ax = plt.subplots(figsize=(25,7)) 
ax.scatter(dft['seasons'], dft['imdb_score']) 
ax.set_xlabel('seasons') 
ax.set_ylabel ('рейтигн') 
plt.show()

Мы видим несколько проектов, у которых достаточно высокий рейтинг, но при этом они имеют не более 10 сезонов. Также есть несколько фильмов с рейтингом ниже 5, но количеством сезонов 10-20. Что повлияло на такие результаты? Думаю однозначно  ответить на этот вопрос нельзя, так как кроме данных представленных в таблице есть еще ряд факторов влияющих на выпуск фильмов (например, уход актера из проекта, нехватка финансов и т.д.).
Но, несмотря на «исключения» правила, чем выше рейтинг, тем больше сезонов мы видим 3 фильма с рейтингом ~7 количество сезонов, которых близко к 40!

# После проведенного анализа данных, к сожалению, нельзя точно выразить, отчего зависит длительность фильма, его рейтинг, количество сезонов, год показа и т.д. Однако поисследовав эти данные можно установить некоторые закономерности и аналогии.