Collecting ipyturtle3
  Downloading ipyturtle3-0.1.4-py3-none-any.whl.metadata (2.1 kB)
Collecting ipycanvas (from ipyturtle3)
  Downloading ipycanvas-0.13.3-py2.py3-none-any.whl.metadata (6.3 kB)
Collecting jedi>=0.16 (from ipython>=4.0.0->ipywidgets<9,>=7.6.0->ipycanvas->ipyturtle3)
  Downloading jedi-0.19.2-py2.py3-none-any.whl.metadata (22 kB)
Downloading ipyturtle3-0.1.4-py3-none-any.whl (6.8 kB)
Downloading ipycanvas-0.13.3-py2.py3-none-any.whl (125 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m125.8/125.8 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jedi-0.19.2-py2.py3-none-any.whl (1.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m28.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: jedi, ipycanvas, ipyturtle3
Successfully installed ipycanvas-0.13.3 ipyturtle3-0.1.4 jedi-0.19.2


In [22]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from tabulate import tabulate

# Загрузка данных
df = pd.read_csv('netflix_titles.csv')

# Предварительный анализ данных
print("Первые 5 строк данных:")
df_head = df.head().reset_index(drop=True)
df_head.index += 1
print(tabulate(df_head, headers='keys', tablefmt='pretty', stralign='left'))

print("\nИнформация о данных:")
print(df.info())

print("\nОписательная статистика:")
print(tabulate(df.describe(), headers='keys', tablefmt='pretty', stralign='left'))

print("\nПропущенные значения:")
missing_values = df.isnull().sum().rename_axis('Колонка').reset_index(name='Количество пропусков')
missing_values.index += 1
print(tabulate(missing_values, headers='keys', tablefmt='pretty', stralign='left'))

# Обработка данных
df = df.dropna(subset=['country', 'rating', 'release_year'])

df['release_year'] = pd.to_datetime(df['release_year'], format='%Y')
valid_ratings = ['TV-MA', 'TV-14', 'TV-PG', 'R', 'PG-13', 'TV-Y7', 'TV-Y', 'PG', 'G', 'NC-17', 'TV-G']
df = df[df['rating'].isin(valid_ratings)]

# Анализ данных
# 1. Количество фильмов и сериалов
content_type_counts = df['type'].value_counts()
print("\nСоотношение фильмов и сериалов:")
print(content_type_counts)

# 2. Топ-10 стран по производству контента
top_countries = df['country'].value_counts().head(10)
print("\nТоп-10 стран по производству контента:")
print(top_countries)

# 3. Распределение по рейтингам
rating_counts = df['rating'].value_counts()
print("\nРаспределение по рейтингам:")
print(rating_counts)

# 4. Количество контента по годам
yearly_content = df['release_year'].dt.year.value_counts().sort_index()
print("\nКоличество контента по годам:")
print(yearly_content)

sns.set_style("whitegrid")

# 1. Количество фильмов и сериалов (круговая диаграмма)
fig = px.pie(content_type_counts, values=content_type_counts.values, names=content_type_counts.index,
             title='Соотношение фильмов и сериалов на Netflix', color_discrete_sequence=px.colors.sequential.Reds)
fig.show()

# 2. Топ-10 стран по производству контента (столбчатая диаграмма)
fig = px.bar(top_countries, x=top_countries.values, y=top_countries.index, orientation='h',
             title='Топ-10 стран по производству контента', labels={'x': 'Количество', 'y': 'Страна'},
             color=top_countries.values, color_continuous_scale=px.colors.sequential.Reds)
fig.show()

# 3. Распределение по рейтингам (столбчатая диаграмма)
fig = px.bar(rating_counts, x=rating_counts.index, y=rating_counts.values,
             title='Распределение контента по рейтингам', labels={'x': 'Рейтинг', 'y': 'Количество'},
             color=rating_counts.values, color_continuous_scale=px.colors.sequential.Reds)
fig.show()

# 4. Количество контента по годам (линейный график)
fig = px.line(yearly_content, x=yearly_content.index, y=yearly_content.values,
              title='Количество контента на Netflix по годам', labels={'x': 'Год', 'y': 'Количество'},
              markers=True, color_discrete_sequence=['#E50914'])
fig.show()

# 1. Сохранение топ-10 стран по производству контента в CSV
top_countries.to_csv('top_countries_netflix.csv')

# 2. Сохранение графиков
plt.savefig('netflix_content_analysis.png', dpi=300, bbox_inches='tight')
print("\nВыводы:")
print("1. Большинство контента на Netflix — это фильмы ({}%), а не сериалы ({}%).".format(
    round(content_type_counts['Movie'] / content_type_counts.sum() * 100, 2),
    round(content_type_counts['TV Show'] / content_type_counts.sum() * 100, 2)))
print("2. Самые популярные рейтинги: TV-MA ({}%), TV-14 ({}%).".format(
    round(rating_counts['TV-MA'] / rating_counts.sum() * 100, 2),
    round(rating_counts['TV-14'] / rating_counts.sum() * 100, 2)))
print("3. Больше всего контента производится в США ({}%), Индии ({}%) и Великобритании ({}%).".format(
    round(top_countries['United States'] / top_countries.sum() * 100, 2),
    round(top_countries['India'] / top_countries.sum() * 100, 2),
    round(top_countries['United Kingdom'] / top_countries.sum() * 100, 2)))
print("4. Количество контента на Netflix резко увеличилось после 2015 года.")

Первые 5 строк данных:
+---+---------+---------+-----------------------+-----------------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+---------------+--------------------+--------------+--------+-----------+---------------------------------------------------------------+----------------------------------------------------------------------------------------------------------------------------------------------------------+
|   | show_id | type    | title                 | director        | cast                                                                                                                                                                                                                                               


Выводы:
1. Большинство контента на Netflix — это фильмы (71.11%), а не сериалы (28.89%).
2. Самые популярные рейтинги: TV-MA (37.19%), TV-14 (24.49%).
3. Больше всего контента производится в США (52.85%), Индии (18.4%) и Великобритании (7.88%).
4. Количество контента на Netflix резко увеличилось после 2015 года.


<Figure size 640x480 with 0 Axes>