<a href="https://colab.research.google.com/github/KarynaVyl/KarynaVyl/blob/main/netflix-genres-analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Імпортуємо необхідні бібліотеки
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Налаштовуємо стиль графіків
sns.set(style="whitegrid")

# Завантажуємо датасет
df = pd.read_csv('netflix_data.csv')

# Переглядаємо перші кілька рядків датасету
print(df.head())

# Перевіряємо наявність пропущених значень
print(df.isnull().sum())

# Очищення даних: видаляємо рядки з пропущеними значеннями у колонці 'listed_in'
df = df.dropna(subset=['listed_in'])

# Розділяємо жанри, якщо вони представлені як список через кому
df['listed_in'] = df['listed_in'].str.split(', ')

# Трансформуємо дані для аналізу: кожен жанр в окремому рядку
genres_expanded = df.explode('listed_in')

# Підрахунок кількості контенту за жанрами
genre_counts = genres_expanded['listed_in'].value_counts()

# Підрахунок кількості контенту за типами (фільми/шоу) та жанрами
genre_type_counts = genres_expanded.groupby(['listed_in', 'type']).size().unstack(fill_value=0)

# Візуалізація розподілу жанрів
plt.figure(figsize=(12, 8))
sns.barplot(x=genre_counts.values, y=genre_counts.index, palette='viridis')
plt.title('Розподіл контенту за жанрами на Netflix')
plt.xlabel('Кількість')
plt.ylabel('Жанр')
plt.show()

# Візуалізація розподілу жанрів за типами контенту
genre_type_counts.plot(kind='bar', stacked=True, figsize=(14, 8), colormap='viridis')
plt.title('Розподіл жанрів за типами контенту на Netflix')
plt.xlabel('Жанр')
plt.ylabel('Кількість')
plt.legend(title='Тип контенту')
plt.show()
