In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Настройка шрифта для отображения русских символов
plt.rcParams['font.family'] = 'Arial'  # Можно выбрать другой шрифт, если Arial не поддерживает кириллицу

# Загрузка данных
path = "/Users/macbookbro/.cache/kagglehub/datasets/kanametov/movies-recomendation-system/versions/1"
movies_df = pd.read_csv(f"{path}/movies.csv")
links_df = pd.read_csv(f"{path}/links.csv")
ratings_df = pd.read_csv(f"{path}/ratings.csv")
tags_df = pd.read_csv(f"{path}/tags.csv")

# Удаление дубликатов
movies_df = movies_df.drop_duplicates().reset_index(drop=True)
links_df = links_df.drop_duplicates().reset_index(drop=True)
ratings_df = ratings_df.drop_duplicates().reset_index(drop=True)
tags_df = tags_df.drop_duplicates().reset_index(drop=True)

# Проверка пропусков и их удаление
movies_df = movies_df.dropna()
links_df = links_df.dropna()
ratings_df = ratings_df.dropna()
tags_df = tags_df.dropna()

# Построение графиков

# График корреляции
corr_matrix = ratings_df.corr()  # Теперь 'ratings_df' определен
plt.figure(figsize=(10, 7))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title("Корреляционная матрица для рейтингов")
plt.savefig('correlation_matrix.png', bbox_inches='tight')  # Сохраняем график в файл
plt.show()  # Убедись, что график отображается
plt.close()

# 1. Гистограмма распределения рейтингов пользователей
plt.figure(figsize=(8, 6))
sns.histplot(ratings_df['rating'], bins=20, kde=True, color='blue')
plt.title("Распределение рейтингов пользователей")
plt.xlabel('Рейтинг')
plt.ylabel('Частота')
plt.savefig('rating_distribution.png', bbox_inches='tight')  # Сохраняем график в файл
plt.show()
plt.close()

# 2. Гистограмма распределения количества оценок для фильмов
movie_ratings_count = ratings_df.groupby('movieId').size().reset_index(name='count')

plt.figure(figsize=(8, 6))
sns.histplot(movie_ratings_count['count'], bins=50, kde=True, color='green')
plt.title("Распределение количества оценок для фильмов")
plt.xlabel('Количество оценок')
plt.ylabel('Частота')
plt.savefig('ratings_count_distribution.png', bbox_inches='tight')  # Сохраняем график в файл
plt.show()
plt.close()

# 3. Топ-10 популярных фильмов по количеству оценок
top_movies_by_ratings = movie_ratings_count.sort_values('count', ascending=False).head(10)

plt.figure(figsize=(8, 6))
sns.barplot(x='movieId', y='count', data=top_movies_by_ratings, palette='viridis')
plt.title("Топ-10 популярных фильмов по количеству оценок")
plt.xlabel('ID фильма')
plt.ylabel('Количество оценок')
plt.xticks(rotation=45)
plt.savefig('top_movies_by_ratings.png', bbox_inches='tight')  # Сохраняем график в файл
plt.show()
plt.close()

# 4. Средний рейтинг по фильмам
avg_movie_rating = ratings_df.groupby('movieId')['rating'].mean().reset_index()
avg_movie_rating = avg_movie_rating.sort_values(by='rating', ascending=False).head(10)

plt.figure(figsize=(8, 6))
sns.barplot(x='movieId', y='rating', data=avg_movie_rating, palette='Blues')
plt.title("Топ-10 фильмов по среднему рейтингу")
plt.xlabel('ID фильма')
plt.ylabel('Средний рейтинг')
plt.xticks(rotation=45)
plt.savefig('top_movies_by_avg_rating.png', bbox_inches='tight')  # Сохраняем график в файл
plt.show()
plt.close()

# 5. Средний рейтинг по жанрам (если данные о жанрах включены в movies_df)
movies_df['genres'] = movies_df['genres'].str.split('|')
genres_expanded = movies_df.explode('genres')

# Средний рейтинг по жанрам
avg_genre_rating = ratings_df.merge(genres_expanded[['movieId', 'genres']], on='movieId')
avg_genre_rating = avg_genre_rating.groupby('genres')['rating'].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(x='rating', y='genres', data=avg_genre_rating.sort_values(by='rating', ascending=False).head(10), palette='coolwarm')
plt.title("Топ-10 жанров по среднему рейтингу")
plt.xlabel('Средний рейтинг')
plt.ylabel('Жанр')
plt.savefig('top_genres_by_avg_rating.png', bbox_inches='tight')  # Сохраняем график в файл
plt.show()
plt.close()
