In [None]:
import pandas as pd
import matplotlib.pyplot as plt

file_path = "bestsellers_with_categories.csv"
df = pd.read_csv(file_path)

print("Перші 5 рядків:")
print(df.head())

print("Розмір датасету (рядків, стовпців):", df.shape)

df.columns = ['name', 'author', 'user_rating', 'reviews', 'price', 'year', 'genre']

missing_data = df.isna().sum()
print("Кількість пропусків у кожному стовпці:")
print(missing_data)

unique_genres = df['genre'].unique()
print("Унікальні жанри:", unique_genres)

plt.figure(figsize=(8, 5))
df['price'].plot(kind='hist', bins=20, color='skyblue')
plt.title("Розподіл цін")
plt.xlabel("Ціна (долари)")
plt.ylabel("Кількість книг")
plt.show()

max_price = df['price'].max()
min_price = df['price'].min()
mean_price = df['price'].mean()
median_price = df['price'].median()

print("Максимальна ціна:", max_price)
print("Мінімальна ціна:", min_price)
print("Середня ціна:", mean_price)
print("Медіанна ціна:", median_price)

max_rating = df['user_rating'].max()
books_with_max_rating = df[df['user_rating'] == max_rating]

print("Книги з найвищим рейтингом:")
print(books_with_max_rating)

book_with_max_reviews = df.loc[df['reviews'].idxmax()]
print("Книга з найбільшою кількістю відгуків:")
print(book_with_max_reviews)

most_expensive_2015 = df[df['year'] == 2015].sort_values(by='price', ascending=False).iloc[0]
print("Найдорожча книга у 2015 році:")
print(most_expensive_2015)

fiction_2010 = df[(df['year'] == 2010) & (df['genre'] == 'Fiction')]
print("Кількість Fiction книг у 2010 році:", len(fiction_2010))

books_4_9 = df[(df['user_rating'] == 4.9) & (df['year'].isin([2010, 2011]))]
print("Кількість книг з рейтингом 4.9 у 2010 та 2011 роках:", len(books_4_9))

sorted_books_2015 = df[(df['year'] == 2015) & (df['price'] < 8)].sort_values(by='price')
print("Остання книга у відсортованому списку:")
print(sorted_books_2015.iloc[-1])

genre_price_stats = df.groupby('genre')['price'].agg(['max', 'min'])
print("Ціна для кожного жанру:")
print(genre_price_stats)

author_book_counts = df.groupby('author')['name'].count().reset_index(name='book_count')
print("Кількість книг для кожного автора:")
print(author_book_counts)

author_avg_rating = df.groupby('author')['user_rating'].mean().reset_index(name='avg_rating')
print("Середній рейтинг для кожного автора:")
print(author_avg_rating)

combined = pd.concat([author_book_counts.set_index('author'), author_avg_rating.set_index('author')], axis=1)
sorted_combined = combined.sort_values(by=['book_count', 'avg_rating'], ascending=[True, True])

print("Об'єднана таблиця, відсортована:")
print(sorted_combined.head())
