In [None]:
import pandas as pd
import matplotlib.pyplot as plt

file_path = 'bestsellers_with_categories.csv'
df = pd.read_csv(file_path)

print("Перші п'ять рядків таблиці:")
print(df.head())

print("\nРозміри датасету:")
print(df.shape)


In [None]:
df.columns = ['name', 'author', 'user_rating', 'reviews', 'price', 'year', 'genre']
print("\nЗмінені назви колонок:")
print(df.columns)


In [None]:
missing_values = df.isna().sum()
print("\nКількість пропусків у кожному стовпці:")
print(missing_values)

print("\nУнікальні жанри:")
print(unique_genres)


In [None]:
df['price'].hist(bins=30)
plt.xlabel('Price')
plt.ylabel('Frequency')
plt.title('Price Distribution')
plt.show()

max_price = df['price'].max()
min_price = df['price'].min()
mean_price = df['price'].mean()
median_price = df['price'].median()

print("\nМаксимальна ціна:", max_price)
print("Мінімальна ціна:", min_price)
print("Середня ціна:", mean_price)
print("Медіанна ціна:", median_price)


In [None]:
highest_rating = df['user_rating'].max()
print("\nНайвищий рейтинг у датасеті:", highest_rating)

num_books_highest_rating = df[df['user_rating'] == highest_rating].shape[0]
print("Кількість книг з найвищим рейтингом:", num_books_highest_rating)

most_reviews_book = df[df['reviews'] == df['reviews'].max()]['name'].values[0]
print("\nКнига з найбільшою кількістю відгуків:", most_reviews_book)

most_expensive_2015 = df[df['year'] == 2015].sort_values('price', ascending=False).iloc[0]
print("Найдорожча книга 2015 року:", most_expensive_2015['name'])

num_fiction_2010 = df[(df['genre'] == 'Fiction') & (df['year'] == 2010)].shape[0]
print("Кількість книг жанру Fiction у 2010 році:", num_fiction_2010)

num_books_4_9 = df[(df['user_rating'] == 4.9) & (df['year'].isin([2010, 2011]))].shape[0]
print("Кількість книг з рейтингом 4.9 у 2010 та 2011 роках:", num_books_4_9)

sorted_books_2015 = df[(df['year'] == 2015) & (df['price'] < 8)].sort_values('price')
print("\nОстання книга у відсортованому списку (2015 рік, ціна < 8 доларів):")
print(sorted_books_2015.tail(1)['name'].values[0])


In [None]:
genre_price_stats = df.groupby('genre')['price'].agg(['max', 'min']).reset_index()
print("\nЦіни для кожного жанру:")
print(genre_price_stats)

max_price_fiction = genre_price_stats[genre_price_stats['genre'] == 'Fiction']['max'].values[0]
print("Максимальна ціна для жанру Fiction:", max_price_fiction)

min_price_fiction = genre_price_stats[genre_price_stats['genre'] == 'Fiction']['min'].values[0]
print("Мінімальна ціна для жанру Fiction:", min_price_fiction)

max_price_non_fiction = genre_price_stats[genre_price_stats['genre'] == 'Non Fiction']['max'].values[0]
print("Максимальна ціна для жанру Non Fiction:", max_price_non_fiction)

min_price_non_fiction = genre_price_stats[genre_price_stats['genre'] == 'Non Fiction']['min'].values[0]
print("Мінімальна ціна для жанру Non Fiction:", min_price_non_fiction)

author_book_count = df.groupby('author')['name'].count().reset_index()
author_book_count.columns = ['author', 'book_count']
print("\nКількість книг для кожного автора:")
print(author_book_count)

print("Розмірність таблиці author_book_count:", author_book_count.shape)

top_author = author_book_count[author_book_count['book_count'] == author_book_count['book_count'].max()]['author'].values[0]
print("Автор з найбільшою кількістю книг:", top_author)

top_author_book_count = author_book_count[author_book_count['author'] == top_author]['book_count'].values[0]
print("Кількість книг цього автора:", top_author_book_count)

author_avg_rating = df.groupby('author')['user_rating'].mean().reset_index()
author_avg_rating.columns = ['author', 'avg_rating']
print("\nСередній рейтинг для кожного автора:")
print(author_avg_rating)

min_avg_rating_author = author_avg_rating[author_avg_rating['avg_rating'] == author_avg_rating['avg_rating'].min()]['author'].values[0]
print("Автор з мінімальним середнім рейтингом:", min_avg_rating_author)

min_avg_rating = author_avg_rating[author_avg_rating['author'] == min_avg_rating_author]['avg_rating'].values[0]
print("Середній рейтинг цього автора:", min_avg_rating)

combined_df = pd.concat([author_book_count.set_index('author'), author_avg_rating.set_index('author')], axis=1).reset_index()
print("\nОб'єднаний датафрейм:")
print(combined_df)

sorted_combined_df = combined_df.sort_values(by=['book_count', 'avg_rating'])
print("\nВідсортований об'єднаний датафрейм:")
print(sorted_combined_df)

first_author = sorted_combined_df.iloc[0]['author']
print("Перший автор у списку:", first_author)
