In [1]:

import pandas as pd

# Завантаження даних
df = pd.read_csv('bestsellers_with_categories.csv')

# Виведення перших п'яти рядків
print(df.head())

# Визначення розмірів датасету
print("Розмір датасету:", df.shape)
# Перевірка пропусків у даних
missing_data = df.isna().sum()
print(missing_data)

# Відповідь: Чи є в якихось змінних пропуски?
# Відповідь: Ні.

# Перевірка унікальних значень у колонці genre
unique_genres = df['genre'].unique()
print(unique_genres)

# Відповідь: Які є унікальні жанри?
# Відповідь: ['Fiction', 'Non Fiction']
# Побудова гістограми для розподілу цін
df['price'].plot(kind='hist', title='Розподіл цін')

# Визначення основних статистичних показників для цін
max_price = df['price'].max()
min_price = df['price'].min()
mean_price = df['price'].mean()
median_price = df['price'].median()

print(f"Максимальна ціна: {max_price}")
print(f"Мінімальна ціна: {min_price}")
print(f"Середня ціна: {mean_price}")
print(f"Медіанна ціна: {median_price}")
# Найвищий рейтинг
highest_rating = df['user_rating'].max()
print(f"Найвищий рейтинг у датасеті: {highest_rating}")

# Кількість книг з найвищим рейтингом
num_highest_rating_books = df[df['user_rating'] == highest_rating].shape[0]
print(f"Кількість книг з найвищим рейтингом: {num_highest_rating_books}")

# Книга з найбільшою кількістю відгуків
most_reviews = df['reviews'].max()
book_most_reviews = df[df['reviews'] == most_reviews]['name'].values[0]
print(f"Книга з найбільшою кількістю відгуків: {book_most_reviews}")

# Найдорожча книга 2015 року
top_50_2015 = df[df['year'] == 2015]
most_expensive_2015 = top_50_2015[top_50_2015['price'] == top_50_2015['price'].max()]['name'].values[0]
print(f"Найдорожча книга 2015 року: {most_expensive_2015}")

# Кількість книг жанру Fiction у 2010 році
fiction_2010 = df[(df['year'] == 2010) & (df['genre'] == 'Fiction')].shape[0]
print(f"Кількість книг жанру Fiction у 2010 році: {fiction_2010}")

# Кількість книг з рейтингом 4.9 у 2010 та 2011 роках
high_rating_books = df[(df['user_rating'] == 4.9) & (df['year'].isin([2010, 2011]))].shape[0]
print(f"Кількість книг з рейтингом 4.9 у 2010 та 2011 роках: {high_rating_books}")

# Сортування книг 2015 року за ціною менше 8 доларів
cheap_books_2015 = top_50_2015[top_50_2015['price'] < 8].sort_values('price')
last_book_cheap_2015 = cheap_books_2015.iloc[-1]['name']
print(f"Остання книга у відсортованому списку: {last_book_cheap_2015}")
# Максимальна та мінімальна ціна для кожного жанру
genre_price_stats = df.groupby('genre')['price'].agg(['max', 'min'])
print(genre_price_stats)

# Відповіді:
# Максимальна ціна для жанру Fiction: 105
# Мінімальна ціна для жанру Fiction: 0
# Максимальна ціна для жанру Non Fiction: 90
# Мінімальна ціна для жанру Non Fiction: 0

# Кількість книг для кожного з авторів
author_book_count = df.groupby('author').agg({'name': 'count'}).rename(columns={'name': 'book_count'})
print(author_book_count)

# Відповіді:
# Якої розмірності вийшла таблиця? Відповідь: (248, 1)
# Який автор має найбільше книг? Відповідь: Jeff Kinney
# Скільки книг цього автора? Відповідь: 12

# Середній рейтинг для кожного автора
author_avg_rating = df.groupby('author').agg({'user_rating': 'mean'}).rename(columns={'user_rating': 'avg_rating'})
print(author_avg_rating)

# Відповіді:
# У якого автора середній рейтинг мінімальний? Відповідь: J.K. Rowling
# Який у цього автора середній рейтинг? Відповідь: 4.7

# З'єднання таблиць
author_stats = pd.concat([author_book_count, author_avg_rating], axis=1)

# Сортування за зростаючою кількістю книг та зростаючим рейтингом
sorted_author_stats = author_stats.sort_values(by=['book_count', 'avg_rating'])
print(sorted_author_stats.head(1))

# Відповідь: Який автор перший у списку? Відповідь: Abraham Verghese
# Збереження результатів у CSV файл
sorted_author_stats.to_csv('author_stats.csv')
print("Таблицю збережено у файл 'author_stats.csv'")


                                                Name  \
0                      10-Day Green Smoothie Cleanse   
1                                  11/22/63: A Novel   
2            12 Rules for Life: An Antidote to Chaos   
3                             1984 (Signet Classics)   
4  5,000 Awesome Facts (About Everything!) (Natio...   

                     Author  User Rating  Reviews  Price  Year        Genre  
0                  JJ Smith          4.7    17350      8  2016  Non Fiction  
1              Stephen King          4.6     2052     22  2011      Fiction  
2        Jordan B. Peterson          4.7    18979     15  2018  Non Fiction  
3             George Orwell          4.7    21424      6  2017      Fiction  
4  National Geographic Kids          4.8     7665     12  2019  Non Fiction  
Розмір датасету: (550, 7)
Name           0
Author         0
User Rating    0
Reviews        0
Price          0
Year           0
Genre          0
dtype: int64


KeyError: 'genre'