In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 1. Odczytaj plik csv (użyj funkcji read_csv)
df = pd.read_csv("C:/Users/micha/Downloads/bestsellers with categories.csv")

# 2. Wyświetl pierwsze pięć wierszy (użyj funkcji head)
print("Pierwsze pięć wierszy:")
print(df.head())

# 3. Wyświetl wymiary zbioru danych (użyj atrybutu shape)
print("\nWymiary zbioru danych:")
print(df.shape)

# Odpowiedź: O ilu książkach przechowywane są dane w zbiorze danych?
print(f"\nOdpowiedź: Dane są przechowywane dla {df.shape[0]} książek.")

# 4. Zmieńmy nazwy kolumn na snake_case
df.columns = ["name", "author", "user_rating", "reviews", "price", "year", "genre"]

# 5. Wyświetl zmienione nazwy kolumn
print("\nZmienione nazwy kolumn:")
print(df.columns)

# 1. Sprawdzenie liczby pustych miejsc (na) w każdej kolumnie
missing_data = df.isna().sum()
print("Liczba pustych miejsc w każdej kolumnie:")
print(missing_data)

# Odpowiedź: Czy są jakieś zmienne z brakującymi wartościami? (Tak/Nie)
if missing_data.sum() == 0:
    print("\nOdpowiedź: Nie, wszystkie zmienne mają pełne dane.")
else:
    print("\nOdpowiedź: Tak, są zmienne z brakującymi wartościami.")

# 2. Sprawdzenie unikalnych wartości w kolumnie genre
unique_genres = df["genre"].unique()
print("\nUnikalne gatunki:")
print(unique_genres)

# 3. Tworzenie histogramu dla rozkładu cen
df["price"].hist(bins=20)
plt.title("Rozkład cen książek")
plt.xlabel("Cena (USD)")
plt.ylabel("Liczba książek")
plt.show()

# 4. Maksymalna, minimalna, średnia i medianowa cena
max_price = df["price"].max()
min_price = df["price"].min()
mean_price = df["price"].mean()
median_price = df["price"].median()

print("\nCena maksymalna:", max_price)
print("Cena minimalna:", min_price)
print("Średnia cena:", round(mean_price, 2))
print("Mediana ceny:", median_price)

# 5. Znalezienie najwyższej oceny w zbiorze danych
highest_rating = df["user_rating"].max()
print("\nNajwyższa ocena w zbiorze danych:", highest_rating)

# 6. Liczba książek z najwyższą oceną
books_with_highest_rating = df[df["user_rating"] == highest_rating].shape[0]
print("Liczba książek z najwyższą oceną:", books_with_highest_rating)

# 7. Książka z największą liczbą recenzji
most_reviews = df[df["reviews"] == df["reviews"].max()]["name"].iloc[0]
print("Książka z największą liczbą recenzji:", most_reviews)

# 8. Najdroższa książka z Top 50 w 2015 roku
most_expensive_2015 = (
    df[(df["year"] == 2015)].sort_values(by="price", ascending=False).iloc[0]["name"]
)
print("Najdroższa książka z Top 50 w 2015 roku:", most_expensive_2015)

# 9. Ile książek z gatunku Fiction znalazło się w Top 50 w 2010 roku?
fiction_2010_count = df[(df["genre"] == "Fiction") & (df["year"] == 2010)].shape[0]
print("Liczba książek z gatunku Fiction w Top 50 w 2010 roku:", fiction_2010_count)

# 10. Ile książek z oceną 4.9 znalazło się w rankingu w 2010 i 2011 roku?
high_rating_books = df[
    (df["user_rating"] == 4.9) & (df["year"].isin([2010, 2011]))
].shape[0]
print("Liczba książek z oceną 4,9 w 2010 i 2011 roku:", high_rating_books)

# 11. Posortowanie książek z 2015 roku o cenie mniejszej niż 8 USD
sorted_books_2015 = df[(df["year"] == 2015) & (df["price"] < 8)].sort_values(by="price")
last_book_sorted = sorted_books_2015.iloc[-1]["name"]
print("Ostatnia książka na posortowanej liście z 2015 roku:", last_book_sorted)

# 12. Maksymalne i minimalne ceny dla każdego gatunku
price_stats = (
    df.groupby("genre")
    .agg(max_price=("price", "max"), min_price=("price", "min"))
    .reset_index()
)
print(price_stats)

# 13.Odpowiedzi na pytania o maksymalne i minimalne ceny
max_fiction_price = price_stats[price_stats["genre"] == "Fiction"]["max_price"].values[
    0
]
min_fiction_price = price_stats[price_stats["genre"] == "Fiction"]["min_price"].values[
    0
]
max_non_fiction_price = price_stats[price_stats["genre"] == "Non Fiction"][
    "max_price"
].values[0]
min_non_fiction_price = price_stats[price_stats["genre"] == "Non Fiction"][
    "min_price"
].values[0]

# 14.Wyświetlanie odpowiedzi
print("\nMaksymalna cena dla gatunku Fiction:", max_fiction_price)
print("Minimalna cena dla gatunku Fiction:", min_fiction_price)
print("Maksymalna cena dla gatunku Non Fiction:", max_non_fiction_price)
print("Minimalna cena dla gatunku Non Fiction:", min_non_fiction_price)

# 15.Tworzenie nowej ramki danych z liczbą książek dla każdego autora
author_book_count = df.groupby("author").agg(book_count=("name", "count")).reset_index()
print("\nWymiar tabeli z liczbą książek dla każdego autora:", author_book_count.shape)

# 16.Autor z największą liczbą książek
most_books_author = author_book_count[
    author_book_count["book_count"] == author_book_count["book_count"].max()
]["author"].iloc[0]
most_books_count = author_book_count["book_count"].max()
print("Autor z największą liczbą książek:", most_books_author)
print("Liczba książek tego autora:", most_books_count)

# 17.Tworzenie ramki danych z średnią oceną dla każdego autora
author_avg_rating = (
    df.groupby("author").agg(avg_rating=("user_rating", "mean")).reset_index()
)

# 18.Autor z najniższą średnią oceną
lowest_avg_rating_author = author_avg_rating[
    author_avg_rating["avg_rating"] == author_avg_rating["avg_rating"].min()
]["author"].iloc[0]
lowest_avg_rating = author_avg_rating["avg_rating"].min()
print("\nAutor z najniższą średnią oceną:", lowest_avg_rating_author)
print("Średnia ocena tego autora:", round(lowest_avg_rating, 2))

# 19.Połączenie dwóch ramek danych: liczba książek i średnia ocena dla każdego autora
author_data = pd.concat([author_book_count, author_avg_rating["avg_rating"]], axis=1)

# 20.Posortowanie według rosnącej liczby książek i rosnącej oceny
sorted_author_data = author_data.sort_values(
    by=["book_count", "avg_rating"], ascending=True
)

# 21.Pierwszy autor na posortowanej liście
first_author = sorted_author_data.iloc[0]["author"]
print("\nPierwszy autor na posortowanej liście:", first_author)

# 1. Histogram cen książek
plt.figure(figsize=(8, 6))
plt.hist(df["price"], bins=5, color="skyblue", edgecolor="black")
plt.title("Histogram cen książek")
plt.xlabel("Cena ($)")
plt.ylabel("Liczba książek")
plt.grid(True)
plt.show()

# 2. Wykres słupkowy średnich ocen użytkowników dla różnych gatunków
avg_ratings_per_genre = df.groupby("genre")["user_rating"].mean()
plt.figure(figsize=(8, 6))
avg_ratings_per_genre.plot(kind="bar", color=["orange", "lightgreen"])
plt.title("Średnia ocena użytkowników według gatunku")
plt.xlabel("Gatunek")
plt.ylabel("Średnia ocena użytkowników")
plt.show()

# 3. Wykres kołowy udziału książek w różnych przedziałach cenowych
price_categories = ["Tanie", "Średnie", "Droższe"]
df["Price Category"] = pd.cut(
    df["price"], bins=[0, 10, 15, 25], labels=price_categories
)
price_distribution = df["Price Category"].value_counts()
plt.figure(figsize=(8, 6))
plt.pie(
    price_distribution,
    labels=price_distribution.index,
    autopct="%1.1f%%",
    colors=["lightcoral", "gold", "lightskyblue"],
)
plt.title("Udział książek w przedziałach cenowych")
plt.show()

