In [None]:
# Dessa bibliotek är grundläggande verktyg inom dataanalys och visualisering i Python. 
# Varje bibliotek har sin egen uppsättning funktioner och användningsområden:

# Numpy 
# ...är ett bibliotek för vetenskaplig beräkning i Python. 
# Det tillhandahåller stöd för stora, flerdimensionella arrayer och matriser, 
# tillsammans med en stor samling matematiska funktioner för att operera på 
# dessa arrayer. Användningen av Numpy möjliggör effektiv beräkning och 
# manipulation av data, vilket är fundamentalt inom dataanalys, maskininlärning, 
# och mer komplexa vetenskapliga beräkningar. Genom att importera Numpy som np 
# (en vanlig konvention) får man enkel tillgång till alla dess funktioner med 
# ett kort prefix.

# Pandas 
# ...är ett bibliotek som tillhandahåller högnivå datastrukturer och 
# verktyg för dataanalys med Python. Dess centrala datastruktur, DataFrame, 
# gör det möjligt att lagra och manipulera tabellformad data 
# (dvs. data med rader och kolumner) på ett effektivt sätt. 
# Pandas är särskilt användbart för dataförberedelse, rensning, och analys. 
# Det erbjuder också funktioner för att läsa och skriva data mellan olika format 
# som CSV, Excel, SQL-databaser och mer.

# Matplotlib
# ...är ett plottingbibliotek för Python som erbjuder funktioner för att 
# skapa en mängd olika statiska, animerade och interaktiva visualiseringar. 
# Genom att importera pyplot modulen från Matplotlib, får användaren tillgång 
# till ett interface som liknar MATLABs, vilket gör det möjligt att enkelt 
# skapa figurer, diagram, grafer, etc. Matplotlib används ofta för att 
# visualisera data och resultat av analyser, vilket gör det enklare att förstå 
# och kommunicera information.

# Seaborn 
# ...är ett Python-visualiseringsbibliotek baserat på Matplotlib som erbjuder 
# en högre abstraktionsnivå för att skapa vanliga statistiska grafik. 
# Det är inriktat på att skapa vackra och informativa statistiska grafik och 
# fungerar väl med Pandas DataFrame-objekt. 
# Seaborn kommer med en mängd förkonfigurerade teman och färgscheman för att 
# skapa attraktiva och informativa visualiseringar med mindre kod. 
# Det tillhandahåller även stöd för att visualisera komplexa relationer mellan data, 
# trendanalys och mycket mer.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Läsning och förståelse av datasetet
# Använd pandas funktion read_csv för att läsa in det laddade datasetet 
# och funktionerna head() och tail() för att titta på 
# de första och sista fem raderna av data samt variablerna med deras 
# respektive värden. 
# Kolumnvärdena är i grund och botten egenskaper som kommer att användas 
# för att analysera datan.

books = pd.read_csv('Bestsellers_With_Categories.csv')
books.head()

In [None]:
books.tail()

In [None]:
books.info()

In [None]:
books.describe()

In [None]:
books.describe(include='object')

In [None]:
genre_counts=books.Genre.value_counts()
genre_counts

In [None]:
plt.title('Fiction vs Non Fiction')
sns.countplot(x='Genre', data=books)

In [None]:
plt.figure(figsize=(7,7))
plt.title("Genre v/s Reviews")
sns.barplot(x = 'Genre',
            y = 'Reviews',
            data = books);

In [None]:
plt.figure(figsize = (9,4))
sns.boxplot(data =books,x = 'Price',y ="Genre")
plt.title("Genre-wise Distribution of Price", fontsize = 18)
plt.ylabel("Genre", fontsize = 15)
plt.xlabel("Price",fontsize = 15)
plt.show()

In [None]:
books_price = books.sort_values("Price", ascending= False)[['Author', 'Price', 'Genre', 'Reviews']].head(20)
plt.xticks(rotation = 90)   
sns.barplot(x = 'Author', 
            y = 'Reviews', 
            data = books_price, hue = "Genre");

In [None]:
books_price


In [None]:
books_price.drop_duplicates()

In [None]:
print(books.Price.describe())
print()
books.Price.plot(bins=50, kind='hist')

In [None]:
books.Price.value_counts()[0]

In [None]:
books['Price'] = books['Price'].map( lambda x : books.Price.median() if x == 0 else x)
books.Price.min()

In [None]:
df_fiction=books[books["Genre"]=="Fiction"]
df_nonfiction=books[books["Genre"]=="Non Fiction"]
df_fiction.Author.value_counts()