In [None]:
# Dessa bibliotek är grundläggande verktyg inom dataanalys och visualisering i Python. 
# Varje bibliotek har sin egen uppsättning funktioner och användningsområden:

# Numpy 
# ...är ett bibliotek för vetenskaplig beräkning i Python. 
# Det tillhandahåller stöd för stora, flerdimensionella arrayer och matriser, 
# tillsammans med en stor samling matematiska funktioner för att operera på 
# dessa arrayer. Användningen av Numpy möjliggör effektiv beräkning och 
# manipulation av data, vilket är fundamentalt inom dataanalys, maskininlärning, 
# och mer komplexa vetenskapliga beräkningar.

# Pandas 
# ...är ett bibliotek som tillhandahåller högnivå datastrukturer och 
# verktyg för dataanalys med Python. Dess centrala datastruktur, DataFrame, 
# gör det möjligt att lagra och manipulera tabellformad data 
# (dvs. data med rader och kolumner) på ett effektivt sätt. 
# Pandas är särskilt användbart för dataförberedelse, rensning, och analys. 
# Det erbjuder också funktioner för att läsa och skriva data mellan olika format 
# som CSV, Excel, SQL-databaser och mer.

# Matplotlib
# ...är ett plottingbibliotek för Python som erbjuder funktioner för att 
# skapa en mängd olika statiska, animerade och interaktiva visualiseringar. 
# Genom att importera pyplot modulen från Matplotlib, får användaren tillgång 
# till ett interface som liknar MATLABs, vilket gör det möjligt att enkelt 
# skapa figurer, diagram, grafer, etc. Matplotlib används ofta för att 
# visualisera data och resultat av analyser, vilket gör det enklare att förstå 
# och kommunicera information.

# Seaborn 
# ...är ett Python-visualiseringsbibliotek baserat på Matplotlib som erbjuder 
# en högre abstraktionsnivå för att skapa vanliga statistiska grafik. 
# Det är inriktat på att skapa vackra och informativa statistiska grafik och 
# fungerar väl med Pandas DataFrame-objekt. 
# Seaborn kommer med en mängd förkonfigurerade teman och färgscheman för att 
# skapa attraktiva och informativa visualiseringar med mindre kod. 
# Det tillhandahåller även stöd för att visualisera komplexa relationer mellan data, 
# trendanalys och mycket mer.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Läsning och förståelse av datasetet
# Använd pandas funktion read_csv för att läsa in det laddade datasetet 
# och funktionerna head() och tail() för att titta på 
# de första och sista fem raderna av data samt variablerna med deras 
# respektive värden. 
# Kolumnvärdena är i grund och botten egenskaper som kommer att användas 
# för att analysera datan.

# Visa första de första 5 data poster....

books = pd.read_csv('Bestsellers_With_Categories.csv')
books.head()

In [None]:
# Vad tror ni denna gör?
books.tail()

In [None]:
# .info() funktionen används för att få ytterligare detaljer om dessa 
# funktioner som visas. 
# Vi kan se att det finns 4 numeriska kolumner (float & int) 
# och 3 kategoriska kolumner (object)
# genom att hänvisa till deras datatyper.
books.info()

In [None]:
# Beskriv numeriska kolumner

# count visar antalet icke-tomma rader (d.v.s. antalet poster).
# mean är det aritmetiska medelvärdet av kolumnen.
# std står för standardavvikelsen, som mäter spridningen av värdena i kolumnen.
# min är det minsta värdet i kolumnen.
# 25% är det första kvartilet.
# 50% är medianen, eller det andra kvartilet.
# 75% är det tredje kvartilet.
# max är det högsta värdet i kolumnen.

# Kvartil
# För 'User Rating' kolumnen betyder 25% att 25% av betygen är lika med 
# eller lägre än 4.5. 
# För 'Reviews' kolumnen har 25% av böckerna fått 4058 recensioner eller färre. 
# För 'Price' kolumnen kostar 25% av böckerna 7 dollar eller mindre. 
# För 'Year' kolumnen är 25% av böckerna publicerade år 2011 eller tidigare.

#Teori
# https://medium.com/@vinitasilaparasetty/quartiles-for-beginners-in-data-science-cad074cf5d65
books.describe()

In [None]:
# Beskriv kategoriska kolumner

# count visar antalet icke-tomma rader (d.v.s. antalet poster) för varje kolumn.
# unique anger antalet unika värden i kolumnen.
# top anger det vanligaste värdet, eller modalvärdet, i kolumnen.
# freq anger hur många gånger det vanligaste värdet förekommer i kolumnen.
books.describe(include='object')

In [None]:
# Vi kan räkna hur många data poster finns i kolumnen 'Genre'

genre_counts=books.Genre.value_counts()
genre_counts

In [None]:
# ... och även visa det i en stapeldiagram

plt.title('Fiction vs Non Fiction')
sns.countplot(x='Genre', data=books)

In [None]:
# Låt oss analysera två kolumner tillsammans och se resultaten, 
# här är antalet recensioner plottade mot genren, 
# och det kan tydligt ses att skönlitterära böcker har fler 
# recensioner än icke-skönlitterära böcker.

# De två svarta strecken på stapeldiagrammet representerar felstaplar. 
# De visar variabiliteten i data och används för att ge en visuell 
# indikation på osäkerhet kring mätningen. 
# Mer specifikt, de representerar ofta standardavvikelsen, för data. 
# I detta fall anger de spridningen av antalet recensioner för varje genre – 
# med andra ord, 
# Hur mycket antalet recensioner varierar från det genomsnittliga värdet 
# för varje genre.

plt.figure(figsize=(7,7))
plt.title("Genre v/s Reviews")
sns.barplot(x = 'Genre',
            y = 'Reviews',
            data = books);

In [None]:
# Vi kan också implementera lådagram (boxplot) för att visualisera 
# distributionen av böcker över olika kolumner, som ett exempel här, 
# visas prisfördelningen av böcker över genren och priset.

# Fördjupa din kunskap
# https://chartio.com/learn/charts/box-plot-complete-guide/

# Lådan (den blå delen): 
# De centrala 50% av datan ligger inom denna låda. 
# Den undre kanten av lådan (vänster) kallas för det första kvartilet (25:e percentilen), 
# vilket innebär att 25% av datan ligger under denna nivå. 
# Den övre kanten av lådan (höger) kallas för det tredje kvartilet (75:e percentilen), 
# vilket innebär att 75% av datan ligger under denna nivå. Mellan dessa två kvartiler ligger medianen (den andra kvartilet eller 50:e percentilen) som är markerad av en linje i lådan. Medianen är det värde som delar datan i två lika stora halvor.

# Vipparna (de vertikala linjerna): 
# Dessa linjer sträcker sig från det första och tredje kvartilet 
# till det minsta och största värdet som inte är en utliggare. 
# De ger en visuell representation av spridningen av datan och 
# kallas ibland för "mustascher".

# Utliggare (de små cirklarna): 
# Dessa punkter ligger utanför vipparna och representerar värden som avviker 
# mycket från resten av datan. 
# De kan betraktas som ovanligt höga eller låga i jämförelse med den 
# huvudsakliga datamängden.

# I exemplet nedan ser vi att priset på skönlitteratur och 
# icke-skönlitteratur har olika spridningar och medianvärden. 
# Skönlitteraturen har flera utliggare som indikerar att det finns några 
# skönlitterära böcker med ovanligt höga priser jämfört med majoriteten.

# Median
# för Non fiction ligger på ca. 14 (mittersta sträcket i den blåa boxen)
# för Fiction ligger på ca. 10 (mittersta sträcket i den blåa boxen)

plt.figure(figsize = (9,4))
sns.boxplot(data =books,x = 'Price',y ="Genre")
plt.title("Genre-wise Distribution of Price", fontsize = 18)
plt.ylabel("Genre", fontsize = 15)
plt.xlabel("Price",fontsize = 15)
plt.show()

In [None]:
# Nedan visas ett stapeldiagram med dubbla staplar, 
# de kan vara användbara i fall som dessa när vi har två uppsättningar 
# data som här med skönlitterära och icke-skönlitterära böcker. 
# Så, data från båda dessa uppsättningar kan visualiseras i ett och samma diagram.

# Det är för många Authors i datafilen så vi se till att sortera på priset 
# och endast redovisar för de 20 dyraste böckerna?
# Uppdatera denna rad...
#   data = books_price, hue = "Genre");
# till =>
#   data = books, hue = "Genre");
# Vad händer?


books_price = books.sort_values("Price", ascending= False)[['Author', 'Price', 'Genre', 'Reviews']].head(20)
plt.xticks(rotation = 90)   
sns.barplot(x = 'Author', 
            y = 'Reviews', 
            data = books_price, hue = "Genre");

In [None]:
# Här ser vi de 20 dyraste böcker listad
# (Det är denna lista som vi använde till stapeldigramet ovanpå)
books_price


In [None]:
# Vi kan även ta bort dubbletter om det finns några...
books_price.drop_duplicates()

In [None]:
# Vi kan också använda describe() metoden för att titta på endast 1 kolumn!
# I detta fall 'Price'...och skapa en Histogram samtidigt...

# Vi skapar 50 bins i vår histogram...
# Så varje bin på x axis motsvarar ca. 2,1 dollar (max 105 / 50 = )

# Hmmmm det är något konstigt här... minimum Price på en bok är 0! Gratis eller?

print(books.Price.describe())
print()
books.Price.plot(bins=50, kind='hist')

In [None]:
# Vi såg i statistiken om pris att det minsta värdet av pris i dataramen är '0'. 
# Detta är inte önskvärt eftersom priser på bästsäljande böcker inte kan vara '0'. 
# För att åtgärda detta problem börjar vi först med att titta på 
# antalet '0' värden i priskolumnen: (det verkar finnas 12 st. med Price 0)

books.Price.value_counts()[0]

In [None]:
# "För varje pris i kolumnen 'Price', 
# Om priset är 0, ersätt det med medianpriset av alla böcker i dataramen. 
# Om priset inte är 0, lämna det som det är."

# Nu ser vi att det lägsta priset är 1.... och inte 0 som det var innan!
# Är det rimligt att en bok kostar 1? Nja... kanske inte...
# men vi har gjort oss av med all 0 i alla fall :)

books['Price'] = books['Price'].map( lambda x : books.Price.median() if x == 0 else x)
books.Price.min()


In [None]:
# Ibland vill vi uteslutande analysera en specifik kategori, 
# och för att underlätta detta kan datamängden delas upp i underdatamängder. 
# Här delas den upp i skönlitteratur och icke-skönlitteratur genom att 
# använda nästling inom dataramen:

df_fiction=books[books["Genre"]=="Fiction"]
df_nonfiction=books[books["Genre"]=="Non Fiction"]

# Nu tittar vi endast på FICTION
df_fiction.Author.value_counts()

# ELLER Nu tittar vi endast på NON FICTION
# df_nonfiction.Author.value_counts()

In [None]:
# Det är också möjligt att dela upp data i intervall för att få meningsfulla insikter, 
# här delas prisvärdena in i tre intervall som visas genom att använda cut-funktionen 
# från pandas och en ny kolumn som kallas PriceRange skapas. 
books['PriceRange'] = pd.cut(books['Price'], 
                             3,labels=['low range <= $35','mid range<=$70','high range <=$150'])

books['PriceRange'].value_counts()