# PROJEKTFÖRSLAG (delvis förkortad version):

**Visualisering av data i Python**


För att undersöka vilka möjligheter Python erbjuder datavetenskapen i form av massdatanhantering har vi bestämt oss för att utforka visualisering av data i Python. Vi gör detta genom att representera nedladdad data (t.ex. från WHO, Folkhälksoinstitutet eller dylikt) i olika typer av grafer och visualiseringar med hjälp av Python. Syftet med projektet är att lära oss mer om massdataanalys och se om det går att jämföra olika data genom denna databehandling.

Problemet vi löser är hur kan vi kan representera data så att det lättare går att tolka i Python, där fokus kommer ligga på att plotta diverse data i grafer.
En eventuell vidareutveckling är att skapa ett program där användaren matar en CSV eller excelfil för att programmet sedan ska printa en graf med datan.


**Utmaningar och personliga utvecklingsmål**

Vi vill lära oss mer om massdatahantering i Python.

Detta innefattar:
* Grundläggande programmering och funktionshantering i Python Skapande av och bearbetning av listor
* Matematiska funktioner/möjligheter i Python
* Programdesign och utformning
* Fördjupning inom visualisering av data inom Python
* Andra Python-element som kan bli aktuella i och med detta
 
Processen kommer ge oss god repetition av det vi redan lärt oss samt inblick i att äga vår egen process som programskapare. Vi kommer att få tänka efter och skapa en programstruktur innan vi sätter igång och programmerar, vilket kommer ge oss övning i helhetsprocess och abstraktionsmodeller.


**Representation**

Datan vi arbetar med kommer att representeras av listor och grafer skapade och hanterade via Python. Detta kommer förhoppningsvis skapa en ny förståelse för den visualiserade datan och dess eventuella korrellation.
Presentation:

Som avslutning på projektet hoppas vi kunna presentera vårt arbete i form av några grafer av data som säger något intressant i samband med varandra - och förhoppningsvis kan vi visa på skillnaden där datan de grundar sig i säger lite eller nära på ingenting för den som tittar på den.

# REDOVISNING:

Här nedan importerar vi de **python-moduler** vi kommer att använda för att bygga våra grafer. Många av dem bygger på varandra t.ex. så fungerar inte **Seaborn** och **Pandas** utan **matplotlib**.

Även om det mesta kan utföras direkt med inbyggda funktioner i **Seaborn** eller **Pandas** är det viktigt att förstå det underliggande **matplotlib**. Detta är viktigt, inte minst för att kunna göra justeringar i varje enskild graf.

In [None]:
import pandas as pd
import seaborn as sns
from csv import reader
from matplotlib import pyplot as plt

Efter lite research prövar vi oss fram för att se om vi lyckas skapa något, överhuvudtaget. Detta är inte ens en funktion, bara ett första test.

In [None]:
x = [1, 2, 3, 4]
g = [18, 13, 15, 5]
y = [1, 4, 6, 9]
z = [10, 15, 22, 32]
plt.plot(x, g)
plt.plot (x, y)
plt.plot (x, z)
plt.title("test plot")
plt.xlabel("X-axel")
plt.ylabel("G-, Y- & Z-axel")
plt.show()

**Det fungerade!**

Här nedan definierar vi de globala variabler vi kommer att använda i graferna längre ned. Vi jobbar med två datasets: ds och ds1, dessa har båda hämtas från **Kaggle's** bank av **csv-databaser**. Vi läser in databaserna med hjälp av panda "pd". Detta är allt som krävs för att kunna arbeta med dem i både **mathplotlib** och **Seaborn**,

Vi söker även ut data baserat på **boolean variables**, dvs om det returnerar **true** eller **false** när det jämnförs med ett sökord, som i detta fall ett land. På detta sätt kan man avgränsa sitt data i ett specifikt dataset.

In [None]:
ds = pd.read_csv("../input/life-expectancy-who/Life Expectancy Data.csv")
ds.columns = ds.columns.str.replace(" ", "_") #vi tar born alla mellanrum i rubrikerna, för Pandas-skull

ds1 = pd.read_csv("../input/500-person-gender-height-weight-bodymassindex/500_Person_Gender_Height_Weight_Index.csv")

ds2 = pd.read_csv("../input/tipsdataset/tips.csv")

ds3 = pd.read_csv("../input/pokemonstages/Pokemon123.csv", sep=";")

ds4 = pd.read_csv("../input/covidstats/corona_dag_region.csv")


sweden = ds[ds['Country'] == "Sweden"]
afghanistan = ds[ds['Country'] == "Afghanistan"]
brasilien = ds[ds['Country'] == "Brazil"]
frankrike = ds[ds['Country'] == "France"]

Så här ser ett av våra  datasets ut när man läser och skriver ut det genom **Pythons Pandas-modul**:

In [None]:
ds

...och som vi ser nedan blir detta en helt egen **datatyp**.

In [None]:
type(ds)

Det ganska mycket data! Omöjligt eller mycket svårhanterligt för ett Excel-dokument.

**Här kommer några första försök att plotta enkla grafer med data från CSV-fil, utan funktioner och med direktkommandon.**

Till att börja med försöker vi att skapa ett enkelt **linjediagram**. Här ser vi först Covid-statistik för sverige baserat på dag och antalet fall. Därefter ett diagram över alkoholkonsumtionen (i Sverige i ren alkohol) sedan år 2000. Här använder vi **matplotlib** till att rita ut datan som lästs in, och sökts fram, med hjälp av **Pandas**.

Detta är simpelt men en del i vår **abstraktion av problemet**, för att komma vidare till mer avancerade grafer.

In [None]:
file = ds4
plt.figure(figsize=(25,5))
plt.title("Totalt antal Covid-19 fall")
plt.xlabel('Datum')
plt.ylabel('Totalt antal fall')
plt.plot(file['Statistikdatum'], file['Totalt_antal_fall'])
plt.xticks(file['Statistikdatum'][::28])
plt.gca().invert_xaxis()
plt.show()

In [None]:
def lineplot(x_data, y_data, x_label="", y_label="", title=""):
    _, ax = plt.subplots()
    ax.plot(x_data, y_data, lw = 4, color = '#539caf', alpha = 1)
    ax.set_title(title)
    ax.set_xlabel(x_label)
    ax.set_ylabel(y_label)
    

    
lineplot (sweden.Year, sweden.Alcohol, "År", "Alkoholkonsumtion, liter per capita", "Sverige" )

Vi ser om vi kan göra det lite mer avancerat. **Att titta på ett enda land i taget i ett dokument är ju faktiskt inte så svåröverblickbart**, men om vi vill jämföra flera länder med varandra och sätta datan i relation till varandra så blir det mer komplicerat. Hur gör vi då?

Här ser vi ett mer komplicerat diagram med fyra länder i samma graf.

In [None]:
def lineplotmultiple(x_data,y_data1, y_data2, y_data3, y_data4, x_label="", y_label="", title="", legend1="", legend2="", legend3="", legend4=""):
    _, ax = plt.subplots()
    ax.plot (x_data, y_data1, lw = 2.5)
    ax.plot (x_data, y_data2, lw = 2.5)
    ax.plot (x_data, y_data3, lw = 2.5)
    ax.plot (x_data, y_data4, lw = 2.5)
    plt.title(title)
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    plt.legend([legend1, legend2, legend3, legend4])
    plt.show

lineplotmultiple (ds.Year[0:16], sweden.Alcohol, brasilien.Alcohol, afghanistan.Alcohol, frankrike.Alcohol, "År", "Alkoholkonsumtion (liter/capita)", "Alkoholkonsumtion per land", "Sverige", "Brasilien", "Afghanistan", "Frankrike")

Det finns ju mer än bara linjediagram. **Vad kan vi göra med samma dataset men ett annat typ av diagram?** Här tittar vi närmare på Brasiliens spädbarnsdödlighet sedan år 2000. **Det är en positiv trend**! Bra jobbat Brasilien!

In [None]:
def barplot(x_data, y_data, x_label="", y_label="", title=""):
    _, ax = plt.subplots()
    ax.bar(x_data, y_data, color = '#2569f0', align = 'center')
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)
    
barplot(brasilien.Year, brasilien.infant_deaths, "År", "Spädbarnsdödlighet per capita", "Brasiliens spädbarnsdödlighet, utveckling sedan år 2000")

Här leker vi lite. Genom att justera värdet för alpha kan vi göra staplarna delvis transperenta och i och med det kan både bli snyggt och informativt att ställa dem över varandra.

In [None]:
def barplotmultiple(x_data1, x_data2, x_data3, y_data1, y_data2, y_data3, x_label="", y_label="",legend1="", legend2="", legend3=""):
    _, ax = plt.subplots()
    ax.bar(x_data1, y_data1, color = '#2569f0', align = 'center', alpha=0.5)
    ax.bar(x_data2, y_data2, color = '#ff8000', align = 'center', alpha=0.5)    
    ax.bar(x_data3, y_data3, color = '#ff99cc', align = 'center', alpha=0.5)
    plt.legend([legend1, legend2, legend3])
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    
barplotmultiple(brasilien.Year, frankrike.Year, afghanistan.Year, brasilien.infant_deaths, frankrike.infant_deaths, afghanistan.infant_deaths, "År", "Barnadödlighet per capita", "Brasilien", "Frankrike", "Afghanistan")

Jo, det var ju snyggt, men trots allt är ju inte estetik allt. :)

Kanske är det tydligare att faktiskt ställa staplarna bredvid varandra: **let's go classic style**. Ytterligare en tanke som vi tar med oss till framtiden är att stapeldiagram till sin natur inte riktigt passar till data med fler än 10 steg på X-axeln. Nåväl. Here we go!

In [None]:
def barplotmultiple(x_data1, x_data2, x_data3, y_data1, y_data2, y_data3, x_label="", y_label="",legend1="", legend2="", legend3=""):
    _, ax = plt.subplots()
    ax.bar(x_data1-(1/4), y_data1, color = '#2569f0', align = 'center', alpha=0.7, width=1/4, edgecolor="#2569f0")
    ax.bar(x_data2, y_data2, color = '#ff8000', align = 'center', alpha=0.7, width=1/4, edgecolor='#ff8000')  
    ax.bar(x_data3+(1/4), y_data3, color = '#ff99cc', align = 'center', alpha=0.7, width=1/4, edgecolor='#ff99cc')
    ax.set_xticks(x_data1)
    plt.xticks(rotation=90)
    plt.legend([legend1, legend2, legend3])
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    #ax.set_title(title)

barplotmultiple(brasilien.Year, frankrike.Year, afghanistan.Year, brasilien.infant_deaths, frankrike.infant_deaths, afghanistan.infant_deaths, "År", "Spädbarnsdödlighet per capita", "Brasilien", "Frankrike", "Afghanistan")

När man jobbar med statistik (Gud förbjude för det är så svårt!) så behöver man veta hur **normalfördelningen** ser ut i sitt **dataunderlag**. Här har vi provat på att jobba med **Seaborn** som är en mer avancerad modul men som är **specialiserad på att just visa statistisk normalfördelning**.

Vi förstår inte mycket av detta med normalfördelning, vi är ju inte statistiker, men en graf har vi lyckats få till! Här visar vi nu ett nytt annat dataset "ds1" med **500 personers längd/vikt som underliggande data**.

In [None]:
def normalfördelning(x_data1, x_data2, y_data1, x_label1="", x_label2="",legendx="", legendy="", title=""):
    plt.figure(figsize=(10,5))
    sns.distplot(x_data1, color="skyblue", label=x_label1)
    sns.distplot(x_data2, color="red", label=x_label2)
    plt.xlabel(legendx)
    plt.ylabel(legendy)
    plt.title(title)
    plt.legend()
    plt.show()

normalfördelning(ds1[ds1['Gender'] == "Female"].Height,ds1[ds1['Gender'] == "Male"].Height, "Kvinnor", "Män", "Längd", "Längd", "Kumulerad relativ frekvens", "Normalfördelning av längd,  baserat på 500 personer")

Dock verkar inte ovan vara "normen" för hur man plottar grafer med **Seaborn**. I Seaborn jobbar men, enligt reasearch, snarare med inbyggda funktioner som man anropar direkt. Detta är rekommenderat enligt Seaborns officiella manual. Vi provar detta och plottar en enkel **scatter plot** från ett dataset över **Pokemons**.

In [None]:
sns.lmplot(x='Attack', y='Defense', data=ds3, height=4, aspect=2)

Detta gick ju bra, men denna inbygga scatterplot-funktion **"lmplot"** innehåller som default alltid en regressionslinje. Den vill vi ta bort! Detta blir ett fint exempel på hur vi **tweakar Seaborn-funktioner med matplotlib**. Dessutom gör vi så att **"hue"** varierar med hänsyn till "stage" i **ds3**.

In [None]:
sns.lmplot(x='Attack', y='Defense', data=ds3, fit_reg=False, hue='Stage', height=4, aspect=2.5)
plt.title("Pokemon, försvar kontra styrka, med hänsyn till 'Stage'")
plt.ioff()

**Vi provar något riktigt vilt.** Seaborn är ju så smidigt att göra riktigt fina grafer i. Först skapar jag en lista med RGB-värden, ett för varje steg på x-axeln. Detta är för att lite nördigt matcha varje pokemontyp med en speciell färg som passar den... 

In [None]:
pkmnfärger = ['#78C850',  # Grass
              '#F08030',  # Fire
              '#6890F0',  # Water
              '#A8B820',  # Bug
              '#A8A878',  # Normal
              '#A040A0',  # Poison
              '#F8D030',  # Electric
              '#E0C068',  # Ground
              '#EE99AC',  # Fairy
              '#C03028',  # Fighting
              '#F85888',  # Psychic
              '#B8A038',  # Rock
              '#705898',  # Ghost
              '#98D8D8',  # Ice
              '#7038F8',  # Dragon
                   ]

Och nu, **the grand final**, skapar jag ett färgkodat fioldiagram med **Seaborn-funkionen "violinplot".**

In [None]:
plt.figure(figsize=(20,5))
sns.violinplot(x='Type 1', y='Attack', data=ds3, palette=pkmnfärger)
plt.xticks(rotation=90)
plt.xlabel("Kategori")
plt.ylabel("Attack-stat")
plt.ioff()

**Här gör vi på ett annat sätt.** Istället för att definiera och anropa en funktion, vilket i arbete med Seaborn av allt att döma verkar onödigt, **så anropar vi Seaborns inbyggda funktioner** för att skapa ett snabbt och otroligt informativt diagram med många dimensioner.

Här ser vi data från ett dataset som innehåller data från en studie gällande dricks och restaurangbesök. Dricksen är större på middagen och rökare visar sig mer benägna att dricksa givmilt än icke-rökare.

**PROBLEM: jobbar man på detta sätt blir det svårt att justera och ändra i diagramen!**

Källor:

https://www.youtube.com/watch?v=a9UrKTVEeZA

https://www.kdnuggets.com/2019/06/select-rows-columns-pandas.html

https://stackoverflow.com/questions/14941097/selecting-pandas-column-by-location

https://towardsdatascience.com/5-quick-and-easy-data-visualizations-in-python-with-code-a2284bae952f

https://stackoverflow.com/questions/43898414/find-numeric-column-names-in-pandas

https://towardsdatascience.com/matplotlib-seaborn-pandas-an-ideal-amalgamation-for-statistical-data-visualisation-f619c8e8baa3

https://medium.com/epfl-extension-school/selecting-data-from-a-pandas-dataframe-53917dc39953