# Informatievisualisatie - Individuele opdracht

Deadline: 12 juni 23:59 CEST

Inleveren op Canvas.

## Installatie

Voor deze opdracht heb je plotly en pandas nodig, hieronder installatieinstructies voor deze packages met en zonder Anaconda.

*Met Anaconda:*

`conda install -c plotly plotly`

`conda install pandas`

*Zonder Anaconda:*

`pip install plotly`

`pip install pandas`

## Voorbeeld

Om dit voorbeeld en opdracht 1 te kunnen maken heb je `marriage.csv` nodig. Download `marriage.csv` van Canvas en sla het bestand op in dezelfde map als dit notebook.

Dit bestand bevat de cijfers voor het percentage *niet* getrouwde mensen in de VS tussen de 25 en 34. Dit bestand is een subset van de `both_sexes.csv` dataset van [FiveThirtyEight](http://fivethirtyeight.com/), publiek beschikbaar in hun Github repository: https://github.com/fivethirtyeight/data/tree/master/marriage.

In [1]:
# Deze cell importeert een aantal functies en modules die je nodig hebt om deze opdracht te maken.

from plotly.offline import init_notebook_mode, iplot
import plotly.graph_objs as go

# Start notebook mode
init_notebook_mode(connected=True)

import pandas as pd # we gebruiken pandas om de CSV data te laden en te visualiseren

Om het csv bestand in te lezen gebruiken we de `read_csv` functie vanuit pandas. Deze functie leest de csv in en maakt er een pandas dataframe van. Een dataframe maakt het makkelijk om de data te bekijken en te verwerken.

Met de `head()` methode kunnen we bijvoorbeeld de eerste `n` rijen tonen van de csv.

In [2]:
df = pd.read_csv('marriage.csv')

df.head(n=10) # eerste 10 van de in totaal 17 rijen

Unnamed: 0,year,all,HS,SC,BAp,BAo,GD,White,Black,Hisp,NE,MA,Midwest,South,Mountain,Pacific,poor,mid,rich
0,1960,0.123314,0.109533,0.152282,0.238995,0.238995,0.0,0.116485,0.162186,0.139374,0.150418,0.162893,0.112147,0.109056,0.091521,0.119876,0.13716,0.075149,0.206678
1,1970,0.126971,0.1094,0.14951,0.218703,0.218703,0.0,0.117904,0.185516,0.129877,0.151723,0.164068,0.115374,0.112622,0.102936,0.137496,0.17172,0.081592,0.172409
2,1980,0.199177,0.161731,0.223692,0.288165,0.288165,0.0,0.182413,0.31375,0.188544,0.241433,0.250593,0.182834,0.168844,0.174342,0.233428,0.310059,0.148253,0.185108
3,1990,0.296831,0.277749,0.278091,0.361297,0.365665,0.347451,0.263926,0.483856,0.296237,0.350038,0.362332,0.275505,0.263979,0.252643,0.331958,0.419911,0.2432,0.278323
4,2000,0.345009,0.331655,0.324921,0.387491,0.393958,0.369174,0.312715,0.514499,0.318068,0.409185,0.417557,0.330802,0.309971,0.30621,0.375306,0.503368,0.30202,0.271739
5,2001,0.352777,0.344607,0.33411,0.383569,0.392515,0.35903,0.318351,0.543798,0.332121,0.420058,0.429428,0.334433,0.318269,0.309808,0.38448,0.517877,0.317161,0.253204
6,2002,0.353525,0.349037,0.33616,0.377433,0.387084,0.351285,0.319669,0.540398,0.331261,0.407804,0.429053,0.339704,0.323028,0.296866,0.383692,0.517425,0.31824,0.253472
7,2003,0.362035,0.358188,0.341893,0.387381,0.400004,0.353813,0.325681,0.556895,0.341751,0.431192,0.447992,0.347571,0.325014,0.310719,0.39469,0.529728,0.328232,0.251606
8,2004,0.367325,0.37081,0.345075,0.384736,0.397612,0.351773,0.330628,0.572402,0.348579,0.449085,0.449402,0.35238,0.334153,0.310789,0.397215,0.536758,0.335613,0.252254
9,2005,0.379345,0.387068,0.359666,0.38861,0.402912,0.351425,0.343876,0.575173,0.358954,0.450972,0.463851,0.36248,0.347382,0.341278,0.403881,0.551922,0.347668,0.262045


Vervolgens kunnen we bepaalde kolommen selecteren met een syntax die vergelijkbaar is als voor python dictionaries. `df['year']` geeft dus de eerste kolom terug.

Op deze manier kunnen we gemakkelijk data selecteren en deze visualiseren met plot.ly. In de volgende cel een voorbeeld van een bar chart op basis van de `year` kolom en de `all` kolom, oftewel het totaal percentage mensen tussen de 25 en 34 wat **niet** getrouwd is.

In [3]:
trace = go.Bar(
    x=df['year'],
    y=df['all']
)
iplot([trace])

Er vallen direct een aantal zaken op als we naar de bovenstaande bar chart kijken. Ten eerste is er een 'vreemde' verdeling van de bars, maar als we naar de data kijken zien we dat dit klopt, maar wellicht niet heel mooi is. 

Daarnaast valt wellicht ook op dat de schaal van de y-as niet duidelijk maakt dat het een percentage is. Deze zaken kunnen we beide oplossen. Voor de x-as kunnen we aangeven dat het een categorische as is, in plaats van een schaal. Voor de y-as kunnen we het tonen als een percentage. Hieronder de code om dit te doen.

In [4]:
# Maak een layout object aan waarin de specificaties staan voor de X en Y assen.
layout = go.Layout(
    xaxis=go.layout.XAxis(
        type='category' # het type van de X as is categorisch
    ),
    yaxis = go.layout.YAxis(
        tickformat = ',.0%', # toon als percentage
    )
)

fig = go.Figure(data=[trace], layout=layout)
iplot(fig)

## Opdracht 1

Aan jou is het nu, om voor de eerste opdracht een grouped bar chart te maken op basis van deze dataset, waarbij de groepen bestaan uit drie verschillende inkomensgroepen (`poor`, `mid`, en `rich`)

<img src="groupedbar.png">

**Vereisten:**
- Plot titel
- As labels
- Legenda met correcte namen
- Gegroupeerde en gekleurde bars voor elke inkomensgroep
- Geheel met plot.ly
- Op basis van de data uit het csv bestand

In [5]:
# Maak drie verschillende traces voor de verschillende inkomensklasses

trace1 = go.Bar(
    x=df['year'],
    y=df['poor'],
    name='Laag'
)

trace2 = go.Bar(
    x=df['year'],
    y=df['mid'],
    name='Midden'
)

trace3 = go.Bar(
    x=df['year'],
    y=df['rich'],
    name='Hoog'
)

layout = go.Layout(
    title=go.layout.Title(
        text='Percentage niet-getrouwden in de VS tussen de 25 en 34 naar inkomen',
    ),
    barmode='group',
    xaxis=go.layout.XAxis(
        type='category', # het type van de X as is categorisch
        title=go.layout.xaxis.Title(
            text='Jaar',
        ),
    ),
    yaxis = go.layout.YAxis(
        tickformat = ',.0%', # toon als percentage
        title=go.layout.yaxis.Title(
            text='Percentage niet-getrouwd',
        ),
    )
)

fig = go.Figure(data=[trace1, trace2, trace3], layout=layout)
iplot(fig)

## Opdracht 2

De tweede opdracht is op basis van `Bestaande_koopwoning.csv` (te downloaden van Blackboard) op basis van data van het [CBS](http://statline.cbs.nl/Statweb/publication/?DM=SLNL&PA=83910NED&D1=3&D2=1-6&D3=114&HDR=T,G1&STB=G2&VW=T) en bevat de aantallen verkochte huizen in 2017 in Nederland, naar huis-type.

Voor deze opdracht moet je op basis van deze dataset een donut chart maken waarin deze data wordt getoond, uitgesplitst naar type huis.

<img src="donutchart.png">

**Vereisten:**
- Plot titel
- Geen legenda
- Tekst en percentage rondom de donut chart
- Geheel met plot.ly
- Op basis van de data uit het csv bestand

*Tips:*
- In de documentatie van plot.ly is te vinden hoe bepaalde opties (zoals de tekst positie) aangepast kunnen worden: https://plot.ly/python/reference/
- Het verbindende lijntje naar hoekwoning ontstaat door de donut chart te exporteren, maak je dus geen zorgen als jouw donut chart die niet heeft.



In [6]:
df = pd.read_csv('Bestaande_koopwoning.csv')
df.head() # eerste 10 van de in totaal 17 rijen

# Maak een donut chart
#'hole' zorgt hierbij voor het gat in de pie plot.
trace=go.Pie(
    labels=df['Type woning'],
    values=df['Aantal'],
    hole=.8,
    text=df['Type woning'],
)

layout = go.Layout(
    title=go.layout.Title(
        text='Verkochte huizen in Nederland, naar type, in 2017',
    ),
    showlegend=False,
)

fig = go.Figure(data=[trace], layout=layout)
iplot(fig)


## Opdracht 3

De veelgebruikte iris flower dataset beschrijft een viertal eigenschappen van drie soorten irissen: setosa, versicolor, en virginica. Op basis van deze dataset is de setosa het makkelijkst te onderscheiden van de twee andere bloemsoorten.

Visualiseer in een enkel figuur minimaal twee features (kolommen) van deze dataset, waarbij het onderscheid tussen iris setosa en de twee andere bloemsoorten duidelijk te zien is. 

**Vereisten:**
- Minimaal twee features
- Labels op X en Y as
- Onderscheid tussen iris setosa en overige data duidelijk
- Andere kleur in de visualisatie voor elke bloemsoort
- Correcte naam voor de bloemsoort in de legenda
- Geheel met plot.ly
- Op basis van de data uit het csv bestand

*Tips*:
- `iris_df['Name'].unique()` geeft een lijst met de bloemsoorten zoals ze in de dataset staan
- In pandas kan je een subset van alle iris setosa uit de dataset selecteren met `iris_df[iris_df['Name'] == 'Iris-setosa']` 

In [90]:
# Naast lokale bestanden accepteert `read_csv` ook URLs.
# Dit laad de iris dataset in vanuit de github repositority van pandas
iris_df = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/data/iris.csv')
iris_df.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [93]:
# Maak een trace voor iedere subset bestaande uit de verschillende irissen

trace1 = go.Scatter(
    x = iris_df[iris_df['Name'] == 'Iris-setosa']['PetalWidth'],
    y = iris_df[iris_df['Name'] == 'Iris-setosa']['PetalLength'],
    mode = 'markers',
    name = 'Iris Setosa'
)

trace2 = go.Scatter(
    x = iris_df[iris_df['Name'] == 'Iris-versicolor']['PetalWidth'],
    y = iris_df[iris_df['Name'] == 'Iris-versicolor']['PetalLength'],
    mode = 'markers',
    name = 'Iris Versicolor'
)

trace3 = go.Scatter(
    x = iris_df[iris_df['Name'] == 'Iris-virginica']['PetalWidth'],
    y = iris_df[iris_df['Name'] == 'Iris-virginica']['PetalLength'],
    mode = 'markers',
    name = 'Iris Virginica'
)

layout = go.Layout(
    title=go.layout.Title(
        text='Verschillen tussen drie soorten irissen',
    ),
    xaxis=go.layout.XAxis(
        title=go.layout.xaxis.Title(
            text='PetalWidth',
        ),
    ),
    yaxis = go.layout.YAxis(
        title=go.layout.yaxis.Title(
            text='PetalLength',
        ),
    )
)

fig = go.Figure(data=[trace1, trace2, trace3], layout=layout)
iplot(fig)

## Opdracht 4

Geef de informatie in de onderstaande tree weer als Sunburst Chart.
<img src="species.jpg" alt="Figured obtained from http://people.cs.ksu.edu/~schmidt/300s05/">

**Vereisten:**
- Zorg ervoor dat alle Mammals een geel tint hebben, en alle Reptiles een groen tint.

*Tips*:
- In de plot.ly documentatie zijn voorbeelden te vinden over hoe je met Sunburts charts kan werken: https://plot.ly/python/sunburst-charts/
- In een sunburst plot kan je de grootte van de 'taartpunten' ook schalen op basis van een waarde, voor deze opdracht is dat niet nodig. 

In [25]:
# Maak een sunburst plot
# Ieder label is gekoppeld aan de parent op dezelfde positie in de list

trace = go.Sunburst(
    labels=["Animal", "Reptile", "Mammal", "Lizard", "Snake", "Bird", "Equine", "Bovine", "Canine", "Salamander", "Canary", "Tweetle", "Horse", "Zebra", "Cow", "Bessie", "Lassie", "Rintintin"],
    parents=["", "Animal", "Animal", "Reptile", "Reptile", "Reptile", "Mammal", "Mammal", "Mammal", "Lizard", "Bird", "Canary", "Equine", "Equine", "Bovine", "Cow", "Canine", "Canine"],
    outsidetextfont = {"size": 20, "color": "#377eb8"},
    marker = {"line": {"width": 2}},
)

layout = go.Layout(
    sunburstcolorway=["yellow","green"],
    margin = go.layout.Margin(t=0, l=0, r=0, b=0)
)

iplot(go.Figure([trace], layout), filename='basic_sunburst_chart')