## Iris data

Iris-blomsterdatasettet er et multivariat datasett introdusert av den britiske statistikeren og biologen Ronald Fisher i sin artikkel fra 1936. Det har blitt et populært dataset for å teste ut nye metoder. Datasettet inneholder 3 klasser, hvor hver klasse refererer til en type irisplante. Her utforsker vi datasettet med forskjellige visualiseringsmetoder. 

Som alltid laster vi først inn pakkene vi trenger. 

In [None]:
import numpy as np
import pandas as pd 
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA 

import plotly.express as px
import plotly.graph_objects as go

Så leser vi inn data og forbereder den til analysen. 

In [None]:
# Read the file into a variable iris_data
iris = load_iris()
# print(iris)
iris_data = pd.DataFrame(iris['data'], columns=iris['feature_names'])
iris_labels = iris.target_names[iris['target']]
iris_data["species"] = iris_labels

# Print the first 5 rows of the data
iris_data.head()
iris_data.tail()

**En egenskap om gangen**:

Først ser vi på en egenskap i datasettet om gangen. 
Lag et histogram av alle kolonner i datasettet. Tips: Bruk [`plotly.express.histogram`](https://plotly.com/python/histograms/). 

In [None]:
# Histogramer
for col in iris_data.columns:
    fig = px.histogram(iris_data[col],
                        x = col,
                        histnorm='probability density',
                        nbins=150
                       )
    
    fig.show()

Nå vil vi legge til en ekstra dimensjon ved å bruke farge. Fargelegg histogramene etter spesies. 

In [None]:
# Histogramer farget etter spesies

for col in iris_data.columns[:-2]:
    fig = px.histogram(iris_data[col],
                        x = col,
                        histnorm='probability density',
                        nbins=150,
                        color = iris_data['species']
                       )
    
    fig.show()

Så skal vi se på tre egenskaper samtidig. Lag en figur med sepal width på x-aksen, sepal length på y-aksen, fargelagt etter type irisplante, der vi har et punkt for hver plante i datasettet. Tips: Bruk [`plotly.express.scatter`](https://plotly.com/python-api-reference/generated/plotly.express.scatter.html). 

In [None]:
# Scatterplot
fig = px.scatter(iris_data,
                x="sepal width (cm)", 
                y='sepal length (cm)',
                color = iris_data['species']
                )

# fig.update_layout(font=dict(size=36),
# template="simple_white",
# xaxis_title="BMI",
# yaxis_title="blood preasure")

fig.show()

I stedet for en scatterplott vil vi noen ganger heller se på 2-dimensjonal tetthet. Lag en 2-dimensjonal tetthetsfigur (contour plot) med `sepal width (cm)` på x-aksen og `sepal length (cm)` på y-aksen. Tips: Bruk [`plotly.express.density_contour`](https://plotly.com/python-api-reference/generated/plotly.express.density_contour.html). 

In [None]:
# Tetthet
fig = px.density_contour(iris_data,
                x="sepal width (cm)", 
                y='sepal length (cm)',
                color = iris_data['species']
                )

fig.show()

Det blir litt enklere å lese hvis vi ikke bare har konturer, men fargelegger etter tetthet. For å gjøre det, kan vi bruke [`plotly.graph_objects.Figure.update_traces`](https://plotly.com/python-api-reference/generated/plotly.graph_objects.Figure.html#plotly.graph_objects.Figure.update_traces)-metoden med argumentene `contours_coloring="fill"` og for eksempel `colorscale = 'Blues'`. De argumentene kan være vanskelig å finne i dokumentasjonen og det er ofte nødvendig å søke på nettet for å finne slike løsninger. 

In [None]:
# Tetthet
fig = px.density_contour(iris_data,
                x="sepal width (cm)", 
                y='sepal length (cm)',
                color = iris_data['species']
                )

fig.update_traces(contours_coloring="fill", 
                  colorscale = 'Blues')
fig.show()

Til slutt ser vi på to metoder for å se på alle variablene samtidig. Regn ut de første to prinsipale komponenter PC1 og PC2. Så lag en scatterfigur med PC1 på x-aksen, PC2 på y-aksen, fargelagt etter type irisplante. Tips: Bruk [`sklearn.decomposition.PCA`](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html). Som vi har sett tidligere er sklearn sine metoder er alle bygget opp på en lignende måte. Først må vi lage en modell (`init`-metode), så må vi tilpasse modellen til treningsdata (`fit`-metode) og til slutt kan vi bruke den til å predikere (`predict`-metode) for nye data eller transformere (`transform`-metode) nye data. 

In [None]:
# PCA 
pca = PCA(n_components=2)
pca.fit(iris_data)
pca_df = pd.DataFrame(pca.transform(iris_data.drop("species")), 
                      columns=['PC1', 'PC2'])

print(pca_df)

# Scatterplot
fig = px.scatter(data_frame=pca_df, 
                 x='PC1', 
                 y='PC2', 
                 color=iris_labels,
                 labels={'color':'Type'})
fig.show()

Hvis vi har så få koordinater som her kan det være et alternativ til PCA å bruke parallele koordinater. Bruk parallele koordinater for å visualisere iris data. Tips: Bruk [`plotly.express.parallel_coordinates`](https://plotly.com/python-api-reference/generated/plotly.express.parallel_coordinates.html). 

In [None]:
# Parallele koordinater
fig = px.parallel_coordinates(___)

fig.show()

Fargelegg figuren med parallele koordinater etter type irisplante. Merk at [`plotly.express.parallel_coordinates`](https://plotly.com/python-api-reference/generated/plotly.express.parallel_coordinates.html) ikke er tenkt for å brukes med kategoriske farger. For å få det til likevel, så kan vi bruke en kontinuerlig fargeskala som er stykkevis konstant. Vi må også bruke en numerisk variabel for å fargelegge etter i stedet for den kontinuerlige variablen vi har brukt til nå. 

In [None]:
# Parallele koordinater
fig = px.parallel_coordinates(___,
                              color=___, # må være numerisk
                              color_continuous_scale=[(0.00, "#8DD3C7"),   (0.33, "#8DD3C7"),
                                                      (0.33, "#FFFFB3"), (0.67, "#FFFFB3"),
                                                      (0.67, "#BEBADA"),  (1.00, "#BEBADA")]
                             )
fig.update_layout(coloraxis_colorbar=dict(
    title="Spesies", 
    tickvals=[0.33, 1, 1.67], 
    ticktext=iris.target_names
))

fig.show()

## Museum data

Museum datasettet (data/museum.csv) inneholder data om museumsbesøk mellom januar 2014 og juni 2021. Data er hentet fra [Los Angeles open data](https://data.lacity.org/Arts-Culture/Museum-Visitors/trxm-jn3c). Målet er å lage en figur av utviklingen av museumsbesøk de siste 7 årene. 

Begynn ved å lese inn data og se på de første radene. 

In [11]:
import pandas as pd
import plotly.express as px
museum_data = pd.read_csv("data/museum.csv")
museum_data.head()

Unnamed: 0,Month,America Tropical Interpretive Center,Avila Adobe,Chinese American Museum,Gateway to Nature Center,Firehouse Museum,Hellman Quon,IAMLA,Pico House,Visitor Center/ El Tranquilo Gallery,Museum of Social Justice,Biscailuz Gallery/ PK Outdoor Exhibit
0,01/01/2014 12:00:00 AM,6602,24778,1581,,4486,0.0,,2204.0,2961.0,,
1,02/01/2014 12:00:00 AM,5029,18976,1785,,4172,0.0,,1330.0,2276.0,,
2,03/01/2014 12:00:00 AM,8129,25231,3229,,7082,70.0,,4320.0,3116.0,,
3,04/01/2014 12:00:00 AM,2824,26989,2129,,6756,250.0,,3277.0,2808.0,,
4,05/01/2014 12:00:00 AM,10694,36883,3676,,10858,135.0,,4122.0,3987.0,,


Ved bruk av kolonnen `Month`, lag en ny kolonne `Date` som er har `dtype` `pandas.datetime`. Fjern deretter kolonnen `Month`. 

In [12]:
# lag kolonnen Date
museum_data['Date'] = pd.to_datetime(museum_data["Month"])

# print(museum_data.head())
# fjern kolonnen Month
museum_data.drop("Month",axis=1,inplace=True)

museum_data.head()

  museum_data['Date'] = pd.to_datetime(museum_data["Month"])


Unnamed: 0,America Tropical Interpretive Center,Avila Adobe,Chinese American Museum,Gateway to Nature Center,Firehouse Museum,Hellman Quon,IAMLA,Pico House,Visitor Center/ El Tranquilo Gallery,Museum of Social Justice,Biscailuz Gallery/ PK Outdoor Exhibit,Date
0,6602,24778,1581,,4486,0.0,,2204.0,2961.0,,,2014-01-01
1,5029,18976,1785,,4172,0.0,,1330.0,2276.0,,,2014-02-01
2,8129,25231,3229,,7082,70.0,,4320.0,3116.0,,,2014-03-01
3,2824,26989,2129,,6756,250.0,,3277.0,2808.0,,,2014-04-01
4,10694,36883,3676,,10858,135.0,,4122.0,3987.0,,,2014-05-01


Forandre data sånn at du har tre kolonner med dato, museum navn og antal besøkende. Tips: Bruk [`pandas.melt`](https://pandas.pydata.org/docs/reference/api/pandas.melt.html). Sorter deretter etter dato og museum navn. 

In [13]:
# omformater data
# museum_reshaped = pd.melt(museum_data,id_vars=["Date"], value_vars = ["IAMLA",])
museum_copy = museum_data
mueseum_cols = museum_copy.drop("Date",axis=1).columns
museum_reshaped = pd.melt(museum_data,id_vars=["Date"], value_vars = mueseum_cols)
# sorter 
museum_reshaped["value"] = museum_reshaped["value"].astype(float) #litt usikker, rart at 6000 kommer før 10000
museum_reshaped.sort_values("value")

Unnamed: 0,Date,variable,value
989,2021-06-01,Biscailuz Gallery/ PK Outdoor Exhibit,0.0
436,2020-05-01,Firehouse Museum,0.0
435,2020-04-01,Firehouse Museum,0.0
988,2021-05-01,Biscailuz Gallery/ PK Outdoor Exhibit,0.0
705,2020-04-01,Pico House,0.0
...,...,...,...
976,2020-05-01,Biscailuz Gallery/ PK Outdoor Exhibit,
977,2020-06-01,Biscailuz Gallery/ PK Outdoor Exhibit,
978,2020-07-01,Biscailuz Gallery/ PK Outdoor Exhibit,
979,2020-08-01,Biscailuz Gallery/ PK Outdoor Exhibit,


Se på de første radene av det nye datasettet. 

In [14]:
museum_reshaped.head()

Unnamed: 0,Date,variable,value
0,2014-01-01,America Tropical Interpretive Center,6602.0
1,2014-02-01,America Tropical Interpretive Center,5029.0
2,2014-03-01,America Tropical Interpretive Center,8129.0
3,2014-04-01,America Tropical Interpretive Center,2824.0
4,2014-05-01,America Tropical Interpretive Center,10694.0


Velg ut en informativ figurtype og lag en figur som viser utviklingen av museumsbesøk i datasettet. 

In [17]:
# Visualisering

fig = px.histogram(museum_reshaped,
                    histnorm='probability density',
                    nbins=150,
                    color = museum_reshaped["variable"]
                    )
    
fig.show()

ValueError: Plotly Express cannot process wide-form data with columns of different type.

Hva legger du merke til i figuren du lagde? Nevn minst tre ting. 

...

## Titanic data

Titanic datasettet (data/titanic.csv) har vi sett på flere ganger i løpet av kurset. Her skal vi lage noen flere visualiseringer som relaterer prisen til andre variabler. 

Les inn data og se på de første radene av datasettet. 

In [None]:
# lese inn data og se på de første radene. 
titanic = ___
___

Lag en meningsfull figur som viser kjønn (`Sex`) og pris (`Fare`) av titanic-passasjerene.

Er det noen forskjeller mellom prisene som kvinner og men betaler?

In [None]:
# Visualisering av kjønn og pris
fig = ___
fig.show()

Variasjonen i prisen er større blant kvinner enn blant menn. Typisk betaler kvinner mer enn menn. 

Vi har sett i forelesninen at det er store forskjeller mellom kjønn og klassen (`Pclass`). Kan det forklare forskjellen mellom kjønn og prisen? Lag en figur for å se på de tre variablene samtidig. 

På første forsøk er det kanskje ikke like lett å se forskjellen i alle klassene. Hva kan du gjøre for å få alle klassene til å vises like godt?

Er det fortsatt forskjeller mellom kjønn og pris? I så fall, er det de samme forskjellene som vi så på i spørsmål før?

In [None]:
# Visualisering av kjønn, pris og klasse
fig = ___
fig.show()

...