## Iris data

Iris-blomsterdatasettet er et multivariat datasett introdusert av den britiske statistikeren og biologen Ronald Fisher i sin artikkel fra 1936. Det har blitt et populært dataset for å teste ut nye metoder. Datasettet inneholder 3 klasser, hvor hver klasse refererer til en type irisplante. Her utforsker vi datasettet med forskjellige visualiseringsmetoder. 

Som alltid laster vi først inn pakkene vi trenger. 

In [72]:
import numpy as np
import pandas as pd 
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA 

import plotly.express as px
import plotly.graph_objects as go

Så leser vi inn data og forbereder den til analysen. 

In [73]:
# Read the file into a variable iris_data
iris = load_iris()
iris_data = pd.DataFrame(iris['data'], columns=iris['feature_names'])
iris_labels = iris.target_names[iris['target']]

# Print the first 5 rows of the data
iris_data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


**En egenskap om gangen**:

Først ser vi på en egenskap i datasettet om gangen. 
Lag et histogram av alle kolonner i datasettet. Tips: Bruk [`plotly.express.histogram`](https://plotly.com/python/histograms/). 

In [74]:
# Histogramer
for col in iris_data.columns:
    fig = px.histogram(iris_data[col])
    fig.show()

Nå vil vi legge til en ekstra dimensjon ved å bruke farge. Fargelegg histogramene etter spesies. 

In [75]:
# Histogramer farget etter spesies
for col in iris_data.columns:
    fig = px.histogram(iris_data[col], color=iris_labels)
    fig.show()

Så skal vi se på tre egenskaper samtidig. Lag en figur med sepal width på x-aksen, sepal length på y-aksen, fargelagt etter type irisplante, der vi har et punkt for hver plante i datasettet. Tips: Bruk [`plotly.express.scatter`](https://plotly.com/python-api-reference/generated/plotly.express.scatter.html). 

In [76]:
# Scatterplot
fig = px.scatter(data_frame=iris_data, x='sepal length (cm)', y='sepal width (cm)', color=iris_labels)
fig.show()

I stedet for en scatterplott vil vi noen ganger heller se på 2-dimensjonal tetthet. Lag en 2-dimensjonal tetthetsfigur (contour plot) med `sepal width (cm)` på x-aksen og `sepal length (cm)` på y-aksen. Tips: Bruk [`plotly.express.density_contour`](https://plotly.com/python-api-reference/generated/plotly.express.density_contour.html). 

In [77]:
# Tetthet
fig = px.density_contour(data_frame=iris_data, x='sepal length (cm)', y='sepal width (cm)', color=iris_labels)
fig.show()

Det blir litt enklere å lese hvis vi ikke bare har konturer, men fargelegger etter tetthet. For å gjøre det, kan vi bruke [`plotly.graph_objects.Figure.update_traces`](https://plotly.com/python-api-reference/generated/plotly.graph_objects.Figure.html#plotly.graph_objects.Figure.update_traces)-metoden med argumentene `contours_coloring="fill"` og for eksempel `colorscale = 'Blues'`. De argumentene kan være vanskelig å finne i dokumentasjonen og det er ofte nødvendig å søke på nettet for å finne slike løsninger. 

In [78]:
# Tetthet
fig = px.density_contour(data_frame=iris_data, x='sepal length (cm)', y='sepal width (cm)', color=iris_labels)
fig.update_traces(contours_coloring="fill", 
                  colorscale = 'Blues')
fig.show()

Til slutt ser vi på to metoder for å se på alle variablene samtidig. Regn ut de første to prinsipale komponenter PC1 og PC2. Så lag en scatterfigur med PC1 på x-aksen, PC2 på y-aksen, fargelagt etter type irisplante. Tips: Bruk [`sklearn.decomposition.PCA`](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html). Som vi har sett tidligere er sklearn sine metoder er alle bygget opp på en lignende måte. Først må vi lage en modell (`init`-metode), så må vi tilpasse modellen til treningsdata (`fit`-metode) og til slutt kan vi bruke den til å predikere (`predict`-metode) for nye data eller transformere (`transform`-metode) nye data. 

In [79]:
# PCA 
pca = PCA(n_components=2)
pca.fit(iris_data)
pca_df = pd.DataFrame(pca.transform(iris_data), 
                      columns=['PC1', 'PC2'])
# Scatterplot
fig = px.scatter(data_frame=pca_df, 
                 x='PC1', 
                 y='PC2', 
                 color=iris_labels,
                 labels={'color':'Type'})
fig.show()

Hvis vi har så få koordinater som her kan det være et alternativ til PCA å bruke parallele koordinater. Bruk parallele koordinater for å visualisere iris data. Tips: Bruk [`plotly.express.parallel_coordinates`](https://plotly.com/python-api-reference/generated/plotly.express.parallel_coordinates.html). 

In [80]:
# Parallele koordinater
fig = px.parallel_coordinates(data_frame=iris_data)

fig.show()

Fargelegg figuren med parallele koordinater etter type irisplante. Merk at [`plotly.express.parallel_coordinates`](https://plotly.com/python-api-reference/generated/plotly.express.parallel_coordinates.html) ikke er tenkt for å brukes med kategoriske farger. For å få det til likevel, så kan vi bruke en kontinuerlig fargeskala som er stykkevis konstant. Vi må også bruke en numerisk variabel for å fargelegge etter i stedet for den kontinuerlige variablen vi har brukt til nå. 

In [81]:
# Parallele koordinater
fig = px.parallel_coordinates(data_frame=iris_data,
                              color="sepal length (cm)", # må være numerisk
                              color_continuous_scale=[(0.00, "#8DD3C7"),   (0.33, "#8DD3C7"),
                                                      (0.33, "#FFFFB3"), (0.67, "#FFFFB3"),
                                                      (0.67, "#BEBADA"),  (1.00, "#BEBADA")]
                             )
fig.update_layout(coloraxis_colorbar=dict(
    title="Spesies", 
    tickvals=[0.33, 1, 1.67], 
    ticktext=iris.target_names
))

fig.show()

## Museum data

Museum datasettet (data/museum.csv) inneholder data om museumsbesøk mellom januar 2014 og juni 2021. Data er hentet fra [Los Angeles open data](https://data.lacity.org/Arts-Culture/Museum-Visitors/trxm-jn3c). Målet er å lage en figur av utviklingen av museumsbesøk de siste 7 årene. 

Begynn ved å lese inn data og se på de første radene. 

In [82]:
museum_data = pd.read_csv("lab-3/data/museum.csv")
museum_data.head()

Unnamed: 0,Month,America Tropical Interpretive Center,Avila Adobe,Chinese American Museum,Gateway to Nature Center,Firehouse Museum,Hellman Quon,IAMLA,Pico House,Visitor Center/ El Tranquilo Gallery,Museum of Social Justice,Biscailuz Gallery/ PK Outdoor Exhibit
0,01/01/2014 12:00:00 AM,6602,24778,1581,,4486,0.0,,2204.0,2961.0,,
1,02/01/2014 12:00:00 AM,5029,18976,1785,,4172,0.0,,1330.0,2276.0,,
2,03/01/2014 12:00:00 AM,8129,25231,3229,,7082,70.0,,4320.0,3116.0,,
3,04/01/2014 12:00:00 AM,2824,26989,2129,,6756,250.0,,3277.0,2808.0,,
4,05/01/2014 12:00:00 AM,10694,36883,3676,,10858,135.0,,4122.0,3987.0,,


Ved bruk av kolonnen `Month`, lag en ny kolonne `Date` som er har `dtype` `pandas.datetime`. Fjern deretter kolonnen `Month`. 

In [83]:
# lag kolonnen Date
museum_data['Date'] = museum_data['Month']
# fjern kolonnen Month
museum_data.drop('Month', axis=1, inplace=True)

Forandre data sånn at du har tre kolonner med dato, museum navn og antal besøkende. Tips: Bruk [`pandas.melt`](https://pandas.pydata.org/docs/reference/api/pandas.melt.html). Sorter deretter etter dato og museum navn. 

In [84]:
# omformater data
museum_reshaped = pd.melt(museum_data, id_vars=['Date'], value_vars=list(museum_data.columns[1:]), var_name='Museum', value_name='Visitors')
# sorter 
museum_reshaped.sort_values(['Date', 'Museum'])

Unnamed: 0,Date,Museum,Visitors
0,01/01/2014 12:00:00 AM,Avila Adobe,24778.0
810,01/01/2014 12:00:00 AM,Biscailuz Gallery/ PK Outdoor Exhibit,
90,01/01/2014 12:00:00 AM,Chinese American Museum,1581.0
270,01/01/2014 12:00:00 AM,Firehouse Museum,4486.0
180,01/01/2014 12:00:00 AM,Gateway to Nature Center,
...,...,...,...
443,12/01/2020 12:00:00 AM,Hellman Quon,
533,12/01/2020 12:00:00 AM,IAMLA,0.0
803,12/01/2020 12:00:00 AM,Museum of Social Justice,0.0
623,12/01/2020 12:00:00 AM,Pico House,0.0


Se på de første radene av det nye datasettet. 

In [85]:
museum_reshaped.head()

Unnamed: 0,Date,Museum,Visitors
0,01/01/2014 12:00:00 AM,Avila Adobe,24778.0
1,02/01/2014 12:00:00 AM,Avila Adobe,18976.0
2,03/01/2014 12:00:00 AM,Avila Adobe,25231.0
3,04/01/2014 12:00:00 AM,Avila Adobe,26989.0
4,05/01/2014 12:00:00 AM,Avila Adobe,36883.0


Velg ut en informativ figurtype og lag en figur som viser utviklingen av museumsbesøk i datasettet. 

In [86]:
# Visualisering
fig = px.line(museum_reshaped, x='Date', y='Visitors', color='Museum')
fig.show()

Hva legger du merke til i figuren du lagde? Nevn minst tre ting. 

Hopp på firehouse museum 09/01/2014,

Lavere verdier fra 04/01/2020 eller flere NaN

Hellman museum har mange hull og NaN verider

## Titanic data

Titanic datasettet (data/titanic.csv) har vi sett på flere ganger i løpet av kurset. Her skal vi lage noen flere visualiseringer som relaterer prisen til andre variabler. 

Les inn data og se på de første radene av datasettet. 

In [87]:
# lese inn data og se på de første radene. 
titanic = pd.read_csv('titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Lag en meningsfull figur som viser kjønn (`Sex`) og pris (`Fare`) av titanic-passasjerene.

Er det noen forskjeller mellom prisene som kvinner og men betaler?

In [88]:
# Visualisering av kjønn og pris
fig = px.bar(titanic,x='Sex', y ='Fare')
fig.show()

Variasjonen i prisen er større blant kvinner enn blant menn. Typisk betaler kvinner mer enn menn. 

Vi har sett i forelesninen at det er store forskjeller mellom kjønn og klassen (`Pclass`). Kan det forklare forskjellen mellom kjønn og prisen? Lag en figur for å se på de tre variablene samtidig. 

På første forsøk er det kanskje ikke like lett å se forskjellen i alle klassene. Hva kan du gjøre for å få alle klassene til å vises like godt?

Er det fortsatt forskjeller mellom kjønn og pris? I så fall, er det de samme forskjellene som vi så på i spørsmål før?

In [89]:
fig = px.box(titanic, 
             x='Pclass', 
             y='Fare', 
             color='Sex', 
             points='all'  
)

fig.update_layout(yaxis_type="log", 
                  xaxis_title="Pclass", 
                  yaxis_title="Fare")

fig.show()

Median er alltid høyere hos kvinner. Som vil si at kvinner oftest betaler mer.

...