## Litt teori

Vi starter oppgaven med litt teori om sannsynlighetsfordelinger. 

I en familie med fire barn, hva er sannsynligheten for at to er gutter og to er jenter?

...

Anta at sannsynligheten $P(A) = 0.3$, og betinget sannsynligheter $P(A|B) = 0.5$ og $P(B|A) = 0.2$. Hva er sannsynligheten $P(B)$?

...

Vis at hvis $A \subseteq B$, så er $P(A) \le P(B)$.

...

## Statistikk om lønn

Her ser vi litt på statistikk om et datasett av erfaring og lønn. For det bruker vi pakkene numpy, pandas, plotly og sklearn. 

In [None]:
import numpy as np 
import pandas as pd
import plotly.express as px
from sklearn.linear_model import LinearRegression

Last inn lønnsdatasettet (data/salary.csv) ved hjelp av `pd.read_csv`. 

In [None]:
# les inn salary data
salary_df = pd.read_csv(___)

Se først på de første 5 radene av datasettet. 

In [None]:
# første 5 rad
___

Så skal vi visualisere data. Hvis du har lastet inn datasette riktig, så skal koden nede kjøre. Vi skal se mer på visualisering senere i kurset, så du trenger ikke å tenke over denne koden. 

In [None]:
# visualiser salary data
fig = px.scatter(salary_df, 'YearsExperience', 'Salary')
fig.update_layout(font=dict(size=18), template="simple_white", showlegend=False)
fig.update_xaxes(range=[0, 12])
fig.update_yaxes(range=[0, 14e4])
fig.show()

Nå regner vi ut et lokaliseringsmål og spredningsmål for begge variablene. 

In [None]:
# lokaliseringsmål og spredningsmål
___

Regn ut korrelasjon mellom de to variablene. 

In [None]:
# korrelasjon
korrelasjon = ___
print(korrelasjon)

Lag og tilpass en regresjonsmodell ved hjelp av [`sklearn.linear_model.LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) for å forutse lønn basert på erfaring. Sklearn sine metoder er alle bygget opp på en lignende måte. Først må vi lage en modell (`init`-metode), så må vi tilpasse modellen til treningsdata (`fit`-metode) og til slutt kan vi bruke den til å predikere (`predict`-metode) for nye data eller transformere (`transform`-metode) nye data. 

In [None]:
# lineær modell
lm = LinearRegression()
lm.fit(___, ___)

Finn ut konstantleddet og stigningstallet til den lineære modellen.

In [None]:
# konstantleddet og stigningstallet
konstantledd = ___
stigningstall = ___
print('Konstantleddet: ', round(konstantledd, 2))
print('Stigningstallet: ', round(stigningstall, 2))

Hvis du bruker lineær regresjon som prediksjon, hvor stor er feilen på treningsdata?

In [None]:
# feil 
___

Beskriv hva du har funnet i to setninger. 

...

## Klassifikasjon med riktige og falske prediksjoner

Filen "sonar.csv" inneholder sonarsignaler fra metallsylindre og stein som ligger i forskjellige vinkler og under forskjellige forhold. Hvert sonarsignal består av 60 tall mellom 0.0 og 1.0 som representerer energien innenfor et bestemt frekvensbånd, over en viss tidsperiode. Tilknyttet hvert datapunkt har vi kategorien "R" for stein og "M" for metallsylinder. 

Først laster vi inn pakkene vi trenger for denne oppgaven. 

In [None]:
import numpy as np 
import pandas as pd

import plotly.express as px

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

Så leser vi inn data. 

In [None]:
# lese inn data
df_sonar = pd.read_csv(___)
df_sonar.head()

Så deler vi data i sonarsignal $X$ og kategori $y$. 

In [None]:
# Sonarsignal X og kategori y
X = df_sonar.loc[:, :59]
y = df_sonar.loc[:, 60]

Nå deler vi data i trenings- og testdata. På treningsdata skal vi tilpasse en modell for å predikere y hvis X er gitt. Så bruker vi testdata for å finne ut hvor god denne modellen faktisk er. Senere kommer vi til å dele data i trenings-, validerings- og testdata. Det trenger vi når vi vil tilpasse flere modeller og velge ut den modellen som passer best til data. Men for nå bare ser vi på en modell, så det er nok med trenings- og testdata. 

In [None]:
# dele i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Nå tilpasser vi en logistisk regresjonsmodell på treningsdata og bruker den for å predikere y på testdata. Vi vil snakke mer om logistiske regresjonsmodeller senere, for nå bruker vi det bare som eksempel. 

In [None]:
# logistisk regresjonsmodell
lr = LogisticRegression(solver='lbfgs')
lr.fit(X_train, y_train)
pred = lr.predict(X_test)

Ved bruk av en del av treningsdataene har vi nå laget en enkel modell for å forutsee om data tilsvarer "R" eller "M". Med testdataene regner vi nå ut konfusjonsmatrisen, 

|               | Predikert S (PS)         | Predikert M (PM) |
|---            |---                       |---               |
|Faktisk S (FS) | P(FS \& PS)              | P(FS \& PM)      |
|Faktisk M (FM) | P(FM \& PS)              | P(FM \& PM)      |

In [None]:
# konfusionmatrise
cm = confusion_matrix(y_test, pred, labels=('R', 'M'), normalize='all')
print(cm)

Vi visualiserer konfusjonsmatrisen. Vi skal se mer på visualisering senere i kurset, så for nå kan du bare kjøre koden og se på den genererte figuren. 

In [None]:
# visualisering av konfusjonsmatrisen
cm_df = pd.DataFrame(cm, 
                     columns=["Predikert Stein", "Predikert Mine"], 
                     index=["Faktisk Stein", "Faktisk Mine"])
fig = px.imshow(cm_df, color_continuous_scale='YlOrRd', zmin=0, zmax=1)
fig.update_layout(font=dict(size=36))
fig.show()

Basert på denne konfusjonsmatrissen skal vi vurdere kvaliteten av modellen. For å gjøre det regner vi ut forskjellige sannsynligheter og betingte sannsynligheter. Vi begynner med et enkelt spørsmål om datasettet: 

Hvor mange signaler i hele datasettet kommer fra metallsylindre og hvor mange fra stein?

In [None]:
# totalt antall miner og stein
n_sonar = ___
print(n_sonar)

Hva er sannsynligheten for at vi predikerer riktig?

In [None]:
# sannsynlighet for riktig prediskjon
p_riktig = ___
print(p_riktig)

Hva er sannsynligheten for at vi predikerer at det er en mine hvis det faktisk er en stein?

In [None]:
# predikert mine, faktisk stein
p_pred_mine_faktisk_stein = ___
print(p_pred_mine_faktisk_stein)

Hva er sannsynligheten for at det faktisk er en mine hvis vi predikerer at det er en mine?

In [None]:
# faktisk mine, predikert mine
p_fm_pm = ___
print(round(p_fm_pm, 3))

Hva er sensitiviteten av testen for at det er en mine, dvs sannsynligheten at vi predikerer en mine hvis det faktisk er en mine?

In [None]:
# sensitivitet 
sensitivitet = ___
print(sensitivitet)

Hva er spesifiteten av testen for at det er en mine, dvs sannsynligheten at vi predikerer en stein hvis det faktisk er en stein?

In [None]:
# spesifitet
spesifitet = ___
print(spesifitet)

Beskriv hvor godt denne modellen klarer å skille mellom stein og miner i to setninger. 