## Litt teori

Vi starter oppgaven med litt teori om sannsynlighetsfordelinger. 

### I en familie med fire barn, hva er sannsynligheten for at to er gutter og to er jenter?

Total combinasjoner = 2**4 = 16

C(n, k) = n! / [k!(n-k)!]

n = 4 (hvor mange sjanser)
k = 2 (2 gutter)

C(4, 2) = 4! / [2!(4-2)!] = 6

6/16 = 37.5%

### Anta at sannsynligheten $P(A) = 0.3$, og betinget sannsynligheter $P(A|B) = 0.5$ og $P(B|A) = 0.2$. Hva er sannsynligheten $P(B)$?

P(A|B) = (P(B|A) P(A) ) /  P(B)

0.5 = (0.2*0.3) / P(B)

0.5 * P(B) = 0.06

P(B) = 0.06 / 0.05 

P(B) = 0.2


Test:

P(B|A) = P(A|B) P(B) / P(A)

0.2 = 0.5*0.12 / 0.3

Som er sant! 0.2 = 0.2

### Vis at hvis $A \subseteq B$, så er $P(A) \le P(B)$.

*Alle utfall i A må også være i B.*

Siden det er en mulighet for at A og B er lik, at alle A er i B og alle B er i A, 
vil da de dele alle utfallsrom og ha lik sjanse på alle tilfeller.

**Eksempel på hvorfor A har en mindre sjanse enn B**

Hvis vi ruller en terning og definerer to utfallsrom.
- Utfallsrom A = [1,2]
- Utfallsrom B = [1,2,3]

Er det en 2/6 sjanse at verdien fra terningen vil ende opp i utfallsrom 2
Og en P(A) + 1/6 sjanse at veriden ender i utfallsrom B, altså alltid større enm A.
Uansett om B er [1,2,3] eller [1,2,6], vil den alltid ha en høyere sjanse.

* Untatt når A=B da vil P(A) == P(B) *






## Statistikk om lønn

Her ser vi litt på statistikk om et datasett av erfaring og lønn. For det bruker vi pakkene numpy, pandas, plotly og sklearn. 

In [40]:
import numpy as np 
import pandas as pd
import plotly.express as px
from sklearn.linear_model import LinearRegression

Last inn lønnsdatasettet (data/salary.csv) ved hjelp av `pd.read_csv`. 

In [41]:
# les inn salary data
salary_df = pd.read_csv("data/salary.csv")

Se først på de første 5 radene av datasettet. 

In [42]:
# første 5 rad
salary_df.head(5)

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


Så skal vi visualisere data. Hvis du har lastet inn datasette riktig, så skal koden nede kjøre. Vi skal se mer på visualisering senere i kurset, så du trenger ikke å tenke over denne koden. 

In [43]:
# visualiser salary data
fig = px.scatter(salary_df, 'YearsExperience', 'Salary')
fig.update_layout(font=dict(size=18), template="simple_white", showlegend=False)
fig.update_xaxes(range=[0, 12])
fig.update_yaxes(range=[0, 14e4])
fig.show()

Nå regner vi ut et lokaliseringsmål og spredningsmål for begge variablene. 

In [44]:
# lokaliseringsmål og spredningsmål
years  = salary_df['YearsExperience']
salary = salary_df['Salary']

#Mean, median or mode
years_mean = np.mean(years)
print(years_mean)

salary_mean = np.mean(salary)
print(salary_mean)


#IQR or Empirisk varians
emp_variance_salar = np.var(salary)
print(emp_variance_salar)

emp_variance_years = np.var(years)
print(emp_variance_years)

#Siden jeg valgte mean, valgte jeg også empirisk varians




5.3133333333333335
76003.0
726499261.7333333
7.785155555555556


Regn ut korrelasjon mellom de to variablene. 

In [45]:
# korrelasjon

korrelasjon = years.corr(salary)
print(korrelasjon)


0.9782416184887599


Lag og tilpass en regresjonsmodell ved hjelp av [`sklearn.linear_model.LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) for å forutse lønn basert på erfaring. Sklearn sine metoder er alle bygget opp på en lignende måte. Først må vi lage en modell (`init`-metode), så må vi tilpasse modellen til treningsdata (`fit`-metode) og til slutt kan vi bruke den til å predikere (`predict`-metode) for nye data eller transformere (`transform`-metode) nye data. 

In [46]:
# lineær modell

lm = LinearRegression()
years_np = years.to_numpy()
years_np = years_np.reshape(-1,1)
lm.fit(years_np, salary)
lm.predict(years_np)

array([ 36187.15875227,  38077.15121656,  39967.14368085,  44692.12484158,
        46582.11730587,  53197.09093089,  54142.08716303,  56032.07962732,
        56032.07962732,  60757.06078805,  62647.05325234,  63592.04948449,
        63592.04948449,  64537.04571663,  68317.03064522,  72097.0155738 ,
        73987.00803809,  75877.00050238,  81546.97789525,  82491.9741274 ,
        90051.94398456,  92886.932681  , 100446.90253816, 103281.8912346 ,
       108006.87239533, 110841.86109176, 115566.84225249, 116511.83848464,
       123126.81210966, 125016.80457395])

Finn ut konstantleddet og stigningstallet til den lineære modellen.

In [47]:
# konstantleddet og stigningstallet
konstantledd = lm.intercept_
stigningstall = lm.coef_[0]

print('Konstantleddet: ', round(konstantledd, 2))
print('Stigningstallet: ', round(stigningstall, 2))

Konstantleddet:  25792.2
Stigningstallet:  9449.96


Hvis du bruker lineær regresjon som prediksjon, hvor stor er feilen på treningsdata?

In [48]:
predicted_salary_minus_actual_salary = abs( lm.predict(years_np) - salary_df.Salary )
print(predicted_salary_minus_actual_salary)

# Her kan vi se at det er en del feil per linje, men egentlig ikke 
# siden det er snakk om så høye tall, er feks 3000 kr ganske lite

#Maks feil:
print(max(predicted_salary_minus_actual_salary )) 
# = 11448

#Altså, max feilen var ikke så høy eller egentlig

#Min feil:
print(min(predicted_salary_minus_actual_salary )) 
# = 183

#Altså, min feilen var veldig bra!

# Alt i alt var dette en grei modell, 
# men hvis det er viktig med mye presisjon, burde man se på en annen moddeø


0      3155.841248
1      8127.848783
2      2236.143681
3      1167.124842
4      6691.117306
5      3444.909069
6      6007.912837
7      1587.079627
8      8412.920373
9      3568.060788
10      570.946748
11     7798.049484
12     6635.049484
13     7456.045717
14     7206.030645
15     4159.015574
16     7958.008038
17     7210.999498
18      183.977895
19    11448.025873
20     1686.056015
21     5386.067319
22      855.097462
23    10530.108765
24     1424.127605
25     5259.861092
26     1402.157748
27     3876.838485
28      735.812110
29     3144.804574
Name: Salary, dtype: float64
11448.025872600847
183.9778952536435


Beskriv hva du har funnet i to setninger. 

Jeg har funnet at vår lineære regresjonsmodell med Konstantleddet:  25792.2 og Stigningstallet:  9449.96
som forutsier lønn basert på års erfaring, har en stor kvadratisk feil (MSE) på 31270951.72.

Dette kan bety at modellen kanskje ikke forutsier lønnen veldig nøyaktig, og andre faktorer kunne bli brukt til å forstå dataen bedre.

## Klassifikasjon med riktige og falske prediksjoner

Filen "sonar.csv" inneholder sonarsignaler fra metallsylindre og stein som ligger i forskjellige vinkler og under forskjellige forhold. Hvert sonarsignal består av 60 tall mellom 0.0 og 1.0 som representerer energien innenfor et bestemt frekvensbånd, over en viss tidsperiode. Tilknyttet hvert datapunkt har vi kategorien "R" for stein og "M" for metallsylinder. 

Først laster vi inn pakkene vi trenger for denne oppgaven. 

In [49]:
import numpy as np 
import pandas as pd

import plotly.express as px

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

Så leser vi inn data. 

In [50]:
# lese inn data
df_sonar = pd.read_csv("data/sonar.csv", header=None)
df_sonar.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51,52,53,54,55,56,57,58,59,60
0,0.02,0.0371,0.0428,0.0207,0.0954,0.0986,0.1539,0.1601,0.3109,0.2111,...,0.0027,0.0065,0.0159,0.0072,0.0167,0.018,0.0084,0.009,0.0032,R
1,0.0453,0.0523,0.0843,0.0689,0.1183,0.2583,0.2156,0.3481,0.3337,0.2872,...,0.0084,0.0089,0.0048,0.0094,0.0191,0.014,0.0049,0.0052,0.0044,R
2,0.0262,0.0582,0.1099,0.1083,0.0974,0.228,0.2431,0.3771,0.5598,0.6194,...,0.0232,0.0166,0.0095,0.018,0.0244,0.0316,0.0164,0.0095,0.0078,R
3,0.01,0.0171,0.0623,0.0205,0.0205,0.0368,0.1098,0.1276,0.0598,0.1264,...,0.0121,0.0036,0.015,0.0085,0.0073,0.005,0.0044,0.004,0.0117,R
4,0.0762,0.0666,0.0481,0.0394,0.059,0.0649,0.1209,0.2467,0.3564,0.4459,...,0.0031,0.0054,0.0105,0.011,0.0015,0.0072,0.0048,0.0107,0.0094,R


Så deler vi data i sonarsignal $X$ og kategori $y$. 

In [51]:
# Sonarsignal X og kategori y
X = df_sonar.iloc[:, :60]
y = df_sonar.iloc[:, 60]

Nå deler vi data i trenings- og testdata. På treningsdata skal vi tilpasse en modell for å predikere y hvis X er gitt. Så bruker vi testdata for å finne ut hvor god denne modellen faktisk er. Senere kommer vi til å dele data i trenings-, validerings- og testdata. Det trenger vi når vi vil tilpasse flere modeller og velge ut den modellen som passer best til data. Men for nå bare ser vi på en modell, så det er nok med trenings- og testdata. 

In [52]:
# dele i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Nå tilpasser vi en logistisk regresjonsmodell på treningsdata og bruker den for å predikere y på testdata. Vi vil snakke mer om logistiske regresjonsmodeller senere, for nå bruker vi det bare som eksempel. 

In [53]:
# logistisk regresjonsmodell
lr = LogisticRegression(solver='lbfgs')
lr.fit(X_train, y_train)
pred = lr.predict(X_test)

Ved bruk av en del av treningsdataene har vi nå laget en enkel modell for å forutsee om data tilsvarer "R" eller "M". Med testdataene regner vi nå ut konfusjonsmatrisen, 

|               | Predikert S (PS)         | Predikert M (PM) |
|---            |---                       |---               |
|Faktisk S (FS) | P(FS \& PS)              | P(FS \& PM)      |
|Faktisk M (FM) | P(FM \& PS)              | P(FM \& PM)      |

In [54]:
# konfusionmatrise
cm = confusion_matrix(y_test, pred, labels=('R', 'M'), normalize='all')
print(cm)

[[0.32692308 0.17307692]
 [0.03846154 0.46153846]]


Vi visualiserer konfusjonsmatrisen. Vi skal se mer på visualisering senere i kurset, så for nå kan du bare kjøre koden og se på den genererte figuren. 

In [55]:
# visualisering av konfusjonsmatrisen
cm_df = pd.DataFrame(cm, 
                     columns=["Predikert Stein", "Predikert Mine"], 
                     index=["Faktisk Stein", "Faktisk Mine"])
fig = px.imshow(cm_df, color_continuous_scale='YlOrRd', zmin=0, zmax=1)
fig.update_layout(font=dict(size=36))
fig.show()

Basert på denne konfusjonsmatrissen skal vi vurdere kvaliteten av modellen. For å gjøre det regner vi ut forskjellige sannsynligheter og betingte sannsynligheter. Vi begynner med et enkelt spørsmål om datasettet: 

Hvor mange signaler i hele datasettet kommer fra metallsylindre og hvor mange fra stein?

In [56]:
# totalt antall miner og stein
n_sonar = cm_df.to_numpy()
metall = y.value_counts().get("M")
stein = y.value_counts().get("R")
print(f"{metall} signaler kommer fra metal")
print(f"{stein} signaler kommer fra stein")

111 signaler kommer fra metal
97 signaler kommer fra stein


Hva er sannsynligheten for at vi predikerer riktig?

In [57]:
# sannsynlighet for riktig prediskjon

p_riktig =  cm_df["Predikert Stein"]["Faktisk Stein"] + cm_df["Predikert Mine"]["Faktisk Mine"]
print(p_riktig)

0.7884615384615385


In [58]:
print(sum(cm_df.values))
print(cm_df)

[0.36538462 0.63461538]
               Predikert Stein  Predikert Mine
Faktisk Stein         0.326923        0.173077
Faktisk Mine          0.038462        0.461538


Hva er sannsynligheten for at vi predikerer at det er en mine hvis det faktisk er en stein?

In [59]:
# predikert mine, faktisk stein
p_pred_mine_faktisk_stein =   cm_df["Predikert Mine"]["Faktisk Stein"] / (cm_df["Predikert Mine"]["Faktisk Stein"]+ cm_df["Predikert Stein"]["Faktisk Stein"])
print(p_pred_mine_faktisk_stein)

0.34615384615384615


Hva er sannsynligheten for at det faktisk er en mine hvis vi predikerer at det er en mine?

In [60]:
# faktisk mine, predikert mine
p_fm_pm = cm_df["Predikert Mine"]["Faktisk Mine"] / (cm_df["Predikert Mine"]["Faktisk Mine"] + cm_df["Predikert Mine"]["Faktisk Stein"] )
print(round(p_fm_pm, 3))

0.727


Hva er sensitiviteten av testen for at det er en mine, dvs sannsynligheten at vi predikerer en mine hvis det faktisk er en mine?

In [61]:
# sensitivitet -> alle tilfene der jeg rette riktig på mine / alle tillferler hvor det faktisk var en mine
sensitivitet = cm_df["Predikert Mine"]["Faktisk Mine"] / (cm_df["Predikert Mine"]["Faktisk Mine"] + cm_df["Predikert Stein"]["Faktisk Mine"])
print(sensitivitet)

0.9230769230769231


Hva er spesifiteten av testen for at det er en mine, dvs sannsynligheten at vi predikerer en stein hvis det faktisk er en stein?

In [62]:
# spesifitet
spesifitet = cm_df["Predikert Stein"]["Faktisk Stein"] / (cm_df["Predikert Stein"]["Faktisk Stein"] + cm_df["Predikert Mine"]["Faktisk Stein"])
print(spesifitet)

0.6538461538461539


Beskriv hvor godt denne modellen klarer å skille mellom stein og miner i to setninger.

Testen har en 92% sjanse å gjette at det er en mine hvis det faktisk er en mine, så den er ganske god på det.

Testen gjetter med 35% sjanse på at det er en mine hvis det er en stein, som vil si at den er ikke super god på å skille mellom stein/mine men tar en "better safer than sorry" policy. 
Dette ser vi også gjennom "Hva er sannsynligheten for at det faktisk er en mine hvis vi predikerer at det er en mine?" som er 0.727, 
sammenlignet med "Hva er sannsynligheten for at det faktisk er en stein hvis vi predikerer at det er en mine?"* som er 0.07 (vist nede), som vil si at modellen har en høyere sjanse å gjette mine, i alle tilfeller, så igjen "better safe than sorry".

In [63]:
# predikert stein, faktisk mine
p_pred_mine_faktisk_stein_2 =   cm_df["Predikert Stein"]["Faktisk Mine"] / (cm_df["Predikert Mine"]["Faktisk Mine"]+ cm_df["Predikert Stein"]["Faktisk Mine"])
print(p_pred_mine_faktisk_stein_2)

0.07692307692307693
