## Statistikk om lønn

Her ser vi litt på statistikk om et datasett av erfaring og lønn. For det bruker vi pakkene numpy, pandas, plotly og sklearn. 

In [6]:
import numpy as np 
import pandas as pd
import plotly.express as px
from sklearn.linear_model import LinearRegression

Last inn lønnsdatasettet (data/salary.csv) ved hjelp av `pd.read_csv`. 

In [7]:
# les inn salary data
salary_df = pd.read_csv('data/salary.csv')

Se først på de første 5 radene av datasettet. 

In [8]:
# første 5 rad
salary_df.head()

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


Så skal vi visualisere data. Hvis du har lastet inn datasette riktig, så skal koden nede kjøre. Vi skal se mer på visualisering senere i kurset, så du trenger ikke å tenke over denne koden. 

In [9]:
# visualiser salary data
fig = px.scatter(salary_df, 'YearsExperience', 'Salary')
fig.update_layout(font=dict(size=18), template="simple_white", showlegend=False)
fig.update_xaxes(range=[0, 12])
fig.update_yaxes(range=[0, 14e4])
fig.show()

Nå regner vi ut et lokaliseringsmål og spredningsmål for begge variablene. 

In [10]:
# lokaliseringsmål og spredningsmål
# Regner gjennomsnitt, median for lokaliseringsmål
# Regner standaravvik og varians for spredning
mean_experience = salary_df['YearsExperience'].mean()
median_experience = salary_df['YearsExperience'].median()
mean_salary = salary_df['Salary'].mean()
median_salary = salary_df['Salary'].median()

std_experience = salary_df['YearsExperience'].std()
var_experience = salary_df['YearsExperience'].var()
std_salary = salary_df['Salary'].std()
var_salary = salary_df['Salary'].var()

print(mean_experience)
print(median_experience)
print(mean_salary)
print(median_salary)

print(std_experience)
print(var_experience)
print(std_salary)
print(var_salary)

5.3133333333333335
4.7
76003.0
65237.0
2.8378881576627184
8.053609195402299
27414.4297845823
751550960.4137931


Regn ut korrelasjon mellom de to variablene. 

In [11]:
# korrelasjon
korrelasjon = salary_df['YearsExperience'].corr(salary_df['Salary'])
print(korrelasjon)

0.9782416184887599


Lag og tilpass en regresjonsmodell ved hjelp av [`sklearn.linear_model.LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) for å forutse lønn basert på erfaring. Sklearn sine metoder er alle bygget opp på en lignende måte. Først må vi lage en modell (`init`-metode), så må vi tilpasse modellen til treningsdata (`fit`-metode) og til slutt kan vi bruke den til å predikere (`predict`-metode) for nye data eller transformere (`transform`-metode) nye data. 

In [12]:

X = salary_df[['YearsExperience']]
y = salary_df['Salary']

# lineær modell
lm = LinearRegression()
lm.fit(X, y)

score = lm.score(X, y)
print(score)

new_data = np.array([[5]])
predic = lm.predict(new_data)
print(predic)

0.9569566641435086
[73042.01180594]



X does not have valid feature names, but LinearRegression was fitted with feature names



Finn ut konstantleddet og stigningstallet til den lineære modellen.

In [13]:
# konstantleddet og stigningstallet
konstantledd = lm.intercept_
stigningstall = lm.coef_[0]
print('Konstantleddet: ', round(konstantledd, 2))
print('Stigningstallet: ', round(stigningstall, 2))

Konstantleddet:  25792.2
Stigningstallet:  9449.96


Hvis du bruker lineær regresjon som prediksjon, hvor stor er feilen på treningsdata?

In [14]:
# feil 
feil = y - lm.predict(X)
print(feil)

0      3155.841248
1      8127.848783
2     -2236.143681
3     -1167.124842
4     -6691.117306
5      3444.909069
6      6007.912837
7     -1587.079627
8      8412.920373
9     -3568.060788
10      570.946748
11    -7798.049484
12    -6635.049484
13    -7456.045717
14    -7206.030645
15    -4159.015574
16    -7958.008038
17     7210.999498
18     -183.977895
19    11448.025873
20     1686.056015
21     5386.067319
22      855.097462
23    10530.108765
24     1424.127605
25    -5259.861092
26     1402.157748
27    -3876.838485
28     -735.812110
29    -3144.804574
Name: Salary, dtype: float64


Beskriv hva du har funnet i to setninger. 

Noen prediksjoner har noen større enn 10k som jeg vil si er dårlig, men alt under er egentlig ganske bra.