# Residualer i enkel lineær regresjon

Vi skal starte med å se på residualer i enkel lineær regresjon når dataen er generert etter modellantakelsene. For $i=1,2,\ldots,n$ la

$$Y_i = \alpha + \beta x_i + \varepsilon_i,$$

der $\varepsilon_1,\varepsilon_2,\ldots,\varepsilon_n$ er uavhengige og normalfordelte med forventningsverdi lik null og varians lik $1.5^2$. Her er altså modellen som antas i enkel lineær regresjon korrekt, og parameterverdiene er $\alpha=-1$, $\beta=1.5$ og $\sigma=1.5$.

I python-koden under genererer vi $x_i$ $i=1,2,...,20$ etter uniformfordelingen (merk at dette er bare for å få tilfeldige verdier for $x$ i et gitt område, vi antar at dette er kjente tall i modellen). 
Deretter genereres tilhørende verdier for $y_1,y_2,\ldots,y_n$ ifølge modellen formulert ovenfor. De genererte verdiene visuliseres så i et spredningsplott.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# Bruker kode fra innlevering 6, oppgave 2
#Her bestemmes regresjonsparameterne
def estimerELR(x,y):
    #Beregner gjennomsnitt
    xStrek = np.mean(x)
    yStrek = np.mean(y)
    #Estimater for parametere
    #forventningsrett estimator for beta
    betaHat = np.sum((x-xStrek)*y)/np.sum((x-xStrek)**2)
    #forventningsrett estimator for alpha
    alphaHat = yStrek - betaHat * xStrek
    #forventningsrett estimator for sigma^2
    S2 = np.sum((y-(alphaHat+betaHat*x))**2)/(len(x)-2)
    #Returnerer resultatet i en liste
    return [alphaHat,betaHat,S2]



In [None]:
n = 50 # antall observasjoner
# sanne parameter verdier (de vet man ikke):
alpha = -1 
beta = 1.5
sigma = 1.5

# generer x (ikke stokastisk, men jeg simulerer)
x = np.random.uniform(0, 10, size=n)

# generer y etter modellantakelser
y = alpha + beta * x + np.random.normal(scale = sigma, size=n)

plt.plot(x, y, '.')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

Det ser ut som vi har en lineær trend mellom $x$ og $y$. Vi kan tilpasse en regresjonslinje til dataen ved å bruke estimatorene som vi har diskutert.

In [None]:
#Kaller på funksjonen som estimerer parameterne
paramHat = estimerELR(x,y)
print('alphaHat: ',paramHat[0], '\t\t alpha: ', alpha)
print('betaHat: ',paramHat[1], '\t\t beta: ', beta)
print('s^2: ',paramHat[2], '\t\t sigma^2: ', sigma**2)   

plt.plot(x, y, '.')
plt.plot(np.array([0,10]), paramHat[0] + paramHat[1]*np.array([0,10]),'-')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

Vi kan sammenlikne parameterestimatene med de sanne verdiene, fordi vi kjenner dem. I den virkelige verden er disse ukjente ($\alpha,\beta,\sigma$), så vi kan ikke vurdere modellantakelser  basert på estimatene direkte.

En måte å vurdere modellantakelser er ved å studere residualer. Nå skal vi gjøre dette for den linja vi fant ovenfor. Vi finner residualene, og plotter dem mot $x$:

In [None]:
epsilon = y - (paramHat[0] + paramHat[1]*x) # avviket mellom observerte y-er og modellens y-er

plt.plot(x, epsilon, ".")
plt.xlabel("x")
plt.ylabel("Residualer")
plt.show()

Modellantakelsene er $E[\varepsilon_i]=0$ og $\text{Var}[\varepsilon_i]=\sigma^2$ for alle $i=1,...n$, i tillegg til at vi tror de er normalfordelte. Vi kan se i plottet at det ser ut som residualene er sentrert rundt $0$, og spredningen er den samme for alle verdier av $x$, og den er symmetrisk om $0$. 

Her vet vi at støyet (vi laget det selv) er normalfordelt, så denne typen residualplott er det vi forventer å se dersom enkel lineærregresjonsmodellen er korrekt. Det finnes også andre måter å sjekke om noe er normalfordelt, hvilke kjenner du til?

Hva skjer når modellantakelsene er feil?

Det skal dere se nærmere på i innlevering 6, oppgave 2. Hva om avhengigheten ikke er lineær?

In [None]:
n = 50 # antall observasjoner
# sanne parameter verdier (de vet man ikke):
alpha = -1 
beta = 1.5
gamma = 0.3
sigma = 1.5

# generer x (ikke stokastisk, men jeg simulerer)
x = np.random.uniform(0, 10, size=n)

# generer y med en ekstra avhengighet til x^2 - lat som du ikke vet om dette :-)
y = alpha + beta * x + np.random.normal(scale=sigma, size=n) + gamma * x**2 


plt.plot(x, y, '.')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

Det kan se ut som vi har en linær trend mellom x og y, så vi tilpasser en lineær regresjonslinje:

In [None]:
#Kaller på funksjonen som estimerer parameterne
paramHat = estimerELR(x,y)
print('alphaHat: ',paramHat[0])
print('betaHat: ',paramHat[1]) 

plt.plot(x, y, '.')
plt.plot(np.array([0,10]), paramHat[0] + paramHat[1]* np.array([0,10]), '-')
plt.xlabel("x")
plt.ylabel("y")
plt.show()


Ser fint ut! Da er vi fornøyde, eller? 

La oss ta en titt på residualene:

In [None]:
epsilon = y - (paramHat[0] + paramHat[1]*x) # avviket mellom observerte y-er og modellens y-er

plt.plot(x, epsilon, ".")
plt.xlabel("x")
plt.ylabel("Residualer")
plt.show()

Oi, her ser det ikke ut som vi har identisk fordelt støy? Det ser ikke ut som forventningsverdien til residualene er 0! Her må det være noe feil i modellen. Hva? Diskuter med sidemann!


