
## Rapport: Arbetsflöde och metodik för förutsägelse av huspriser med linjär regression

### Författare: Ali Hussain

### Datum: 2023-09-03



**1. Inledning:**

Att förutsäga bostadspriser är en svår uppgift som kräver många olika variabler. 
Men lösningen har stora fördelar för både konsumenter, fastighetsinvesterare, stadsplanerare med mera.

Här är några exempel på vilka variabler (både globala och lokala) man skulle kunna använda sig av:

1. Penningmängd (M0, M1, M2 och M3).
2. Konsumentprisindex och arbetskostnadsindex (KPI och AKI).
3. Börsindex (SMP500 och OMX 30)
4. Adress, koordinater, kommun
5. Begärt pris, slutpris, differens mellan begärt och slutpris
6. Boarea, biarea, markyta
7. Snittpris per kvm i riket, i kommun, i koordinater baserat på omgivning

Med maskininlärning är det nu möjligt att skapa modeller som kan göra dessa förutsägelser med hög nogranhet. 

I den här rapporten beskrivs det teoretiska arbetsflödet för att utveckla en sådan maskininlärningsapplikation med Python.

**2. Innehållsförtäckning**
1. Inledning
2. Innehållsförtäckning
3. Arbetsflöde 
4. Samla in data 
5. Visualisera data
6. Data förberedelse
7. Linjär regression
8. Driftsättning
9. Sammanfattning
10. Källor

**3. Arbetsflöde** 

| 1. Samla in data | 2. Visualisering av data | 3. Förberedelse av data  | 4. Algoritmer | 5. Driftsättning | 
| :--- | :---- | :--- | :--- | :---- | 
| Datakällor och format     | Diagram       | Datarensning  | Linjär regression      | Serverlös arkitektur        | 


**4. Samla in data**

 Datainsamlingskällor kan vara: fastighetsmäklarsidor, databaser och regeringsstatistik med flera.
 
 Viktigt att tänka på är de etiska aspekter och vikten av anonymisering och GDPR-förpliktelser, särskilt om personlig information samlas in.

 Man kan använda Pandas, Scrapy för data insamling. 
 
 För data analys kan man använda Scikit-learn, Statsmodels
 
 Formaten datan samlas i kan vara: CSV, Excel och SQL databaser.
 
> Lagring:

 Data kan lagras på ens egna lokala server, en utomstående server eller flera servrar spridda över hela världen (molnet).

Exempel:
 
 - [AWS S3](aws.amazon.com/s3/aws)
  
 - [Google Cloud Storage](cloud.google.com)


**5. Visualisera data** 

 För att förstå data bättre kan vi använda visualiseringsverktyg som Matplotlib eller Seaborn i Python.

 - [Seaborn](https://seaborn.pydata.org/)

 - [Matplotlib](https://matplotlib.org/)

 Diagram är användbara för att identifiera extremvärden samt kunna utforska samband mellan variabler.

  Diagram typer:
  - Scatterplot
  - Histogram
  - Boxplot


**6. Data förberedelser** 
> Datarensning

Först behöver vi hantera saknade värden och outliers. 

Detta kan göras genom att antingen ta bort dessa värden eller fylla i saknade värden med medianen eller medelvärdet.

> Feature Engineering

Här kan vi också skapa nya variabler som kan vara mer informativa.

Ett exempel är att om vi har två variabler, en för markyta och en för det totala priset.

| Markyta KVM | Pris SEK| 
| :---: | :----: |
| 1000 | 500000       |
| 2000    | 900000       |
| 3000     | 1300000       |
| 2500     | 450000       |
| 4000     | 1700000       |
| 3000     | 1250000       |

I tabellen ovan blir det svårt att avgöra vad som skulle kunna vara felaktig data och inte.

Därför är det bra om vi lägger till en till variabel som ger oss medelvärdet på priset per kvm.

| Markyta (KVM) | Pris (SEK)| SEK per KVM| 
| :---: | :----: | :----: |
| 1000 | 500000 | 500
| 2000 | 900000 | 450
| 3000 | 1300000 | 433
| 2500 | 450000 | 180
| 4000 | 1700000 | 425
| 3000 | 1250000 |416

Om vi visualiserat datan ovan hade vi snabbt kunnat se att värdet i kolumn 3, rad 4 stack ut från resten och kanske vara felaktig data.



>Normalisering

För att förbättra prestanda för vår linjär regressionsmodell, kan det vara användbart att normalisera funktionerna.

För att undvika problem när man kombinerar värden från olika kolumner som skiljer sig mycket kan man skapa nya värden.

Detta för att upprätthålla den almänna fördelningen och förhållandet i datan.

Du kan exempelvis ändra alla värden till en skala mellan 0 och 1 eller transformera värdena genom att representera dem som percentilrankning snarare än absoluta värden.

Du kan tillämpa normalisering på en enda kolumn eller på flera kolumner i samma datauppsättning.

Vissa algoritmer kräver att data normaliseras innan en modell tränas. 

Andra algoritmer utför sin egen dataskalning eller normalisering

**7. Linjär regression** 

*Linjär regression:* 
[$
y = \beta_0 + \beta_1 x + \epsilon
$](https://wikimedia.org/api/rest_v1/media/math/render/svg/5e69ea724c9c7f3d196d6d1dd09f49fee8d34c06) 

Här är:
- $y$ den beroende variabeln vi försöker förutsäga.
- $x$ den oberoende variabeln vi använder för att förutsäga $y$
- $\beta_0$ skärningspunkten med y-axeln (även kallad "intercept")
- $\beta_1$ lutningen av linjen (även kallad "koefficient")
- ϵ ett slumpmässigt felterm.

Linjär regression är en maskininlärningsalgoritm som kan användas för att analysera relationerna mellan en beroende och en eller flera oberoende variabler.

Den tar fram den funktionen som bäst aproximerar datapunkter.

 Modellen försöker passa en linje genom data som minimerar det totala felet.

 

 > *Multipel regression* [$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_p x_p + \epsilon
$](https://wikimedia.org/api/rest_v1/media/math/render/svg/011dec7a05b66418ee8ee1d109413ee18c5e0575)

Här är:
- $y$ den beroende variabeln vi försöker förutsäga.
- $x_1, x_2,...,x_p$ den oberoende variabeln vi använder för att förutsäga $y$.
- $\beta_0$ skärningspunkten med y-axeln (även kallad "intercept").
- $\beta_1, \beta_2,...,\beta_p$ är koefficienterna för de oberoende variablerna.
- ϵ ett slumpmässigt felterm.

Multipel regression kan också användas för detta ändamål och är bra ifall man har flera variabler.
 
 Det kan ge en mer nogrann modell samt låter dig kontrollera för bortkommna variabler, vilket kan ge ett en mer exakt uppskattning av samband mellan beroende och oberoende variabel.
Målet med båda metoderna är att hitta de koefficienter $\beta$ som minimerar summan av de kvadrerade residuerna (skillnaden mellan den observerade och den förutsagda värdet för 
$y$).

Nackdelar är dock högt datakrav, komplexitet och att det kan vara svårt att tolka effekten av en variabel.

**8. Driftsättning** 

För att driftsätta modellen kan man använda en serverlös arkitektur som [AWS Lambda](https://aws.amazon.com/lambda//) eller en containerlösning som [Docker](https://www.docker.com/)

Därifrån kan andra tjänster och användare interagera med modellen via API:er.

**9. Sammanfattning**

 Maskininlärning är ett väldigt användsbart och effektivt sätt att lösa det här scenariot med.

 Ett väl bearbetat och genomtänkt arbetsflöde kan resultera i ett framgångsrikt projekt.

 Med rätt teknologi och metod så går det att bygga väldigt tåliga och skalbara lösningar.

**10. Källor**

1. https://www.learndatasci.com/tutorials/predicting-housing-prices-linear-regression-using-python-pandas-statsmodels/
2. https://yalantis.com/blog/predictive-algorithm-for-house-price/#:~:text=def%20get_outliners%28dataset%2C%20outliers_fraction%3D0.25%29%3A%20clf%20%3D%20svm.OneClassSVM%20%28nu%3D%200.95,clf.fit%20%28dataset%29%20result%20%3D%20clf.predict%20%28dataset%29%20return%20result
3. https://www.kaggle.com/code/erick5/predicting-house-prices-with-machine-learning
4. https://youtu.be/hONQwEZv-H4?si=FIY5MsCUbxjRG-HW
5. https://youtu.be/xoEGX1uoCnM?si=tSMx-ExK_rga7iIb
6. https://machinelearningmastery.com/linear-regression-for-machine-learning/
7. https://en.wikipedia.org/wiki/Linear_regression
8. https://en.wikipedia.org/wiki/Regression_analysis
9. https://learn.microsoft.com/sv-se/azure/machine-learning/component-reference/normalize-data?view=azureml-api-2
10. https://towardsdatascience.com/what-is-feature-engineering-importance-tools-and-techniques-for-machine-learning-2080b0269f10