
## Rapport: Arbetsflöde och metodik för förutsägelse av huspriser med linjär regression

### Författare: Ali Hussain

### Datum: 2023-09-03


[<sup>1</sup>](#footnote1) **Inledning:** 

Att förutsäga bostadspriser är en svår uppgift som kräver många olika variabler. 

Här är några exempel på vilka variabler man skulle kunna använda sig av:

1. Penningmängd (M0, M1, M2 och M3), både globala och lokala.
2. Konsumentprisindex och arbetskostnadsindex (KPI och AKI) både globala och lokala.
3. Börsindex (SMP500 och OMX 30) med flera.
4. Adress, koordinater, kommun 
5. Begärt pris, slutpris, differens mellan begärt och slutpris
6. Boarea, biarea, markyta
7. Pris per kvm

Med maskininlärning är det nu möjligt att skapa modeller som kan göra dessa förutsägelser med hög nogranhet. 

I den här rapporten beskrivs det teoretiska arbetsflödet för att utveckla en sådan maskininlärningsapplikation med Python.

 [<sup>2</sup>](#footnote2) **Innehållsförtäckning**
1. Inledning [<sup>1</sup>](#footnote1)
2. Innehållsförtäckning [<sup>2</sup>](#footnote2)
3. Arbetsflöde [<sup>3</sup>](#footnote3)
4. Samla in data [<sup>4</sup>](#footnote4)
5. Visualisera data [<sup>5</sup>](#footnote5)
6. Data förberedelse [<sup>6</sup>](#footnote6)
7. Linjär regression [<sup>7</sup>](#footnote7)
8. Driftsättning [<sup>8</sup>](#footnote8)
9. Sammanfattning [<sup>9</sup>](#footnote9)
10. Sammanfattning [<sup>10</sup>](#footnote10)

[<sup>3</sup>](#footnote3) **Arbetsflöde med exempel:** 

| 1. Samla in data | 2. Visualisering av data | 3. Förberedelse av data  | 4. Algoritmer | 5. Driftsättning | 
| :--- | :---- | :--- | :--- | :---- | 
| Datakällor och format     | Diagram       | Datarensning  | Linjär regression      | Serverlös arkitektur        | 


[<sup>4</sup>](#footnote4) **Samla in data**

 Datainsamlingskällor kan vara: fastighetsmäklarsidor, databaser och regeringsstatistik.

 Man kan använda Pandas, Scrapy för data insamling. 
 För data analys kan man använda Scikit-learn, Statsmodels
 
 Formaten datan samlas i kan vara: CSV, Excel och SQL databaser.
 
> Lagring:

 Data kan lagras på ens egna lokala server, en utomstående server eller flera servrar spridda över hela världen (molnet).

Exempel:
 
 - [AWS S3](aws.amazon.com/s3/aws)
  
 - [Google Cloud Storage](cloud.google.com)


[<sup>5</sup>](#footnote5) **Visualisera data** 

 För att förstå data bättre kan vi använda visualiseringsverktyg som Matplotlib eller Seaborn i Python.

 - [Seaborn](https://seaborn.pydata.org/)

 - [Matplotlib](https://matplotlib.org/)

 Diagram är användbara för att identifiera extremvärden samt kunna utforska samband mellan variabler.

  Diagram typer:
  - Scatterplot
  - Histogram
  - Boxplot


[<sup>6</sup>](#footnote6) **Data förberedelser** 
> Datarensning

Först behöver vi hantera saknade värden och outliers. 

Detta kan göras genom att antingen ta bort dessa poster eller fylla i saknade värden med medianen eller medelvärdet.

> Feature Engineering

Här kan vi också skapa nya variabler som kan vara mer informativa.

>Normalisering

För att förbättra prestanda för vår linjär regressionsmodell, kan det vara användbart att normalisera funktionerna.

[<sup>7</sup>](#footnote7) **Linjär regression** 

*Linjär regression* [Formel](https://wikimedia.org/api/rest_v1/media/math/render/svg/5e69ea724c9c7f3d196d6d1dd09f49fee8d34c06) är en maskininlärningsalgoritm som kan användas för att analysera relationerna mellan en beroende och en eller flera oberoende variabler.


Den tar fram den funktionen som bäst aproximerar datapunkter.

 Modellen försöker passa en linje genom data som minimerar det totala felet.

 > *Multipel regression* [Formel](https://wikimedia.org/api/rest_v1/media/math/render/svg/011dec7a05b66418ee8ee1d109413ee18c5e0575) kan också användas i detta ändamål och är bra ifall man har flera variabler.
 
 Det kan ge en mer nogrann modell samt låter dig kontrollera för bortkommna variabler, 
 vilket kan ge ett en mer exakt uppskattning av samband mellan beroende och oberoende variabel.
 
Nackdelar är dock högt datakrav, komplexitet och att det kan vara svårt att tolka effekten av en variabel.

[<sup>8</sup>](#footnote8) **Driftsättning** 

För att driftsätta modellen kan vi använda en serverlös arkitektur som [AWS Lambda](https://aws.amazon.com/lambda//) eller en containerlösning som [Docker](https://www.docker.com/)

Därifrån kan andra tjänster och användare interagera med modellen via API:er.

[<sup>9</sup>](#footnote9) **Sammanfattning**

 Maskininlärning är ett väldigt användsbart och effektivt sätt att lösa det här problemet med.

 Ett väl bearbetat och genomtänkt arbetsflöde kan resultera i ett framgångsrikt projekt.

 Med rätt teknologi och metod så går det att bygga väldigt tåliga och skalbara lösningar.

[<sup>10</sup>](#footnote10) **Källor**

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.