# Loppuraportti <a id="header1"></a>

Tässä raportissa kuvataan data-analytiikkaprojekti, joka on toteutettu kuvitteelliselle käytettyjä autoja myyvälle yhdysvaltalaiselle autokauppaketjulle. Raportti etenee CRISP-DM-mallin mukaisessa järjestyksessä seuraavin vaihein:  

1. [Liiketoiminnan ymmärtäminen (Business Understanding)](#paragraph1)
2. [Datan ymmärtäminen (Data Understanding)](#paragraph2)
3. [Datan esikäsittely (Data Preparation)](#paragraph3)
4. [Mallintaminen (Modeling)](#paragraph4)
5. [Arviointi (Evaluation)](#paragraph5)
6. [Tuotantoon vienti (Deployment)](#paragraph6)


## 1. Liiketoiminnan ymmärtäminen (Business Understanding)<a id="paragraph1"></a> 

### Liiketoiminnalliset tavoitteet 

Tämän data-analytiikkaprojektin asiakas on suurehko käytettyjä autoja myyvä merkkiriippumaton yhdysvaltalainen autokauppaketju, joka hauaa kehittää liiketoimintaansa data-analytiikkaan perustuvien ratkaisujen avulla. Asiakkaan kannalta on merkityksellitä tunnistaa auton ominaisuudet, ja asettaa niiden perusteella kullekin autolle myyntihinta, jonka perusteella auton myyntiaika on mahdollisimman lyhyt ja saatu myyntihinta mahdollisimman suuri. Tämän saavuttamiseksi data-analytiikkaprojektissa käytetään hyödyksi asiakkaan myyntidataa, joka koostuu kolmesta miljoonasta aiemmin toteutuneesta autokaupasta (käytetty aineisto esitellään tarkemmin seuraavassa vaiheessa [Datan ymmärtäminen (Data Understanding)](#paragraph2)). Projektin lopputuotteena on tarkoituksena toteuttaa helppokäyttöinen web-sovellus, jonka avulla autoketjun työntekijät voivat helposti arvioida sopivan myyntihinnan myytäväksi ilmoitettavalle autolle sen eri ominaisuuksien perusteella. 

Tässä projektissa on keskeisenä tehtävänä selvittää, millaiset piirteet vaikuttavat käytettyjen ajoneuvojen hintaan ja myyntiaikaan. Erityisenä mielenkiinnon kohteena on auton merkki, tyyppi ja vuosimalli, minkä lisäksi erilaisten lisävarusteiden vaikutusta myyntiaikaan ja -hintaan halutaan selvittää. Asiakkaalla on myytävänä paljon myös aikaisemmin taksikäytössä olleita autoja, ja taksikäytön vaikutus myyntiin on niin ikään mielenkiinnon kohteena. 
 
### Projektin totueutus 

Projektin toteuttaminen vaatii liiketoimintaymmärrystä, data-analytiikan osaamista ja kykyä soveltaa erilaisia koneoppimismalleja liiketoiminnallisten kysymysten ratkaisemiseksi. Projektia toteuttamaan on valittu data-analytiikan opiskelija Salla Lipasti Jyväskylän avoimesta ammattikorkeakoulusta, ja projekti on tarkoitus toteuttaa kokonaisuudessaan joulukuun 2023 ja tammikuun 2024 välisenä aikana. Asiakkaan edustajana toimii N.N. Ensimmäisessä vaiheessa joulukuun 2023 aikana selvitetään, minkälainen vaikutus taksikäytössä olleilla autoilla on niiden hintaan verrattuna muihin autoihin.

Työ toteutetaan Python-ohjelmointikielellä hyödyntäen erityiseti kirjastoja pandas, numpy, matplotlib, seaborn ja scikit-learn. Näiden lisäksi projektissa käytetään versionhallintaohjelmaa Git ja GitLab, sekä Jupyter Notebookia.   

### Tulosten mittaaminen   

Projektin onnistumista mitataan myöhempien vuosien aikana toteutuvan myynnin, myyntiaikojen ja liikevaihdon kehitysen perusteella. Onnistuessaan tämä projekti helpottaa automyyjien työtä ja työssä onnistumista, ja myös asiakkaat hyötyvät oikeahintaisina myyntiin tulevista autoista. Näitä tavoitteita voidaan mitata myöhempinä vuosina tilinpäätösten, työntekijöiden kokemuksien selvittämisen ja asiakaskyselyjen perusteella. Päivä-, viikko- ja kuukausitason myynnin kehitystä seurataan BI-raportointivälineiden avulla.

[Takaisin alkuun](#header1)


## 2. Datan ymmärtäminen (Data Understanding)<a id="paragraph2"></a>    


### Datan kerääminen 

Projektin aineisto on asiakkaana toimivan käytettyjä autoja myyvän autokaupan myyntidataa toteutuneista autokaupoista. Kyseinen aineisto on ladattavissa zip-tiedostona ilmaiseksi osoitteesta (https://www.kaggle.com/datasets/ananaymital/us-used-cars-dataset).    

### Datan kuvailu  

Data koostuu asiakkaan toteutuneesta myyntidatasta vuodelta 2020 Yhdysvalloissa. Aineisto on csv-muodossa, ja se sisältää tiedot kolmesta miljoonasta autokaupan myymästä autosta (tiedoston koko 10 GB). 

Käytettävä aineisto on niin suuri, ettei sitä ole mielekästä käsitellä kokonaisena. Tässä vaiheessa aineistosta ei kuitenkaan tiedetä vielä paljoakaan, joten tutkitaan pienemmän osajoukon avulla, mitä siitä saadaan irti. Luetaan tätä varten aineistosta 10 000 satunnaisrivin näyte, ja tallennetaan se datakehikkoon *'näyte'*:

In [22]:
import pandas as pd
import numpy as np
import random

In [20]:
# Rivien määrä aineistossa:
n = 3000000 

# Näytteen koko:
s = 100000

# Tiedoston polku: 
filename = '/Volumes/AIDA/AIDA-projekti/used_cars_data.csv'

# Väliin jätettävät rivit, otsikkoriviä ei oteta mukaan pois jätettävien rivien joukkoon:
skip = sorted(random.sample(range(1, n + 1), n - s))

# Muodostetaan dataframe 'nayte':
nayte = pd.read_csv(filename, skiprows=skip, low_memory=False)

nayte.head()

Unnamed: 0,vin,back_legroom,bed,bed_height,bed_length,body_type,cabin,city,city_fuel_economy,combine_fuel_economy,...,transmission,transmission_display,trimId,trim_name,vehicle_damage_category,wheel_system,wheel_system_display,wheelbase,width,year
0,SALZL2GX4LH007593,33.8 in,,,,SUV / Crossover,,San Juan,,,...,A,9-Speed Automatic Overdrive,t85531,P300 R-Dynamic SE AWD,,AWD,All-Wheel Drive,105.6 in,82.7 in,2020
1,3MZBPABL1KM108237,35.1 in,,,,Sedan,,Bayamon,,,...,A,6-Speed Automatic Overdrive,t85256,Sedan FWD,,FWD,Front-Wheel Drive,107.3 in,70.7 in,2019
2,JM3KFABMXK1505299,39.6 in,,,,SUV / Crossover,,Bayamon,,,...,A,6-Speed Automatic Overdrive,t84153,Sport FWD,,FWD,Front-Wheel Drive,106.2 in,83.3 in,2019
3,1C3CCCAB3GN124951,37.6 in,,,,Sedan,,Bronx,23.0,,...,A,9-Speed Automatic,t58595,Limited Sedan FWD,,FWD,Front-Wheel Drive,108 in,73.6 in,2016
4,1C4BJWDG9EL260645,37.2 in,,,,SUV / Crossover,,Bronx,16.0,,...,A,5-Speed Automatic,t67196,Sport 4WD,,4WD,Four-Wheel Drive,116 in,82.8 in,2014


Datassa on 66 saraketta, jotka kuvailevat myytäviä autoja monipuolisesti. Tutkitaan, minkä nimisiä sarakkeet ovat sekä niiden tietotyypit ja ei-tyhjien arvojen määrät:

In [23]:
nayte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100040 entries, 0 to 100039
Data columns (total 66 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   vin                      100040 non-null  object 
 1   back_legroom             94782 non-null   object 
 2   bed                      638 non-null     object 
 3   bed_height               14307 non-null   object 
 4   bed_length               14307 non-null   object 
 5   body_type                99585 non-null   object 
 6   cabin                    2130 non-null    object 
 7   city                     100040 non-null  object 
 8   city_fuel_economy        83737 non-null   float64
 9   combine_fuel_economy     0 non-null       float64
 10  daysonmarket             100040 non-null  int64  
 11  dealer_zip               100040 non-null  object 
 12  description              97535 non-null   object 
 13  engine_cylinders         96774 non-null   object 
 14  engi

Useimmat sarakkeet sisältävät ainakin joitakin tyhjiä arvoja, mutta palataan näiden käsittelyyn seuraavassa vaiheessa ([Datan esikäsittely (Data Preparation)](#paragraph3)). Siinä vaiheessa saadaan myös tarkempi kuva datan laadusta ja puhdistustoimenpiteiden tarpeellisuudesta. Tarkastellaan sitä ennen vielä sarakkeita. Alla olevasta taulukosta nähdään kunkin sarakkeen tieotyyppi ja kuvaus:

| Sarake                 | Tyyppi         | Kuvaus                                                                    |
|------------------------|----------------|---------------------------------------------------------------------------|
| vin                    | Type String    | Ajoneuvon yksilöllinen tunnistenumero                       |
| back_legroom           | Type String    | Takaistuimen jalkatila                                                    |
| bed                    | Type String    | Pickupin avolavakoon kategoria                                                                            |
| bed_height             | Type String    | Avolavan korkeus tuumina                                                                                   |
| bed_length             | Type String    | Avolavan pituus tuumina                                                                                    |
| body_type              | Type String    | Ajoneuvon korityyppi                                                                                       |
| cabin                  | Type String    | Pickupin ohjaamon kokokategoria                                                                          |
| city                   | Type String    | Kaupunki, jossa auto on ilmoitettu myyntiin                                                                       |
| city_fuel_economy      | Type Float     | Polttoainetaloudellisuus kaupunkiliikenteessä kilometreinä litraa kohden                                  |
| combine_fuel_economy   | Type Float     | Yhdistetty polttoainetaloudellisuus (kaupunki- ja maantieajon polttoainetaloudellisuuden painotettu keskiarvo kilometreinä litraa kohden) |
| daysonmarket           | Type Integer   | Päivät siitä lähtien, kun ajoneuvo ilmoitettiin ensimmäisen kerran myyntiin verkkosivustolla                        |
| dealer_zip             | Type Integer   | Jälleenmyyjän postinumero                                                                                 |
| description            | Type String    | Ajoneuvon kuvaus ajoneuvon ilmoitussivulla                                                                |
| engine_cylinders       | Type String    | Moottorin kokoonpano                                                                                       |
| engine_displacement    | Type Float     | Moottorin tilavuus on kaikkien männän iskemän tilavuus, lukuun ottamatta palotilaa                        |
| engine_type            | Type String    | Moottorin kokoonpano                                                                                       |
| exterior_color         | Type String    | Ajoneuvon ulkoväri                                                     |
| fleet                  | Type Boolean   | Onko ajoneuvo ollut fleet-käytössä                                                                   |
| frame_damaged          | Type Boolean   | Onko ajoneuvolla vaurioitunut runko                                                                        |
| franchise_dealer       | Type Boolean   | Onko jälleenmyyjä franchising-jälleenmyyjä                                                                |
| franchise_make         | Type String    | Yritys, joka omistaa franchisen                                                                            |
| front_legroom          | Type String    | Jalkatilan koko tuumina, matkustajan istuin                                                                  |
| fuel_tank_volume       | Type String    | Polttoainesäiliön täyttökapasiteetti gallonoina                                                            |
| fuel_type              | Type String    | Ajoneuvon käyttämä polttoaine                                                                             |
| has_accidents          | Type Boolean   | Onko ajoneuvolle rekisteröity onnettomuuksia                                                         |
| height                 | Type String    | Ajoneuvon korkeus tuumina                                                                                  |
| highway_fuel_economy   | Type Float     | Polttoainetaloudellisuus maantieajossa kilometreinä litraa kohden                                        |
| horsepower             | Type Float     | Hevosvoima, mmoottorin tuottama teho                                                                   |
| interior_color         | Type String    | Ajoneuvon sisäväri                                                     |
| isCab                  | Type Boolean   | Oliko ajoneuvo aiemmin taksi / tilataksi                                                                  |
| is_certified           | Type Boolean   | Onko ajoneuvo sertifioitu                                                                                  |
| is_cpo                 | Type Boolean   | Jälleenmyyjän sertifioimat käytetyt autot                                                                |
| is_new                 | Type Boolean   | Jos tosi, ajoneuvo on lanseerattu alle 2 vuotta sitten                                    |
| is_oemcpo             | Type Boolean   | Valmistajan sertifioimat käytetyt autot                                                                  |
| latitude               | Type Float     | Leveysaste jälleenmyyjän maantieteellisestä sijainnista                                                    |
| length                 | Type String    | Ajoneuvon pituus tuumina                                                                                   |
| listed_date            | Type String    | Päivämäärä, jolloin ajoneuvo on iloitettu verkkosivustolla                                                  |
| listing_color          | Type String    | Hallitseva väriryhmä ulkovärilt                                                                            |
| listing_id             | Unique Type Integer | Ilmoituksen ID verkkosivustolla                                                                          |
| longitude              | Type Float     | Pituusaste jälleenmyyjän maantieteellisestä sijainnista                                                    |
| main_picture_url       | Type String    | Valokuvan URL-osoite                                                                                                           |
| make_name | Type Object | Merkki |
| major_options            | Type Object      | Tärkeimmät lisävarusteet                                      |
| maximum_seating          | Type Object      | Maksimi istumapaikkojen määrä                                  |
| mileage                  | Type Float       | Mittarilukema, ajetut mailit                                                  |
| model_name               | Type String      | Mallin nimi                                                    |
| owner_count              | Type Float       | Omistajien lukumäärä                                           |
| power                    | Type Object      | Moottorin teho                                                |
| price                    | Type Float       | Hinta                                                          |
| salvage                  | Type Object      | Romutusajoneuvo                                                |
| savings_amount           | Type Integer     | Säästetty määrä                                                |
| seller_rating            | Type Float       | Myyjän luokitus                                                |
| sp_id                    | Type Float       | Toimittajan ID                                                 |
| sp_name                  | Type String      | Toimittajan nimi                                               |
| theft_title              | Type Object      | Varkaustiedot                                                  |
| torque                   | Type Object      | Vääntömomentti                                                 |
| transmission             | Type Object      | Vaihteisto                                                     |
| transmission_display     | Type Object      | Vaihteiston näyttö                                             |
| trimId                   | Type Object      | Trim-id                                                        |
| trim_name                | Type Object      | Trim-nimi                                                      |
| vehicle_damage_category  | Type Float       | Ajoneuvovahinkojen luokka                                      |
| wheel_system             | Type Object      | Pyöräjärjestelmä                                               |
| wheel_system_display     | Type Object      | Pyöräjärjestelmän näyttö                                       |
| wheelbase                | Type Object      | Akseliväli                                                     |
| width                    | Type Object      | Leveys                                                         |
| year                     | Type Integer     | Vuosimalli                                                 |

Taulukosta nähdään, että sarakkeita on hyvin paljon, eikä kaikki suinkaan ole data-analyysin ja tehtävän kannalta tarpeellisia. Esimerkiksi sarakkeet *'vin'* ja *'main_picture_url'* ovat analyysin kannalta tarpeettomia, samoin kaikki sellaiset sarakkeen, joissa ei ole muita kuin tyhjiä arvoja.   

### Datan valinta 

Tutkitaan ensimmäisessä vaiheessa, miten auton käyttö taksina vaikuttaa sen hintaan. Tätä varten kaikkia datan sarakkeita ei ole tarpeen käyttää, vaan rajataan tutkittavat auton piirteet koskemaan seuraavia sarakkeita: *'make_name'* (merkki), *'model_name'* (mallin nimi), *'mileage'* (mittarilukema), *'year'* (vuosimalli), *'price'* (myyntihinta), *'isCab'* (onko auto ollut taksikäytössä), *'daysonmarket'* (montako päivää auto oli myynnissä) ja *'has_accidents'* (onko auto joutunut onnettomuuteen).

[Takaisin alkuun](#header1)


## 3. Datan esikäsittely (Data Preparation)<a id="paragraph3"></a>

Datan esikäsittely on aikaavievä ja merkityksellinen data-analytiikkaprojektin vaihe, jonka tarkoituksena on tuottaa data, joka on riittävän hyvälaatuista seuraavaa vaihetta eli mallintamista varten. Tässä vaiheessa käytettävä data puhdistetaan, muokataan ja yhdistetään käyttötarkoitus huomioon ottaen. Vaikka tarkasteltavat kysymykset tiedetään ennakolta, voi olla, että datan kuvailuun, esikäsittelyvaiheeseen ja datan muokkaukseen pitää palata vielä mallintamisen aikana. CRISP-DM-prosessi voikin olla ennemmin iteratiivinen kuin lineaarisesti etenevä, ja jo aiemmin tehtyihin vaiheisiin voi olla tarpeen palata uudelleen myöhemmin. Datan huolellinen esikäsittely on edellytys onnistuneelle mallintamiselle. 

Datan esikäsittelyvaiheessa tarkastellaan huolellisesti valittua dataa. Mahdolliset puuttuvat arvot käsitellään joko täydentämällä ne asiaan sopivalla tavalla (esimerkiksi sarakkeen moodilla tai keskiarvolla) tai poistamalla tyhjiä arvoja sisältävät rivit tai sarakkeet kokonaan. Sarakkeiden tietotyypit tarkastetaan, jotta ne ovat tarkoitutsaan vastaavat. Jakaumia tutkimalla saadaan selville mahdolliset poikkeavat havainnot, jotka vääristävät analyysiä. Näiden kohdalla useimmiten on järkevintä poistaa kyseiset havainnot. Tarvittaessa voidaan myös lisätä uusia piireitä (sarakkeita) tai luokitteluja vaikkapa toisten sarakkeiden avulla. Data myös skaalataan koneoppimismallien onnistumisen turvaamiseksi. Datan esikäsittelyvaiheessa olennaista on myös visualisointi, joka auttaa datan ymmärtämisessä ja laadun arvioinnissa.   

### Esikäsittelyn vaiheet  

Seuraavassa esitellään vaiheet, joilla projektin dataa on esikäsitelty. Yksityiskohtainen toteutus esikäsittelystä löytyy tiedostosta *'esikasittey_mallinnus.ipynb'*.   

Taksikäytön merkityksen arvioimiseksi esikäsittelyvaiheessa luotiin uusi sarake *'name'* kuvaamaan auton merkkiä ja mallia yhdistämällä sarakkeet *'make_name'* ja *'model_name'*. Tämän jälkeen poistettiin tyhjiä arvoja tehtävän kannalta merkityksellisessä sarakkeessa *'isCab'* sisältävät rivit, ja sen jälkeen tyhjiä arvoja sisältävät rivit myös sarakkeesta *'mileage'*. Seuraavaksi muutettiin *'object'*-tyypin sarakkeiden *'has_accidents'* ja *'isCab'* tietotyypiksi *'Boolean'*, ja todettiin muiden sarakkeiden tietotyyppien olevan valmiiksi oikein. Identtiset rivit poistettiin, minkä jälkeen aineistoa rajattiin siten, että se kattaa vain ne automallit (*'name'*), jotka ovat olleet sekä taksikäytössä että ei-taksikäytössä. Tällaisia automalleja löydettiin 578 kappaletta, kun niitä datakehikossa *'df'* oli kaikkiaan 1426. Tässä kohtaa aineistossa on mukana noin 1,5 miljoonaa datariviä, eli suunnilleen puolet alkuperäisestä määrästä.   

Seuraavaksi tutkittiin, kuinka suuri osuus eri automallien autoista on ollut aiemmin taksikäytössä muodostamalla tätä varten sarake *'cabRatio'*. Samalla laskettiin kuinka monta myytyä autoa kyseistä automallia on aineistossa kaikkiaan (*'count'*). Alla olevassa kuvassa on esitetty automallit, joissa taksien osuus on ollut suurin ja pienin: 

![Suurin ja pienin 'cabRatio'](Näyttökuva1.png "Suurin ja pienin 'cabRatio'")

Jotta hintaeroa taksikäytössä olleiden ja ei-taksien välillä voidaan tarkastella, aineistosta suodatettiin mukaan vain sellaiset automallit, joiden myytyjen autojen kokonaismäärästä on ollut taksikäytössä vähintään 20 prosenttia ja enintään 80 prosenttia. Jotta mukaan ei satu harvinaisia yksittäistarpauksia, rajattiin tarkasteltavana pidettäviä automalleja vielä siten, että kyseistä automallia on pitänyt olla myynnissä yhteensä vähintään 100 kappaletta. Lopputuloksena saatiin 118 erilaista automallia, jotka täyttivät nämä ehdot. 

Kaikkien näiden esikäsittelyvaiheiden jälkeen analysoitavaan aineistoon jäi myyntitiedot 600000 autosta, eli noin 20 prosenttia alkuperäisestä aineistosta. Tämä data tallennettiin tiedostoon *'taksit.csv'*. Lopuksi data vielä jaettiin opetus- ja testiaineistoon, ja skaalattiin koneoppimismalleja varten. Jotta automallia voidaan käsitellä koneoppimismalleissa, ne uudelleenkoodattiin numeeriseen muotoon.

[Takaisin alkuun](#header1)


## 4. Mallintaminen (Modeling)<a id="paragraph4"></a>   

Mallinnusvaiheessa valitaan tehtävän kannalta mielekkäät mallinnustavat, rakennetaan ja testataan mallia sekä analysoidaan saatuja tuloksia. Tässä raportissa kuvaillaan mallintamisen vaiheet ja keskeiset tulokset, yksityiskohtainen toteutus mallintamisesta löytyy tiedostosta 'esikasittey_mallinnus.ipynb'.  

### Mallinnustavan valinta  

Ensimmäisenä käytetään mallintamiseen lineaarista regressiomallia, jossa hintaa selitetään kaikilla aineistoon valituilla muuttujilla *'daysonmarket'*, *'has_accidents'*, *'isCab'*, *'mileage'* ja *'year'*. Mallin avulla pyritään saamaan selville, millainen vaikutus näillä tekijöillä on auton myyntihintaan. Malli ei kuitenkaan toiminut hyvin, ja selitysaste jäi heikolle tasolle (Rˆ2 = 0.22).  


### Takaisin esikäsittelyyn 

Mallia pyrittiin parantamaan esikäsittelemällä dataa lisää. Myntiaika rajattiin vuoteen, toisin sanoen korkeintaan 365 vuorokauteen, jotta eroon päästään kohtuuttoman pitkän myyntiajan autoista (max. 3599 vuorokautta, eli noin 10 vuotta). Autoja rajattiin myös vuosimallin perusteella siten, että aineistosta poistettiin autot, jotka ovat vanhempaa vuosimallia kuin 1995, sekä myös kolaroidut autot, ts. rivit, joissa *'has_accident'* saa arvon 1. Tämän jälkeen tarkistettiin, että rajausten jälkeen aineistoon ei jää automalleja, joissa taksien osuus on liian suuri tai pieni (ts. yli 80 tai alle 20 prosenttia), tai että niitä on myyty lukumäärällisesti liian vähän (alle 100 kpl). Jakaumien muotoa tutkittiin boxplot-kaavioiden avulla, ja tilastollisten tunnuslukujen perusteella data vaikuttaa nyt paremmalta mallintamiseen.   

### Mallintaminen  

Lineaarista regressiomallia kokeiltiin uudelleen, mutta selitysaste ei datan paremman esikäsittelyn myötä juuri kasvanut (Rˆ2 = 0.23). Datan hiominen ei parantanut mallin selitysastetta juuri lainkaan, joten voidaan epäillä, ettei lineaarinen malli sovellu tähän tehtävään lainkaan. Seuraavaksi kokeiltiin, miten epälineaariset mallit päätöspuu ja satunnaismetsä selviytyvät samasta tehtävästä.      

Valitettavasti päätöspuun suuri keskineliövirhe (193011100.1659888) ja negatiivinen selitysaste (-0.1464233498750882) viittasivat siihen, ettei tämäkään malli toimi hyvin. Ennusteet eivät ole tarkkoja, eikä selittäjät muuttujat selitä hinnan vaihtelua hyvin.   

Kolmantena testiaineiston arvoja ennustettiin satunnaismetsän avulla. Tämä mentelmä toimi näistä kolmesta mallista parhaiten, ja tuotti keskineliövirheeksi 82659069.32751091 ja Rˆ2-arvoksi 0.5090319309381325. Voidaan sanoa, että tämä malli selittää hinnan vaihtelusta jo yli 50 prosenttia.    

Seuraavaan kuvaan on kerätty käytetyn auton hinnan kannalta merkityksellisimmät piirteet tämän datan perusteella: 

![Merkittävimmät piirteet](Näyttökuva2.png "Merkittävimmät piirteet")   

Kuten kuvasta nähdään, merkityksellisin piirre hinnan kannalta on auton merkki ja malli, minkä lisäksi myös mittarilukemalla ja vuosimallilla on merkitystä. Myös myyntiajalla ja aiemmalla taksikäytöllä on vaikutusta hintaan, mutta muuttujan *'isCab'* merkitys jää mallin perusteellahyvin vähäiseksi.

[Takaisin alkuun](#header1)


## 5. Arviointi (Evaluation)<a id="paragraph5"></a>

Parhaankin mallin (satunnaismetsä) selitysaste jäi tässä projektissa varsin matalaksi (51 %), joten mallia ei voida tällaisenaan viedä tuotantoon.

Selitysastetta voisi yrittää kasvattaa huomioimalla nyt pois jätettyjä piirteitä, kuten moottorin teho ja
tietyt lisävarusteet. Saattaa myös olla, että jokin muu malli tuottaisi vielä satunnaismetsääkin paremman
tuloksen.

[Takaisin alkuun](#header1)


## 6. Tuotantoon vienti (Deployment)<a id="paragraph6"></a>

Mallin voisi julkaista web-sovelluksena seuraavasti:

1. Viedään opetettu malli tiedostoon (skops)
2. Luodaan web-sivu, jossa lomake tietojen syöttämistä varten sekä javascript-koodi web-palvelun kutsumista ja tuloksen näyttämistä varten
3. Luodaan web-palvelu, joka lataa mallin tiedostosta ja ajaa sen lomakkeen tiedoilla, sekä palauttaa vastauksen web-sivulle

Web-palvelu viedään tuotantoon esimerkiksi Herokuun, ja sitä voivat käyttää asiakasyrityksen autokauppiaat päivittäisessä hinnoittelutyössään.

[Takaisin alkuun](#header1)
