## Vaihe 1: CRISP-DM: "Business Understanding"

* Millaisia liiketoimintatavoitteita tunnistatte?
* Millaisiin liiketoiminta-alueen kysymyksiin haetaan vastauksia?
* Mitkä ovat projektin päätulokset?
* Kuinka tuloksia voi mitata?
* Kuka on asiakas ja ketkä muut hyötyvät saaduista tuloksista?
* Millaisia teknologioita käytätte?
* Millaista henkilöosaamista tarvitaan projektin toteuttamiseen?
* Kuinka työ jaetaan henkilöiden välillä?   

Projektilla on "kuvitteellinen asiakas" eli kenelle projekti suunnattu.   

Asiakas on annettu tehtävässä, mutta sitä ei valitettavasti ole projektin aikana olemassa, mutta asiakas on kuitenkin pidettävä mielessä projektia tehdessä.  

### Kysymyksiä 

* Myyntialueen vaikutus ajoneuvon ikään, tyyppiin ja hintaan?
* Onko ollut vaikutusta auton hintaan, jos auto on ollut aiemmin taksikäytössä?
* Millaiset autot käyvät huonoiten kaupaksi?
* Hae tyypilliset piirteet ja ryhmittele autoja tietyn ajoneuvotyypin perusteella
* Auton speksien (käyttövoima, vetotapa, ovien lkm) käyttäminen yhdessä   

Jos relevanttia, niin voitte tutkia esim. vain tiettyä vuosimallia ja sitä uudempia malleja.

# Vaihe 2: Datan ymmärtäminen 

Sisältää mm. Datan visualisoinnin, ryhmittelyn ja tilastotieteellisen perusanalyysin.

* Datan kerääminen
* Datan sisällön kuvailu
* Datan tutkiminen
* Datan laadun tarkastaminen
* Datan valinta   

Lisäkysymykset:

* Millaisia dataformaatteja käytetään?
* Millaisia visualisointityökaluja (dataa voi myös ryhmitellä)
* Etsitään mahdolliset muut tarvittavat datalähteet
* Kuinka muut datalähteet voi yhdistää?

## Datan esikäsittely

Projekti aineisto on niin suuri CSV-tiedosto (3 miljoonaa riviä dataa, yhteensä 10 GB), ettei sitä ole mielekästä käsitellä kokonaisena. Tässä vaiheessa aineistosta ei kuitenkaan tiedetä paljoakaan, joten tutkitaan pienemmän osajoukon avulla, mitä siitä saadaan irti. Luetaan tätä varten aineistosta 10 000 satunnaisrivin näyte, ja tallennetaan se datakehikkoon *'näyte'*:

In [22]:
import pandas as pd
import numpy as np
import random

In [20]:
# Rivien määrä aineistossa:
n = 3000000 

# Näytteen koko:
s = 100000

# Tiedoston polku: 
filename = '/Volumes/AIDA/AIDA-projekti/used_cars_data.csv'

# Väliin jätettävät rivit, otsikkoriviä ei oteta mukaan pois jätettävien rivien joukkoon:
skip = sorted(random.sample(range(1, n + 1), n - s))

# Muodostetaan dataframe 'nayte':
nayte = pd.read_csv(filename, skiprows=skip, low_memory=False)

nayte.head()

Unnamed: 0,vin,back_legroom,bed,bed_height,bed_length,body_type,cabin,city,city_fuel_economy,combine_fuel_economy,...,transmission,transmission_display,trimId,trim_name,vehicle_damage_category,wheel_system,wheel_system_display,wheelbase,width,year
0,SALZL2GX4LH007593,33.8 in,,,,SUV / Crossover,,San Juan,,,...,A,9-Speed Automatic Overdrive,t85531,P300 R-Dynamic SE AWD,,AWD,All-Wheel Drive,105.6 in,82.7 in,2020
1,3MZBPABL1KM108237,35.1 in,,,,Sedan,,Bayamon,,,...,A,6-Speed Automatic Overdrive,t85256,Sedan FWD,,FWD,Front-Wheel Drive,107.3 in,70.7 in,2019
2,JM3KFABMXK1505299,39.6 in,,,,SUV / Crossover,,Bayamon,,,...,A,6-Speed Automatic Overdrive,t84153,Sport FWD,,FWD,Front-Wheel Drive,106.2 in,83.3 in,2019
3,1C3CCCAB3GN124951,37.6 in,,,,Sedan,,Bronx,23.0,,...,A,9-Speed Automatic,t58595,Limited Sedan FWD,,FWD,Front-Wheel Drive,108 in,73.6 in,2016
4,1C4BJWDG9EL260645,37.2 in,,,,SUV / Crossover,,Bronx,16.0,,...,A,5-Speed Automatic,t67196,Sport 4WD,,4WD,Four-Wheel Drive,116 in,82.8 in,2014


In [23]:
# Sarakkeiden nimet, ei-tyhjien arvojen määrä sarakkeittain ja sarakkeiden tietotyypit:
nayte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100040 entries, 0 to 100039
Data columns (total 66 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   vin                      100040 non-null  object 
 1   back_legroom             94782 non-null   object 
 2   bed                      638 non-null     object 
 3   bed_height               14307 non-null   object 
 4   bed_length               14307 non-null   object 
 5   body_type                99585 non-null   object 
 6   cabin                    2130 non-null    object 
 7   city                     100040 non-null  object 
 8   city_fuel_economy        83737 non-null   float64
 9   combine_fuel_economy     0 non-null       float64
 10  daysonmarket             100040 non-null  int64  
 11  dealer_zip               100040 non-null  object 
 12  description              97535 non-null   object 
 13  engine_cylinders         96774 non-null   object 
 14  engi

Tutkitaan seuraavaksi tarkemmin sarakkeita. Aineistosta voidaan poistaa sarakkeet, jotka sisältävät vain tyhjiä arvoja, sekä sarakkeita, jotka eivät ole järin tai lainkaan merkityksellisiä hinnan määrittelyn kannalta. Alla olevasta taulukosta nähdään kunkin sarakkeen tieotyyppi ja kuvaus.

| Sarake                 | Tyyppi         | Kuvaus                                                                    |
|------------------------|----------------|---------------------------------------------------------------------------|
| vin                    | Type String    | Ajoneuvon yksilöllinen tunnistenumero                       |
| back_legroom           | Type String    | Takaistuimen jalkatila                                                    |
| bed                    | Type String    | Pickupin avolavakoon kategoria                                                                            |
| bed_height             | Type String    | Avolavan korkeus tuumina                                                                                   |
| bed_length             | Type String    | Avolavan pituus tuumina                                                                                    |
| body_type              | Type String    | Ajoneuvon korityyppi                                                                                       |
| cabin                  | Type String    | Pickupin ohjaamon koon kategoria                                                                          |
| city                   | Type String    | Kaupunki, jossa auto on ilmoitettu myyntiin                                                                       |
| city_fuel_economy      | Type Float     | Polttoainetaloudellisuus kaupunkiliikenteessä kilometreinä litraa kohden                                  |
| combine_fuel_economy   | Type Float     | Yhdistetty polttoainetaloudellisuus on kaupunki- ja maantieajon polttoainetaloudellisuuden painotettu keskiarvo kilometreinä litraa kohden |
| daysonmarket           | Type Integer   | Päivät siitä lähtien, kun ajoneuvo ilmoitettiin ensimmäisen kerran myyntiin verkkosivustolla                        |
| dealer_zip             | Type Integer   | Jälleenmyyjän postinumero                                                                                 |
| description            | Type String    | Ajoneuvon kuvaus ajoneuvon ilmoitussivulla                                                                |
| engine_cylinders       | Type String    | Moottorin kokoonpano                                                                                       |
| engine_displacement    | Type Float     | Moottorin tilavuus on kaikkien männän iskemän tilavuus, lukuun ottamatta palotilaa                        |
| engine_type            | Type String    | Moottorin kokoonpano                                                                                       |
| exterior_color         | Type String    | Ajoneuvon ulkoväri, yleensä näyttävä kuten esitteessä                                                       |
| fleet                  | Type Boolean   | Oliko ajoneuvo aiemmin osa liikennettä                                                                    |
| frame_damaged          | Type Boolean   | Onko ajoneuvolla vaurioitunut runko                                                                        |
| franchise_dealer       | Type Boolean   | Onko jälleenmyyjä franchising-jälleenmyyjä                                                                |
| franchise_make         | Type String    | Yritys, joka omistaa franchisen                                                                            |
| front_legroom          | Type String    | Jalkatila tuumina matkustajan istuimelle                                                                   |
| fuel_tank_volume       | Type String    | Polttoainesäiliön täyttökapasiteetti gallonoina                                                            |
| fuel_type              | Type String    | Ajoneuvon käyttämä polttoaine                                                                             |
| has_accidents          | Type Boolean   | Onko VIN-tunnuksella rekisteröityjä onnettomuuksia                                                         |
| height                 | Type String    | Ajoneuvon korkeus tuumina                                                                                  |
| highway_fuel_economy   | Type Float     | Polttoainetaloudellisuus maantieajossa kilometreinä litraa kohden                                        |
| horsepower             | Type Float     | Hevosvoimat ovat moottorin tuottama teho                                                                   |
| interior_color         | Type String    | Ajoneuvon sisäväri, yleensä näyttävä kuten esitteessä                                                      |
| isCab                  | Type Boolean   | Oliko ajoneuvo aiemmin taksi / tilataksi                                                                  |
| is_certified           | Type Boolean   | Onko ajoneuvo sertifioitu                                                                                  |
| is_cpo                 | Type Boolean   | Jälleenmyyjän sertifioimat käytetyt autot                                                                |
| is_new                 | Type Boolean   | Jos tosi, tarkoittaa, että ajoneuvo on lanseerattu alle 2 vuotta sitten                                    |
| is_oemcpo             | Type Boolean   | Valmistajan sertifioimat käytetyt autot                                                                  |
| latitude               | Type Float     | Leveysaste jälleenmyyjän maantieteellisestä sijainnista                                                    |
| length                 | Type String    | Ajoneuvon pituus tuumina                                                                                   |
| listed_date            | Type String    | Päivämäärä, jolloin ajoneuvo ilmoitettiin verkkosivustolla                                                  |
| listing_color          | Type String    | Hallitseva väriryhmä ulkovärilt                                                                            |
| listing_id             | Unique Type Integer | Ilmoituksen ID verkkosivustolta                                                                          |
| longitude              | Type Float     | Pituusaste jälleenmyyjän maantieteellisestä sijainnista                                                    |
| main_picture_url       | Type String    | Valokuvan URL-osoite                                                                                                           |


Tärkeät sarakkeet kysymysten kannalta:  

city   
body_type   
city_fuel_economy   
daysonmarket   
fleet   
fuel_type   
frame_damaged   
franchise_dealer   
has_accidents   
highway_fuel_economy   
horsepower   
isCab   
is_New   
listing_color  
make_name 
mileage   
model_name   
price   
salvage   
theft_title   
year


Poistetaan aineistosta ensivaiheessa tarpeettomilta vaikuttavat sarakkeet:
  
'vin'
daysonmarket
dealer_zip
franchise_make
latitude
longitude
main_picture_url
cabin
city
city_fuel_economy
combine_fuel_economy
description
engine_displacement
exterior_color
franchise_dealer
fuel_tank_volume
has_accidents
height
interior_color
isCab
is_certified
is_cpo
is_new
is_oemcpo
length
listed_date
listing_color
listing_id
frame_damaged
fleet
