In [0]:
!pip install --upgrade tables
!pip install eli5
!pip install xgboost

Requirement already up-to-date: tables in /usr/local/lib/python3.6/dist-packages (3.6.1)


In [0]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from sklearn.dummy import DummyRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

import xgboost as xgb




from sklearn.metrics import mean_absolute_error as mae
from sklearn.model_selection import cross_val_score, KFold

import eli5
from eli5.sklearn import PermutationImportance

Using TensorFlow backend.




In [0]:
cd drive/My Drive/Colab Notebooks/Data-Workshop/Matrix_part_two/Data-Workshop-Cars/

/content/drive/My Drive/Colab Notebooks/Data-Workshop/Matrix_part_two/Data-Workshop-Cars


In [0]:
df = pd.read_hdf('data/car.h5')

In [0]:
df.shape

(106494, 155)

In [0]:
# Faktoryzujemy features
SUFFIX_CAT = '__cat'
for feat in df.columns:
  if isinstance(df[feat][0], list): continue #sprawdza czy w srodku jest lista i kontynuuje, inaczej sie wykrzacza

  factorized_values = df[feat].factorize()[0] #jezeli juz istnieje, nadpisz
  if SUFFIX_CAT in feat:
    df[feat] = factorized_values
  else:  
    df[feat + SUFFIX_CAT] = factorized_values

In [0]:
cat_feats = [x for x in df.columns if SUFFIX_CAT in x] # zapisujemy wszystkie zmienne ktore sfaktoryzowalismy w 1 tablicy
cat_feats = [x for x in cat_feats if 'price' not in x] # usuwamy ceny, bo je bedziemy prognozowac
len(cat_feats)

151

In [0]:
# trening
X = df[cat_feats].values
y = df['price_value'].values

model = DecisionTreeRegressor(max_depth=5)
scores = cross_val_score(model, X, y, cv=3, scoring='neg_mean_absolute_error')
np.mean(scores), np.std(scores)

(-19695.13091100928, 148.72570644015792)

In [0]:
#z powyzszego zrobimy funkcję do łatwego ekseprymentowania modeli
def run_model (model, feats):
  
  X = df[cat_feats].values
  y = df['price_value'].values

  scores = cross_val_score(model, X, y, cv=3, scoring='neg_mean_absolute_error')
  return np.mean(scores), np.std(scores)


## Decision Tree

In [0]:
run_model(DecisionTreeRegressor (max_depth=5), cat_feats)

(-19695.13091100928, 148.72570644015792)

## Random Forest

In [0]:
model = RandomForestRegressor (max_depth=5, n_estimators=50, random_state=0 ) 
run_model(model, cat_feats)

(-18718.657185256638, 64.5424578125788)

In [0]:
xgb_params = {
    'max_depth' : 5,
    'n_estimators' : 50,
    'learning_rate': 0.1,
    'seed':0
}
model = xgb.XGBRegressor(**xgb_params)
run_model(model, cat_feats)



(-13108.379065811214, 74.32158265003798)

In [0]:
# eli oceni teraz wagi ktore wybral XGBoost
m = model
m.fit(X,y)

imp = PermutationImportance(m, random_state=0).fit(X,y)
eli5.show_weights(imp, feature_names=cat_feats)



Weight,Feature
0.1194  ± 0.0031,param_napęd__cat
0.1132  ± 0.0032,param_rok-produkcji__cat
0.1090  ± 0.0025,param_stan__cat
0.0619  ± 0.0025,param_skrzynia-biegów__cat
0.0568  ± 0.0016,param_faktura-vat__cat
0.0489  ± 0.0014,param_moc__cat
0.0273  ± 0.0007,param_marka-pojazdu__cat
0.0242  ± 0.0013,feature_kamera-cofania__cat
0.0212  ± 0.0008,param_typ__cat
0.0174  ± 0.0008,param_pojemność-skokowa__cat


In [0]:
#z powyzszego zrobimy funkcję do łatwego ekseprymentowania modeli, zmieniamy cat_feats na feats
def run_model (model, feats):
  
  X = df[feats].values
  y = df['price_value'].values

  scores = cross_val_score(model, X, y, cv=3, scoring='neg_mean_absolute_error')
  return np.mean(scores), np.std(scores)


In [0]:
#zbieramy te najwazniejsze zeby ograniczyc ilosc cech do 20
feats =[
'param_napęd__cat',
'param_rok-produkcji__cat',
'param_stan__cat',
'param_skrzynia-biegów__cat',
'param_faktura-vat__cat',
'param_moc__cat',
'param_marka-pojazdu__cat',
'feature_kamera-cofania__cat',
'param_typ__cat',
'param_pojemność-skokowa__cat',
'seller_name__cat',
'feature_wspomaganie-kierownicy__cat',
'param_model-pojazdu__cat',
'param_wersja__cat',
'param_kod-silnika__cat',
'feature_system-start-stop__cat',
'feature_asystent-pasa-ruchu__cat',
'feature_czujniki-parkowania-przednie__cat',
'feature_łopatki-zmiany-biegów__cat',
'feature_regulowane-zawieszenie__cat'        

]

In [0]:
run_model(model, feats)
#widac ze jest troche gorzej, ale pozbylismy się aż 130 cech



(-13375.230420852275, 65.40441107118909)

In [0]:
# niekiedy zmienne numerczne po factoringu traca swoje dodatkowe wlasciwosci/wartosc
# dobrym przkladem jest rok (param_rok-produkcji__cat) ktorego ciaglosc ma znaczenie jak rowniez wartosci 1-5 maja pewnie wiekszy wplyw niz 5-10 lat
# nalezy wiec przywrocic je do modelu w wersji oryginalnej i ewentualnie pozbyc sie wartosci None

In [0]:
df['param_rok-produkcji'].unique()

array(['2018', '2011', '2015', '2009', '2017', '2012', '2013', '2007',
       '2001', '2016', '2006', '2008', '2004', '1999', '2000', '2010',
       '2005', '2002', '1998', '2014', '2003', '1982', '1995', '1997',
       '1992', '1993', '1994', '1996', '1989', '1988', '1967', '1987',
       '1970', '1959', '1990', '1991', '1974', None, '1975', '1973',
       '1953', '1985', '1984', '1986', '1981', '1979', '1960', '1983',
       '1978', '1964', '1980', '1972', '1969', '1956', '1966', '1977',
       '1962', '1965', '1971', '1963', '1961', '1952', '1949', '1976',
       '1937', '1968', '1958', '1955', '1933', '1929', '1957', '1944',
       '1954', '1932', '1936', '1947', '1948'], dtype=object)

In [0]:
df['param_rok-produkcji'] =df['param_rok-produkcji'].map(lambda x : -1 if str(x) == 'None' else int(x))

In [0]:
# Podmieniamy param rok cat na param rok
feats =['param_napęd__cat','param_rok-produkcji','param_stan__cat','param_skrzynia-biegów__cat','param_faktura-vat__cat','param_moc__cat','param_marka-pojazdu__cat','feature_kamera-cofania__cat',
        'param_typ__cat','param_pojemność-skokowa__cat','seller_name__cat',
'feature_wspomaganie-kierownicy__cat',
'param_model-pojazdu__cat',
'param_wersja__cat',
'param_kod-silnika__cat',
'feature_system-start-stop__cat',
'feature_asystent-pasa-ruchu__cat',
'feature_czujniki-parkowania-przednie__cat',
'feature_łopatki-zmiany-biegów__cat',
'feature_regulowane-zawieszenie__cat'        

]

In [0]:
run_model(xgb.XGBRegressor(**xgb_params), feats)



(-11308.885890938496, 27.868488259630677)

In [0]:
# próbujemy tak samo cofnac factorize z innych cech

df['param_moc']



0          90 KM
2         115 KM
3         262 KM
4         110 KM
5         310 KM
           ...  
160609     75 KM
160610     75 KM
160611    120 KM
160614    150 KM
160615     88 KM
Name: param_moc, Length: 106494, dtype: object

In [0]:
df['param_moc'] = df['param_moc'].map(lambda x: -1 if str(x) == 'None' else int(x.split(' ')[0]))

In [0]:
df['param_moc']

0          90
2         115
3         262
4         110
5         310
         ... 
160609     75
160610     75
160611    120
160614    150
160615     88
Name: param_moc, Length: 106494, dtype: int64

In [0]:
# Podmieniamy param moc cat na param moc
feats =['param_napęd__cat','param_rok-produkcji','param_stan__cat','param_skrzynia-biegów__cat','param_faktura-vat__cat','param_moc','param_marka-pojazdu__cat','feature_kamera-cofania__cat',
        'param_typ__cat','param_pojemność-skokowa__cat','seller_name__cat',
'feature_wspomaganie-kierownicy__cat',
'param_model-pojazdu__cat',
'param_wersja__cat',
'param_kod-silnika__cat',
'feature_system-start-stop__cat',
'feature_asystent-pasa-ruchu__cat',
'feature_czujniki-parkowania-przednie__cat',
'feature_łopatki-zmiany-biegów__cat',
'feature_regulowane-zawieszenie__cat'    ]    

run_model(xgb.XGBRegressor(**xgb_params), feats)



(-9716.450230340148, 62.2164408321879)

In [0]:
df['param_pojemność-skokowa']

0           898 cm3
2         1 560 cm3
3         3 000 cm3
4         1 560 cm3
5         1 984 cm3
            ...    
160609    1 120 cm3
160610    1 200 cm3
160611    1 900 cm3
160614    2 500 cm3
160615    1 360 cm3
Name: param_pojemność-skokowa, Length: 106494, dtype: object

In [0]:
df['param_pojemność-skokowa'] = df['param_pojemność-skokowa'].map(lambda x: -1 if str(x) == 'None' else int(str(x).split('cm')[0].replace(' ','')))

In [0]:
# Podmieniamy param pojemnosc skokowa cat na param pojemnosc skokowa
feats =['param_napęd__cat','param_rok-produkcji','param_stan__cat','param_skrzynia-biegów__cat','param_faktura-vat__cat','param_moc','param_marka-pojazdu__cat','feature_kamera-cofania__cat',
        'param_typ__cat','param_pojemność-skokowa','seller_name__cat',
'feature_wspomaganie-kierownicy__cat',
'param_model-pojazdu__cat',
'param_wersja__cat',
'param_kod-silnika__cat',
'feature_system-start-stop__cat',
'feature_asystent-pasa-ruchu__cat',
'feature_czujniki-parkowania-przednie__cat',
'feature_łopatki-zmiany-biegów__cat',
'feature_regulowane-zawieszenie__cat'    ]    

run_model(xgb.XGBRegressor(**xgb_params), feats)



(-9569.227198767323, 72.83561801421891)