In [None]:
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
import statsmodels.api as sm

# 1. Wczytanie Danych

## Zbiór imports-85.csv

Przy pomocy biblioteki pandas, wczytany zostanie zbiór imports-85.csv. 

In [None]:
imports = pd.read_csv("./datasets/imports-85.csv")
imports.info()

Po wypisaniu komendy imports.info() dowiadujemy się, że istnieje wiele kolumn, które nie są typu liczbowego.

In [None]:
label_encoder = LabelEncoder()
for column in imports.columns:
    if imports[column].dtype == 'object':
        imports[column] = label_encoder.fit_transform(imports[column])

imports.info()

Przy wykorzystaniu LabelEncoder z bibilioteki scikit-learn zmienilismy dane typu string na liczbowe.

In [None]:
imports_dr = imports.dropna()
imports_dr.describe()

Powyżej zostały usunięte wszystkie rekordy ze zbioru danych zawierające wartości NaN.

In [None]:
imports_dr = imports_dr.drop('engine-location', axis=1)

Zauważyliśmy, że kolumna engine-location jest stała dla wszystkich rekordów. Postanowiliśmy ją usunąć.

In [None]:
plt.figure(figsize=(12,10))
corr_matrix = imports_dr.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.1f', linewidths=.5)
plt.title("Wykres korelacji")
plt.show()

# 2. Selekcja zmiennych

In [None]:
m1 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop('price', axis=1))).fit()
print(m1.summary())

Powyżej został stworzony model względem zmiennej 'price'. R-suqared aktualnego modelu to 0.892. Adj. R-squared - 0.873

In [None]:
m2 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price','length'], axis=1))).fit()
print(m2.summary())

Teraz została usunięta zmienna length z wartością P-value na poziomie 0.905. R-squared - 0.892. Adj. R-squared - 0.874

In [None]:
m3 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling'], axis=1))).fit()
print(m3.summary())

Teraz została usunięta zmienna symboling z P-value - 0.710. R-squared - 0.892. Adj. R-squared - 0.874

In [None]:
m4 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore'], axis=1))).fit()
print(m4.summary())

Została usunięta zmienna bore z P-value - 0.665. R-squared - 0.892. Adj. R-squared - 0.875

In [None]:
m5 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg'], axis=1))).fit()
print(m5.summary())

Została usunięta zmienna 'highway-mpg' z P-value 0.673. R-squared - 0.891. Adj. R-squared - 0.876

In [None]:
m6 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm'], axis=1))).fit()
print(m6.summary())

Została usunięta zmienna 'peak-rpm' z P-value 0.701. R-squared - 0.891. Adj. R-squared - 0.877

In [None]:
m7 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base'], axis=1))).fit()
print(m7.summary())

Została usunięta zmienna 'wheel-base' z P-value 0.494. R-squared - 0.891. Adj. R-squared - 0.877

In [None]:
m8 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg'], axis=1))).fit()
print(m8.summary())

Została usunięta zmienna 'city-mpg' z P-value 0.533. R-squared - 0.891. Adj. R-squared - 0.878

In [None]:
m9 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses'], axis=1))).fit()
print(m9.summary())

Została usunięta zmienna 'normalized-losses' z P-value 0.427. R-squared - 0.890. Adj. R-squared - 0.878

In [None]:
m10 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower'], axis=1))).fit()
print(m10.summary())

Została usunięta zmienna 'horsepower' z P-value 0.368. R-squared - 0.890. Adj. R-squared - 0.878

In [None]:
m11 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower', 'num-of-doors'], axis=1))).fit()
print(m11.summary())

Została usunięta zmienna 'num-of-doors' z P-value 0.190. R-squared - 0.888. Adj. R-squared - 0.877

In [None]:
m12 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower', 'num-of-doors', 'engine-type'], axis=1))).fit()
print(m12.summary())

Została usunięta zmienna 'engine-type' z P-value 0.189. R-squared - 0.887. Adj. R-squared - 0.877

In [None]:
m13 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower', 'num-of-doors', 'engine-type', 'engine-size'], axis=1))).fit()
print(m13.summary())

Została usunięta zmienna 'engine-size' z P-value 0.194. R-squared - 0.886. Adj. R-squared - 0.876

In [None]:
m14 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower', 'num-of-doors', 'engine-type', 'engine-size', 'height'], axis=1))).fit()
print(m14.summary())

Została usunięta zmienna 'height' z P-value 0.235. R-squared - 0.884. Adj. R-squared - 0.876

In [None]:
m15 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower', 'num-of-doors', 'engine-type', 'engine-size', 'height', 'body-style'], axis=1))).fit()
print(m15.summary())

Została usunięta zmienna 'body-style' z P-value 0.159. R-squared - 0.883. Adj. R-squared - 0.875

In [None]:
m16 = sm.OLS(imports_dr['price'], sm.add_constant(imports_dr.drop(['price', 'length', 'symboling', 'bore', 'highway-mpg', 'peak-rpm', 'wheel-base', 'city-mpg', 'normalized-losses', 'horsepower', 'num-of-doors', 'engine-type', 'engine-size', 'height', 'body-style', 'fuel-system'],axis=1))).fit()
print(m16.summary())

Została usunięta zmienna 'fuel-system' z P-value 0.116. R-squared - 0.881. Adj. R-squared - 0.874

Wszystkie P-value są mniejsze od 0.1, więc w tym momencie kończymy usuwanie zmiennych dla tego modelu. 

In [None]:
print("R-squared dla modelu m1: ", m1.rsquared)
print("R-squared adjusted dla modelu m1: ", m1.rsquared_adj)
print("R-squared dla modelu m16: ", m16.rsquared)
print("R-squared adjusted dla modelu m16: ", m16.rsquared_adj)

Powyżej widać, że R-squared zmniejszyło się znacząco, lecz R-squared adjusted lekko się zwiększyło. W tym wypadku model mniejszy (m16) powinien być lepszy od m1, lecz należy to sprawdzić testem-f.

Do f-testu mamy dwie hipotezy:

H0: modele są podobne

H1: istnieje istotna różnica pomiędzy modelami

In [None]:
f,p_value,_ = m1.compare_f_test(m16)
print(p_value)

Jeżeli p-value < 0.05 wtedy odrzucamy h0. W naszym przypadku p-value jest większe. Z tego względu nie możemy odrzucić h0, czyli model mniejszy przewiduje podobnie dobrze jak model większy, ale ma mniej zmiennych, czyli powinien liczyć szybciej.

Do porównania p-value obu modeli użyliśmy testu-f, który działa na takiej samej zasadzie jak test ANOVA (w tym przypadku). (https://en.wikipedia.org/wiki/F-test)