In [1]:
!pip install ucimlrepo
!pip install scikit-learn



In [5]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.impute import SimpleImputer
from ucimlrepo import fetch_ucirepo
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

#Fetch dataset
auto_mpg = fetch_ucirepo(id=9)

#Data (as pandas dataframes)
X = auto_mpg.data.features
y = auto_mpg.data.targets

#Een functie om X en y te printen zodat het zichtbaar is wat er in het model zit
def printX(X):
    
    print(X)

def printY(y):
    
    print(y)


#X moet getransformeerd worden omdat er NaN waarden inzitten. Deze NaN waarden moeten ingevuld worden, dit wordt nu gedaan door de mediaan te nemen.
imputer = SimpleImputer(strategy='mean')
X = imputer.fit_transform(X)

#De eerste functie is die van Lineare regressie.
def linear(X,y):

    #Het model wordt gemaakt
    model = LinearRegression()

    #Data wordt aan het model toegevoed. Als er eerde niet de Nan waarden waren vervangen had dit een error gegeven.
    model.fit(X, y)

    #Alle X rows worden nu gegeven om op te testen.
    predictions = model.predict(X)

    mse = mean_squared_error(y, predictions)

    #Data gebruikt van https://www.auto-data.net/en/toyota-celica-t18-1.6-sti-105hp-3133 om een keer met een echt voorbeeld te testen
    new_data = np.array([[97.7,4,105,2645.55,11,93,2]])
    predicted_values = model.predict(new_data)


    print("Based on X: ",predictions)
    print("Based on Toyota Celica: ",predicted_values)
    print("Mean squared error:", mse)


def knn(X,y):
    #Maak training en test datasets van de data.
    #In deze demo wordt enkel de train data gebruikt om een zo accuraat mogelijke prediction te krijgen en om de vergelijking te kunnen maken met lineare regressie.
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    #Knn model met het aantal neighbors
    knn = KNeighborsRegressor(n_neighbors=5)

    #Data wordt aan het model toegevoed. Als er eerde niet de Nan waarden waren vervangen had dit een error gegeven.
    knn.fit(X_train, y_train)

    #Een prediction van y (mpg) wordt gemaakt op basis van de X training data. Hier zou normaalgezien de X_test data gebruikt worden.
    y_pred = knn.predict(X_train)

    #Bekijk wat de waarde van de mean squared error is. Hierdoor krijgen we toch een idee met wat voor foutmarge we moeten rekening houden.
    mse = mean_squared_error(y_train, y_pred)

    #Ook hier weer een extra test met echte data. Het is dezelfde als bij de lineare regressie dus kan er ook hierop vergeleken worden.
    new_data = np.array([[97.7,4,105,2645.55,11,93,2]])
    predicted_values = knn.predict(new_data)
    prediction = knn.predict(X_train)

    
    print("Based on X: ", prediction)
    print("Based on Toyota Celica: ", predicted_values)
    print("Mean squared error:", mse)

def poly(X,y):

    degree = 2
    poly_features = PolynomialFeatures(degree=degree)
    X_poly = poly_features.fit_transform(X)

    model = LinearRegression()

    # Fit the model to the polynomial features
    model.fit(X_poly, y)

    

    new_data = np.array([[97.7, 4, 105, 2645.55, 11, 93, 2]])
    new_data_poly = poly_features.transform(new_data)
    predict = model.predict(new_data_poly)

    y_pred = model.predict(X_poly)
    mse = mean_squared_error(y, y_pred)

    print(y_pred)
    print(predict)
    print(mse)


linear(X,y)
knn(X,y)
poly(X,y)


Based on X:  [[16.8 ]
 [27.  ]
 [32.26]
 [33.74]
 [26.08]
 [15.18]
 [35.8 ]
 [28.86]
 [26.44]
 [12.2 ]
 [14.7 ]
 [26.32]
 [28.9 ]
 [30.66]
 [23.84]
 [34.58]
 [28.08]
 [19.94]
 [22.36]
 [14.7 ]
 [33.74]
 [25.6 ]
 [21.42]
 [16.6 ]
 [18.52]
 [14.1 ]
 [33.18]
 [13.  ]
 [31.6 ]
 [33.44]
 [34.38]
 [27.8 ]
 [18.06]
 [33.44]
 [27.16]
 [23.38]
 [31.6 ]
 [19.46]
 [32.58]
 [19.12]
 [13.4 ]
 [23.38]
 [27.02]
 [18.3 ]
 [25.96]
 [24.98]
 [33.12]
 [23.04]
 [34.58]
 [29.1 ]
 [33.44]
 [32.96]
 [34.3 ]
 [19.58]
 [23.4 ]
 [19.04]
 [18.18]
 [35.48]
 [32.4 ]
 [31.18]
 [17.8 ]
 [14.  ]
 [15.  ]
 [17.8 ]
 [20.3 ]
 [33.4 ]
 [28.24]
 [25.  ]
 [26.34]
 [26.58]
 [14.3 ]
 [15.1 ]
 [22.36]
 [25.58]
 [16.68]
 [33.86]
 [12.2 ]
 [25.34]
 [18.82]
 [33.12]
 [27.2 ]
 [16.7 ]
 [29.86]
 [19.48]
 [16.64]
 [14.7 ]
 [16.62]
 [34.3 ]
 [18.94]
 [15.28]
 [13.2 ]
 [22.36]
 [14.84]
 [24.04]
 [33.56]
 [19.8 ]
 [18.26]
 [13.2 ]
 [25.18]
 [18.44]
 [34.24]
 [27.08]
 [13.4 ]
 [18.32]
 [26.6 ]
 [33.12]
 [20.94]
 [20.44]
 [20.3 ]
 [31.6

Taak Machine Learning - Seppe Van Eynde


In deze tweede taak van AI is de opdracht om 3 verschillende ML algorithmes te gebruiken om uitkomsten te voorspellen. Hiervoor ga ik voorspellingen maken over hoever mpg een auto zal hebben op basis van enkele parameters.
Een van de drie algorithmes diende uit de geziene leerstof te komen. Ik heb dan ook gekozen voor linear regression aangezien ik graag met regressie zou werken voor deze taak en omdat het een relatief makkelijk algorithme is. Voor de andere twee heb ik gekozen voor K nearest neighbor en voor polynominal regression. 

KNN zal kijken naar het gemiddelde van de nabij gelegen waarden (neigbors) en zal dit dan toewijzen aan de prediction. In het geval van mijn dataset zal er dan gekeken worden naar 7 waarden namelijk: displacement, cylinder, horsepower, weight, acceleration, model year en origin. Als het algorithme zijn ding heeft gedaan zal de output een nummer zijn van hoeveel mpg een bepaalde auto zal hebben.

Polynominal regression laat toe om iets complexere modellen te gebruiken op het gebied van de relatie tussen de input features en de target variables. 

Voor zowel KNN als Polynominal Regression heb ik gebruik gemaakt van ChatGPT. Het heeft me de basis van beide concepten uitgelegd en getoond hoe de code te werk gaat waarna ik dat als voorbeeld gebruikt heb voor mijn eigen code.

Het is duidelijk dat de drie algorithmen een verschil hebben tegenover elkaar en de originele data.

Bekijk zeker de Streamlit app voor een iets overzichtelijker resultaat! https://regression-seppeve.streamlit.app/