# Datan normalisoinnin vaikutus ennustustarkkuuteen

Kerrataan vähän kolmannessa demotilaisuudessa käytyä MinMaxScaler-normalisointia sklearnin valmiin wine-datasetin kautta

In [1]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [2]:
data = load_wine()

# data.data sisältää datasetin ominaisuudet (esim. alkoholipitoisuus, happamuus jne.)
# data.target kertoo mihin viiniluokkaan kukin näyte kuuluu
X, y = data.data, data.target

# Jaetaan data opetus- ja testijoukkoihin.
# test_size=0.3 määrittää, että 30% datasta menee testiin ja loput 70% jää opetukseen.
# random_state=42 varmistaa, että data jaetaan aina samalla tavalla joka suorituskerralla, mikä auttaa tulosten vertailukelpoisuudessa.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Koulutetaan KNN-malli ilman normalisointia
knn = KNeighborsClassifier(n_neighbors=5) # Käytetään 5 lähintä naapuria
knn.fit(X_train, y_train)  # Koulutetaan malli opetusdatalla
predictions = knn.predict(X_test)

# Lasketaan tarkkuus vertaamalla ennustettuja arvoja testidatan oikeisiin arvoihin
accuracy_no_scaling = accuracy_score(y_test, predictions)

In [3]:
# Suoritetaan MinMaxScaler-normalisointi datan skaalaamiseksi välille 0 ja 1
scaler = MinMaxScaler()

# fit_transform laskee yhdessä operaatiossa X_train datasetin jokaisen ominaisuuden minimi- ja maksimiarvot 
# ja skaalaa X_train datan näiden arvojen perusteella
X_train_scaled = scaler.fit_transform(X_train)

# transform käyttää äsken laskettuja minimi- ja maksimiarvoja skaalatakseen X_test datan samoilla arvoilla 
# (luotettavat tulokset vaativat, että testidata skaalataan opetusdatan perusteella)
X_test_scaled = scaler.transform(X_test)

# Koulutetaan KNN-malli uudelleen normalisoidulla datalla
knn.fit(X_train_scaled, y_train)
predictions_scaled = knn.predict(X_test_scaled)

accuracy_with_scaling = accuracy_score(y_test, predictions_scaled)

### Tulokset:

Kuten tuloksistakin voidaan havaita, KNN (k-nearest neighbors) on herkkä mittakaavaeroille ominaisuuksissa. 
Normalisointi voi siksi parantaa sen suorituskykyä paljon

In [4]:
print(f'Accuracy without normalization: {accuracy_no_scaling:.4f}')
print(f'Accuracy with normalization: {accuracy_with_scaling:.4f}')

Accuracy without normalization: 0.7407
Accuracy with normalization: 0.9444
