<img src="header_anwender.png" align="left"/>

# Anwendungsbeispiel Regression Wine Quality

Das Ziel des Beispieles ist es, die Qualität eines Weines aus physikalischen Messgrößen zu schätzen. Dazu verwenden wir verschiedene Arten der Regression.
Wir verwenden einen Datensatz von Weinen aus Portugal erstellt von Paulo Cortez [1]. Die Details der Erstellung der Daten sind unter folgendem Link zu finden [http://www3.dsi.uminho.pt/pcortez/wine5.pdf](http://www3.dsi.uminho.pt/pcortez/wine5.pdf). 

```
[1] P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 
  Modeling wine preferences by data mining from physicochemical properties.
  In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.
```



## Methode und Details der Daten


- Import der Module
- Laden der Daten



In [None]:
#
# Import der Module
#
import pandas as pd 
import matplotlib.pyplot as plt 
import numpy as np 
import seaborn as sns
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression 
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor
from sklearn import metrics 

In [None]:
#
# Laden der Daten aus einem CSV File. Der Separator ist hier ein ';'
#
df = pd.read_csv('data/winequality/winequality-red.csv', sep=';')

In [None]:
#
# Anzeige der Dimensionen des Datensatzes
#
print(df.shape)

In [None]:
#
# Anzeige der ersten Datensätze für Kontrolle
#
df.head(20)

In [None]:
df.tail()

In [None]:
#
# Labels werden in x gespeichert, die restlichen Daten in x (ohne quality). Drop löscht ein Feature
#
y_complete = df['quality']
x_complete = df.drop(['quality'], axis=1)


In [None]:
y_complete.head()

In [None]:
x_complete.head()

In [None]:
#
# Aufteilen der Daten in Training Daten und Testdaten
# Beachte auch die neue Schreibweise bei der Zuweisung eines Rückgabewertes der Funktion
#
x_train, x_test, y_train, y_test = train_test_split ( x_complete, y_complete, train_size=0.8, random_state=42 )

In [None]:
x_train.shape

In [None]:
#
# Anlegen eines Modelles für lineare Regression
# Training des Modelles mit Daten (fit)
#
regressor = LinearRegression()
regressor.fit(x_train,y_train)

In [None]:
#
# Kurzer Blick auf die Parameter des Modelles
#
print(regressor.coef_)

In [None]:
#
# Test durch Vorhersage mit dem Modell auf beiden Datensätzen (test und train)
#
prediction_train = regressor.predict(x_train)
prediction_test = regressor.predict(x_test) 

In [None]:
prediction_train

In [None]:
# 
# Auswertungen der Qualität des Modelles für Regression
# Unterschied zwischen test und train Qualität
#
print('test  root mean squared error: {}'.format(np.sqrt(metrics.mean_squared_error(y_test, prediction_test))))
print('train root mean squared error: {}'.format(np.sqrt(metrics.mean_squared_error(y_train, prediction_train))))

In [None]:
#
# Auswertung weiterer Qualitätsparameter für test
#
print('test mean absolute error:     {}'.format(metrics.mean_absolute_error(y_test, prediction_test)))
print('test mean squared error:      {}'.format(metrics.mean_squared_error(y_test, prediction_test)))

In [None]:
#
# Hilfsfunktion zum zählen
#
def countAccuracy(prediction,y):
    prediction_quality_test = np.round_(prediction)
    y_test_data = y.values

    correct, incorrect = 0,0
    for index in range(prediction_test.shape[0]):
        if prediction_quality_test[index] == y_test_data[index]:
            correct= correct + 1
        else:
            incorrect= incorrect + 1

    print('count accuracy: {}'.format((correct/(correct+incorrect))))

In [None]:
#
# Jetzt Aufruf der Funktion
# Accuracy für Test Daten
#
countAccuracy(prediction_test,y_test)

In [None]:
#
# Accuracy für Training Daten
#
countAccuracy(prediction_train,y_train)

In [None]:
#
# Test eines anderen Modelles für Regression (randomforest regression)
# 
random_regressor = RandomForestRegressor(n_estimators = 10, random_state = 42)
random_regressor.fit(x_train, y_train);

In [None]:
prediction_train = random_regressor.predict(x_train)
prediction_test = random_regressor.predict(x_test) 

print('test  root mean squared error: {}'.format(np.sqrt(metrics.mean_squared_error(y_test, prediction_test))))
print('train root mean squared error: {}'.format(np.sqrt(metrics.mean_squared_error(y_train, prediction_train))))

In [None]:
countAccuracy(prediction_test,y_test)

In [None]:
#
# Wie könnten wir Qualität in diesem Kontext breiter definieren?
#

In [None]:
#
# Hilfsfunktion zum zählen
#
def countAccuracyRelaxed(prediction,y):
    prediction_quality_test = np.round_(prediction)
    y_test_data = y.values

    correct, incorrect = 0,0
    for index in range(prediction_test.shape[0]):
        if prediction_quality_test[index] == y_test_data[index]:
            correct= correct + 1
        elif prediction_quality_test[index] == y_test_data[index] + 1: 
            # wir betrachten die Qualität auch als richtig geschätzt, wenn es die nächsten oder vorherige Klasse war
            correct= correct + 1
        elif prediction_quality_test[index] == y_test_data[index] - 1:
            correct= correct + 1
        else:
            incorrect= incorrect + 1

    print('count accuracy: {}'.format((correct/(correct+incorrect))))


In [None]:
countAccuracyRelaxed(prediction_test,y_test)

# Test eines Neuronalen Netzwerkes

In [None]:
nn_regressor = MLPRegressor(hidden_layer_sizes=(20,40,10), random_state=42, max_iter=2000, activation='relu')
nn_regressor.fit(x_train, y_train);

In [None]:
prediction_train = nn_regressor.predict(x_train)
prediction_test = nn_regressor.predict(x_test) 

print('test  root mean squared error: {}'.format(np.sqrt(metrics.mean_squared_error(y_test, prediction_test))))
print('train root mean squared error: {}'.format(np.sqrt(metrics.mean_squared_error(y_train, prediction_train))))

In [None]:
countAccuracy(prediction_test,y_test)

In [None]:
countAccuracyRelaxed(prediction_test,y_test)