In [15]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score


diabetes_df = pd.read_csv("data/Pima-Indians-Diabetes.csv")
diabetes_df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [2]:
# Feature-Matrix erstellen:
X = diabetes_df.drop("Outcome", axis=1)
X

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33
...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63
764,2,122,70,27,0,36.8,0.340,27
765,5,121,72,23,112,26.2,0.245,30
766,1,126,60,0,0,30.1,0.349,47


In [3]:
# Label bestimmen:
y = diabetes_df["Outcome"]
y

0      1
1      0
2      1
3      0
4      1
      ..
763    0
764    0
765    0
766    1
767    0
Name: Outcome, Length: 768, dtype: int64

In [7]:
# Daten Standartiesieren:
scaler = StandardScaler()
scaler.fit(X)

# Anwenden der Standardisierung: Skalieren der Daten auf Mittelwert = 0 und Standardabweichung = 1
standardized_data = scaler.transform(X)

#  Überschreiben von X mit den standardisierten Daten
X = standardized_data

In [8]:
# Daten in Trainingsdaten und Testdaten aufteilen:
X_test, X_train, y_test, y_train = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
# Trainieren des Modells zwischen "diabetisch" und "nicht-diabetisch"
from sklearn.svm import SVC 

model = SVC(kernel="linear")
model.fit(X_train,y_train) 

0,1,2
,C,1.0
,kernel,'linear'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [17]:
# Vorhersagen auf den Trainingsdaten treffen
X_train_prediction = model.predict(X_train)
#  Berechnung der Genauigkeit auf den Trainingsdaten
training_data_accuracy = accuracy_score(X_train_prediction, y_train) # → Misst, wie viele Vorhersagen auf dem Trainingsset korrekt waren

print('Accuracy score of the training data : ', training_data_accuracy)



Accuracy score of the training data :  0.8246753246753247


In [19]:
# Vorhersagen auf den Testdaten treffen
X_test_prediction = model.predict(X_test)
# Berechnung der Genauigkeit auf den Testdaten
test_data_accuracy = accuracy_score(X_test_prediction, y_test) # → Zeigt, wie gut das Modell auf unbekannten (nicht gesehenen) Daten performt

print('Accuracy score of the test data : ', test_data_accuracy) 


Accuracy score of the test data :  0.750814332247557


In [21]:
# Beispielinput eines neuen Patienten (alle 8 medizinischen Merkmale)
input_data = (5, 166, 72, 19, 175, 25.8, 0.587, 51)
# Umwandlung in ein NumPy-Array (notwendig für weitere Verarbeitung)
input_data_as_numpy_array = np.asarray(input_data)
# Reshape: Umformen in 2D-Array, da das Modell Eingaben zeilenweise erwartet
input_data_reshaped = input_data_as_numpy_array.reshape(1, -1)
# Standardisieren der Eingabedaten mit dem zuvor gelernten StandardScaler
std_data = scaler.transform(input_data_reshaped)
print(std_data)  # Zeigt die skalierten Werte
#  Vorhersage mit dem trainierten Modell
prediction = model.predict(std_data)
print(prediction)  # Gibt 0 (nicht-diabetisch) oder 1 (diabetisch) zurück
#  Interpretation des Ergebnisses
if prediction[0] == 0:
    print('The person is not diabetic')  # Modell sagt: kein Diabetes
else:
    print('The person is diabetic')      # Modell sagt: Diabetes

[[ 0.3429808   1.41167241  0.14964075 -0.09637905  0.82661621 -0.78595734
   0.34768723  1.51108316]]
[1]
The person is diabetic


