In [None]:
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
import numpy as np

In [None]:
df = pd.read_csv("bodyperformance.csv")
df.head()

In [None]:
df.isnull().sum()

In [None]:
df.info()

In [None]:
df['class'].value_counts()

In [None]:
from sklearn.preprocessing import LabelEncoder
gender_encoder = LabelEncoder()
class_encoder = LabelEncoder()

In [None]:
df['gender'] = gender_encoder.fit_transform(df['gender'])
df['class_x'] = class_encoder.fit_transform(df['class'])
df.head()
#numerik olmayan değerler için encoding işlemi

In [None]:
X = df.drop(["class_x","class"],axis=1) 
y = df.class_x  #df.class yazımı "invalid syntax" hatası verdiği için class yerine class_x ifadesi kullanıldı

In [None]:
X.head()  #girdiler

In [None]:
y.head() #çıktı

In [None]:
from sklearn.model_selection import train_test_split   

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X , y , train_size=0.8) #test ve eğitim verisi oluşturma

In [None]:
X_train.head()

In [None]:
from sklearn.tree import DecisionTreeClassifier          #deneme amaçlı karar ağacı
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
print("Decision Tree Classifier Accuracy :",model.score(X_test,y_test))


In [None]:
from sklearn.model_selection import KFold
kf = KFold(n_splits=5) # n_splits parametresi ile veri setini kaç farklı şekilde ayıracağımızı belirleriz.
kf

In [None]:
for train_index, test_index in kf.split([1,2,3,4,5,6,7,8,9]):
    print(train_index, test_index)    #soldaki küme eğitim verisini içerir sağ taraf ise test verisini içerir

In [None]:
from sklearn.ensemble import RandomForestClassifier   # sınıflandırma için kütüphane ekleme
model_x = RandomForestClassifier(n_estimators=120,
                                 max_depth=12,        # Örnek değerler, deneme yanılma ile ayarlanmalı
                                      
)
model_x.fit(X_train, y_train)           #model eğitildi

In [None]:
model_x.score(X_test,y_test)

In [None]:
feature_importances = model.feature_importances_
results_and_values = list(zip(["feature_importances", "mean_distance"	,"std_distance",	"intersection_area",	"union_area",	"iou"]))

for result, value in results_and_values:
    print(f"{value}: {result:.5f}")           #özelliklerin ağırlıkları

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
cross_val_score(RandomForestClassifier(n_estimators=40,max_depth=12,),X,y,cv=kf)

In [None]:
scores1 = cross_val_score(RandomForestClassifier(n_estimators=50),X,y,cv=3)
np.average(scores1)

In [None]:
scores2 = cross_val_score(RandomForestClassifier(n_estimators=60),X,y,cv=4)
np.average(scores2)

In [None]:
scores3 = cross_val_score(RandomForestClassifier(n_estimators=100),X,y,cv=5)
np.average(scores3)

In [None]:
y_predicted = model_x.predict(X_test)

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
cm =confusion_matrix(y_test, y_predicted)
cm

In [None]:
import seaborn as sn
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(10,6))
sn.heatmap(cm,annot=True,fmt="d")
plt.xlabel('tahmin')
plt.ylabel('gerçek değer')

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_predicted))
#precision bir sınıfa ait olarak tahmin edilen örnekler arasında gerçekten o sınıfa ait olanların oranını ifade eder
#recall gerçekten o sınıfa ait olan örneklerin ne kadarının doğru bir şekilde tahmin edildiğini ifade eder.
#f1-score harmonik ortalama

In [None]:
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import average_precision_score
from sklearn.preprocessing import label_binarize
from itertools import cycle

y_scores_proba = model_x.predict_proba(X_test) # Tahmin olasılıklarını alın

# Etiketleri binarize et
num_classes = len(np.unique(y_test)) 
classes = list(range(num_classes))
y_test_bin = label_binarize(y_test, classes=classes)

# Precision-recall eğrilerini hesapla
precision = dict()
recall = dict()
average_precision = dict()
for i in range(num_classes):
    precision[i], recall[i], _ = precision_recall_curve(y_test_bin[:, i], y_scores_proba[:, i])
    average_precision[i] = average_precision_score(y_test_bin[:, i], y_scores_proba[:, i])

# Her sınıfın precision-recall eğrisini çiz
colors = cycle(['navy', 'turquoise', 'darkorange', 'cornflowerblue', 'teal'])
for i, color in zip(range(num_classes), colors):
    plt.plot(recall[i], precision[i], color=color, lw=2, label='Precision-recall curve of class {0} (area = {1:0.2f})'
             ''.format(i, average_precision[i]))

plt.xlabel('Duyarlılık (Recall)')
plt.ylabel('Hassasiyet (Precision)')
plt.title('Çok Sınıflı Precision-Recall Eğrisi')
plt.legend(loc="best", title='Sınıf')