## 
- Bir modelin sadece belirli bir verinin %20 test olarak ayırıp bu kısımda verinin Coefficient of Determination değerininin daha doğru olması için veriyi farklı noktalardan ayırarak sonucun farklı eğitmelerde sonucun daha doğru olmasını sağlarız.

- `predict` metodu, sklearn kütüphanesinde eğitilmiş bir makine öğrenimi modelinin yeni veriler üzerinde sınıf etiketleri veya sürekli değerler tahmin etmesini sağlar.
- `predict_proba` bir sınıflandırmanın kararlarını verirken modelin güvenini yüdelik olarak gösterir. 

---

In [17]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

# Model için farklı kısımlardan bölünmesini sağlar.
from sklearn.model_selection import cross_val_score 

from sklearn.ensemble import RandomForestClassifier

heart_disease = pd.read_csv("data/heart-disease.csv")
heart_disease.head()


Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [4]:
heart_disease["target"].value_counts()

target
1    165
0    138
Name: count, dtype: int64

In [11]:
X = heart_disease.drop("target", axis=1)
y = heart_disease["target"]

X_train, X_test, y_train, y_test = train_test_split(X, y)
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)
model.predict_proba(X_test)[:5]

array([[0.75, 0.25],
       [0.38, 0.62],
       [0.12, 0.88],
       [0.9 , 0.1 ],
       [0.16, 0.84]])

In [12]:
model.predict(X_test) # Test verisi üzerinde sonuç çıktısının dizinini verir.

array([0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1,
       1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0,
       1, 1, 1, 1, 0, 1, 0, 1, 1, 1])

In [13]:
np.array(y_test) # Gerçek değerler

array([0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 1])

In [14]:
y_peds = model.predict(X_test)
np.mean(y_peds == y_test) # Modelin coef değeri 

0.8421052631578947

In [15]:
model.score(X_test, y_test)

0.8421052631578947

---
Regressor Modeller için `from sklearn.metrics import mean_absolute_error` kullanılabilir. `mean_absolute_error(y_test, y_preds)` şeklinde model doğruluğu ölçülebilir. Örnek olarak ev fiyat tahminlerinde... Böyle örneklerde doğrudan sayı değeri tumayacağından `np.mean(y_preds == y_test)` şeklinde bir ölçüm sonucu 0 olucaktır.

---

In [18]:
# Datanın farklı yerlerinden bölünmesini ve Coef değerlerinin verilmesini sağlar.
# Çıkan sonucun ortalamsını alarak modelin Coef değri daha doğru çıktı olur.
cross_val_score(model, X, y, cv=5)

array([0.85245902, 0.8852459 , 0.7704918 , 0.83333333, 0.76666667])

In [21]:
model_single_score = model.score(X_test, y_test)
model_cross_score = np.mean(cross_val_score(model, X, y, cv=5))

model_single_score, model_cross_score

(0.8421052631578947, 0.8116939890710382)