LOJISTIK REGRESYON

Logistik regresyon, bağımlı değişkenin kategorik (genellikle ikili) olduğu durumlarda kullanılır.

Amaç sınıflandırma problemi için bağımlı ve bağımsız değişkenler arasındaki ilişkiyi tanımlayan doğrusal bir model kurmaktır.

Özellikle, binary (ikili) sınıflandırma problemlerinde kullanılan bir temel modeldir.

In [24]:
# "diabetes" verisetini yüklüyoruz.
import pandas as pd
import numpy as np
diabetes = pd.read_csv("diabetes.csv")
df = diabetes.copy()
df.head()

from warnings import filterwarnings
filterwarnings('ignore')

In [25]:
# Veriseti içindeki eksik verileri siliyoruz.
df = df.dropna()
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [26]:
# Verisetini tanımak için incelemeler yapıyoruz.

In [27]:
# Verisetindeki sayısal sütunlar için istatistiksel özet bilgilerini inceliyoruz.
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Pregnancies,768.0,3.845052,3.369578,0.0,1.0,3.0,6.0,17.0
Glucose,768.0,120.894531,31.972618,0.0,99.0,117.0,140.25,199.0
BloodPressure,768.0,69.105469,19.355807,0.0,62.0,72.0,80.0,122.0
SkinThickness,768.0,20.536458,15.952218,0.0,0.0,23.0,32.0,99.0
Insulin,768.0,79.799479,115.244002,0.0,0.0,30.5,127.25,846.0
BMI,768.0,31.992578,7.88416,0.0,27.3,32.0,36.6,67.1
DiabetesPedigreeFunction,768.0,0.471876,0.331329,0.078,0.24375,0.3725,0.62625,2.42
Age,768.0,33.240885,11.760232,21.0,24.0,29.0,41.0,81.0
Outcome,768.0,0.348958,0.476951,0.0,0.0,0.0,1.0,1.0


In [28]:
# Veriseti içinde eksik değer kalıp kalmadığını inceliyoruz.
df.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [29]:
# Verisetindeki bağımlı ve bağımsız değişkenleri belirliyoruz.
X = df.drop(["Outcome"], axis=1)
y = df["Outcome"]

In [30]:
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 42)

In [32]:
from sklearn.linear_model import LogisticRegression

In [33]:
# Modeli oluşturduk ve eğittik.
model = LogisticRegression(solver = "liblinear")
loj_model = model.fit(X_train,y_train)

In [34]:
# Model üzerinde tahmin işlemini gerçekleştirdik.
y_train_pred = loj_model.predict(X_train)
y_test_pred = loj_model.predict(X_test)

In [35]:
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report

In [36]:
# Test Seti için "accuracy_score" değerini hesapladık.
accuracy_score_test = accuracy_score(y_test, y_test_pred)
print('Test Seti Doğruluk Oranı:', accuracy_score_test)

Test Seti Doğruluk Oranı: 0.7532467532467533


In [37]:
# Test Seti için "cross_val_score" değerini hesapladık.
cross_val_score_test = cross_val_score(loj_model, X_test, y_test, cv = 10).mean()
print('Test Seti Çapraz Doğrulama Skoru:', cross_val_score_test)

Test Seti Çapraz Doğrulama Skoru: 0.7704710144927536


"accuracy_score": İkili veya çok sınıflı sınıflandırma modellerinin performansını değerlendirmek için kullanılır. Doğruluk, doğru olarak sınıflandırılan örneklerin toplam örnek sayısına oranıdır.

"cross_val_score": Modelin genelleme yeteneğini değerlendirmek için kullanışlıdır, çünkü aşırı uydurmayı (overfitting) tespit etmek için kullanılır.

Örneğin, eğer sınıf dengesizliğini ele almak veya modelin genelleme performansını değerlendirmek istiyorsanız, "cross_val_score" daha yararlı olabilir. Ancak, doğrudan bir tahminin doğruluğunu ölçmek istiyorsanız, "accuracy_score" kullanılabilir.

NOT: Lojistik regresyonda model hiperparametresi yoktur. Bundan dolayı model tuning adımı yapılamaz.